每日新聞關鍵字

近來在玩 Python,所以寫了好幾個小玩意當練習。不過前幾個都因為題材不好說,所以自己玩一玩就算了。上禮拜花了一點時間寫了個抓出每日新聞關鍵字,顯示為文字雲的小程式:

每日新聞關鍵字

螢幕快照 2014-12-31 下午2.47.30

工作原理大概是:

  1. 定時去 Google News Feeds 撈新聞資料,把他暫存進一個表裡(以後可能還可以拿這些資料做什麼,所以就先存下來了)

  2. 定時用 jeiba 這個中文斷詞引擎,把關鍵詞抓出來,再存進一個表裡。jeiba 斷出來的詞基本上還不錯,但是還是有些亂七八糟奇奇怪怪的關鍵詞需要自己手動調整一下。

  3. 一個簡單的 API,從關鍵詞資料庫中撈出特定詞性的關鍵詞以及出現次數,輸出成 JSON,讓前端來拿。

  4. 前端用 wordcloud2.js ,根據出現次數來計算關鍵詞要顯示的大小。如果是出現次數最多的關鍵詞,每個字就顯示為螢幕寬度的 15%,其他的詞就再按照出現次數,依比率縮小。然後畫在 HTML5 canvas 上面,畫出來是一張圖片可以另存新檔。

  5. 然後每天 4:00 會重置關鍵字資料表,這時間應該也沒什麼新聞產出量了。改為即時更新,每次連線都會取出前 24 小時 的資料。

從這上面可以很容易看出來當天新聞的趨勢,在測試的過程中也發現了好幾個根本平常不會注意的新聞主題XDD另外這些算出來的關鍵詞未來應該也還可以拿出來做一些事情,看看之後有沒有好點子。

「台灣會很可怕」

今天要來幹樵的是這則新聞:

一天連2起「路過」!長久為之 蔡錦隆:台灣會很可怕!

蔡錦隆則形容這現象就像大地震以後,餘震不斷、餘波盪漾,這是非常嚴重的。他說,這是集遊法未來要做修法的部分,因為大法官的解釋讓人有很多有想像空間,才會造成今天很多的餘波盪漾,而且不只5起,若持續如此台灣未來社會會很可怕,會有更多「路過」發生。

學生有課要上、像我一樣的上班族每天也要朝九晚五的上班討生活,蔡錦隆委員可能覺得自己當立委過得很爽就認為大家都過的跟他一樣爽,可以像他一樣天天跑紅白包場作選民服務一樣的閒閒沒事每天上街頭吧?

既然你說台灣未來社會會很可怕,我要說的是台灣社會已經夠可怕了,只是在 319 之後剛好比較多人發現有多可怕而已。亂動集遊法想把人民表達意見的方式動掉,在我看來根本也是掩耳盜鈴,不是心裡有鬼就是身上有屎啊。你難道不知道到時候肯定也會「剛好」 遭到民眾抗議嗎?

蔡錦隆認為民眾在表達訴求時,應該了解確實的需求,找對對象、地點,與適當的方式去表達,而不是動不動就用「路過」的名字。

這幾件事都吵了多久了,第一線的對象、地點,適當的方式也都用過了,你覺得有用嗎?和太陽花學運一樣的是,就是因為依照你們說的「找對對象、地點,與適當的方式去表達」都被當作放屁,今天用比較激進的方式也只是剛好而已。不然你們會當作一回事嗎?「路過」也是某人為了幫白狼(ㄔ)開脫而創造的說法啊,現在換邊用也是剛好而已啊,自作孽怪誰呢?

你們這些檯面上的人老是愛用搪塞和轉移焦點的方式解決問題現在才會被反作用力打臉啦,而且被打了好幾次你們還是完全不思進取嘛。

政治不應該是「官大學問大」的「我說了算」。把事情說清楚,聆聽不同的意見,坐下來誠懇認真的討論一個大家能接受的解決方法有這麼難嗎?在太陽花學運之後,多了一大批人開始關注這些社會議題,我想如果蔡委員現在就覺得很可怕的話,還是先準備好收驚阿姨的電話吧。

另外我對於在媒體上放這種轉移焦點、不論事實和前因後果的話給保守派聽,而且保守派通常都超買單這個現象,真的是覺得很悲哀。「台灣會很可怕」的點應該在這裡。

P.S. 蔡委員在 g0v資料