每日新聞關鍵字

近來在玩 Python,所以寫了好幾個小玩意當練習。不過前幾個都因為題材不好說,所以自己玩一玩就算了。上禮拜花了一點時間寫了個抓出每日新聞關鍵字,顯示為文字雲的小程式:

每日新聞關鍵字

螢幕快照 2014-12-31 下午2.47.30

工作原理大概是:

  1. 定時去 Google News Feeds 撈新聞資料,把他暫存進一個表裡(以後可能還可以拿這些資料做什麼,所以就先存下來了)

  2. 定時用 jeiba 這個中文斷詞引擎,把關鍵詞抓出來,再存進一個表裡。jeiba 斷出來的詞基本上還不錯,但是還是有些亂七八糟奇奇怪怪的關鍵詞需要自己手動調整一下。

  3. 一個簡單的 API,從關鍵詞資料庫中撈出特定詞性的關鍵詞以及出現次數,輸出成 JSON,讓前端來拿。

  4. 前端用 wordcloud2.js ,根據出現次數來計算關鍵詞要顯示的大小。如果是出現次數最多的關鍵詞,每個字就顯示為螢幕寬度的 15%,其他的詞就再按照出現次數,依比率縮小。然後畫在 HTML5 canvas 上面,畫出來是一張圖片可以另存新檔。

  5. 然後每天 4:00 會重置關鍵字資料表,這時間應該也沒什麼新聞產出量了。改為即時更新,每次連線都會取出前 24 小時 的資料。

從這上面可以很容易看出來當天新聞的趨勢,在測試的過程中也發現了好幾個根本平常不會注意的新聞主題XDD另外這些算出來的關鍵詞未來應該也還可以拿出來做一些事情,看看之後有沒有好點子。

好用的 IRC Client – weechat

IRC(Internet Relay Chat)是網路上一種很古老的聊天服務了。而他主要是以 Client/Server 架構來運作的。所以要開始用 IRC 聊天,你需要:

  • 知道你要使用哪一個 IRC 伺服器
  • 安裝一個 IRC 用戶端程式

IRC Server – freenode

伺服器除非自己架設,通常都是會使用 chat.freenode.net 這個最大的公用 IRC 伺服器。你可以在上面自由的建立頻道(Channel)。頻道名稱會以「#」開始,例如 #irchelp。

IRC Client – weechat

我的喜好是會先用 mosh 連到一台不會關機/斷線的 server 之後,打開 tmux,然後再用 IRC client 連線。這樣的好處是不怕斷線。就算換一台電腦,只要再用 mosh 連上那台 server,把 tmux attach 回來,就可以回到原本的 session

至於 IRC client,以前我用 irssi,最近發現 weechat 很好用(幹,不是微信那種髒東西),他有幾個地方很強大:

  1. 模組化,可支援 plugin
  2. 可擴充
  3. 文件完整
  4. 免費
  5. 仍在維護中

weechat 按照我的簡單設定會長這樣:

閱讀更多好用的 IRC Client – weechat

從 DigitalOcean 搬到 Linode

但因為不管是 DigitalOcean 還是 Linode,前面還是一樣擋著 CloudFlare CDN,所以對訪客來說可能一點感覺都沒有啦

原本我是用 DigitalOcean 新加坡 data center 的,但從種花電信連過去其實有一點慢,用起來沒有說很爽。稍微查了一下才忽然想到我原本用 DigitalOcean 的原因是因為

  • 有比 Linode 最小台還小的 VPS 可以開
  • 所以花的錢就比較少了

但是用了一陣子隨著用量增加,早已就不是開最小台的 VPS 了。所以以價錢來說,就和 Linode 不相上下了。這時候 Linode 有一個強勢地方就出來了:

閱讀更多從 DigitalOcean 搬到 Linode