DreamHost 與 twbbs.org

嗯.. 上週四我發現 DreamHost 有個按鈕,
說按下去會變成無限空間與無限流量,
按下去之後.. 真的變成無限空間無限流量了。

有圖有真相。

20081130_DH

其實這張截圖是已經放了一些東西上去,
之前用量還不到 1KB.. 整個非常誇張 (汗)

於是腦筋就動到了找不到家放的松合論壇,
但很快地便遇到第一個問題,它用的是 .twbbs.org 網域。

上網找了半天,看到了這篇文章
設定之後才發現,只有 .twbbs.org.tw 可以用,
雖然 .twbbs.org 與 .twbbs.org.tw 使用同樣的 record,
但是 DreamHost 的 Name Server 只認識有 .tw 那個..

於是就又寫了客服,接著,一切都順了 XD

現在,同樣的方式設定 .twbbs.org 也可以使用囉;
如果同時需要設定 .twbbs.org.tw 與 .twbbs.org,
根據客服的回答,因系統限制,則須在 panel 自行新增。

以上 :p

關於那個 project

是的,我是指上次放出來的那個夭壽準關鍵字
因為我太無聊了,所以稍稍介紹一下程式運作方式。


首先呢,就是蒐集一大票描述資訊,
它們最初看起來可能會是這樣。

20081019_wff_fig01

有些人可能以為,我接著把資料拿去斷詞了,
但事實上,蒐集到的資訊沒有斷詞的必要,
我只把句子全部斷開,變成一個字一個字的形狀,
看起來會像是下圖這樣的形狀。

20081019_wff_fig02

聰明的你應該會發現,裡面有些文字是無用的,
利用一些簡單的字元特性,我們可以很快地清除符號,
清理完之後,資料會變成像下圖這樣。

20081019_wff_fig03

看到這邊,我想不會寫程式的人該也知道,
只要把看到最多次的字詞挑出來,就會是關鍵字了啊!

20081019_wff_fig04

至於該怎麼挑,有很多方式,
有些可以直接抽取出有用的 substring,
在此要說明的是,圖中的資料是人工挑選過的,
原始輸出資料並沒有這麼乾淨。

20081019_wff_fig05

嗯,大概就是這樣。


接下來可以做什麼呢,到底?

accessibility

這個被譯為是「可及性」,
或是更貼切些,「親和力」的字,
是做網頁時,不時提醒自己要注意的重點。

之前實驗室接了學校的校內計畫,
計畫內容,大致上就是做出一個網站,
讓其他的子計畫可以上傳資料上去。

我不是很確定學校的網站,
是不是一定都要符合無障礙規範,
老實說,我覺得這規範實在是擾人啊。

做網頁時,我通常會把瀏覽器的圖片與 CSS 拿掉,
讓網頁呈現它「原來」應該呈現的樣式,
如果拿掉了圖片、多媒體資料與 CSS 後,
頁面仍能具備高度的可讀性,
我就認為,這是具備一定親和力的網頁。

那麼,我們來看看通過所謂「無障礙」標章的網頁吧。

首先是無障礙網頁空間服務網,
也就是提供檢測與標章登錄的那個網頁。

20081014_enable-01

從這篇邊我們不難看出,用表格排版的缺陷;
但除此之外,似乎還算是能夠理解的頁面。

接下來,是通過 AAA 標章的網頁。

20081014_enable-02

如果使用者的瀏覽器不幸地 (?) 支援 JavaScript,
他將會看到像上面這張圖的驚人網頁。

一開始我嚇了一跳,不過發現文字是 JS 產生後,
關掉 JS 再拿掉 CSS 與圖片,畫面變成這樣。

20081014_enable-04

我想,政府機關大概真的是很喜歡用表格排版.. ||

最後是我們做的網頁,到目前為止都還未申請無障礙標章。

20081014_enable-03

嗯哼。

Test 04: 夭壽準關鍵字

我的網站上一直有個目錄叫 “test”,
顧名思義,就是一些測試的玩具,
因為前三個作品都滿失敗的,
我並沒有在 blog 上面提過它們。

昨天胡亂寫出了新的產品,「夭壽準關鍵字」,
因為結果挺有趣的,所以決定扔上來給大家玩玩看 :p

魷魚由於我沒有什麼美工細胞,
目前網頁看起來呆呆的:

20080915_KWFinder-01

整個頁面只有一個輸入欄位,
與一些先進所做的有趣的產品連結;
這個產品的使用方式非常簡單,
只要在欄位輸入無名小站的 ID..

20080915_KWFinder-02

按下「啾咪」之後,系統就會使用神秘公式,
計算出與這個 ID 可能有關的關鍵字,像這樣:

20080915_KWFinder-03

至於這個系統有多準呢?

嗯.. 老實說我也不知道 (炸)

因為系統認識的 ID 是有限的,
有些比較不有名的人,可能會沒有關鍵字,
而有些人,系統可能會找不到任何東西。

遇到這種狀況的時候,請不要灰心氣餒,
因為這就是人生啊這個系統本來就笨笨的,
所以需要一段時間才會彙整好資料..

是說,目前只有一台苦命的電腦在算這些東西,
資料可能要花上一年半載一段時間才會更新 (汗)

另外,這個系統似乎常常爆炸,
使用時如果遇到什麼狀況,請裝做沒有看到 (炸)

突然想到的小招式

剛剛在 Twitter 上面看到 tenz 提到的 Ubiquity
這才想到,Opera 的網址列搜尋功能似乎可以貼 tweet,
於是我就嘗試了一下。

首先,登入 Twitter。

20080827_opera-twitter01

接著在輸入欄點選右鍵,「建立搜尋」。

20080827_opera-twitter02

然後,設定快速鍵後按下確定。

20080827_opera-twitter03

試試看能不能 post tweet。

20080827_opera-twitter04

看來這招似乎是有用啊。

20080827_opera-twitter05

稍稍看了一下 Ubiquity,它能做的事情似乎更多,
但我在想,或許可以用 userscript 來達成某些功能,
不過這就已經不在我的業務範圍了 (飄)

工作之餘的休閒 (?) 活動

這幾天在做 IR Evaluation 的工作,
每天要看上幾百篇文章,著實讓眼睛有些吃不消。

在稍稍擱下工作,休息之餘想到前陣子在 MMDays 看到,
微軟亞洲研究院開發的人立方搜尋器,於是便玩了起來。

基於 IR (資料檢索) 的 SNS (社群網路),
是我想做的題目之一,在看到這項產品出現時,
更確定了其可行性與可能的發展方向。

當然,我很好奇它是怎麼敲出名字的,
於是據我所學,猜測可能的作法:

  1. 暴力產生字典檔
  2. 使用 N-gram 模型,令 N = 2 ~ K
  3. 將常用姓氏後面接的字拿來建 tree
  4. 使用斷詞器斷出名詞

但使用字典檔不是個明智的作法,
只用 N-gram 可能會有姓名過濾上的問題,
而要建出能夠準確斷出姓名的斷詞器,或許有些困難,
看來看去,比較可能的作法該是使用姓氏 + 高頻字/辭,
建成樹狀結構後,利用 TF (字辭出現的頻率) 去敲出名字;
也就是說,在沒有加上判斷可能是姓名的機制下,
搜尋「台電視」、「張桌子」的時候,應該會傳回結果。

至於連線上的關係,我猜或許是用辭性,也或許是用字典算的。

無聊之餘,便也就查了這兩位先生 (?),
而系統也很給面子地傳回了結果:

20080817_RLF01

20080817_RLF02

原來台電視跟蔣先生有關,
而張桌子的關係圖中,甚至還出現了希特勒呢 (炸)

是說,可能真的有人叫「張桌子」也不一定啊。

之後又試了一些奇怪的字辭,像是「科科科」:

20080817_RLF03

國宅「朱學恆」大大:

20080817_RLF04

想到朱大,不免想到在 BoF 時的「媽媽,那個阿姨是誰」:

20080817_RLF05

迷之音: 哎呀,這個似乎很好用啊 XD

咳咳。

無論如何,背後的技術應該不止這些,
隨便去問十個做 IR 的人,會有十一個跟你說,
要做到這樣的結果,有一定的難度啊啊啊 (搖晃)

因為最近北京舉辦了奧運,所以我也搜尋了「北京奧運」,
在這個時候,人立方的介面便提升了找「人」的效率:

20080817_RLF06

過去就曾出現過圖形化的搜尋引擎,
不過,這樣的搜尋方式能不能吸引使用者,
或許還有待觀察吧 :p

無論如何,這確實是個酷玩意。

是說,這樣的休息活動似乎不大休閒啊 =__=||


後記:
在《隨意搜尋》(Ambient Findability) 書中提到,
六度分離理論把人與人之間的關係以圖學方式解釋,
而早期的研究人員,認為「人」是無法當成文件索引的。

書末亦提到,人們已經開始把文件的概念,
套用在過去不被歸納在「可文件化」的東西上,
這意味著,幾乎所有東西都能具有一定的可尋性。

在搜尋器發展之初,搜尋網頁也曾經是件苦差事,
看看現在便不難猜出,未來搜尋其他類型「文件」的可能了。