Larbin 一種高效的搜索引擎爬蟲工具::[Search Engine]![]() 離開dallas已經(jīng)整整十天了,基本上除了到處見見人之外基本上沒有其它的時間來學(xué)習(xí)新知識,也沒有空將要完成的工作收尾。 Niu.la ,Booso,luliang.dhs.org 和 wespoke 相繼宕機,看來年底各個地方的維護都不力。 itseek的開發(fā)者多次問起 larbin 的事情,我就在這里對larbin做一個簡單的介紹。因為相對于復(fù)雜的系統(tǒng)來講,larbin具有高度的可配置性,和良好的工作效率。 1]larbin的簡介 Larbin只是一個爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。 latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲?。担埃叭f的網(wǎng)頁,實在是非常高效。 2] Larbin的性能特征 我將我自己的網(wǎng)頁 六翼作為入口,運行l(wèi)arbin進行5層內(nèi)的url的抓取。 當時紀錄的一些數(shù)據(jù): 3] larbin 的作用 總歸,larbin應(yīng)當是一個被廣大搜索引擎愛好者應(yīng)當引起注意的一個產(chǎn)品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲上的優(yōu)美設(shè)計的確值得稱道。 |
|