2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

開源搜索引擎的比較

 NaturalWill 2015-01-03

為解決全站搜索問題。對開源搜索引擎的一個(gè)比較。在我的項(xiàng)目中,是ssh+jsp結(jié)構(gòu)。選擇solr是最佳的。

1. Lucene及其變種

Luncene

Lucene的開發(fā)語言是Java,也是Java家族中最為出名的一個(gè)開源搜索引擎,在Java世界中已經(jīng)是標(biāo)準(zhǔn)的全文檢索程序,它提供了完整的查詢引擎和索引引擎,沒有中文分詞引擎,需要自己去實(shí)現(xiàn),因此用Lucene去做一個(gè)搜素引擎需要自己去架構(gòu).另外它不支持實(shí)時(shí)搜索,但linkedin和twitter有分別對Lucene改進(jìn)的實(shí)時(shí)搜素. 其中Lucene有一個(gè)C++移植版本叫CLucene,CLucene因?yàn)槭褂肅++編寫,所以理論上要比lucene快.

 

官方主頁:http://lucene./

 

CLucene官方主頁:http:///projects/clucene/

 

Solr

Solr是一個(gè)用java開發(fā)的獨(dú)立的企業(yè)級搜索應(yīng)用服務(wù)器,它提供了類似于Web-service的API接口,它是基于Lucene的全文檢索服務(wù)器,也算是Lucene的一個(gè)變種,很多一線互聯(lián)網(wǎng)公司都在使用Solr,也算是一種成熟的解決方案.

官方主頁:http://lucene./solr/

 

Elasticsearch

Elasticsearch是一個(gè)采用java語言開發(fā)的,基于Lucene構(gòu)造的開源,分布式的搜索引擎. 設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定可靠. Elasticsearch的數(shù)據(jù)模型是JSON.

官方主頁:http://www./

 

 

2.Xapian(C++)

用C++編寫的全文檢索引擎,和Java界的lucene類似。Xapian原生支持C/C++,并且也能夠支持php、python等語言的動(dòng)態(tài)綁定。

Xapian是一個(gè)用C++編寫的全文檢索程序,它的api和檢索原理和lucene在很多方面都很相似,算是填補(bǔ)了lucene在C++中的一個(gè)空缺.

官方主頁:http:///

 

3.Sphinx

是一個(gè)基于SQL的全文檢索引擎。特別為一些腳本語言(PHP,Python,Perl,Ruby)設(shè)計(jì)搜索API接口。

Sphinx是一個(gè)用C++語言寫的開源搜索引擎,也是現(xiàn)在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準(zhǔn)度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,使用起來比較簡單方便.

官方主頁:http:///about/sphinx/   

 

4.Nutch

開源Java實(shí)現(xiàn)的搜索引擎。包括了全文搜索和web爬蟲。不會扭曲搜索結(jié)果(付費(fèi)前排)。

Nutch是基于Luncene的,Luncene為Nutch提供了文本索引和搜索的API。如果不需要抓取數(shù)據(jù)的話,應(yīng)該使用Luncene。

你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁面。在這種情況下,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù)并用Lucene API 建立索引。

在你沒有本地?cái)?shù)據(jù)源,或者數(shù)據(jù)源非常分散的情況下,應(yīng)該使用Nutch。

Nutch是一個(gè)用java實(shí)現(xiàn)的開源的web搜索引擎,包括爬蟲crawler,索引引擎,查詢引擎. 其中Nutch是基于Lucene的,Lucene為Nutch提供了文本索引和搜索的API.

 

對于應(yīng)該使用Lucene還是使用Nutch,應(yīng)該是如果你不需要抓取數(shù)據(jù)的話,應(yīng)該使用Lucene,最常見的應(yīng)用是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁面,在這種情況下,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù),并用Lucene API建立索引.

 

官方主頁:http://nutch./

 

nutch入門教程:http://wenku.baidu.com/link?url=fcVfcY3B3EC11zJ5pLKgbgmsmF0P166YBT-M32C-imP2e1TPYkufC6HiMNkS_hFaL3koCH0WsczXElBc36wPTTr0BfIkp56ECga14-iPweC

5.Whoosh(python)

唯一的python寫的全文搜索引擎,性能不比sphinx、xapian等,不過他很小,安裝后才2.61M,容易集成,小站可用。

Whoosh是一個(gè)用純python寫的開源搜索引擎.

官方主頁:https:///mchaput/whoosh/wiki/Home

 

6.Datapark search

Web-based search。主要用于站內(nèi)搜索,內(nèi)部搜索或本地系統(tǒng)的搜索。C語言實(shí)現(xiàn)。

DataparkSearch是一個(gè)用C語言實(shí)現(xiàn)的開源的搜索引擎. 其中網(wǎng)頁排序是采用神經(jīng)網(wǎng)絡(luò)模型.  其中支持HTTP,HTTPS,F(xiàn)TP,NNTP等下載網(wǎng)頁.包括索引引擎,檢索引擎和中文分詞引擎(這個(gè)也是唯一的一個(gè)開源的搜索引擎里有中文分詞引擎).能個(gè)性化定制搜索結(jié)果,擁有完整的日志記錄.

官方主頁:http://www./

 

7.Zettair

基于倒排序索引結(jié)構(gòu)的全文搜索開源引擎?;贑語言。

Zettair是根據(jù)Justin Zobel的研究成果為基礎(chǔ)的全文檢索實(shí)驗(yàn)系統(tǒng).它是用C語言實(shí)現(xiàn)的. 其中Justin Zobel在全文檢索領(lǐng)域很有名氣,是業(yè)界第一個(gè)系統(tǒng)提出倒排序索引差分壓縮算法的人,倒排列表的壓縮大大提高了檢索和加載的性能,同時(shí)空間膨脹率也縮小到相當(dāng)優(yōu)秀的水平. 由于Zettair是源于學(xué)術(shù)界,代碼是由RMIT University的搜索引擎組織寫的,因此它的代碼簡潔精煉,算法高效,是學(xué)習(xí)倒排索引經(jīng)典算法的非常好的實(shí)例. 其中支持linux,windows,mac os等系統(tǒng).

官方主頁:http://www.seg./zettair/about.html

參考文章:zettair介紹

http://blog.csdn.net/yijiyong100/article/details/11928453

 

8.Indri

支持文檔索引。

http://blog.csdn.net/sharpdew/article/details/438250

Indri是一個(gè)用C語言和C++語言寫的全文檢索引擎系統(tǒng),是由University of Massachusetts和Carnegie Mellon University合作推出的一個(gè)開源項(xiàng)目. 特點(diǎn)是跨平臺,API接口支持Java,PHP,C++.

官方主頁:http://www./indri/

 

9.Terrier

桌面搜索引擎

http://www.ibm.com/developerworks/cn/opensource/os-desktopsearch/index.html

Terrier是由School of Computing Science,Universityof Glasgow用java開發(fā)的一個(gè)全文檢索系統(tǒng).

官方主頁:http:///

 

10.Galago

Galago是一個(gè)用java語言寫的關(guān)于文本搜索的工具集. 其中包括索引引擎和查詢引擎,還包括一個(gè)叫TupleFlow的分布式計(jì)算框架(和google的MapReduce很像).這個(gè)檢索系統(tǒng)支持很多Indri查詢語言.

官方主頁:http://www./

 

 

11.Zebra

Zebra是一個(gè)用C語言實(shí)現(xiàn)的檢索程序,特點(diǎn)是對大數(shù)據(jù)的支持,支持EMAIL,XML,MARC等格式的數(shù)據(jù).

官方主頁:https://www./zebra

 

 

開源搜索引擎的比較,可能資料比較陳舊了。

http://wenku.baidu.com/link?url=rUUWV6MW_mYejx3qGEoa62m6GihYYp9-8wqPgpM0xzPhImsTH9S316BRYQS6M7uunA86I6--1bCIDYM5X76Q7Saxo3ZMkwFFcDroK089D6u

下面這個(gè)13年的資料

http://www./news/view/e36182

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多