本文作為Elastic search系列的開篇之作,簡要介紹其簡要歷史、安裝及基本概念和核心模塊。
Elastic search基于Lucene(信息檢索引擎,ES里一個index—索引,一個索引指向一個或者多個分片—shards,一個分片就是一個Lucene實例。Lucene的作者——Doug Cutting同是也是hadoop的作者)。 ES的誕生于04年,Shay Banon——據(jù)傳剛失業(yè)又新婚,禍不單行(港蓉蒸蛋糕,蒸的嗎),在Lucene的基礎(chǔ)上為他去倫敦學廚師的老婆做的食譜搜索。一不小心,搞出了ES,然而老婆大人的食譜搜索卻遙遙無期,估計Shay在家鍵盤跪爛。 然后呢,官網(wǎng)出了個Kibana (ELK—Elasticsearch, logstash, kibana三劍客之一,另外Elastic認證了解一下——截止目前國內(nèi)考過的不足500人),一個web應用程序,用圖表啊、地圖啊等面板來可視化數(shù)據(jù)(圖像天然具有親和力,詳見 Guide, 初步的安裝及說明詳見附錄5),如下圖:
windows上安裝Elastic search 請參考附注2 鏈接(需要安裝IK分詞器,以更好的支持漢語分詞;安裝elasticsearch-head ,簡單的可視化的web客戶端,可支持基本的查詢操作或者通過DSL檢索結(jié)果——為支持它,需要裝Node.js; node.js 又需要集成 npm 和 grunt) elasticsearch-head 效果如下圖:
Elastic Search是一個實時分布式搜索和分析引擎,處理大數(shù)據(jù)相當?shù)纳瞄L。Stackoverflow、Github、Wiki以及英國衛(wèi)報等在全文檢索、代碼搜索(Github超過1300億行)、地理位置查詢、社交網(wǎng)絡實時數(shù)據(jù)等領(lǐng)域均廣泛深入的使用了ES,國內(nèi)的字節(jié)跳動、騰訊、阿里、百度均有相關(guān)應用。目前認為其核心概念包括:
就是根據(jù)一套規(guī)則和算法,滿足搜索條件的文檔,其中相關(guān)信息的匹配度(或稱之為相關(guān)度),打分越高,則匹配度越高,搜索結(jié)果按打分高低(匹配度)倒敘展示。如下圖的一個搜索結(jié)果: 具體的Score,涉及到Norm(歸一化)和Boost(可以設置field和document的Boot—相當于權(quán)重的概念)
集群即多臺物理機構(gòu)成,每個物理機包含多個節(jié)點(其中只有一個Master Node),每個節(jié)點包含多個分片,每個分片可以有0個或多個復制分片做必要的數(shù)據(jù)冗余。其分布式特性,通過底層的如下操作自動完成: (1)將你的文檔分區(qū)到不同的容器或者分片(shards)中,它們可以存在于一個或多個節(jié)點中。 (2)將分片均勻的分配到各個節(jié)點,對索引和搜索做負載均衡。 冗余每一個分片,防止硬件故障造成的數(shù)據(jù)丟失。 (3)將集群中任意一個節(jié)點上的請求路由到相應數(shù)據(jù)所在的節(jié)點。 (4)無論是增加節(jié)點,還是移除節(jié)點,分片都可以做到無縫的擴展和遷移。
Elastic Search使用倒排索引(Inverted Index)來做快速的全文搜索(不同于一般數(shù)據(jù)庫的索引,用B-Tree來實現(xiàn))。具體倒排索引原理,可能需要單獨的一篇博客來說明
分析(analysis)是這樣一個過程: (1)首先,表征化一個文本塊為適用于倒排索引單獨的詞(term) (2)然后標準化這些詞為標準形式,提高它們的“可搜索性”或“查全率”
這個工作是分析器(analyzer)完成的。一個分析器(analyzer)包含如下三個功能: (1)字符過濾器 首先字符串經(jīng)過字符過濾器(character filter),它們的工作是在表征化(譯者注:這個詞叫做斷詞更合適)前處理字符串。 字符過濾器能夠去除HTML標記,或者轉(zhuǎn)換 "&" 為 "and" 。 (2)分詞器 下一步,分詞器(tokenizer)被表征化(斷詞)為獨立的詞。一個簡單的分詞器(tokenizer)可以根據(jù)空格或逗號將單詞分開 (譯者注:這個在中文中不適用)。 (3)表征過濾 最后,每個詞都通過所有表征過濾(token filters),它可以修改詞(例如將 "Quick" 轉(zhuǎn)為小寫),去掉詞(例如停用詞 像 "a" 、 "and"``"the" 等等),或者增加詞(例如同義詞像 "jump" 和 "leap" )
ES本質(zhì)上和關(guān)系型數(shù)據(jù)庫還是有差別,并不能和DB的各個概念完全對應。默認同名的Fields在整個Indices共享,因此你不能在Type里定義同名的多個Filelds,導致刪除數(shù)據(jù)只能整個索引一起刪除,而不能單單刪除一個Type
Elastic search是面向文檔的,文檔歸屬于一種類型(type),而這些type存在(索引)index里。傳統(tǒng)關(guān)系數(shù)據(jù)庫和ES的簡單對比如下圖(6.0版本后默認支持single type,涉及字段共享的優(yōu)化):
2.檢索文檔 支持HTTP的GET、PUT、HEAD、DELETE(由于字段共享等原因,ES目前不支持刪除表,只能整個索引一起刪除)、POST操作,如下圖(故可直接用postman、SoapUI、Chrome插件ElasticSearch Head 等工具發(fā)http請求來查詢文檔): ES提供豐富靈活的查詢語句(另外Elasticsearch-sql插件可以自動將sql語句翻譯為DSL)——Query DSL(基本的語法有filter,bool—包括should【類似于Or】、must【類似于and】, term—精確匹配, match,range,exists,missing等),有了它構(gòu)建復雜、強大的查詢都不事兒,如下圖(用postman,查詢 age > 30 且 last_name = "smith"): 3. 字段數(shù)據(jù)類型 官方文檔:Mapping types (Mapping——映射,相當于關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)定義)
(1)ES不支持Join,但支持aggregations,類似于SQL的group by (2)通過Merge segments可以提高查詢速度,最后Merge成的Segments個數(shù)越小,查詢時間提高的越快。Merge segments過程比較耗費磁盤和CPU,所以建議凌晨執(zhí)行該操作 (3)ES支持將各種數(shù)據(jù)庫的數(shù)據(jù)導入,主要通過logstash;ES之間的數(shù)據(jù)拷貝,可以用elasticdump 致敬 Doug Cutting (Lucene、Nutch 、Hadoop之父) 談到成功,Cutting認為他的成功主要歸功于兩點:
附: 1) 官網(wǎng)guide 及對應中文版 — Elasticsearch: 權(quán)威指南(pdf下載) 2) Elasticsearch6.4.0-windows環(huán)境部署安裝 4) Hadoop 十歲生日時 Doug Cutting的講話
******************************************************************************* 精力有限,想法太多,專注做好一件事就行
******************************************************************************* |
|