2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

數(shù)說(shuō)(之四)·大話大數(shù)據(jù)技術(shù)之Hadoop(上)

 weiwarm 2019-01-27

    剛?cè)胄幸驼{(diào),懂不懂?低調(diào)!

                           ——電影《瘋狂的石頭》


小伙伴們,大家好!

過(guò)完國(guó)慶節(jié),大家是不是還想繼續(xù)給祖國(guó)母親慶祝生日呢?

我:“誰(shuí)說(shuō)的?我就很愛(ài)工作,因?yàn)椤?/span>                 

又到了數(shù)說(shuō)系列的環(huán)節(jié),從本期開(kāi)始進(jìn)入大數(shù)據(jù)的技術(shù)環(huán)節(jié)。


說(shuō)到技術(shù),很多人覺(jué)得晦澀難懂,但是今天我們要說(shuō)的是圍繞技術(shù)的一些有關(guān)話題,技術(shù)細(xì)節(jié)本身并不多過(guò)多討論。

大數(shù)據(jù)的定義


關(guān)于什么是“大數(shù)據(jù)”,業(yè)界至今還沒(méi)有一個(gè)統(tǒng)一的定義,但是其含義基本一致,例如:

研究機(jī)構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。


根據(jù)維基百科的定義:大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。

大數(shù)據(jù)的特征


2001年麥塔集團(tuán)(META Group)分析師萊尼在一份報(bào)告中對(duì)大數(shù)據(jù)提出了“3D數(shù)據(jù)管理”的觀點(diǎn),即認(rèn)為大數(shù)據(jù)將往高速、多樣、海量3個(gè)方向發(fā)展,提出了3個(gè)特性:高速性(Velocity)、多樣化(Variety)、規(guī)?;?Volume),統(tǒng)稱(chēng)3V。


在萊尼的理論基礎(chǔ)上,國(guó)際數(shù)據(jù)公司(IDC)再加上了價(jià)值(Value)的維度,主要強(qiáng)調(diào)大數(shù)據(jù)的總體價(jià)值大,但價(jià)值密度低。于是,規(guī)模性(Volume)、多樣性(Varity)、高速性(Velocity)和價(jià)值性(Value),合稱(chēng)大數(shù)據(jù)的“4V”, 4V也是廣受認(rèn)可的大數(shù)據(jù)特性。


后來(lái)阿姆斯特丹大學(xué)又提出了大數(shù)據(jù)體系架構(gòu)框架的5V特征:在原有4V基礎(chǔ)上增加了真實(shí)性(Veracity)特征,包括數(shù)據(jù)可信性、真?zhèn)涡?、?lái)源和信譽(yù)、有效性和可審計(jì)性等特性。


大數(shù)據(jù)5V特征,引自《大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書(shū)》

大數(shù)據(jù)的起源


一般來(lái)說(shuō),人們通常認(rèn)為大數(shù)據(jù)起源于谷歌公司發(fā)表的三篇論文。


2003–The Google File System

——闡述如何存儲(chǔ)大數(shù)據(jù)文件


2004–MapReduce:Simplified Data Processing on Large Clusters

——闡述如何處理大數(shù)據(jù)


2006–Bigtable:A Distributed Storage System for Structured Data

——闡述如何存儲(chǔ)結(jié)構(gòu)化的大數(shù)據(jù)


但大數(shù)據(jù)技術(shù)中最為人熟知的,還是Hadoop。這里,就不得不提到Doug Cutting(道格·卡丁),他先領(lǐng)導(dǎo)創(chuàng)立了Apache的項(xiàng)目Lucene,然后Lucene又衍生出子項(xiàng)目Nutch,Nutch又衍生了子項(xiàng)目Hadoop。Lucene是一個(gè)功能全面的文本搜索和查詢(xún)庫(kù),Nutch目標(biāo)就是要視圖以Lucene為核心建立一個(gè)完整的搜索引擎,并且能達(dá)到提到Google商業(yè)搜索引擎的目標(biāo)。Doug Cutting看到了谷歌的論文的價(jià)值并帶領(lǐng)他的團(tuán)隊(duì)便實(shí)現(xiàn)了這個(gè)框架,并將Nutch移植上去,于是Nutch的可擴(kuò)展性得到極大的提高。后來(lái)Doug Cutting逐漸認(rèn)識(shí)到急需要成立一個(gè)專(zhuān)門(mén)的項(xiàng)目來(lái)充實(shí)這上述技術(shù),于是就誕生了Hadoop。


Hadoop生態(tài)圈的壯大


最初Hadoop還不是很出名,用一句流行的話說(shuō),就是“非常低調(diào)”。但是2008年時(shí),Hadoop贏得1TB排序基準(zhǔn)評(píng)估第一名,在那次活動(dòng)上,除了Cutting所在的雅虎公司參加外,F(xiàn)acebook、Linkin和Twitter的人也都出席了,因此引起了這些大公司的注意,后來(lái)越來(lái)越多的大型互聯(lián)網(wǎng)公司加入進(jìn)來(lái),形成了龐大的Hadoop生態(tài)圈。


Hadoop初期的生態(tài)圈


有些小伙伴可能注意到了,接下來(lái)的這張圖上的產(chǎn)品已經(jīng)不完全是Apache軟件基金會(huì)下的開(kāi)源產(chǎn)品了。沒(méi)錯(cuò),隨著Hadoop的影響力越來(lái)越大,很多傳統(tǒng)軟件廠商,如Oracle、SAP、IBM等,也加強(qiáng)了對(duì)Hadoop的支持。


Hadoop最新的生態(tài)圈

Hadoop的特點(diǎn)


讓我們回到Hadoop產(chǎn)品本身, Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進(jìn)行處理的,它具有以下幾個(gè)方面的特性:



Hadoop的核心組件

Hadoop1.X版本包括Hadoop Distributed File System(分布式文件系統(tǒng),HDFS)和Hadoop MapReduce(分布式計(jì)算模型)兩個(gè)最重要的核心組件,它們?yōu)镠adoop用戶(hù)提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。



Hadoop 2.X及以上版本有加入了YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者),它是一種新的 Hadoop 資源管理器,它是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。


有了HDFS、MapReduce、YARN這三劍客的幫助,人們處理起巨大量的數(shù)據(jù)起來(lái),猶如把大象塞進(jìn)冰箱那么容易。



時(shí)間不早了,小編我又該敲(QU)代(BAN)碼(ZHUAN)了,欲知Hadoop內(nèi)部組件的工作原理,請(qǐng)期待《大話大數(shù)據(jù)技術(shù)之Hadoop》下集。


作者簡(jiǎn)介

汪晉,某軟件公司數(shù)據(jù)業(yè)務(wù)部項(xiàng)目總監(jiān),曾先后在聯(lián)想集團(tuán)、神華集團(tuán)工作,長(zhǎng)期從事數(shù)據(jù)倉(cāng)庫(kù)、智能分析和大數(shù)據(jù)項(xiàng)目的建設(shè),熟悉能源行業(yè)(煤炭、電力、化工)和制造行業(yè)。

END


熱門(mén)文章


數(shù)說(shuō) · 大數(shù)據(jù)項(xiàng)目建設(shè)誤區(qū)


數(shù)說(shuō)(之二)·談?wù)劥髷?shù)據(jù)產(chǎn)品的選型


數(shù)說(shuō)(之三)· 數(shù)據(jù)指標(biāo)體系建立和應(yīng)用步驟探討


我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(上篇)-非互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)模型


我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(上篇)-非互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)平臺(tái)的發(fā)展


我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(下篇)-互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)模型


我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(下篇)-互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)平臺(tái)發(fā)展

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多