AI、機器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、分類、決策樹、聚類、深度學(xué)習(xí)和算法。深度學(xué)習(xí)、機器學(xué)習(xí),人工智能——這些時下流行語代表著對未來技術(shù)的分析。 在這篇文章中,我們將通過現(xiàn)實世界中成熟的例子來解釋什么是機器學(xué)習(xí)和深度學(xué)習(xí)。這樣做并不是讓你成為數(shù)據(jù)科學(xué)家,而是讓你能夠更清楚的理解你可以用機器學(xué)習(xí)做些什么。開發(fā)人員越來越容易的使用機器學(xué)習(xí),在互聯(lián)網(wǎng)時代,公司產(chǎn)生的每一條信息都有增值的潛力。 在整個人工智能的歷史長河中,它一直在不斷的被重定義。AI是一個總稱(這個想法始于50年代);機器學(xué)習(xí)是AI的一個子集,深度學(xué)習(xí)是機器學(xué)習(xí)的子集。 在1985年,當(dāng)我作為學(xué)生在國家安全局實習(xí)的時候,人工智能也是一個非常熱門的話題。在美國國家安全局,我甚至在AI上觀看了關(guān)于專家系統(tǒng)的MIT視頻課程。專家系統(tǒng)在規(guī)則引擎的指引下獲取專家的知識。規(guī)則引擎在金融、醫(yī)療保健等行業(yè)中廣泛使用,最近多用于事件處理,但是當(dāng)數(shù)據(jù)發(fā)生變化時,規(guī)則可能變得難以更新和維護。機器學(xué)習(xí)的優(yōu)點在于,它是從數(shù)據(jù)中學(xué)習(xí),并且可以提供數(shù)據(jù)驅(qū)動的概率預(yù)測。 根據(jù)Ted Dunning的說法,最好使用精確的術(shù)語如機器學(xué)習(xí)或深度學(xué)習(xí),而不是術(shù)語“AI”,因為在我們把事情做好之前,我們稱它為AI;之后,我們總是稱之為其他。AI最好作為下一個邊界詞。 分析在過去十年中的變化情況如何? 根據(jù)HBR的Thomas Davenport的說法,分析技術(shù)在過去十年中發(fā)生巨大的變化,通過商用服務(wù)器,流分析和改進的機器學(xué)習(xí)技術(shù)實現(xiàn)更強大更便宜的分布式計算,使公司能夠存儲和分析更多不同類型的數(shù)據(jù)。 傳統(tǒng)上,數(shù)據(jù)存儲在RAID系統(tǒng)中,發(fā)送到多核服務(wù)器進行處理,然后再發(fā)送回存儲器,這樣導(dǎo)致數(shù)據(jù)傳輸瓶頸,并且價格昂貴。通過MapR-XD和MapR-DB等文件和表存儲,數(shù)據(jù)分布在集群中,而MapReduce、Pig和Hive等Hadoop技術(shù)將計算任務(wù)發(fā)送到數(shù)據(jù)所在的位置。 像Apache Spark這樣的技術(shù)通過迭代算法加速分布式數(shù)據(jù)的并行處理,迭代算法通過內(nèi)存緩存數(shù)據(jù),并使用輕量級的線程。 MapR Event Streams是一種用于大規(guī)模流式傳輸事件數(shù)據(jù)的新型分布式消息傳遞系統(tǒng),它與流式處理(如:Apache Spark流式傳輸或Apache Flink)相結(jié)合,可加快與機器學(xué)習(xí)模型并行處理實時事件的速度。 圖像處理單元(GPU)加快了多核處理器的并行處理。GPU具有大規(guī)模并行架構(gòu),由數(shù)千個更小、更高效的內(nèi)核組成,設(shè)計用于同時處理多個任務(wù),而CPU由幾個針對順序串行處理優(yōu)化的內(nèi)核組成。就潛在性能而言,從Cray-1到今天擁有大量GPU的集群的發(fā)展,大約是地球史上速度最快的計算機的一百萬倍,成本只是其中的非常小的一部分。 機器學(xué)習(xí)使用算法查找數(shù)據(jù)中的模式,然后使用識別這些模式的模型對新數(shù)據(jù)進行預(yù)測。 通常,機器學(xué)習(xí)分解為以下類型:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法使用標記數(shù)據(jù),無監(jiān)督學(xué)習(xí)算法是在未標記數(shù)據(jù)中找到模式。半監(jiān)督學(xué)習(xí)使用有標記和無標記數(shù)據(jù)的混合。強化學(xué)習(xí)訓(xùn)練算法基于反饋最大化獎勵。
監(jiān)督算法使用有標記的數(shù)據(jù),其中輸入和目標結(jié)果或標簽都提供給算法。 監(jiān)督學(xué)習(xí)也被稱作預(yù)測建模或預(yù)測分析,因為你構(gòu)建了一個能夠進行預(yù)測的模型。預(yù)測建模的一些示例有分類和回歸。分類基于已知項目的標記示例(例如,已知是欺詐的交易)來識別項目屬于哪個類別(例如,交易是否為欺詐)。邏輯回歸預(yù)測概率 - 例如,欺詐的概率。線性回歸預(yù)測數(shù)值——例如,欺詐數(shù)量。 分類的一些示例包括:
邏輯回歸(或其他算法)的一些示例包括:
線性回歸的一些例子包括:
下面顯示了其他有監(jiān)督和無監(jiān)督的學(xué)習(xí)算法,我們不會對此進行討論,但我們將更詳細地查看每個算法的一個示例。 分類示例:借記卡詐騙 分類采用具有已知標簽和預(yù)定特征的一組數(shù)據(jù),并學(xué)習(xí)如何基于該信息標記新記錄。功能是你提出的“如果”問題,標簽是這些問題的答案。 我們來看一下借記卡詐騙的例子。
要構(gòu)建分類器模型,您需要提取最有助于分類的感興趣的特征。 決策樹創(chuàng)建一個模型,根據(jù)多個輸入特征預(yù)測類或標簽。決策樹的工作原理是評估包含每個節(jié)點的特征的問題,并根據(jù)答案選擇到下一個節(jié)點的分支。下面顯示了用于預(yù)測借記卡欺詐的可能決策樹。特征問題是節(jié)點,答案“是”或“否”是樹節(jié)點到子節(jié)點的分支。(請注意,真正的樹會有更多節(jié)點。)
決策樹很受歡迎,因為它們易于可視化和解釋。通過將算法與集合相結(jié)合的方法,可以提高模型的準確性。集合示例是隨機森林,形成了決策樹的多個隨機子集。 無監(jiān)督學(xué)習(xí)(有時也稱為描述性分析)沒有提前提供標記數(shù)據(jù)。這些算法發(fā)現(xiàn)輸入數(shù)據(jù)中的相似性或規(guī)律性。無監(jiān)督學(xué)習(xí)的一個例子是根據(jù)購買數(shù)據(jù)對類似客戶進行分組。 在聚類中,算法通過分析輸入示例之間的相似性將輸入分類。一些聚類的示例包括:
K-means算法將觀測值分組為K個集群,其中每個觀測值屬于具有距其集群中心最近平均值的集群。 聚類的一個例子是希望對其客戶進行細分以便更好地定制產(chǎn)品和產(chǎn)品的公司??蛻艨梢园慈丝诮y(tǒng)計和購買歷史等功能進行分組。無監(jiān)督學(xué)習(xí)的聚類通常與監(jiān)督學(xué)習(xí)相結(jié)合,以獲得更有價值的結(jié)果。例如,在該banking customer 360的用例中,首先根據(jù)調(diào)查的答案對客戶進行分段。對客戶組進行分析并標記客戶角色。然后,這些標簽通過客戶ID與賬戶類型和購買等功能相關(guān)聯(lián)。最后,有監(jiān)督的機器學(xué)習(xí)應(yīng)用于標記的客戶并進行測試,允許將調(diào)查客戶角色與他們的銀行行為聯(lián)系起來并提供見解。 深度學(xué)習(xí)是多層神經(jīng)網(wǎng)絡(luò)的名稱,多層神經(jīng)網(wǎng)絡(luò)是由輸入和輸出之間的幾個節(jié)點“隱藏層”組成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有很多變種,你可以在這個神經(jīng)網(wǎng)絡(luò)備忘單上學(xué)到更多。改進的算法,GPU和大規(guī)模并行處理(MPP)已經(jīng)產(chǎn)生了具有數(shù)千層的網(wǎng)絡(luò)。每個節(jié)點獲取輸入數(shù)據(jù)和權(quán)重,并將置信度分數(shù)輸出到下一層中的節(jié)點,直到到達輸出層,其中計算得分的誤差。在一個稱為梯度下降的過程中進行反向傳播,錯誤再次通過網(wǎng)絡(luò)發(fā)回,并調(diào)整權(quán)重,改善模型。該過程重復(fù)數(shù)千次,根據(jù)其產(chǎn)生的誤差調(diào)整模型的權(quán)重,直到不再減少誤差為止。 在此過程中,層學(xué)習(xí)模型的最佳特征,其優(yōu)點是不需要預(yù)先確定特征。但是,這樣做的缺點是模型的決策無法解釋。因為解釋決策很重要,研究人員正在開發(fā)新方法來理解深度學(xué)習(xí)的黑盒子。 深度學(xué)習(xí)算法有不同的變體,可以與MapR的分布式深度學(xué)習(xí)快速入門解決方案一起使用,以構(gòu)建數(shù)據(jù)驅(qū)動的應(yīng)用程序,如下所示:
這些互聯(lián)網(wǎng)原生企業(yè)的共同特征是:對新技術(shù)的充分應(yīng)用: 競爭對手以一種完全不同的業(yè)務(wù)模式闖入行業(yè),你發(fā)現(xiàn)自己完全沒有招架之力!不管是個人,還是所在行業(yè),都應(yīng)該積極擁抱人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)等新技術(shù)的到來!
|
|
來自: 萬皇之皇 > 《IT互聯(lián)》