揭秘人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)的神秘面紗

萬皇之皇 2019-05-10

展開全文

1 題記

AI、機器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、分類、決策樹、聚類、深度學(xué)習(xí)和算法。深度學(xué)習(xí)、機器學(xué)習(xí)，人工智能——這些時下流行語代表著對未來技術(shù)的分析。

在這篇文章中，我們將通過現(xiàn)實世界中成熟的例子來解釋什么是機器學(xué)習(xí)和深度學(xué)習(xí)。這樣做并不是讓你成為數(shù)據(jù)科學(xué)家，而是讓你能夠更清楚的理解你可以用機器學(xué)習(xí)做些什么。開發(fā)人員越來越容易的使用機器學(xué)習(xí)，在互聯(lián)網(wǎng)時代，公司產(chǎn)生的每一條信息都有增值的潛力。

2 什么是人工智能？

在整個人工智能的歷史長河中，它一直在不斷的被重定義。AI是一個總稱（這個想法始于50年代）；機器學(xué)習(xí)是AI的一個子集，深度學(xué)習(xí)是機器學(xué)習(xí)的子集。

在1985年，當(dāng)我作為學(xué)生在國家安全局實習(xí)的時候，人工智能也是一個非常熱門的話題。在美國國家安全局，我甚至在AI上觀看了關(guān)于專家系統(tǒng)的MIT視頻課程。專家系統(tǒng)在規(guī)則引擎的指引下獲取專家的知識。規(guī)則引擎在金融、醫(yī)療保健等行業(yè)中廣泛使用，最近多用于事件處理，但是當(dāng)數(shù)據(jù)發(fā)生變化時，規(guī)則可能變得難以更新和維護。機器學(xué)習(xí)的優(yōu)點在于，它是從數(shù)據(jù)中學(xué)習(xí)，并且可以提供數(shù)據(jù)驅(qū)動的概率預(yù)測。

根據(jù)Ted Dunning的說法，最好使用精確的術(shù)語如機器學(xué)習(xí)或深度學(xué)習(xí)，而不是術(shù)語“AI”，因為在我們把事情做好之前，我們稱它為AI；之后，我們總是稱之為其他。AI最好作為下一個邊界詞。

分析在過去十年中的變化情況如何？

根據(jù)HBR的Thomas Davenport的說法，分析技術(shù)在過去十年中發(fā)生巨大的變化，通過商用服務(wù)器，流分析和改進的機器學(xué)習(xí)技術(shù)實現(xiàn)更強大更便宜的分布式計算，使公司能夠存儲和分析更多不同類型的數(shù)據(jù)。

傳統(tǒng)上，數(shù)據(jù)存儲在RAID系統(tǒng)中，發(fā)送到多核服務(wù)器進行處理，然后再發(fā)送回存儲器，這樣導(dǎo)致數(shù)據(jù)傳輸瓶頸，并且價格昂貴。通過MapR-XD和MapR-DB等文件和表存儲，數(shù)據(jù)分布在集群中，而MapReduce、Pig和Hive等Hadoop技術(shù)將計算任務(wù)發(fā)送到數(shù)據(jù)所在的位置。

像Apache Spark這樣的技術(shù)通過迭代算法加速分布式數(shù)據(jù)的并行處理，迭代算法通過內(nèi)存緩存數(shù)據(jù)，并使用輕量級的線程。

MapR Event Streams是一種用于大規(guī)模流式傳輸事件數(shù)據(jù)的新型分布式消息傳遞系統(tǒng)，它與流式處理（如：Apache Spark流式傳輸或Apache Flink）相結(jié)合，可加快與機器學(xué)習(xí)模型并行處理實時事件的速度。

圖像處理單元（GPU）加快了多核處理器的并行處理。GPU具有大規(guī)模并行架構(gòu)，由數(shù)千個更小、更高效的內(nèi)核組成，設(shè)計用于同時處理多個任務(wù)，而CPU由幾個針對順序串行處理優(yōu)化的內(nèi)核組成。就潛在性能而言，從Cray-1到今天擁有大量GPU的集群的發(fā)展，大約是地球史上速度最快的計算機的一百萬倍，成本只是其中的非常小的一部分。

3 什么是機器學(xué)習(xí)？

機器學(xué)習(xí)使用算法查找數(shù)據(jù)中的模式，然后使用識別這些模式的模型對新數(shù)據(jù)進行預(yù)測。

通常，機器學(xué)習(xí)分解為以下類型：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法使用標記數(shù)據(jù)，無監(jiān)督學(xué)習(xí)算法是在未標記數(shù)據(jù)中找到模式。半監(jiān)督學(xué)習(xí)使用有標記和無標記數(shù)據(jù)的混合。強化學(xué)習(xí)訓(xùn)練算法基于反饋最大化獎勵。

4 監(jiān)督學(xué)習(xí)

監(jiān)督算法使用有標記的數(shù)據(jù)，其中輸入和目標結(jié)果或標簽都提供給算法。

監(jiān)督學(xué)習(xí)也被稱作預(yù)測建模或預(yù)測分析，因為你構(gòu)建了一個能夠進行預(yù)測的模型。預(yù)測建模的一些示例有分類和回歸。分類基于已知項目的標記示例（例如，已知是欺詐的交易）來識別項目屬于哪個類別（例如，交易是否為欺詐）。邏輯回歸預(yù)測概率 - 例如，欺詐的概率。線性回歸預(yù)測數(shù)值——例如，欺詐數(shù)量。

分類的一些示例包括：

信用卡欺詐檢測（欺詐，非欺詐）
信用卡申請（信譽良好，信用不良）
電子郵件垃圾郵件檢測（垃圾郵件，非垃圾郵件）
文本情緒分析（開心，不開心）
預(yù)測患者風(fēng)險（高風(fēng)險患者，低風(fēng)險患者）
將腫瘤分類為惡性或非惡性

邏輯回歸（或其他算法）的一些示例包括：

鑒于歷史汽車保險欺詐性索賠和索賠的特征，如索賠人的年齡，索賠金額和事故的嚴重程度，預(yù)測欺詐的可能性。
根據(jù)患者特征，預(yù)測充血性心力衰竭的可能性。

線性回歸的一些例子包括：

鑒于歷史汽車保險欺詐性索賠和索賠的特征，如索賠人的年齡，索賠金額和事故的嚴重程度，預(yù)測欺詐金額。
鑒于歷史房地產(chǎn)銷售價格和房屋特征（即平方英尺，臥室數(shù)量，位置），預(yù)測房屋的價格。
根據(jù)歷史街區(qū)犯罪統(tǒng)計數(shù)據(jù)，預(yù)測犯罪率。

下面顯示了其他有監(jiān)督和無監(jiān)督的學(xué)習(xí)算法，我們不會對此進行討論，但我們將更詳細地查看每個算法的一個示例。

分類示例：借記卡詐騙

分類采用具有已知標簽和預(yù)定特征的一組數(shù)據(jù)，并學(xué)習(xí)如何基于該信息標記新記錄。功能是你提出的“如果”問題，標簽是這些問題的答案。

我們來看一下借記卡詐騙的例子。

我們想要預(yù)測什么？

借記卡交易是否為欺詐。
欺詐是標簽（真或假）。

您可以使用哪些“如果”問題或?qū)傩赃M行預(yù)測？

今天花費的金額是否大于歷史平均值嗎？
今天在多個國家都有交易嗎？
今天的交易數(shù)量是否大于歷史平均值？
今天新商家類型的數(shù)量是否與過去三個月相比較高？
今天是否有來自具有風(fēng)險類別代碼的商家的多次購買？
與歷史上使用PIN相比，今天是否有不尋常的簽名活動？
與過去三個月相比，是否有新的州購買？
與過去三個月相比，今天是否有外國購買？

要構(gòu)建分類器模型，您需要提取最有助于分類的感興趣的特征。

5 決策樹

決策樹創(chuàng)建一個模型，根據(jù)多個輸入特征預(yù)測類或標簽。決策樹的工作原理是評估包含每個節(jié)點的特征的問題，并根據(jù)答案選擇到下一個節(jié)點的分支。下面顯示了用于預(yù)測借記卡欺詐的可能決策樹。特征問題是節(jié)點，答案“是”或“否”是樹節(jié)點到子節(jié)點的分支。（請注意，真正的樹會有更多節(jié)點。）

Q1：24小時內(nèi)的花費是否大于平均水平？

Q2：今天有風(fēng)險的商家有多次購買？

是欺詐= 90％
不欺詐= 50％

決策樹很受歡迎，因為它們易于可視化和解釋。通過將算法與集合相結(jié)合的方法，可以提高模型的準確性。集合示例是隨機森林，形成了決策樹的多個隨機子集。

6 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)（有時也稱為描述性分析）沒有提前提供標記數(shù)據(jù)。這些算法發(fā)現(xiàn)輸入數(shù)據(jù)中的相似性或規(guī)律性。無監(jiān)督學(xué)習(xí)的一個例子是根據(jù)購買數(shù)據(jù)對類似客戶進行分組。

7 聚類

在聚類中，算法通過分析輸入示例之間的相似性將輸入分類。一些聚類的示例包括：

搜索結(jié)果分組
對類似客戶進行分組
對類似患者進行分組
文本分類
網(wǎng)絡(luò)安全異常檢測（發(fā)現(xiàn)非相似的東西，來自群集的異常值）

K-means算法將觀測值分組為K個集群，其中每個觀測值屬于具有距其集群中心最近平均值的集群。

聚類的一個例子是希望對其客戶進行細分以便更好地定制產(chǎn)品和產(chǎn)品的公司?？蛻艨梢园慈丝诮y(tǒng)計和購買歷史等功能進行分組。無監(jiān)督學(xué)習(xí)的聚類通常與監(jiān)督學(xué)習(xí)相結(jié)合，以獲得更有價值的結(jié)果。例如，在該banking customer 360的用例中，首先根據(jù)調(diào)查的答案對客戶進行分段。對客戶組進行分析并標記客戶角色。然后，這些標簽通過客戶ID與賬戶類型和購買等功能相關(guān)聯(lián)。最后，有監(jiān)督的機器學(xué)習(xí)應(yīng)用于標記的客戶并進行測試，允許將調(diào)查客戶角色與他們的銀行行為聯(lián)系起來并提供見解。

8 深度學(xué)習(xí)

深度學(xué)習(xí)是多層神經(jīng)網(wǎng)絡(luò)的名稱，多層神經(jīng)網(wǎng)絡(luò)是由輸入和輸出之間的幾個節(jié)點“隱藏層”組成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有很多變種，你可以在這個神經(jīng)網(wǎng)絡(luò)備忘單上學(xué)到更多。改進的算法，GPU和大規(guī)模并行處理（MPP）已經(jīng)產(chǎn)生了具有數(shù)千層的網(wǎng)絡(luò)。每個節(jié)點獲取輸入數(shù)據(jù)和權(quán)重，并將置信度分數(shù)輸出到下一層中的節(jié)點，直到到達輸出層，其中計算得分的誤差。在一個稱為梯度下降的過程中進行反向傳播，錯誤再次通過網(wǎng)絡(luò)發(fā)回，并調(diào)整權(quán)重，改善模型。該過程重復(fù)數(shù)千次，根據(jù)其產(chǎn)生的誤差調(diào)整模型的權(quán)重，直到不再減少誤差為止。

在此過程中，層學(xué)習(xí)模型的最佳特征，其優(yōu)點是不需要預(yù)先確定特征。但是，這樣做的缺點是模型的決策無法解釋。因為解釋決策很重要，研究人員正在開發(fā)新方法來理解深度學(xué)習(xí)的黑盒子。

深度學(xué)習(xí)算法有不同的變體，可以與MapR的分布式深度學(xué)習(xí)快速入門解決方案一起使用，以構(gòu)建數(shù)據(jù)驅(qū)動的應(yīng)用程序，如下所示：