史上最全實戰(zhàn)資源，機(jī)器學(xué)習(xí)框架、高分練手項目及數(shù)據(jù)集匯總

heii2 2019-05-16

展開全文

機(jī)器學(xué)習(xí)領(lǐng)域，最常討論到的一個話題就是機(jī)器學(xué)習(xí)項目。

學(xué)習(xí)或從事這個領(lǐng)域的小伙伴都會想要找一些機(jī)器學(xué)習(xí)的項目來進(jìn)行練手，做項目好比練題，孰能生巧，能夠在機(jī)器學(xué)習(xí)這個領(lǐng)域獲取更多的知識和技能。

本篇目錄：

1、20個機(jī)器學(xué)習(xí)庫和框架

2、機(jī)器學(xué)習(xí)項目：

語言相關(guān)
計算機(jī)視覺
圖像處理
自然語言處理
預(yù)測
圖像處理
風(fēng)格轉(zhuǎn)移
圖像分類
人臉識別
物體檢測
自動駕駛
游戲AI
國際象棋AI
醫(yī)療AI
演講AI

3、數(shù)據(jù)集

經(jīng)典數(shù)據(jù)集
圖像處理
情感分析
自然語言處理
音頻數(shù)據(jù)集
自動駕駛

機(jī)器學(xué)習(xí)庫和框架

01 TensorFlow

TensorFlow是一個采用數(shù)據(jù)流圖（data flow graphs），用于數(shù)值計算的開源軟件庫。

最初是由研究人員和工程師在Google機(jī)器智能研究組織的Google Brain團(tuán)隊中開發(fā)的。

用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究，但這個系統(tǒng)的通用性使其也可廣泛用于其他計算領(lǐng)域。

貢獻(xiàn)者：1978，提交：55315，星級：127129。

Github網(wǎng)址： Tensorflow

https://www./

02 Scikit-learn

scikit-learn 是基于 Python 語言的機(jī)器學(xué)習(xí)工具。

它是一個簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具，可供大家在各種環(huán)境中重復(fù)使用，建立在 NumPy ，SciPy 和 matplotlib 上，開源，可商業(yè)使用 - BSD許可證。

貢獻(xiàn)者：1303，提交：23978，星星：34958

Github URL： Scikit-learn

http:///

03 Keras

Keras是一個高層神經(jīng)網(wǎng)絡(luò)API，由python編寫，能夠在TensorFlow，CNTK或Theano之上運行。

keras具有高度模塊化，極簡，和可擴(kuò)充特性，支持CNN和RNN，或二者的結(jié)合，無縫CPU和GPU切換。

貢獻(xiàn)者：795，提交：5110，星星：40986

Github網(wǎng)址： Keras

https:///

04 PyTorch

Pytorch是Facebook的AI研究團(tuán)隊發(fā)布了一個Python工具包,是Python優(yōu)先的深度學(xué)習(xí)框架。

作為numpy的替代品;使用強大的GPU能力,提供最大的靈活性和速度,實現(xiàn)了機(jī)器學(xué)習(xí)。

貢獻(xiàn)者：1034，提交：17856，星星：27849

Github URL： pytorch

http://pytorch.org/

05 Theano

Theano是一個Python庫，允許您定義，優(yōu)化和有效地評估涉及多維數(shù)組的數(shù)學(xué)表達(dá)式。

它建立在NumPy之上，與Numpy緊密集成，具有透明使用GPU，有效符號區(qū)分，動態(tài)C代碼生成等優(yōu)點。

貢獻(xiàn)者：333，提交：28080，星星：8782

Github網(wǎng)址： Theano

http:///software/theano/

06 Gensim

是一個免費的Python庫，具有可擴(kuò)展的統(tǒng)計語義，分析語義結(jié)構(gòu)的純文本文檔，檢索語義相似的文檔等功能。

貢獻(xiàn)者：313，提交：3810，星星：9153

Github網(wǎng)址： Gensim

https:///gensim/

07 NuPIC

Taylor 說，許多機(jī)器學(xué)習(xí)算法無法適應(yīng)新模式，而 NuPIC 的運作接近于人腦。

nupic是一個在github上開源了的AI算法平臺，相比于深度學(xué)習(xí)，其更為接近人類大腦的運行結(jié)構(gòu)。

其算法的理論依據(jù)，就是純粹的生物神經(jīng)學(xué)知識，類似突觸連接與分解，神經(jīng)元，多個腦皮層的交互，動作電位等等。工程實現(xiàn)也基于此。

貢獻(xiàn)者：87，提交：6623，星星：5902

Github URL： NuPIC

http:///

08 Neon

Neon是Nervana開發(fā)的基于Python的深度學(xué)習(xí)庫。它易于使用，同時性能也處于最高水準(zhǔn)。

貢獻(xiàn)者：77，提交：1117，星星：3763

Github URL： Neon

http://neon./

09 Nilearn

Nilearn是一個Python模塊，用于快速簡便地統(tǒng)計NeuroImaging數(shù)據(jù)。

它利用scikit-learn Python工具箱進(jìn)行多變量統(tǒng)計，并使用預(yù)測建模，分類，解碼或連接分析等應(yīng)用程序。

貢獻(xiàn)者：88，提交：7610，星星：520

Github網(wǎng)址： Nilearn

https://nilearn./

10 Caffe

Caffe是一個深刻的學(xué)習(xí)框架，以表達(dá)，速度和模塊化為基礎(chǔ)。它由伯克利視覺和學(xué)習(xí)中心（ BVLC）和社區(qū)貢獻(xiàn)者開發(fā)。

貢獻(xiàn)者：266，提交：4154，星星：28032

Github網(wǎng)址： Caffe

http://caffe./

11 Chainer

chainer是一種基于python的靈活框架，用于輕松直觀地編寫復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)，適用于深度學(xué)習(xí)模型。

利用chainer可以輕松使用多GPU實例進(jìn)行訓(xùn)練，還會自動記錄結(jié)果、圖表損失和精度并生成用于使用計算圖來可視化神經(jīng)網(wǎng)絡(luò)的輸出。

貢獻(xiàn)者：227，提交：26266，星星：4772

Github URL： Chainer

http:///

12 Statsmodels

Statsmodels 是一個Python模塊，允許用戶瀏覽數(shù)據(jù)，估計統(tǒng)計模型和執(zhí)行統(tǒng)計測試。

描述性統(tǒng)計，統(tǒng)計測試，繪圖函數(shù)和結(jié)果統(tǒng)計的廣泛列表可用于不同類型的數(shù)據(jù)和每個估算器。

貢獻(xiàn)者：182，提交：11544，星星：3882

Github URL： Statsmodels

http://statsmodels./

13 Shogun

是機(jī)器學(xué)習(xí)工具箱，提供各種統(tǒng)一和高效的機(jī)器學(xué)習(xí)（ML）方法.工具箱無縫地允許輕松組合多個數(shù)據(jù)表示，算法類和通用工具。

貢獻(xiàn)者：158，提交：16977，星星：2444

Github URL： Shogun

http:///

14 Pylearn2

Pylearn2是一個機(jī)器學(xué)習(xí)庫，它的大部分功能都建立在 Theano之上。

這意味著你可以使用數(shù)學(xué)表達(dá)式編寫Pylearn2插件（新模型，算法等），Theano會優(yōu)化和穩(wěn)定這些表達(dá)式，并將它們編譯為你選擇的后端（CPU或GPU）。

貢獻(xiàn)者：113，提交：7119，星星：2666

Github URL： Pylearn2

http:///software/pylearn2/

15 Annoy

Annoy是一個帶有Python綁定的C ++庫，用于搜索空間中接近給定查詢點的點。

它還創(chuàng)建了大型只讀基于文件的數(shù)據(jù)結(jié)構(gòu)，這些數(shù)據(jù)結(jié)構(gòu)映射到內(nèi)存中，以便許多進(jìn)程可以共享相同的數(shù)據(jù)。

貢獻(xiàn)者：43，提交：645，星星：5346

Github URL： Annoy

https://pypi./pypi/annoy

16 PyBrain

PyBrain是一個用于Python的模塊化機(jī)器學(xué)習(xí)庫，其目標(biāo)是為機(jī)器學(xué)習(xí)任務(wù)和各種預(yù)定義環(huán)境提供靈活，易用且功能強大的算法。

貢獻(xiàn)者：31，提交：1124，星星：804

Github URL： PyBrain

http:///

17 Fuel

是一個數(shù)據(jù)管道框架，可為機(jī)器學(xué)習(xí)模型提供所需的數(shù)據(jù)。

貢獻(xiàn)者：32（10％以上），提交：1116，

Github URL： Fuel

https://fuel./

18 Orange3

Orange3是新手和專家的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化工具，具有大型工具箱的交互式數(shù)據(jù)分析工作流程。

貢獻(xiàn)者：71，提交：10651，星星：1780

Github網(wǎng)址： Orange3

https://pymc-devs./pymc/README.html

19 Pymc

Pymc是一個python模塊，它實現(xiàn)貝葉斯統(tǒng)計模型和擬合算法，包括馬爾可夫鏈蒙特卡羅。其靈活性和可擴(kuò)展性使其適用于大量問題。

貢獻(xiàn)者：40，提交：2726，星星：818

Github URL： Pymc

https://pymc-devs./

20 Deap

Deap是一種新穎的進(jìn)化計算框架，用于快速原型設(shè)計和思想測試。

它旨在使算法明確，數(shù)據(jù)結(jié)構(gòu)透明，與多處理和 SCOOP等并行機(jī)制完美協(xié)調(diào) 。

貢獻(xiàn)者：44，提交：1982，星星：2845

Github網(wǎng)址： Deap

https://pypi./pypi/deap

各類機(jī)器學(xué)習(xí)項目

01 語言相關(guān)

1.python語言相關(guān)

網(wǎng)址：https://github.com/vinta/awesome-python

2.hph語言相關(guān)

網(wǎng)址：https://github.com/ziadoz/awesome-php

3.java語言相關(guān)

網(wǎng)址：https://github.com/akullpp/awesome-java

4.nodejs相關(guān)

網(wǎng)址：https://github.com/sindresorhus/awesome-nodejs

5.ios相關(guān)

網(wǎng)址：https://github.com/vsouza/awesome-ios

6.android相關(guān)

網(wǎng)址：https://github.com/snowdream/awesome-android

7.shell相關(guān)

網(wǎng)址：https://github.com/alebcay/awesome-shell

8.spider相關(guān)

網(wǎng)址：https://github.com/facert/awesome-spider

9.go相關(guān)

網(wǎng)址：https://github.com/avelino/awesome-go

02 計算機(jī)視覺

1.計算機(jī)視覺的資源列表

網(wǎng)址：http:///RwjDvTD

2.計算機(jī)視覺的深度學(xué)習(xí)資源的精選列表

網(wǎng)址：http:///RLvTzjn

03 自然語言處理

1.學(xué)習(xí)溝通

概述新的OpenAI研究，開發(fā)自己的語言。

網(wǎng)址：http:///EKba21p

2.自然語言處理

專門針對自然語言處理（NLP）的精選資源列表。

網(wǎng)址：https://github.com/keon/awesome-nlp

3.一種新穎的神經(jīng)機(jī)器翻譯方法

使用一種新穎的卷積神經(jīng)網(wǎng)絡(luò)（CNN）語言翻譯方法發(fā)表了研究成果，該方法以復(fù)現(xiàn)神經(jīng)系統(tǒng)速度的九倍達(dá)到了最先進(jìn)的精度。

網(wǎng)址：http:///EKbKKaa

4.如何在沒有真正嘗試的情況下制造種族主義者的AI

制作一個情緒分類器。

網(wǎng)址：http:///RKN4XpX

04 預(yù)測

1.uber時間序列預(yù)測的神經(jīng)網(wǎng)絡(luò)工程不確定性估計

介紹一種新的端到端貝葉斯神經(jīng)網(wǎng)絡(luò)（BNN）架構(gòu)，可以更準(zhǔn)確地預(yù)測時間序列預(yù)測和大規(guī)模的不確定性估計。

網(wǎng)址：http:///RpqIwnF

2.如何輕松預(yù)測股票價格

網(wǎng)址：http:///RiLyUGN

05 圖像處理

1.高分辨率圖像合成與條件GAN的語義處理

提出了一種使用條件生成對抗網(wǎng)絡(luò)（條件GAN）從語義標(biāo)簽圖合成高分辨率照片真實圖像的新方法。

網(wǎng)址：http:///EK4NHTw

2.使用OpenCV（Python）進(jìn)行高動態(tài)范圍（HDR）成像

學(xué)習(xí)如何使用不同曝光設(shè)置拍攝的多張圖像創(chuàng)建高動態(tài)范圍（HDR）圖像。

網(wǎng)址：http:///EK4pgjj

06 風(fēng)格轉(zhuǎn)移

1.通過深度圖像類比轉(zhuǎn)換視覺屬性

用于跨圖像的視覺屬性傳遞的新技術(shù)，通過視覺屬性轉(zhuǎn)移，將視覺信息（例如顏色，色調(diào)，紋理和樣式）從一個圖像轉(zhuǎn)移到另一個圖像。

網(wǎng)址：http:///EK48MYY

2.深度照片風(fēng)格轉(zhuǎn)換

本文介紹了一種深度學(xué)習(xí)的攝影風(fēng)格轉(zhuǎn)換方法，可以處理各種圖像內(nèi)容，同時忠實地傳遞參考風(fēng)格。

網(wǎng)址：http:///EK4uR8l

3.深度圖像優(yōu)先

本文表明, 深度網(wǎng)絡(luò)的結(jié)構(gòu)足以在任何學(xué)習(xí)之前捕捉大量的低級圖像統(tǒng)計數(shù)據(jù)。隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)可以作為手工制作的優(yōu)先在標(biāo)準(zhǔn)的逆問題, 如去噪, 超分辨率。

網(wǎng)址：http:///EK43mZA

07 圖像分類

1.特征可視化：神經(jīng)網(wǎng)絡(luò)如何建立對圖像的理解

非常簡單的方法可以產(chǎn)生高質(zhì)量的可視化。本文介紹了一些技巧，用于探索神經(jīng)元反應(yīng)的變化，它們?nèi)绾蜗嗷プ饔靡约叭绾胃倪M(jìn)優(yōu)化過程。

網(wǎng)址：http:///EKbvwWM

2.絕對新手的神經(jīng)網(wǎng)絡(luò)圖像分類指南

使用機(jī)器學(xué)習(xí)來高度確定地預(yù)測數(shù)據(jù)/未經(jīng)訓(xùn)練的樣本中的圖像。

網(wǎng)址：http:///EKbPjVM

08 人臉識別

1.通過直接體積CNN回歸從單個圖像重建大姿態(tài)三維人臉

3D人臉重建是一個非常困難的計算機(jī)視覺基礎(chǔ)問題。本文建議通過在由2D圖像和3D面部模型或掃描組成的適當(dāng)數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（CNN）來解決許多這些限制。

網(wǎng)址：http:///EKbAgH1

2.使用OpenCV，Python和dlib進(jìn)行眨眼檢測

網(wǎng)址：http:///EKbLPUb

3.使用面部檢測在Python中處理它

程序?qū)⒉捎妹钚袇?shù)，即輸入圖像。然后，它將使用Dlib中的面部檢測算法來查看是否有任何面部。如果有，它將為每個面部創(chuàng)建一個結(jié)束位置。

網(wǎng)址：http:///EKb4jEx

09 物體檢測

1.對象檢測：深度學(xué)習(xí)時代的概述

快速了解對象檢測中最常見的問題，深入了解實際應(yīng)用的細(xì)節(jié)，并了解如何解決它的方法。

網(wǎng)址：http:///RNf1Ap9

2.使用深度學(xué)習(xí)和OpenCV進(jìn)行實時對象檢測

使用深度學(xué)習(xí)和OpenCV應(yīng)用實時對象檢測來處理視頻流和視頻文件。

網(wǎng)址：http:///EKbc32W

10 自動駕駛

1.使用Python自動駕駛俠盜獵車手

探索使用Python玩Grand Theft Auto 5，主要用于創(chuàng)建自動駕駛汽車和其他車輛。

網(wǎng)址：https://github.com/sentdex/pygta5

2.AirSim

是微軟的開源自動駕駛仿真平臺這里主要用于自動駕駛仿真研究。

網(wǎng)址：https://github.com/Microsoft/AirSim

11 游戲AI

1.OpenAI Baselines：DQN

重現(xiàn)強化學(xué)習(xí)算法，RL算法實現(xiàn)的一些最佳實踐。

網(wǎng)址：http:///EKGo4YB

2.Dota 2強化學(xué)習(xí)

創(chuàng)造一個機(jī)器人，在標(biāo)準(zhǔn)比賽規(guī)則下，在Dota 2的 1v1比賽中擊敗世界頂級專業(yè)人士。機(jī)器人通過自我游戲從頭開始學(xué)習(xí)游戲，并且不使用模仿學(xué)習(xí)或樹搜索。

網(wǎng)址：http:///EKG9cTE

3.創(chuàng)建AI DOOM bot

利用VizDoom平臺進(jìn)行基于強化的深度學(xué)習(xí)的探索之旅。目標(biāo)是創(chuàng)建一個能夠在死亡競賽環(huán)境中茁壯成長的Doom AI。

網(wǎng)址:http:///EKGNxCL

4.用于字符控制的相功能神經(jīng)網(wǎng)絡(luò)

使用一種稱為“相位神經(jīng)網(wǎng)絡(luò)”的新型神經(jīng)網(wǎng)絡(luò)來創(chuàng)建適合游戲的角色控制器。

網(wǎng)址：http:///EKGpsY7

5.游戲模仿：用于快速視頻游戲AI的深度監(jiān)督卷積網(wǎng)絡(luò)

提出了一種僅用于游戲AI的視覺模型，它使用在純粹受監(jiān)督的模仿學(xué)習(xí)環(huán)境中訓(xùn)練的后期集成深度卷積網(wǎng)絡(luò)架構(gòu)。

網(wǎng)址：http:///EKGWXJd

12 國際象棋AI

1.掌握國際象棋和將棋

利用強化學(xué)習(xí)算法通過自學(xué)習(xí)掌握國際象棋和將棋。

網(wǎng)址：http:///EKG85YH

2.AlphaGo Zero：從頭學(xué)習(xí)| DeepMind

本文介紹了AlphaGo Zero，它是AlphaGo的最新發(fā)展，以前版本的AlphaGo最初訓(xùn)練過成千上萬的人類業(yè)余和專業(yè)游戲，以學(xué)習(xí)如何玩Go。AlphaGo Zero跳過這一步，從完全隨機(jī)的游戲開始，只是通過玩游戲來學(xué)習(xí)玩游戲。

網(wǎng)址：http:///EKGEvDs

http:///RWY4GZy

13 醫(yī)療AI

1.CheXNet：放射學(xué)家檢測胸部X射線與深度學(xué)習(xí)的肺炎

模型CheXNet是一個121層的卷積神經(jīng)網(wǎng)絡(luò)，輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。

網(wǎng)址：http:///EKGuyqG

2.你能改善肺癌的檢測嗎？

Kaggle舉辦的競賽的解決方案的部分內(nèi)容，挑戰(zhàn)的目標(biāo)是在給定一組CT圖像的情況下預(yù)測患者肺癌的發(fā)展。

網(wǎng)址：http:///EKG3LBJ

3.通過深度學(xué)習(xí)改善姑息治療 - Andrew Ng

使用深度學(xué)習(xí)建立一個程序，通過檢查患者的電子健康記錄數(shù)據(jù)，在接下來的3-12個月內(nèi)識別出具有高死亡風(fēng)險的住院患者。

網(wǎng)址：http:///EKG13tt

14 演講AI

1.Tacotron

Tacotron，一種端到端的生成文本到語音模型，它直接從字符合成語音。

網(wǎng)址：http:///EKGdip1

2.CTC序列建模

用CTC進(jìn)行序列建模，用于在語音識別，手寫識別和其他序列問題中訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的算法。

鏈接：http:///EKGgtQs

3.深度語音

Deep Voice，一種完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建實現(xiàn)文本到語音的系統(tǒng)。該系統(tǒng)包括五個主要構(gòu)建塊，通過為每個組件使用神經(jīng)網(wǎng)絡(luò)，系統(tǒng)比傳統(tǒng)的文本到語音系統(tǒng)更簡單，更靈活。

網(wǎng)址：http:///EKGk93S

4.Siri's Voice的深度學(xué)習(xí)

Siri語音的深度學(xué)習(xí)：用于混合單元選擇綜合的設(shè)備深度混合密度網(wǎng)絡(luò)

網(wǎng)址：http:///EKGFZB5

用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集

01 經(jīng)典數(shù)據(jù)集

1.Iris鳶尾花卉數(shù)據(jù)集150分類和聚類

鏈接：http:///EKaE0uv

2.Adult美國人口普查數(shù)據(jù)48842分類和聚類

鏈接：http:///zlvhR8S

3.Wine葡萄酒數(shù)據(jù)178分類和聚類

鏈接：http:///EKan9Az

4.20 Newsgroups新聞數(shù)據(jù)集19997文本分類和聚類

鏈接：http://qwone/20Newsgroups/

5.MovieLens電影評分的數(shù)據(jù)集26000000推薦系統(tǒng)

鏈接：https://datasets/movielens/

6.MNIST手寫字識別數(shù)據(jù)集70000手寫字識別

鏈接：http://exdb/mnist/

02 圖像處理

1.Labelled Faces in the Wild：13000 張貼有標(biāo)簽的人臉圖像，用于開發(fā)涉及人臉識別的應(yīng)用。

鏈接：http://vis-www.cs./lfw/

2.Stanford Dogs Dataset：包含 20580 個圖像和 120 個不同品種的狗類別。

鏈接：http:///zTNMWy3

3.Labelme：注釋圖像的大數(shù)據(jù)集。

鏈接：http:///EKq2lMr

4.ImageNet：根據(jù) WordNet 層次結(jié)構(gòu)來組織，其中層次結(jié)構(gòu)的每個節(jié)點都由成百上千個圖像來描述。

鏈接：http:///

5.LSUN：場景理解和許多輔助任務(wù)（房間布局估計、顯著性預(yù)測等）。

鏈接：http://lsun.cs./2016/

6.MS COCO：ImageNet 之外另一個常用的圖像數(shù)據(jù)集，包含通用圖像理解和注釋。

鏈接：http:///

7.COIL100：100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像。

鏈接：http:///EKqLjzo

8.Visual Genome：非常詳細(xì)的視覺知識庫，配有約 100K 個圖像的注釋。

鏈接：http:///

9.Google's Open Images：Creative Commons 下的 900 萬個圖片的網(wǎng)址集合。

鏈接：http:///EKqyzQF

10.Indoor Scene Recognition：包含 67 個室內(nèi)類別，總共 15620 個圖像。

鏈接：http://web./torralba/www/indoor.html

03 情感分析

1.Multidomain Sentiment analysis dataset：有點舊的一個數(shù)據(jù)集，以亞馬遜的產(chǎn)品評論為特色。

鏈接：http:///R6yTsJV

2.IMDB reviews：用于二進(jìn)制情感分類的較舊的、相對較小的數(shù)據(jù)集，具有 25000 個電影評論。

鏈接：http:///EKq5nB1

3.Stanford Sentiment Treebank：帶有情感注釋的標(biāo)準(zhǔn)情感數(shù)據(jù)集。

鏈接：http:///EKq5sUY

4.Sentiment140：一個流行的數(shù)據(jù)集，使用 16 萬條預(yù)先刪除表情符號的推文

鏈接：http:///EKqtUAC

5.Twitter US Airline Sentiment：2015 年 2 月以來美國航空公司的推特數(shù)據(jù)，分為正面、負(fù)面和中性。

鏈接：http:///EKqtiAY

04 自然語言處理

1.Jeopardy：機(jī)智問答節(jié)目 Jeopardy 中存檔的 20 多萬個問題。

鏈接：http:///EKqGyIB

2.SMS Spam Collection in English：由 5574 條英文短信垃圾郵件組成的數(shù)據(jù)集。鏈接：http:///EKqbg3h

3.Yelp Reviews：Yelp 發(fā)布的開放數(shù)據(jù)集包含 500 多萬條評論。

鏈接：https://www./dataset

4.UCI's Spambase：大型垃圾郵件數(shù)據(jù)集，可用于垃圾郵件過濾。

鏈接：http:///EKqbT7z

5.Enron Dataset：Enron 公司高層管理人員的電子郵件數(shù)據(jù)，整理成文件夾。

鏈接：https://www.cs./~./enron/

6.Amazon Reviews：包含來自亞馬遜長達(dá) 18 年的約 3500 萬條評論。數(shù)據(jù)包括產(chǎn)品和用戶信息、評級和明文審查。

鏈接：http:///RhpYJUu

7.Google Books Ngrams：Google 書籍中的詞匯集合。

鏈接：http:///EKqq3Jh

8.Blogger Corpus：從 blogger . com 收集的 681288 篇博客文章。每個博客至少包含 200 個常用英語單詞。

鏈接：http:///EKqqAHL

9.Wikipedia Links data：維基百科全文。數(shù)據(jù)集包含 400 多萬篇文章中的近 19 億字。你可以根據(jù)單詞、短語或段落本身的一部分進(jìn)行搜索。

鏈接：http:///EKqGrJr

10.Gutenberg eBooks List：古騰堡計劃電子書注釋清單。

鏈接：http:///EKqGOfk

11.Hansards text chunks of Canadian Parliament：加拿大第 36 屆國會記錄 130 萬對文本。

鏈接：http:///EKqGJai

05 音頻數(shù)據(jù)集

1.TIMIT，英文語音識別數(shù)據(jù)集，包含630個揚聲器的寬帶錄音，八個主要方言的美式英語，每個閱讀十個語音豐富的句子。

鏈接：https://catalog.ldc.

2.CHIME，包含環(huán)境噪音的用于語音識別挑戰(zhàn)賽的數(shù)據(jù)集。

鏈接：http://chime_challenge

3.大型音樂分析數(shù)據(jù)集FMA

鏈接：https://github.com/mdeff/fma

4.音頻數(shù)據(jù)集AudioSet

鏈接：https://audioset/ontology

5.2000 HUB5 English Evaluation Transcripts，僅包含英語的語音數(shù)據(jù)集

鏈接：https://catalog.ldc.upenn

6.LibriSpeech，包含文本和語音的有聲讀物數(shù)據(jù)集，由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。

鏈接：http://www./12/

7.VoxForge，帶口音的語音清潔數(shù)據(jù)集

鏈接：http://www./

06 自動駕駛

1.Cityscape Dataset：記錄 50 個不同城市街道場景的大型數(shù)據(jù)集。

鏈接：https://www./

2.CSSAD Dataset：該數(shù)據(jù)集可用于自主車輛的感知和導(dǎo)航。數(shù)據(jù)集在發(fā)達(dá)國家的道路上出現(xiàn)嚴(yán)重偏差。

鏈接：http:///R97oqgG

3.KUL Belgium Traffic Sign Dataset：比利時佛蘭德區(qū)數(shù)以千計截然不同的超過 10000 個的交通標(biāo)志標(biāo)注。

鏈接：http:///EKq40MF

4.Berkeley DeepDrive BDD100k：目前最大的自動駕駛?cè)斯ぶ悄軘?shù)據(jù)集。

鏈接：http://bdd-data./

5.Baidu Apolloscapes：百度 Apollo 計劃開放的大規(guī)模自動駕駛數(shù)據(jù)集。它定義了 26 個不同語義項目，如汽車、自行車、行人、建筑物、路燈等。

鏈接：http://to/

6.Comma.ai：7 小時以上的公路行駛體驗。詳細(xì)信息包括車速、加速度、轉(zhuǎn)向角和 GPS 坐標(biāo)。

鏈接：https:///details/comma-dataset

7.Oxford's Robotic Car：一年內(nèi)在英國牛津同一條路線重復(fù) 100 多次的行駛。數(shù)據(jù)集捕捉天氣、交通和行人的不同組合，以及建筑和道路工程等長期變化。

鏈接：http://robotcar-dataset.robots./

8.MIT AGE Lab：在 AgeLab 收集的 1000 多個小時的多傳感器驅(qū)動數(shù)據(jù)集樣本。

鏈接：http:///carsync/

9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets：此數(shù)據(jù)集包括交通標(biāo)志、車輛檢測、交通燈和軌跡模式。

鏈接：http://cvrr./LISA/datasets.html

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： heii2 > 《編程》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

heii2

關(guān)注對話

TA的最新館藏

廣式牛腩的制作
泡出的川味（二）泡菜的冤屈
甜筒鮭魚,生焗跳跳骨,老鹽菜爆深海脆螺片,紅藜麥焗深海大蝦球,荷花藕泥...創(chuàng)意存于細(xì)節(jié)中創(chuàng)意菜品10例
精辟！一個處長眼里“最值錢”的10條處事原則！越早知道越好！
深度好文：階級躍遷的核心策略
資治通鑒：領(lǐng)導(dǎo)安排了陷阱任務(wù)，該如何避免擔(dān)責(zé)

喜歡該文的人也喜歡更多

熱門閱讀換一換

2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

史上最全實戰(zhàn)資源，機(jī)器學(xué)習(xí)框架、高分練手項目及數(shù)據(jù)集匯總

03 自然語言處理

04 預(yù)測

05 圖像處理

06 風(fēng)格轉(zhuǎn)移

07 圖像分類

08 人臉識別

09 物體檢測

網(wǎng)址：http:///EKbc32W

11 游戲AI

12 國際象棋AI

13 醫(yī)療AI

模型CheXNet是一個121層的卷積神經(jīng)網(wǎng)絡(luò)，輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。

14 演講AI

Siri語音的深度學(xué)習(xí)：用于混合單元選擇綜合的設(shè)備深度混合密度網(wǎng)絡(luò)

網(wǎng)址：http:///EKGFZB5

史上最全實戰(zhàn)資源，機(jī)器學(xué)習(xí)框架、高分練手項目及數(shù)據(jù)集匯總

模型CheXNet是一個121層的卷積神經(jīng)網(wǎng)絡(luò)，輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。