2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

史上最全實戰(zhàn)資源,機(jī)器學(xué)習(xí)框架、高分練手項目及數(shù)據(jù)集匯總

 heii2 2019-05-16

機(jī)器學(xué)習(xí)領(lǐng)域,最常討論到的一個話題就是機(jī)器學(xué)習(xí)項目。

學(xué)習(xí)或從事這個領(lǐng)域的小伙伴都會想要找一些機(jī)器學(xué)習(xí)的項目來進(jìn)行練手,做項目好比練題,孰能生巧,能夠在機(jī)器學(xué)習(xí)這個領(lǐng)域獲取更多的知識和技能。

本篇目錄:

1、20個機(jī)器學(xué)習(xí)庫和框架

2、機(jī)器學(xué)習(xí)項目:

  • 語言相關(guān)

  • 計算機(jī)視覺

  • 圖像處理

  • 自然語言處理

  • 預(yù)測

  • 圖像處理

  • 風(fēng)格轉(zhuǎn)移

  • 圖像分類

  • 人臉識別

  • 物體檢測

  • 自動駕駛

  • 游戲AI

  • 國際象棋AI

  • 醫(yī)療AI

  •  演講AI

3、數(shù)據(jù)集

  • 經(jīng)典數(shù)據(jù)集

  • 圖像處理

  • 情感分析

  • 自然語言處理

  • 音頻數(shù)據(jù)集

  • 自動駕駛

機(jī)器學(xué)習(xí)庫和框架

01 TensorFlow    

TensorFlow是一個采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計算的開源軟件庫。

最初是由研究人員和工程師在Google機(jī)器智能研究組織的Google Brain團(tuán)隊中開發(fā)的。

用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究,但這個系統(tǒng)的通用性使其也可廣泛用于其他計算領(lǐng)域。

貢獻(xiàn)者:1978,提交:55315,星級:127129。

Github網(wǎng)址: Tensorflow

https://www./

02 Scikit-learn  

scikit-learn 是基于 Python 語言的機(jī)器學(xué)習(xí)工具。

它是一個簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可供大家在各種環(huán)境中重復(fù)使用,建立在 NumPy ,SciPy 和 matplotlib 上,開源,可商業(yè)使用 - BSD許可證。

貢獻(xiàn)者:1303,提交:23978,星星:34958

Github URL:  Scikit-learn

http:///

03 Keras

Keras是一個高層神經(jīng)網(wǎng)絡(luò)API,由python編寫,能夠在TensorFlow,CNTK或Theano之上運行。

keras具有高度模塊化,極簡,和可擴(kuò)充特性,支持CNN和RNN,或二者的結(jié)合,無縫CPU和GPU切換。

貢獻(xiàn)者:795,提交:5110,星星:40986

Github網(wǎng)址: Keras

https:///

04 PyTorch

Pytorch是Facebook的AI研究團(tuán)隊發(fā)布了一個Python工具包,是Python優(yōu)先的深度學(xué)習(xí)框架。

作為numpy的替代品;使用強大的GPU能力,提供最大的靈活性和速度,實現(xiàn)了機(jī)器學(xué)習(xí)。

貢獻(xiàn)者:1034,提交:17856,星星:27849

Github URL: pytorch

http://pytorch.org/

05 Theano

Theano是一個Python庫,允許您定義,優(yōu)化和有效地評估涉及多維數(shù)組的數(shù)學(xué)表達(dá)式。

建立在NumPy之上,與Numpy緊密集成,具有透明使用GPU,有效符號區(qū)分,動態(tài)C代碼生成等優(yōu)點。

貢獻(xiàn)者:333,提交:28080,星星:8782

Github網(wǎng)址: Theano

http:///software/theano/

06 Gensim  

是一個免費的Python庫,具有可擴(kuò)展的統(tǒng)計語義,分析語義結(jié)構(gòu)的純文本文檔,檢索語義相似的文檔等功能。


貢獻(xiàn)者:313,提交:3810,星星:9153

Github網(wǎng)址: Gensim

https:///gensim/

07 NuPIC 

Taylor 說,許多機(jī)器學(xué)習(xí)算法無法適應(yīng)新模式,而 NuPIC 的運作接近于人腦。

nupic是一個在github上開源了的AI算法平臺,相比于深度學(xué)習(xí),其更為接近人類大腦的運行結(jié)構(gòu)。

其算法的理論依據(jù),就是純粹的生物神經(jīng)學(xué)知識,類似突觸連接與分解,神經(jīng)元,多個腦皮層的交互,動作電位等等。工程實現(xiàn)也基于此。

貢獻(xiàn)者:87,提交:6623,星星:5902

Github URL: NuPIC

http:///

08 Neon  

Neon是Nervana開發(fā)的基于Python的深度學(xué)習(xí)庫。它易于使用,同時性能也處于最高水準(zhǔn)。

貢獻(xiàn)者:77,提交:1117,星星:3763

Github URL: Neon

http://neon./

09 Nilearn  

Nilearn是一個Python模塊,用于快速簡便地統(tǒng)計NeuroImaging數(shù)據(jù)。

它利用scikit-learn Python工具箱進(jìn)行多變量統(tǒng)計,并使用預(yù)測建模,分類,解碼或連接分析等應(yīng)用程序。


貢獻(xiàn)者:88,提交:7610,星星:520

Github網(wǎng)址: Nilearn

https://nilearn./

10 Caffe  

Caffe是一個深刻的學(xué)習(xí)框架,以表達(dá),速度和模塊化為基礎(chǔ)。它由伯克利視覺和學(xué)習(xí)中心( BVLC)和社區(qū)貢獻(xiàn)者開發(fā)。

貢獻(xiàn)者:266,提交:4154,星星:28032

Github網(wǎng)址: Caffe

http://caffe./

11 Chainer  

chainer是一種基于python的靈活框架,用于輕松直觀地編寫復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),適用于深度學(xué)習(xí)模型。

利用chainer可以輕松使用多GPU實例進(jìn)行訓(xùn)練,還會自動記錄結(jié)果、圖表損失和精度并生成用于使用計算圖來可視化神經(jīng)網(wǎng)絡(luò)的輸出。

貢獻(xiàn)者:227,提交:26266,星星:4772

Github URL: Chainer

http:///

12 Statsmodels  

Statsmodels 是個Python模塊,允許用戶瀏覽數(shù)據(jù),估計統(tǒng)計模型和執(zhí)行統(tǒng)計測試。

描述性統(tǒng)計,統(tǒng)計測試,繪圖函數(shù)和結(jié)果統(tǒng)計的廣泛列表可用于不同類型的數(shù)據(jù)和每個估算器。


貢獻(xiàn)者:182,提交:11544,星星:3882

Github URL: Statsmodels

http://statsmodels./

13 Shogun  

是機(jī)器學(xué)習(xí)工具箱,提供各種統(tǒng)一和高效的機(jī)器學(xué)習(xí)(ML)方法.工具箱無縫地允許輕松組合多個數(shù)據(jù)表示,算法類和通用工具。 


貢獻(xiàn)者:158,提交:16977,星星:2444

Github URL: Shogun

http:///

14 Pylearn2

Pylearn2是一個機(jī)器學(xué)習(xí)庫,它的大部分功能都建立在 Theano之上 。

這意味著你可以使用數(shù)學(xué)表達(dá)式編寫Pylearn2插件(新模型,算法等),Theano會優(yōu)化和穩(wěn)定這些表達(dá)式,并將它們編譯為你選擇的后端(CPU或GPU)。 


貢獻(xiàn)者:113,提交:7119,星星:2666

Github URL: Pylearn2

http:///software/pylearn2/

15 Annoy 

Annoy是一個帶有Python綁定的C ++庫,用于搜索空間中接近給定查詢點的點。

它還創(chuàng)建了大型只讀基于文件的數(shù)據(jù)結(jié)構(gòu),這些數(shù)據(jù)結(jié)構(gòu)映射到內(nèi)存中,以便許多進(jìn)程可以共享相同的數(shù)據(jù)。 

貢獻(xiàn)者:43,提交:645,星星:5346

Github URL: Annoy

https://pypi./pypi/annoy

16 PyBrain  

PyBrain是一個用于Python的模塊化機(jī)器學(xué)習(xí)庫,其目標(biāo)是為機(jī)器學(xué)習(xí)任務(wù)和各種預(yù)定義環(huán)境提供靈活,易用且功能強大的算法。


貢獻(xiàn)者:31,提交:1124,星星:804

Github URL: PyBrain

http:///

17 Fuel  

是一個數(shù)據(jù)管道框架,可為機(jī)器學(xué)習(xí)模型提供所需的數(shù)據(jù)。


貢獻(xiàn)者:32(10%以上),提交:1116,

Github URL: Fuel

https://fuel./

18 Orange3  

Orange3是新手和專家的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化工具,具有大型工具箱的交互式數(shù)據(jù)分析工作流程。 

貢獻(xiàn)者:71,提交:10651,星星:1780

Github網(wǎng)址: Orange3

https://pymc-devs./pymc/README.html

19 Pymc  

Pymc是一個python模塊,它實現(xiàn)貝葉斯統(tǒng)計模型和擬合算法,包括馬爾可夫鏈蒙特卡羅。其靈活性和可擴(kuò)展性使其適用于大量問題。 

貢獻(xiàn)者:40,提交:2726,星星:818

Github URL: Pymc

https://pymc-devs./

20 Deap

Deap是一種新穎的進(jìn)化計算框架,用于快速原型設(shè)計和思想測試。

它旨在使算法明確,數(shù)據(jù)結(jié)構(gòu)透明,與多處理和 SCOOP等并行機(jī)制完美協(xié)調(diào) 。 

貢獻(xiàn)者:44,提交:1982,星星:2845

Github網(wǎng)址: Deap

https://pypi./pypi/deap

各類機(jī)器學(xué)習(xí)項目

01 語言相關(guān)

1.python語言相關(guān)

網(wǎng)址https://github.com/vinta/awesome-python

2.hph語言相關(guān)

網(wǎng)址:https://github.com/ziadoz/awesome-php

3.java語言相關(guān)

網(wǎng)址:https://github.com/akullpp/awesome-java

4.nodejs相關(guān)

網(wǎng)址https://github.com/sindresorhus/awesome-nodejs

5.ios相關(guān)

網(wǎng)址https://github.com/vsouza/awesome-ios

6.android相關(guān)

網(wǎng)址:https://github.com/snowdream/awesome-android

7.shell相關(guān)

網(wǎng)址https://github.com/alebcay/awesome-shell

8.spider相關(guān)

網(wǎng)址:https://github.com/facert/awesome-spider

9.go相關(guān)

網(wǎng)址:https://github.com/avelino/awesome-go

02 計算機(jī)視覺

1.計算機(jī)視覺的資源列表

網(wǎng)址:http:///RwjDvTD

2.計算機(jī)視覺的深度學(xué)習(xí)資源的精選列表

網(wǎng)址:http:///RLvTzjn


03 自然語言處理

1.學(xué)習(xí)溝通

概述新的OpenAI研究,開發(fā)自己的語言。

網(wǎng)址:http:///EKba21p

2.自然語言處理

專門針對自然語言處理(NLP)的精選資源列表。

網(wǎng)址:https://github.com/keon/awesome-nlp

3.一種新穎的神經(jīng)機(jī)器翻譯方法

使用一種新穎的卷積神經(jīng)網(wǎng)絡(luò)(CNN)語言翻譯方法發(fā)表了研究成果,該方法以復(fù)現(xiàn)神經(jīng)系統(tǒng)速度的九倍達(dá)到了最先進(jìn)的精度。

網(wǎng)址:http:///EKbKKaa

4.如何在沒有真正嘗試的情況下制造種族主義者的AI

制作一個情緒分類器。

網(wǎng)址:http:///RKN4XpX

04 預(yù)測

1.uber時間序列預(yù)測的神經(jīng)網(wǎng)絡(luò)工程不確定性估計

介紹一種新的端到端貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)架構(gòu),可以更準(zhǔn)確地預(yù)測時間序列預(yù)測和大規(guī)模的不確定性估計。

網(wǎng)址:http:///RpqIwnF

2.如何輕松預(yù)測股票價格 

網(wǎng)址:http:///RiLyUGN

05 圖像處理

1.高分辨率圖像合成與條件GAN的語義處理 

提出了一種使用條件生成對抗網(wǎng)絡(luò)(條件GAN)從語義標(biāo)簽圖合成高分辨率照片真實圖像的新方法。

網(wǎng)址:http:///EK4NHTw

2.使用OpenCV(Python)進(jìn)行高動態(tài)范圍(HDR)成像

學(xué)習(xí)如何使用不同曝光設(shè)置拍攝的多張圖像創(chuàng)建高動態(tài)范圍(HDR)圖像。

網(wǎng)址:http:///EK4pgjj

06 風(fēng)格轉(zhuǎn)移

1.通過深度圖像類比轉(zhuǎn)換視覺屬性

用于跨圖像的視覺屬性傳遞的新技術(shù),通過視覺屬性轉(zhuǎn)移,將視覺信息(例如顏色,色調(diào),紋理和樣式)從一個圖像轉(zhuǎn)移到另一個圖像。

網(wǎng)址:http:///EK48MYY

2.深度照片風(fēng)格轉(zhuǎn)換

本文介紹了一種深度學(xué)習(xí)的攝影風(fēng)格轉(zhuǎn)換方法,可以處理各種圖像內(nèi)容,同時忠實地傳遞參考風(fēng)格。

網(wǎng)址:http:///EK4uR8l

3.深度圖像優(yōu)先

本文表明, 深度網(wǎng)絡(luò)的結(jié)構(gòu)足以在任何學(xué)習(xí)之前捕捉大量的低級圖像統(tǒng)計數(shù)據(jù)。 隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)可以作為手工制作的優(yōu)先在標(biāo)準(zhǔn)的逆問題, 如去噪, 超分辨率。

網(wǎng)址:http:///EK43mZA


07 圖像分類

1.特征可視化:神經(jīng)網(wǎng)絡(luò)如何建立對圖像的理解

非常簡單的方法可以產(chǎn)生高質(zhì)量的可視化。本文介紹了一些技巧,用于探索神經(jīng)元反應(yīng)的變化,它們?nèi)绾蜗嗷プ饔靡约叭绾胃倪M(jìn)優(yōu)化過程。

網(wǎng)址:http:///EKbvwWM

2.絕對新手的神經(jīng)網(wǎng)絡(luò)圖像分類指南

使用機(jī)器學(xué)習(xí)來高度確定地預(yù)測數(shù)據(jù)/未經(jīng)訓(xùn)練的樣本中的圖像。

網(wǎng)址:http:///EKbPjVM

08 人臉識別

1.通過直接體積CNN回歸從單個圖像重建大姿態(tài)三維人臉

3D人臉重建是一個非常困難的計算機(jī)視覺基礎(chǔ)問題。本文建議通過在由2D圖像和3D面部模型或掃描組成的適當(dāng)數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)來解決許多這些限制。

網(wǎng)址:http:///EKbAgH1

2.使用OpenCV,Python和dlib進(jìn)行眨眼檢測

網(wǎng)址:http:///EKbLPUb

3.使用面部檢測在Python中處理它

程序?qū)⒉捎妹钚袇?shù),即輸入圖像。然后,它將使用Dlib中的面部檢測算法來查看是否有任何面部。如果有,它將為每個面部創(chuàng)建一個結(jié)束位置。

網(wǎng)址:http:///EKb4jEx

09 物體檢測

1.對象檢測:深度學(xué)習(xí)時代的概述

快速了解對象檢測中最常見的問題,深入了解實際應(yīng)用的細(xì)節(jié),并了解如何解決它的方法。

網(wǎng)址:http:///RNf1Ap9

2.使用深度學(xué)習(xí)和OpenCV進(jìn)行實時對象檢測


使用深度學(xué)習(xí)和OpenCV應(yīng)用實時對象檢測來處理視頻流和視頻文件。

網(wǎng)址:http:///EKbc32W

10 自動駕駛

1.使用Python自動駕駛俠盜獵車手

探索使用Python玩Grand Theft Auto 5,主要用于創(chuàng)建自動駕駛汽車和其他車輛。

網(wǎng)址:https://github.com/sentdex/pygta5

2.AirSim

是微軟的開源自動駕駛仿真平臺這里主要用于自動駕駛仿真研究。

網(wǎng)址:https://github.com/Microsoft/AirSim

11 游戲AI

1.OpenAI Baselines:DQN

重現(xiàn)強化學(xué)習(xí)算法,RL算法實現(xiàn)的一些最佳實踐。

網(wǎng)址:http:///EKGo4YB

2.Dota 2強化學(xué)習(xí)

創(chuàng)造一個機(jī)器人,在標(biāo)準(zhǔn)比賽規(guī)則下,在Dota 2的 1v1比賽中擊敗世界頂級專業(yè)人士。機(jī)器人通過自我游戲從頭開始學(xué)習(xí)游戲,并且不使用模仿學(xué)習(xí)或樹搜索。

網(wǎng)址:http:///EKG9cTE

3.創(chuàng)建AI DOOM bot

利用VizDoom平臺進(jìn)行基于強化的深度學(xué)習(xí)的探索之旅。目標(biāo)是創(chuàng)建一個能夠在死亡競賽環(huán)境中茁壯成長的Doom AI。

網(wǎng)址:http:///EKGNxCL

4.用于字符控制的相功能神經(jīng)網(wǎng)絡(luò)

使用一種稱為“相位神經(jīng)網(wǎng)絡(luò)”的新型神經(jīng)網(wǎng)絡(luò)來創(chuàng)建適合游戲的角色控制器。

網(wǎng)址:http:///EKGpsY7

5.游戲模仿:用于快速視頻游戲AI的深度監(jiān)督卷積網(wǎng)絡(luò) 

提出了一種僅用于游戲AI的視覺模型,它使用在純粹受監(jiān)督的模仿學(xué)習(xí)環(huán)境中訓(xùn)練的后期集成深度卷積網(wǎng)絡(luò)架構(gòu)。

網(wǎng)址:http:///EKGWXJd

12 國際象棋AI

1.掌握國際象棋和將棋

利用強化學(xué)習(xí)算法通過自學(xué)習(xí)掌握國際象棋和將棋。

網(wǎng)址:http:///EKG85YH

2.AlphaGo Zero:從頭學(xué)習(xí)| DeepMind

本文介紹了AlphaGo Zero,它是AlphaGo的最新發(fā)展,以前版本的AlphaGo最初訓(xùn)練過成千上萬的人類業(yè)余和專業(yè)游戲,以學(xué)習(xí)如何玩Go。AlphaGo Zero跳過這一步,從完全隨機(jī)的游戲開始,只是通過玩游戲來學(xué)習(xí)玩游戲。

網(wǎng)址:http:///EKGEvDs

       http:///RWY4GZy

13 醫(yī)療AI

1.CheXNet:放射學(xué)家檢測胸部X射線與深度學(xué)習(xí)的肺炎

模型CheXNet是一個121層的卷積神經(jīng)網(wǎng)絡(luò),輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。

網(wǎng)址:http:///EKGuyqG

2.你能改善肺癌的檢測嗎?

Kaggle舉辦的競賽的解決方案的部分內(nèi)容,挑戰(zhàn)的目標(biāo)是在給定一組CT圖像的情況下預(yù)測患者肺癌的發(fā)展。

網(wǎng)址:http:///EKG3LBJ

3.通過深度學(xué)習(xí)改善姑息治療 - Andrew Ng

使用深度學(xué)習(xí)建立一個程序,通過檢查患者的電子健康記錄數(shù)據(jù),在接下來的3-12個月內(nèi)識別出具有高死亡風(fēng)險的住院患者。

網(wǎng)址:http:///EKG13tt

14 演講AI

1.Tacotron

Tacotron,一種端到端的生成文本到語音模型,它直接從字符合成語音。

網(wǎng)址:http:///EKGdip1

2.CTC序列建模

用CTC進(jìn)行序列建模,用于在語音識別,手寫識別和其他序列問題中訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的算法。

鏈接:http:///EKGgtQs

3.深度語音

Deep Voice,一種完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建實現(xiàn)文本到語音的系統(tǒng)。該系統(tǒng)包括五個主要構(gòu)建塊,通過為每個組件使用神經(jīng)網(wǎng)絡(luò),系統(tǒng)比傳統(tǒng)的文本到語音系統(tǒng)更簡單,更靈活。

網(wǎng)址:http:///EKGk93S

4.Siri's Voice的深度學(xué)習(xí)


Siri語音的深度學(xué)習(xí):用于混合單元選擇綜合的設(shè)備深度混合密度網(wǎng)絡(luò)

網(wǎng)址:http:///EKGFZB5


用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集

01 經(jīng)典數(shù)據(jù)集

1.Iris鳶尾花卉數(shù)據(jù)集150分類和聚類

接:http:///EKaE0uv

2.Adult美國人口普查數(shù)據(jù)48842分類和聚類

鏈接:http:///zlvhR8S

3.Wine葡萄酒數(shù)據(jù)178分類和聚類

鏈接:http:///EKan9Az

4.20 Newsgroups新聞數(shù)據(jù)集19997文本分類和聚類

鏈接:http://qwone/20Newsgroups/

5.MovieLens電影評分的數(shù)據(jù)集26000000推薦系統(tǒng)

接:https://datasets/movielens/

6.MNIST手寫字識別數(shù)據(jù)集70000手寫字識別

鏈接http://exdb/mnist/

02 圖像處理

1.Labelled Faces in the Wild:13000 張貼有標(biāo)簽的人臉圖像,用于開發(fā)涉及人臉識別的應(yīng)用。

鏈接:http://vis-www.cs./lfw/

2.Stanford Dogs Dataset:包含 20580 個圖像和 120 個不同品種的狗類別。

鏈接:http:///zTNMWy3

3.Labelme:注釋圖像的大數(shù)據(jù)集。

鏈接:http:///EKq2lMr

4.ImageNet:根據(jù) WordNet 層次結(jié)構(gòu)來組織,其中層次結(jié)構(gòu)的每個節(jié)點都由成百上千個圖像來描述。

鏈接:http:///

5.LSUN:場景理解和許多輔助任務(wù)(房間布局估計、顯著性預(yù)測等)。

鏈接:http://lsun.cs./2016/

6.MS COCO:ImageNet 之外另一個常用的圖像數(shù)據(jù)集,包含通用圖像理解和注釋。

鏈接:http:///

7.COIL100:100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像。

鏈接:http:///EKqLjzo

8.Visual Genome:非常詳細(xì)的視覺知識庫,配有約 100K 個圖像的注釋。

鏈接:http:///

9.Google's Open Images:Creative Commons 下的 900 萬個圖片的網(wǎng)址集合。

鏈接:http:///EKqyzQF

10.Indoor Scene Recognition:包含 67 個室內(nèi)類別,總共 15620 個圖像。

鏈接:http://web./torralba/www/indoor.html

03 情感分析

1.Multidomain Sentiment analysis dataset:有點舊的一個數(shù)據(jù)集,以亞馬遜的產(chǎn)品評論為特色。

鏈接:http:///R6yTsJV 

2.IMDB reviews:用于二進(jìn)制情感分類的較舊的、相對較小的數(shù)據(jù)集,具有 25000 個電影評論。

鏈接:http:///EKq5nB1 

3.Stanford Sentiment Treebank:帶有情感注釋的標(biāo)準(zhǔn)情感數(shù)據(jù)集。

鏈接:http:///EKq5sUY

4.Sentiment140:一個流行的數(shù)據(jù)集,使用 16 萬條預(yù)先刪除表情符號的推文

鏈接:http:///EKqtUAC

5.Twitter US Airline Sentiment:2015 年 2 月以來美國航空公司的推特數(shù)據(jù),分為正面、負(fù)面和中性。

鏈接:http:///EKqtiAY 

04 自然語言處理

1.Jeopardy:機(jī)智問答節(jié)目 Jeopardy 中存檔的 20 多萬個問題。

鏈接:http:///EKqGyIB 

2.SMS Spam Collection in English:由 5574 條英文短信垃圾郵件組成的數(shù)據(jù)集。鏈接:http:///EKqbg3h 

3.Yelp Reviews:Yelp 發(fā)布的開放數(shù)據(jù)集包含 500 多萬條評論。

鏈接:https://www./dataset

4.UCI's Spambase:大型垃圾郵件數(shù)據(jù)集,可用于垃圾郵件過濾。

鏈接http:///EKqbT7z

5.Enron Dataset:Enron 公司高層管理人員的電子郵件數(shù)據(jù),整理成文件夾。

鏈接:https://www.cs./~./enron/

6.Amazon Reviews:包含來自亞馬遜長達(dá) 18 年的約 3500 萬條評論。數(shù)據(jù)包括產(chǎn)品和用戶信息、評級和明文審查。

鏈接:http:///RhpYJUu

7.Google Books Ngrams:Google 書籍中的詞匯集合。

鏈接:http:///EKqq3Jh

8.Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每個博客至少包含 200 個常用英語單詞。

鏈接:http:///EKqqAHL

9.Wikipedia Links data:維基百科全文。數(shù)據(jù)集包含 400 多萬篇文章中的近 19 億字。你可以根據(jù)單詞、短語或段落本身的一部分進(jìn)行搜索。

鏈接:http:///EKqGrJr 

10.Gutenberg eBooks List:古騰堡計劃電子書注釋清單。

鏈接:http:///EKqGOfk 

11.Hansards text chunks of Canadian Parliament:加拿大第 36 屆國會記錄 130 萬對文本。

鏈接:http:///EKqGJai 

05 音頻數(shù)據(jù)集

1.TIMIT,英文語音識別數(shù)據(jù)集,包含630個揚聲器的寬帶錄音,八個主要方言的美式英語,每個閱讀十個語音豐富的句子。

接:https://catalog.ldc.

2.CHIME,包含環(huán)境噪音的用于語音識別挑戰(zhàn)賽的數(shù)據(jù)集。

鏈接http://chime_challenge

3.大型音樂分析數(shù)據(jù)集FMA

鏈接https://github.com/mdeff/fma

4.音頻數(shù)據(jù)集AudioSet

鏈接https://audioset/ontology

5.2000 HUB5 English Evaluation Transcripts,僅包含英語的語音數(shù)據(jù)集

接:https://catalog.ldc.upenn

6.LibriSpeech,包含文本和語音的有聲讀物數(shù)據(jù)集,由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。

接:http://www./12/

7.VoxForge,帶口音的語音清潔數(shù)據(jù)集

鏈接http://www./

06 自動駕駛

1.Cityscape Dataset:記錄 50 個不同城市街道場景的大型數(shù)據(jù)集。

鏈接:https://www./

2.CSSAD Dataset:該數(shù)據(jù)集可用于自主車輛的感知和導(dǎo)航。數(shù)據(jù)集在發(fā)達(dá)國家的道路上出現(xiàn)嚴(yán)重偏差。

鏈接:http:///R97oqgG 

3.KUL Belgium Traffic Sign Dataset:比利時佛蘭德區(qū)數(shù)以千計截然不同的超過 10000 個的交通標(biāo)志標(biāo)注。

接:http:///EKq40MF 

4.Berkeley DeepDrive BDD100k:目前最大的自動駕駛?cè)斯ぶ悄軘?shù)據(jù)集。

鏈接:http://bdd-data./

5.Baidu Apolloscapes:百度 Apollo 計劃開放的大規(guī)模自動駕駛數(shù)據(jù)集。它定義了 26 個不同語義項目,如汽車、自行車、行人、建筑物、路燈等。

鏈接:http://to/

6.Comma.ai:7 小時以上的公路行駛體驗。詳細(xì)信息包括車速、加速度、轉(zhuǎn)向角和 GPS 坐標(biāo)。

鏈接:https:///details/comma-dataset

7.Oxford's Robotic Car:一年內(nèi)在英國牛津同一條路線重復(fù) 100 多次的行駛。數(shù)據(jù)集捕捉天氣、交通和行人的不同組合,以及建筑和道路工程等長期變化。

鏈接http://robotcar-dataset.robots./

8.MIT AGE Lab:在 AgeLab 收集的 1000 多個小時的多傳感器驅(qū)動數(shù)據(jù)集樣本。

鏈接:http:///carsync/

9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數(shù)據(jù)集包括交通標(biāo)志、車輛檢測、交通燈和軌跡模式。

鏈接:http://cvrr./LISA/datasets.html

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多