機(jī)器學(xué)習(xí)領(lǐng)域,最常討論到的一個話題就是機(jī)器學(xué)習(xí)項目。 學(xué)習(xí)或從事這個領(lǐng)域的小伙伴都會想要找一些機(jī)器學(xué)習(xí)的項目來進(jìn)行練手,做項目好比練題,孰能生巧,能夠在機(jī)器學(xué)習(xí)這個領(lǐng)域獲取更多的知識和技能。 本篇目錄: 1、20個機(jī)器學(xué)習(xí)庫和框架 2、機(jī)器學(xué)習(xí)項目:
3、數(shù)據(jù)集
機(jī)器學(xué)習(xí)庫和框架 01 TensorFlow TensorFlow是一個采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計算的開源軟件庫。 最初是由研究人員和工程師在Google機(jī)器智能研究組織的Google Brain團(tuán)隊中開發(fā)的。 用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究,但這個系統(tǒng)的通用性使其也可廣泛用于其他計算領(lǐng)域。 貢獻(xiàn)者:1978,提交:55315,星級:127129。 Github網(wǎng)址: Tensorflow https://www./ 02 Scikit-learn scikit-learn 是基于 Python 語言的機(jī)器學(xué)習(xí)工具。 它是一個簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可供大家在各種環(huán)境中重復(fù)使用,建立在 NumPy ,SciPy 和 matplotlib 上,開源,可商業(yè)使用 - BSD許可證。 貢獻(xiàn)者:1303,提交:23978,星星:34958 Github URL: Scikit-learn http:/// 03 Keras Keras是一個高層神經(jīng)網(wǎng)絡(luò)API,由python編寫,能夠在TensorFlow,CNTK或Theano之上運行。 keras具有高度模塊化,極簡,和可擴(kuò)充特性,支持CNN和RNN,或二者的結(jié)合,無縫CPU和GPU切換。 貢獻(xiàn)者:795,提交:5110,星星:40986 Github網(wǎng)址: Keras https:/// 04 PyTorch Pytorch是Facebook的AI研究團(tuán)隊發(fā)布了一個Python工具包,是Python優(yōu)先的深度學(xué)習(xí)框架。 作為numpy的替代品;使用強大的GPU能力,提供最大的靈活性和速度,實現(xiàn)了機(jī)器學(xué)習(xí)。 貢獻(xiàn)者:1034,提交:17856,星星:27849 Github URL: pytorch http://pytorch.org/ 05 Theano Theano是一個Python庫,允許您定義,優(yōu)化和有效地評估涉及多維數(shù)組的數(shù)學(xué)表達(dá)式。 它建立在NumPy之上,與Numpy緊密集成,具有透明使用GPU,有效符號區(qū)分,動態(tài)C代碼生成等優(yōu)點。 貢獻(xiàn)者:333,提交:28080,星星:8782 Github網(wǎng)址: Theano http:///software/theano/ 06 Gensim 是一個免費的Python庫,具有可擴(kuò)展的統(tǒng)計語義,分析語義結(jié)構(gòu)的純文本文檔,檢索語義相似的文檔等功能。
Github網(wǎng)址: Gensim https:///gensim/ 07 NuPIC Taylor 說,許多機(jī)器學(xué)習(xí)算法無法適應(yīng)新模式,而 NuPIC 的運作接近于人腦。 nupic是一個在github上開源了的AI算法平臺,相比于深度學(xué)習(xí),其更為接近人類大腦的運行結(jié)構(gòu)。 其算法的理論依據(jù),就是純粹的生物神經(jīng)學(xué)知識,類似突觸連接與分解,神經(jīng)元,多個腦皮層的交互,動作電位等等。工程實現(xiàn)也基于此。 貢獻(xiàn)者:87,提交:6623,星星:5902 Github URL: NuPIC http:/// 08 Neon Neon是Nervana開發(fā)的基于Python的深度學(xué)習(xí)庫。它易于使用,同時性能也處于最高水準(zhǔn)。 貢獻(xiàn)者:77,提交:1117,星星:3763 Github URL: Neon http://neon./ 09 Nilearn Nilearn是一個Python模塊,用于快速簡便地統(tǒng)計NeuroImaging數(shù)據(jù)。 它利用scikit-learn Python工具箱進(jìn)行多變量統(tǒng)計,并使用預(yù)測建模,分類,解碼或連接分析等應(yīng)用程序。
Github網(wǎng)址: Nilearn https://nilearn./ 10 Caffe Caffe是一個深刻的學(xué)習(xí)框架,以表達(dá),速度和模塊化為基礎(chǔ)。它由伯克利視覺和學(xué)習(xí)中心( BVLC)和社區(qū)貢獻(xiàn)者開發(fā)。 貢獻(xiàn)者:266,提交:4154,星星:28032 Github網(wǎng)址: Caffe http://caffe./ 11 Chainer chainer是一種基于python的靈活框架,用于輕松直觀地編寫復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),適用于深度學(xué)習(xí)模型。 利用chainer可以輕松使用多GPU實例進(jìn)行訓(xùn)練,還會自動記錄結(jié)果、圖表損失和精度并生成用于使用計算圖來可視化神經(jīng)網(wǎng)絡(luò)的輸出。 貢獻(xiàn)者:227,提交:26266,星星:4772 Github URL: Chainer http:/// 12 Statsmodels Statsmodels 是一個Python模塊,允許用戶瀏覽數(shù)據(jù),估計統(tǒng)計模型和執(zhí)行統(tǒng)計測試。 描述性統(tǒng)計,統(tǒng)計測試,繪圖函數(shù)和結(jié)果統(tǒng)計的廣泛列表可用于不同類型的數(shù)據(jù)和每個估算器。
Github URL: Statsmodels http://statsmodels./ 13 Shogun 是機(jī)器學(xué)習(xí)工具箱,提供各種統(tǒng)一和高效的機(jī)器學(xué)習(xí)(ML)方法.工具箱無縫地允許輕松組合多個數(shù)據(jù)表示,算法類和通用工具。
Github URL: Shogun http:/// 14 Pylearn2 Pylearn2是一個機(jī)器學(xué)習(xí)庫,它的大部分功能都建立在 Theano之上 。 這意味著你可以使用數(shù)學(xué)表達(dá)式編寫Pylearn2插件(新模型,算法等),Theano會優(yōu)化和穩(wěn)定這些表達(dá)式,并將它們編譯為你選擇的后端(CPU或GPU)。
Github URL: Pylearn2 http:///software/pylearn2/ 15 Annoy Annoy是一個帶有Python綁定的C ++庫,用于搜索空間中接近給定查詢點的點。 它還創(chuàng)建了大型只讀基于文件的數(shù)據(jù)結(jié)構(gòu),這些數(shù)據(jù)結(jié)構(gòu)映射到內(nèi)存中,以便許多進(jìn)程可以共享相同的數(shù)據(jù)。 貢獻(xiàn)者:43,提交:645,星星:5346 Github URL: Annoy https://pypi./pypi/annoy 16 PyBrain PyBrain是一個用于Python的模塊化機(jī)器學(xué)習(xí)庫,其目標(biāo)是為機(jī)器學(xué)習(xí)任務(wù)和各種預(yù)定義環(huán)境提供靈活,易用且功能強大的算法。
Github URL: PyBrain http:/// 17 Fuel 是一個數(shù)據(jù)管道框架,可為機(jī)器學(xué)習(xí)模型提供所需的數(shù)據(jù)。
Github URL: Fuel https://fuel./ 18 Orange3 Orange3是新手和專家的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化工具,具有大型工具箱的交互式數(shù)據(jù)分析工作流程。 貢獻(xiàn)者:71,提交:10651,星星:1780 Github網(wǎng)址: Orange3 https://pymc-devs./pymc/README.html 19 Pymc Pymc是一個python模塊,它實現(xiàn)貝葉斯統(tǒng)計模型和擬合算法,包括馬爾可夫鏈蒙特卡羅。其靈活性和可擴(kuò)展性使其適用于大量問題。 貢獻(xiàn)者:40,提交:2726,星星:818 Github URL: Pymc https://pymc-devs./ 20 Deap Deap是一種新穎的進(jìn)化計算框架,用于快速原型設(shè)計和思想測試。 它旨在使算法明確,數(shù)據(jù)結(jié)構(gòu)透明,與多處理和 SCOOP等并行機(jī)制完美協(xié)調(diào) 。 貢獻(xiàn)者:44,提交:1982,星星:2845 Github網(wǎng)址: Deap https://pypi./pypi/deap 各類機(jī)器學(xué)習(xí)項目 01 語言相關(guān) 1.python語言相關(guān) 網(wǎng)址:https://github.com/vinta/awesome-python 2.hph語言相關(guān) 網(wǎng)址:https://github.com/ziadoz/awesome-php 3.java語言相關(guān) 網(wǎng)址:https://github.com/akullpp/awesome-java 4.nodejs相關(guān) 網(wǎng)址:https://github.com/sindresorhus/awesome-nodejs 5.ios相關(guān) 網(wǎng)址:https://github.com/vsouza/awesome-ios 6.android相關(guān) 網(wǎng)址:https://github.com/snowdream/awesome-android 7.shell相關(guān) 網(wǎng)址:https://github.com/alebcay/awesome-shell 8.spider相關(guān) 網(wǎng)址:https://github.com/facert/awesome-spider 9.go相關(guān) 網(wǎng)址:https://github.com/avelino/awesome-go 02 計算機(jī)視覺 1.計算機(jī)視覺的資源列表 網(wǎng)址:http:///RwjDvTD 2.計算機(jī)視覺的深度學(xué)習(xí)資源的精選列表 網(wǎng)址:http:///RLvTzjn 03 自然語言處理1.學(xué)習(xí)溝通 概述新的OpenAI研究,開發(fā)自己的語言。 網(wǎng)址:http:///EKba21p 2.自然語言處理 專門針對自然語言處理(NLP)的精選資源列表。 網(wǎng)址:https://github.com/keon/awesome-nlp 3.一種新穎的神經(jīng)機(jī)器翻譯方法 使用一種新穎的卷積神經(jīng)網(wǎng)絡(luò)(CNN)語言翻譯方法發(fā)表了研究成果,該方法以復(fù)現(xiàn)神經(jīng)系統(tǒng)速度的九倍達(dá)到了最先進(jìn)的精度。 網(wǎng)址:http:///EKbKKaa 4.如何在沒有真正嘗試的情況下制造種族主義者的AI 制作一個情緒分類器。 網(wǎng)址:http:///RKN4XpX 04 預(yù)測1.uber時間序列預(yù)測的神經(jīng)網(wǎng)絡(luò)工程不確定性估計 介紹一種新的端到端貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)架構(gòu),可以更準(zhǔn)確地預(yù)測時間序列預(yù)測和大規(guī)模的不確定性估計。 網(wǎng)址:http:///RpqIwnF 2.如何輕松預(yù)測股票價格 網(wǎng)址:http:///RiLyUGN 05 圖像處理1.高分辨率圖像合成與條件GAN的語義處理 提出了一種使用條件生成對抗網(wǎng)絡(luò)(條件GAN)從語義標(biāo)簽圖合成高分辨率照片真實圖像的新方法。 網(wǎng)址:http:///EK4NHTw 2.使用OpenCV(Python)進(jìn)行高動態(tài)范圍(HDR)成像 學(xué)習(xí)如何使用不同曝光設(shè)置拍攝的多張圖像創(chuàng)建高動態(tài)范圍(HDR)圖像。 網(wǎng)址:http:///EK4pgjj 06 風(fēng)格轉(zhuǎn)移1.通過深度圖像類比轉(zhuǎn)換視覺屬性 用于跨圖像的視覺屬性傳遞的新技術(shù),通過視覺屬性轉(zhuǎn)移,將視覺信息(例如顏色,色調(diào),紋理和樣式)從一個圖像轉(zhuǎn)移到另一個圖像。 網(wǎng)址:http:///EK48MYY 2.深度照片風(fēng)格轉(zhuǎn)換 本文介紹了一種深度學(xué)習(xí)的攝影風(fēng)格轉(zhuǎn)換方法,可以處理各種圖像內(nèi)容,同時忠實地傳遞參考風(fēng)格。 網(wǎng)址:http:///EK4uR8l 3.深度圖像優(yōu)先 本文表明, 深度網(wǎng)絡(luò)的結(jié)構(gòu)足以在任何學(xué)習(xí)之前捕捉大量的低級圖像統(tǒng)計數(shù)據(jù)。 隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)可以作為手工制作的優(yōu)先在標(biāo)準(zhǔn)的逆問題, 如去噪, 超分辨率。 網(wǎng)址:http:///EK43mZA 07 圖像分類1.特征可視化:神經(jīng)網(wǎng)絡(luò)如何建立對圖像的理解 非常簡單的方法可以產(chǎn)生高質(zhì)量的可視化。本文介紹了一些技巧,用于探索神經(jīng)元反應(yīng)的變化,它們?nèi)绾蜗嗷プ饔靡约叭绾胃倪M(jìn)優(yōu)化過程。 網(wǎng)址:http:///EKbvwWM 2.絕對新手的神經(jīng)網(wǎng)絡(luò)圖像分類指南 使用機(jī)器學(xué)習(xí)來高度確定地預(yù)測數(shù)據(jù)/未經(jīng)訓(xùn)練的樣本中的圖像。 網(wǎng)址:http:///EKbPjVM 08 人臉識別1.通過直接體積CNN回歸從單個圖像重建大姿態(tài)三維人臉 3D人臉重建是一個非常困難的計算機(jī)視覺基礎(chǔ)問題。本文建議通過在由2D圖像和3D面部模型或掃描組成的適當(dāng)數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)來解決許多這些限制。 網(wǎng)址:http:///EKbAgH1 2.使用OpenCV,Python和dlib進(jìn)行眨眼檢測 網(wǎng)址:http:///EKbLPUb 3.使用面部檢測在Python中處理它 程序?qū)⒉捎妹钚袇?shù),即輸入圖像。然后,它將使用Dlib中的面部檢測算法來查看是否有任何面部。如果有,它將為每個面部創(chuàng)建一個結(jié)束位置。 網(wǎng)址:http:///EKb4jEx 09 物體檢測1.對象檢測:深度學(xué)習(xí)時代的概述 快速了解對象檢測中最常見的問題,深入了解實際應(yīng)用的細(xì)節(jié),并了解如何解決它的方法。 網(wǎng)址:http:///RNf1Ap9 2.使用深度學(xué)習(xí)和OpenCV進(jìn)行實時對象檢測 使用深度學(xué)習(xí)和OpenCV應(yīng)用實時對象檢測來處理視頻流和視頻文件。 網(wǎng)址:http:///EKbc32W10 自動駕駛 1.使用Python自動駕駛俠盜獵車手 探索使用Python玩Grand Theft Auto 5,主要用于創(chuàng)建自動駕駛汽車和其他車輛。 網(wǎng)址:https://github.com/sentdex/pygta5 2.AirSim 是微軟的開源自動駕駛仿真平臺這里主要用于自動駕駛仿真研究。 網(wǎng)址:https://github.com/Microsoft/AirSim 11 游戲AI1.OpenAI Baselines:DQN 重現(xiàn)強化學(xué)習(xí)算法,RL算法實現(xiàn)的一些最佳實踐。 網(wǎng)址:http:///EKGo4YB 2.Dota 2強化學(xué)習(xí) 創(chuàng)造一個機(jī)器人,在標(biāo)準(zhǔn)比賽規(guī)則下,在Dota 2的 1v1比賽中擊敗世界頂級專業(yè)人士。機(jī)器人通過自我游戲從頭開始學(xué)習(xí)游戲,并且不使用模仿學(xué)習(xí)或樹搜索。 網(wǎng)址:http:///EKG9cTE 3.創(chuàng)建AI DOOM bot 利用VizDoom平臺進(jìn)行基于強化的深度學(xué)習(xí)的探索之旅。目標(biāo)是創(chuàng)建一個能夠在死亡競賽環(huán)境中茁壯成長的Doom AI。 網(wǎng)址:http:///EKGNxCL 4.用于字符控制的相功能神經(jīng)網(wǎng)絡(luò) 使用一種稱為“相位神經(jīng)網(wǎng)絡(luò)”的新型神經(jīng)網(wǎng)絡(luò)來創(chuàng)建適合游戲的角色控制器。 網(wǎng)址:http:///EKGpsY7 5.游戲模仿:用于快速視頻游戲AI的深度監(jiān)督卷積網(wǎng)絡(luò) 提出了一種僅用于游戲AI的視覺模型,它使用在純粹受監(jiān)督的模仿學(xué)習(xí)環(huán)境中訓(xùn)練的后期集成深度卷積網(wǎng)絡(luò)架構(gòu)。 網(wǎng)址:http:///EKGWXJd 12 國際象棋AI1.掌握國際象棋和將棋 利用強化學(xué)習(xí)算法通過自學(xué)習(xí)掌握國際象棋和將棋。 網(wǎng)址:http:///EKG85YH 2.AlphaGo Zero:從頭學(xué)習(xí)| DeepMind 本文介紹了AlphaGo Zero,它是AlphaGo的最新發(fā)展,以前版本的AlphaGo最初訓(xùn)練過成千上萬的人類業(yè)余和專業(yè)游戲,以學(xué)習(xí)如何玩Go。AlphaGo Zero跳過這一步,從完全隨機(jī)的游戲開始,只是通過玩游戲來學(xué)習(xí)玩游戲。 網(wǎng)址:http:///EKGEvDs http:///RWY4GZy 13 醫(yī)療AI1.CheXNet:放射學(xué)家檢測胸部X射線與深度學(xué)習(xí)的肺炎 模型CheXNet是一個121層的卷積神經(jīng)網(wǎng)絡(luò),輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。網(wǎng)址:http:///EKGuyqG 2.你能改善肺癌的檢測嗎? Kaggle舉辦的競賽的解決方案的部分內(nèi)容,挑戰(zhàn)的目標(biāo)是在給定一組CT圖像的情況下預(yù)測患者肺癌的發(fā)展。 網(wǎng)址:http:///EKG3LBJ 3.通過深度學(xué)習(xí)改善姑息治療 - Andrew Ng 使用深度學(xué)習(xí)建立一個程序,通過檢查患者的電子健康記錄數(shù)據(jù),在接下來的3-12個月內(nèi)識別出具有高死亡風(fēng)險的住院患者。 網(wǎng)址:http:///EKG13tt 14 演講AI1.Tacotron Tacotron,一種端到端的生成文本到語音模型,它直接從字符合成語音。 網(wǎng)址:http:///EKGdip1 2.CTC序列建模 用CTC進(jìn)行序列建模,用于在語音識別,手寫識別和其他序列問題中訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的算法。 鏈接:http:///EKGgtQs 3.深度語音 Deep Voice,一種完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建實現(xiàn)文本到語音的系統(tǒng)。該系統(tǒng)包括五個主要構(gòu)建塊,通過為每個組件使用神經(jīng)網(wǎng)絡(luò),系統(tǒng)比傳統(tǒng)的文本到語音系統(tǒng)更簡單,更靈活。 網(wǎng)址:http:///EKGk93S 4.Siri's Voice的深度學(xué)習(xí) Siri語音的深度學(xué)習(xí):用于混合單元選擇綜合的設(shè)備深度混合密度網(wǎng)絡(luò)網(wǎng)址:http:///EKGFZB5用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集 01 經(jīng)典數(shù)據(jù)集 1.Iris鳶尾花卉數(shù)據(jù)集150分類和聚類 鏈接:http:///EKaE0uv 2.Adult美國人口普查數(shù)據(jù)48842分類和聚類 鏈接:http:///zlvhR8S 3.Wine葡萄酒數(shù)據(jù)178分類和聚類 鏈接:http:///EKan9Az 4.20 Newsgroups新聞數(shù)據(jù)集19997文本分類和聚類 鏈接:http://qwone/20Newsgroups/ 5.MovieLens電影評分的數(shù)據(jù)集26000000推薦系統(tǒng) 鏈接:https://datasets/movielens/ 6.MNIST手寫字識別數(shù)據(jù)集70000手寫字識別 鏈接:http://exdb/mnist/ 02 圖像處理 1.Labelled Faces in the Wild:13000 張貼有標(biāo)簽的人臉圖像,用于開發(fā)涉及人臉識別的應(yīng)用。 鏈接:http://vis-www.cs./lfw/ 2.Stanford Dogs Dataset:包含 20580 個圖像和 120 個不同品種的狗類別。 鏈接:http:///zTNMWy3 3.Labelme:注釋圖像的大數(shù)據(jù)集。 鏈接:http:///EKq2lMr 4.ImageNet:根據(jù) WordNet 層次結(jié)構(gòu)來組織,其中層次結(jié)構(gòu)的每個節(jié)點都由成百上千個圖像來描述。 鏈接:http:/// 5.LSUN:場景理解和許多輔助任務(wù)(房間布局估計、顯著性預(yù)測等)。 鏈接:http://lsun.cs./2016/ 6.MS COCO:ImageNet 之外另一個常用的圖像數(shù)據(jù)集,包含通用圖像理解和注釋。 鏈接:http:/// 7.COIL100:100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像。 鏈接:http:///EKqLjzo 8.Visual Genome:非常詳細(xì)的視覺知識庫,配有約 100K 個圖像的注釋。 鏈接:http:/// 9.Google's Open Images:Creative Commons 下的 900 萬個圖片的網(wǎng)址集合。 鏈接:http:///EKqyzQF 10.Indoor Scene Recognition:包含 67 個室內(nèi)類別,總共 15620 個圖像。 鏈接:http://web./torralba/www/indoor.html 03 情感分析 1.Multidomain Sentiment analysis dataset:有點舊的一個數(shù)據(jù)集,以亞馬遜的產(chǎn)品評論為特色。 鏈接:http:///R6yTsJV 2.IMDB reviews:用于二進(jìn)制情感分類的較舊的、相對較小的數(shù)據(jù)集,具有 25000 個電影評論。 鏈接:http:///EKq5nB1 3.Stanford Sentiment Treebank:帶有情感注釋的標(biāo)準(zhǔn)情感數(shù)據(jù)集。 鏈接:http:///EKq5sUY 4.Sentiment140:一個流行的數(shù)據(jù)集,使用 16 萬條預(yù)先刪除表情符號的推文 鏈接:http:///EKqtUAC 5.Twitter US Airline Sentiment:2015 年 2 月以來美國航空公司的推特數(shù)據(jù),分為正面、負(fù)面和中性。 鏈接:http:///EKqtiAY 04 自然語言處理 1.Jeopardy:機(jī)智問答節(jié)目 Jeopardy 中存檔的 20 多萬個問題。 鏈接:http:///EKqGyIB 2.SMS Spam Collection in English:由 5574 條英文短信垃圾郵件組成的數(shù)據(jù)集。鏈接:http:///EKqbg3h 3.Yelp Reviews:Yelp 發(fā)布的開放數(shù)據(jù)集包含 500 多萬條評論。 鏈接:https://www./dataset 4.UCI's Spambase:大型垃圾郵件數(shù)據(jù)集,可用于垃圾郵件過濾。 鏈接:http:///EKqbT7z 5.Enron Dataset:Enron 公司高層管理人員的電子郵件數(shù)據(jù),整理成文件夾。 鏈接:https://www.cs./~./enron/ 6.Amazon Reviews:包含來自亞馬遜長達(dá) 18 年的約 3500 萬條評論。數(shù)據(jù)包括產(chǎn)品和用戶信息、評級和明文審查。 鏈接:http:///RhpYJUu 7.Google Books Ngrams:Google 書籍中的詞匯集合。 鏈接:http:///EKqq3Jh 8.Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每個博客至少包含 200 個常用英語單詞。 鏈接:http:///EKqqAHL 9.Wikipedia Links data:維基百科全文。數(shù)據(jù)集包含 400 多萬篇文章中的近 19 億字。你可以根據(jù)單詞、短語或段落本身的一部分進(jìn)行搜索。 鏈接:http:///EKqGrJr 10.Gutenberg eBooks List:古騰堡計劃電子書注釋清單。 鏈接:http:///EKqGOfk 11.Hansards text chunks of Canadian Parliament:加拿大第 36 屆國會記錄 130 萬對文本。 鏈接:http:///EKqGJai 05 音頻數(shù)據(jù)集 1.TIMIT,英文語音識別數(shù)據(jù)集,包含630個揚聲器的寬帶錄音,八個主要方言的美式英語,每個閱讀十個語音豐富的句子。 鏈接:https://catalog.ldc. 2.CHIME,包含環(huán)境噪音的用于語音識別挑戰(zhàn)賽的數(shù)據(jù)集。 鏈接:http://chime_challenge 3.大型音樂分析數(shù)據(jù)集FMA 鏈接:https://github.com/mdeff/fma 4.音頻數(shù)據(jù)集AudioSet 鏈接:https://audioset/ontology 5.2000 HUB5 English Evaluation Transcripts,僅包含英語的語音數(shù)據(jù)集 鏈接:https://catalog.ldc.upenn 6.LibriSpeech,包含文本和語音的有聲讀物數(shù)據(jù)集,由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。 鏈接:http://www./12/ 7.VoxForge,帶口音的語音清潔數(shù)據(jù)集 鏈接:http://www./ 06 自動駕駛 1.Cityscape Dataset:記錄 50 個不同城市街道場景的大型數(shù)據(jù)集。 鏈接:https://www./ 2.CSSAD Dataset:該數(shù)據(jù)集可用于自主車輛的感知和導(dǎo)航。數(shù)據(jù)集在發(fā)達(dá)國家的道路上出現(xiàn)嚴(yán)重偏差。 鏈接:http:///R97oqgG 3.KUL Belgium Traffic Sign Dataset:比利時佛蘭德區(qū)數(shù)以千計截然不同的超過 10000 個的交通標(biāo)志標(biāo)注。 鏈接:http:///EKq40MF 4.Berkeley DeepDrive BDD100k:目前最大的自動駕駛?cè)斯ぶ悄軘?shù)據(jù)集。 鏈接:http://bdd-data./ 5.Baidu Apolloscapes:百度 Apollo 計劃開放的大規(guī)模自動駕駛數(shù)據(jù)集。它定義了 26 個不同語義項目,如汽車、自行車、行人、建筑物、路燈等。 鏈接:http://to/ 6.Comma.ai:7 小時以上的公路行駛體驗。詳細(xì)信息包括車速、加速度、轉(zhuǎn)向角和 GPS 坐標(biāo)。 鏈接:https:///details/comma-dataset 7.Oxford's Robotic Car:一年內(nèi)在英國牛津同一條路線重復(fù) 100 多次的行駛。數(shù)據(jù)集捕捉天氣、交通和行人的不同組合,以及建筑和道路工程等長期變化。 鏈接:http://robotcar-dataset.robots./ 8.MIT AGE Lab:在 AgeLab 收集的 1000 多個小時的多傳感器驅(qū)動數(shù)據(jù)集樣本。 鏈接:http:///carsync/ 9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數(shù)據(jù)集包括交通標(biāo)志、車輛檢測、交通燈和軌跡模式。 鏈接:http://cvrr./LISA/datasets.html ![]() |
|