你即將看到的這篇文章也許是人工智能寫的

西北望msm66g9f 2020-02-16

展開全文

By 超神經

我們就快到了「寧愿相信世上有鬼，也不相信 AI 的破嘴」的時代，人工智能又在 NLP 領域進化到了新的巔峰。

比人還會編的 AI 來了

給一個開頭，讓對方接著寫出后面的故事，也許會難倒一些人，那如果交給 AI ，它們可以做到多優(yōu)秀呢？

今天，OpenAI 公布了一個自動文本生成模型，能夠寫出「真實感」十足的文章。

人為的給出開頭，這個 AI 模型就能快速的補充成一篇完整的稿子。至于文字的可讀性和流暢度，不提前告知的話，也許你都猜不出這是 AI 所作。

比如給他這樣一個開頭：科學家們有個令人震驚的發(fā)現，在安第斯山脈一個偏遠且沒被開發(fā)過的山谷里，生活著一群獨角獸。更加讓人訝異的是，這些獨角獸說著完美的英文。

這個 AI 模型生成的文章如下（部分）：

這些生物有著獨特的角，科學家們就以此為它們命名，叫Ovid’s Unicorn。長著四只角的銀白色生物，在這之前并不為科學界所知。

……

雖然，這些生物的起源還不清楚，但有些人相信，它們是一個人和一個獨角獸相交而誕生的，那時人類文明還不存在。Pérez教授說：“在南美洲，這樣的現象很常見?！?/em>

……

如果要確認它們是消失種族的后裔，DNA檢測可能是唯一的方法。

它除了能夠寫出以假亂真的文稿，還具備閱讀理解、問答、生成文章摘要、翻譯文本等能力。

翻譯：從法語到英語

數據集：WMT-14 Fr-En

原句

Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau.

人工

One man explained that the free hernia surgery he’d received will allow him to work again.

AI 翻

A man told me that the operation gratuity he had been promised would not allow him to travel.

AI 模型翻譯實例

這個 AI 有點強

這個 AI 模型被稱為 GPT-2 ，它是 GPT 的「升級版」。而它的殘暴之處在于，這一次運用了更多的訓練數據，和上一版的原理一樣，但 GPT-2 是對 GPT 模型的直接放大，它在超出 10 倍的數據量上進行訓練，參數量也多出了 10 倍。

通過分析輸入的文本，GPT-2 可以執(zhí)行基本的文本處理功能，它擅長語言建模任務，該任務就是讓程序通過預測，給出句子中下一個單詞的能力。隨便給它一個標題， AI 就能完美的寫下文章的其余部分，甚至還能附上假引號和統(tǒng)計數據。

有人這么說它，「想要一篇短篇小說？只要給它第一行，就能得到一個意料之外又不乏精彩的故事。如果有正確的提示，它甚至可以寫出長篇小說?！?/p>

訓練 GPT-2 的目標很簡單：給定文本中前面的詞語，去預測接下的詞句。而訓練數據集的多樣性，卻使得它可以完成大量不同領域的文本生成。

雖然技術上沒有新的地方，但人家有礦產級別的訓練，這也是為什么會造出了怪獸級別的新工具。

OpenAI 的研究人員表示，在各種特定領域數據集的語言建模測試中，GPT-2 都取得了優(yōu)異的評定分數。作為一個沒有在任何領域數據專門訓練過的模型，它的表現，比那些特意打造的模型還要好。

NLP 崛起的時代？

幾個月前谷歌推出的語言模型 BERT 引發(fā)了業(yè)內的廣泛關注，一時間內不斷刷屏，其 3 億參數量刷新 11 項紀錄的成績讓人贊不絕口。但 OpenAI 這次推出的 GPT -2 更為要命，它達到了 15 億參數。

與以前最先進的人工智能模型相比，GPT2模型「大 12 倍，數據集大 15倍，涉及范圍也更廣」。它是在一個包含大約 1000 萬篇文章的數據集上進行訓練的，這些文章是通過 Reddit 上投票超過3票的新聞鏈接而選出的。所訓練的文本數據多達 40GB ！

在 BERT 血洗 NLP（自然語言處理）各項頂級指標之前，OpenAI 的 GTP 就站在了一流高手之列，而新出的 GPT-2 通過海量的訓練數據也直接把這一領域帶到了新的高度。

有了 BERT 和 GPT-2 ，NLP 的道路肯定會紅紅火火，至于說怎么樣更好的造福人類，這還是一個慎重的話題。

艾倫人工智能研究所的研究人員 Ani Kembhavi 表示，對GPT-2 感到興奮的一個原因是，預測文本可以被認為是計算機的「超級任務」，一旦解決了這個挑戰(zhàn)，將開啟智慧的大門。

會是潘多拉魔盒嗎？

遺憾的是，這么強大的工具暫時還不能公布出來。而背后的考慮是它可能會帶來的隱患問題，比如生成假新聞，惡意評論，制造垃圾郵件等等。這樣的武器用在非法的途徑，造成的后果也是災難級的。

對于這個方面，開發(fā)者也感到了擔憂。OpenAI 的研究人員說到他們無法預測會帶來什么。目前他們仍在探索之中。出于種種原因，他們對項目所分享的內容非常謹慎，目前對主要的基礎代碼和培訓數據不予公開。

他們指出謹慎的另一個原因在于，如果有人提供 GPT-2 關于種族主義，暴力，厭惡女性或辱罵性的文本，將造成很危險的局面。畢竟，它是依賴于互聯(lián)網訓練的。

不否認這項技術將帶來巨大的變革，但任何一個工具，在圖謀不軌者的手中，都會帶來災難性的后果。

而且由于 GPT-2 所寫的文本都是新生成的，不存在復制粘貼的問題，用以往的檢測手段中更難發(fā)現和排查，這將會是一個潛在的威脅。

那么，關鍵的問題來了，這篇文章是 AI 寫出來的嗎？

歷史文章（點擊圖片閱讀）

AI 不上位，合作寫代碼才是正道

GANs 千萬條，安全第一條

三次元的世界里，機械臂的手活兒無敵了

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：西北望msm66g9f > 《編程》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

西北望msm66g9f

關注對話

TA的最新館藏

基于std::format的類型安全格式化擴展機制詳解與實踐指南
數學計算與作圖軟件大全
讓數學和科學變簡單，這7個網站簡直開掛了！
自然語言、圖形語言與數學語言之間的關系與轉化
讓計算機理解人類語言：詞向量的構建與應用
詹姆斯·克拉克·麥克斯韋（James Clerk Maxwell）簡介及麥克斯韋方程的原理及在PCB設計方面的應用

喜歡該文的人也喜歡更多

熱門閱讀換一換

2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

你即將看到的這篇文章也許是人工智能寫的