By 超神經 我們就快到了「寧愿相信世上有鬼,也不相信 AI 的破嘴」的時代,人工智能又在 NLP 領域進化到了新的巔峰。 比人還會編的 AI 來了 給一個開頭,讓對方接著寫出后面的故事,也許會難倒一些人,那如果交給 AI , 它們可以做到多優(yōu)秀呢? 今天,OpenAI 公布了一個自動文本生成模型,能夠寫出「真實感」十足的文章。 人為的給出開頭,這個 AI 模型就能快速的補充成一篇完整的稿子。至于文字的可讀性和流暢度,不提前告知的話,也許你都猜不出這是 AI 所作。 比如給他這樣一個開頭:科學家們有個令人震驚的發(fā)現,在安第斯山脈一個偏遠且沒被開發(fā)過的山谷里,生活著一群獨角獸。更加讓人訝異的是,這些獨角獸說著完美的英文。 這個 AI 模型生成的文章如下(部分): 這些生物有著獨特的角,科學家們就以此為它們命名,叫Ovid’s Unicorn。長著四只角的銀白色生物,在這之前并不為科學界所知。 …… 雖然,這些生物的起源還不清楚,但有些人相信,它們是一個人和一個獨角獸相交而誕生的,那時人類文明還不存在。Pérez教授說:“在南美洲,這樣的現象很常見?!?/em> …… 如果要確認它們是消失種族的后裔,DNA檢測可能是唯一的方法。 它除了能夠寫出以假亂真的文稿,還具備閱讀理解、問答、生成文章摘要、翻譯文本等能力。 翻譯:從法語到英語 數據集:WMT-14 Fr-En
AI 模型翻譯實例 這個 AI 有點強 這個 AI 模型被稱為 GPT-2 ,它是 GPT 的「升級版」。而它的殘暴之處在于,這一次運用了更多的訓練數據,和上一版的原理一樣,但 GPT-2 是對 GPT 模型的直接放大,它在超出 10 倍的數據量上進行訓練,參數量也多出了 10 倍。 通過分析輸入的文本,GPT-2 可以執(zhí)行基本的文本處理功能,它擅長語言建模任務,該任務就是讓程序通過預測,給出句子中下一個單詞的能力。隨便給它一個標題, AI 就能完美的寫下文章的其余部分,甚至還能附上假引號和統(tǒng)計數據。 有人這么說它,「想要一篇短篇小說?只要給它第一行,就能得到一個意料之外又不乏精彩的故事。如果有正確的提示,它甚至可以寫出長篇小說?!?/p> 訓練 GPT-2 的目標很簡單:給定文本中前面的詞語,去預測接下的詞句。而訓練數據集的多樣性,卻使得它可以完成大量不同領域的文本生成。 雖然技術上沒有新的地方,但人家有礦產級別的訓練,這也是為什么會造出了怪獸級別的新工具。 OpenAI 的研究人員表示,在各種特定領域數據集的語言建模測試中,GPT-2 都取得了優(yōu)異的評定分數。作為一個沒有在任何領域數據專門訓練過的模型,它的表現,比那些特意打造的模型還要好。 NLP 崛起的時代? 幾個月前谷歌推出的語言模型 BERT 引發(fā)了業(yè)內的廣泛關注,一時間內不斷刷屏,其 3 億參數量刷新 11 項紀錄的成績讓人贊不絕口。但 OpenAI 這次推出的 GPT -2 更為要命,它達到了 15 億參數。 與以前最先進的人工智能模型相比,GPT2模型「大 12 倍,數據集 大 15倍,涉及范圍也更廣」。它是在一個包含大約 1000 萬篇文章的數據集上進行訓練的,這些文章是通過 Reddit 上投票超過3票的新聞鏈接而選出的。所訓練的文本數據多達 40GB ! 在 BERT 血洗 NLP(自然語言處理)各項頂級指標之前,OpenAI 的 GTP 就站在了一流高手之列,而新出的 GPT-2 通過海量的訓練數據也直接把這一領域帶到了新的高度。 有了 BERT 和 GPT-2 ,NLP 的道路肯定會紅紅火火,至于說怎么樣更好的造福人類,這還是一個慎重的話題。 艾倫人工智能研究所的研究人員 Ani Kembhavi 表示,對GPT-2 感到興奮的一個原因是,預測文本可以被認為是計算機的「超級任務」,一旦解決了這個挑戰(zhàn),將開啟智慧的大門。 會是潘多拉魔盒嗎? 遺憾的是,這么強大的工具暫時還不能公布出來。而背后的考慮是它可能會帶來的隱患問題,比如生成假新聞,惡意評論,制造垃圾郵件等等。這樣的武器用在非法的途徑,造成的后果也是災難級的。 對于這個方面,開發(fā)者也感到了擔憂。OpenAI 的研究人員說到他們無法預測會帶來什么。目前他們仍在探索之中。出于種種原因,他們對項目所分享的內容非常謹慎,目前對主要的基礎代碼和培訓數據不予公開。 他們指出謹慎的另一個原因在于,如果有人提供 GPT-2 關于種族主義,暴力,厭惡女性或辱罵性的文本,將造成很危險的局面。畢竟,它是依賴于互聯(lián)網訓練的。 不否認這項技術將帶來巨大的變革,但任何一個工具,在圖謀不軌者的手中,都會帶來災難性的后果。 而且由于 GPT-2 所寫的文本都是新生成的,不存在復制粘貼的問題,用以往的檢測手段中更難發(fā)現和排查,這將會是一個潛在的威脅。 那么,關鍵的問題來了,這篇文章是 AI 寫出來的嗎? 歷史文章(點擊圖片閱讀) AI 不上位,合作寫代碼才是正道 GANs 千萬條,安全第一條 三次元的世界里,機械臂的手活兒無敵了 |
|
來自: 西北望msm66g9f > 《編程》