近期,許多用戶發(fā)現(xiàn),中國(guó)初創(chuàng)公司深度求索在蘋(píng)果應(yīng)用商店上架了自己的大模型應(yīng)用“DeepSeek”,其下方評(píng)論中就有網(wǎng)友表示,用了一年的網(wǎng)頁(yè)端,終于等到了App。
該App的商店頁(yè)面顯示,這是DeepSeek官方推出的AI助手,可“免費(fèi)體驗(yàn)與全球領(lǐng)先AI模型的互動(dòng)交流”。其使用開(kāi)源的 DeepSeek-V3 大模型,多項(xiàng)性能指標(biāo)對(duì)齊海外頂尖模型,可以用更快的速度、更加全面強(qiáng)大的功能答疑解惑,助力高效美好的生活。
App Store 頁(yè)面截圖。 上個(gè)月(12月26日),深度求索正式對(duì)外發(fā)布 DeepSeek-V3大模型,據(jù)其介紹,該模型在多個(gè)方面超越、追平各種開(kāi)源、閉源大模型。而在DeepSeek開(kāi)源社區(qū)收獲的廣泛好評(píng),顯示出開(kāi)發(fā)者們已經(jīng)用腳進(jìn)行了投票。 首先是百科知識(shí)上,V3的知識(shí)類(lèi)任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)水平相比前代 DeepSeek-V2.5 (下稱(chēng)V2.5)顯著提升,接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。長(zhǎng)文本測(cè)評(píng)方面,在DROP、FRAMES 和 LongBench v2 上,V3 平均表現(xiàn)超越其他模型。 此外,V3 在算法類(lèi)代碼場(chǎng)景(Codeforces),遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非o1類(lèi)模型,并在工程類(lèi)代碼場(chǎng)景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。 值得注意的是,V3在中文和數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試中表現(xiàn)尤為突出。在中文能力上,V3 與 Qwen2.5-72B 在教育類(lèi)測(cè)評(píng) C-Eval 和代詞消歧等評(píng)測(cè)集上表現(xiàn)相近,但在事實(shí)知識(shí) C-SimpleQA 上更為領(lǐng)先。而在美國(guó)數(shù)學(xué)競(jìng)賽(AIME 2024, MATH)和全國(guó)高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,V3大幅超過(guò)了所有開(kāi)源閉源模型。
Deepseek-V3與多個(gè)國(guó)內(nèi)外大模型的測(cè)試數(shù)據(jù)對(duì)比。“Deepseek”公眾號(hào) 公開(kāi)資料顯示,在DeepSeek背后是量化私募巨頭幻方(High-Flyer Quant),也是大廠外唯一一家儲(chǔ)備上萬(wàn)張英偉達(dá) A100芯片的公司?;梅匠闪⒂?008年,總部位于中國(guó)杭州,專(zhuān)注于利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)技術(shù)進(jìn)行金融市場(chǎng)的量化分析和交易。2024年5月,DeepSeek-V2發(fā)布,幻方量化成功轉(zhuǎn)型為人工智能先驅(qū),其超低價(jià)格甚至引發(fā)了國(guó)內(nèi)大模型的價(jià)格戰(zhàn),DeepSeek也被迅速冠以“AI界拼多多”之稱(chēng)。 |
|
來(lái)自: 真友書(shū)屋 > 《互聯(lián) 科技》