2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

 文明世界拼圖 2024-01-25 發(fā)布于重慶

01

前言

阿里小蜜家族(阿里小蜜、店小蜜、萬象),從2015年發(fā)展至今,已經(jīng)成為了覆蓋淘天P-C(平臺(tái)-消費(fèi)者)、B-C(商家-消費(fèi)者)、P-B(平臺(tái)-商家)全咨詢體系的智能對(duì)話機(jī)器人,日均接待量級(jí)在百萬(阿里小蜜)到千萬(店小蜜)范圍。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

作為淘天集團(tuán)乃至行業(yè)內(nèi)最大體量的對(duì)話機(jī)器人應(yīng)用之一,阿里小蜜在對(duì)話算法能力上持續(xù)探索,在2022年chatgpt爆炸性的誕生之后,我們也加快了擁抱LLM技術(shù)的步伐。技術(shù)飛速發(fā)展,小蜜算法團(tuán)隊(duì)全力投入LLM在客服域的落地應(yīng)用中,以端到端直出的方式,覆蓋了售后小蜜場(chǎng)景的問題定位、SOP方案播放和溝通追問等環(huán)節(jié),以及售前小蜜(自營(yíng)店/店小蜜商家)的商品問答能力。

02

當(dāng)前落地方案-基于大模型的進(jìn)化

2.1 從Pipeline到大模型直出,將NLU/DM/NLG通過大模型端到端替換

對(duì)于大模型在對(duì)話機(jī)器人中的業(yè)務(wù)&技術(shù)價(jià)值,我們也有過反復(fù)的思考和討論,但我們對(duì)LLM在小蜜中應(yīng)用的終極目標(biāo)一直保持不變,也就是用LLM端到端的實(shí)現(xiàn)對(duì)話生成,這是基于以下的判斷:

  1. 從技術(shù)角度,原有多模型pipeline式的對(duì)話鏈路隨著多年的迭代和打補(bǔ)丁已經(jīng)過于復(fù)雜,而大模型可以大幅簡(jiǎn)化鏈路,并且一定程度緩解誤差傳播。
  2. 從業(yè)務(wù)角度,技術(shù)升級(jí)最重要的還是需要LLM在對(duì)話能力上帶來體感上的明顯變化,才有可能進(jìn)一步影響業(yè)務(wù)指標(biāo)。
  3. 對(duì)于備受關(guān)注的風(fēng)險(xiǎn)問題,大模型出現(xiàn)的生成幻覺問題會(huì)不會(huì)影響業(yè)務(wù)效果?這個(gè)問題要分情況看,一方面我們從技術(shù)角度減少幻覺的產(chǎn)生,一種是從業(yè)務(wù)角度減少幻覺產(chǎn)生的影響,這需要結(jié)合場(chǎng)景的進(jìn)行設(shè)計(jì)。

2.2 阿里小蜜:分階段、分場(chǎng)景的業(yè)務(wù)覆蓋

我們從業(yè)務(wù)視角將一通消費(fèi)者的客服咨詢對(duì)話拆分為三個(gè)階段:?jiǎn)栴}溝通、SOP操作和方案溝通。

在業(yè)務(wù)分割的基礎(chǔ)上,我們分階段的實(shí)現(xiàn)了不同的大模型對(duì)話能力(如下圖)。同時(shí)針對(duì)營(yíng)銷活動(dòng)/購(gòu)買指南等以FAQ/文檔為主的業(yè)務(wù)場(chǎng)景,我們沒有采用多階段方案,而是直接使用了端到端檢索增強(qiáng)的算法來實(shí)現(xiàn)對(duì)話。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

? 2.2.1 多輪問題定位

業(yè)務(wù)背景

作為客服機(jī)器人,阿里小蜜需要承接用戶表達(dá)的問題并進(jìn)行理解,進(jìn)而定位到對(duì)應(yīng)的知識(shí)或解決方案流程。過去小蜜問題溝通的模式始終沒有跳脫出一問一答的形式,長(zhǎng)遠(yuǎn)來源,這樣會(huì)導(dǎo)致兩大類問題:

  1. 對(duì)用戶表達(dá)精確度提出了較高的要求,因?yàn)楦匀坏谋磉_(dá)方式往往不一定能定位到準(zhǔn)確的解決方案。
  2. 為了適配小蜜的單輪問題溝通效果,整體的知識(shí)體系中的知識(shí)也朝著越來越全、越來越大的模式演進(jìn),以保證用戶的問題或訴求理解不會(huì)偏移。

業(yè)務(wù)挑戰(zhàn)&難點(diǎn)

誠(chéng)然單輪交互存在著各種問題,但多輪化的改造、尤其是基于大模型的多輪化改造也需要解決以下幾個(gè)難點(diǎn):

  1. 多輪狀態(tài)下知識(shí)定位的準(zhǔn)確性,多輪交互下如何保證能精準(zhǔn)理解用戶多階段表達(dá)的內(nèi)容并精確定位到知識(shí)
  2. 大模型生成內(nèi)容風(fēng)險(xiǎn)控制,在立項(xiàng)之初,淘天集團(tuán)內(nèi)尚未有直接將大模型生成內(nèi)容用于C端輸出的應(yīng)用可供參考,因此如何在提升對(duì)話多樣性的情況下控制生成風(fēng)險(xiǎn)是需要解決的問題。

方案設(shè)計(jì)

  • 線上鏈路設(shè)計(jì)

我們?cè)陲L(fēng)控上做了較多的把控,對(duì)準(zhǔn)入和準(zhǔn)出都進(jìn)行了嚴(yán)格的限制,在接入風(fēng)控模型的基礎(chǔ)上,我們還載入了違禁詞庫(kù)對(duì)輸入文本進(jìn)行準(zhǔn)入控制。

另外,通過判斷模型輸出不同的標(biāo)記來區(qū)分多輪對(duì)話階段,如“[定位問題]xxxxx”,表示模型判斷可以進(jìn)行知識(shí)庫(kù)檢索,我們將模型生成結(jié)果進(jìn)行檢索,并定位到對(duì)應(yīng)解決方案,結(jié)束問題溝通。而拒識(shí)或澄清,我們將會(huì)輸出話術(shù)并與用戶進(jìn)行進(jìn)一步確認(rèn)。COT主要發(fā)揮的核心作用是,讓模型學(xué)習(xí)到作為一名淘寶售后客服,回答用戶問題的主要思路和模版。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
  • 對(duì)齊人工端溝通能力

為了建設(shè)小蜜問題溝通階段的多輪能力,最直接的學(xué)習(xí)目標(biāo)就是對(duì)齊人工端小二溝通習(xí)慣。因此我們對(duì)人人語聊進(jìn)行了細(xì)致的處理,使得模型盡可能模仿小二進(jìn)行問題溝通。

  • 增強(qiáng)模型泛化性

訓(xùn)練初期,我們發(fā)現(xiàn)模型比較容易過擬合,容易生成高頻且?guī)в谢糜X的結(jié)果,泛化性很差;其次,全部使用人工咨詢的SFT指令進(jìn)行訓(xùn)練,模型的通用指令能力似乎喪失了,也難以對(duì)通用知識(shí)進(jìn)行拒識(shí),因此我們混合了更多通用數(shù)據(jù),對(duì)模型進(jìn)行重新SFT訓(xùn)練,增加模型的泛化能力,避免定位到錯(cuò)誤的解決方案誤導(dǎo)用戶。

業(yè)務(wù)應(yīng)用

基于大模型的多輪問題定位能力AB期間對(duì)于自主對(duì)話的部分帶來了了轉(zhuǎn)人工率的下降和滿意度的明顯上升,9月份完成在淘寶小蜜的全量上線。

訴求澄清+信息收集

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

信息不足反問

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

? 2.2.2 case服務(wù)軌跡理解及應(yīng)用

業(yè)務(wù)背景

以上我們討論了用戶進(jìn)線后問題溝通的能力優(yōu)化,然而小蜜的問題預(yù)測(cè)或溝通能力始終和人工有差距,其中一個(gè)重要的因素就是進(jìn)線時(shí)小蜜沒有任何上下文,而人工小二則可以查閱豐富完整的服務(wù)軌跡信息。

業(yè)務(wù)難點(diǎn)&挑戰(zhàn)

在大模型時(shí)代之前,算法側(cè)對(duì)于case服務(wù)軌跡的理解也進(jìn)行了探索并在首頁猜問等場(chǎng)景落地,但受任務(wù)定義、模型框架等方面影響,理解內(nèi)容存在一定的局限性,特別是對(duì)于需要進(jìn)行靈活理解的場(chǎng)景較難適配,導(dǎo)致小蜜對(duì)服務(wù)軌跡包含的信息利用不夠充分。

從用戶視角而言,進(jìn)線后缺乏直接的“被理解”的體感,且在對(duì)話中需要重復(fù)描述,說明小蜜的“智能”能力存在提升的空間,從平臺(tái)運(yùn)營(yíng)視角而言,對(duì)于case服務(wù)軌跡理解的不充分,導(dǎo)致較難實(shí)現(xiàn)解決方案和轉(zhuǎn)人工策略(如重復(fù)進(jìn)線場(chǎng)景)的差異化運(yùn)營(yíng)。

整體case服務(wù)軌跡能力的架構(gòu)設(shè)計(jì)如下,我們先基于BC語聊在未問先答應(yīng)用場(chǎng)景進(jìn)行了試點(diǎn)。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

BC語聊在未問先答場(chǎng)景應(yīng)用

“未問先答”是小蜜推出的新能力,在用戶剛剛進(jìn)線時(shí),根據(jù)用戶當(dāng)前狀態(tài),立即推送用戶可能需要的解決方案,更快地幫助用戶路由到問題,減少咨詢成本。

業(yè)務(wù)應(yīng)用

考慮到信息的抽取結(jié)果將會(huì)應(yīng)用到下游豐富的大模型對(duì)話場(chǎng)景,而抽取枚舉值將會(huì)損失豐富的細(xì)節(jié)信息,因此我們考慮讓模型既可以輸出自然語言摘要結(jié)果,也可以輸出對(duì)應(yīng)的枚舉值,流程如圖所示:

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐


? 2.2.3 生成式快捷短語

業(yè)務(wù)背景

為了讓小蜜可以更好的定位到用戶的問題,在小蜜整體的交互中,增加了一些以推薦為導(dǎo)向的方法,快捷短語便是其中的一環(huán)??旖荻陶Z的目的是生成單個(gè)或多個(gè)用戶可能想了解/輸入的內(nèi)容,讓用戶通過點(diǎn)擊基于知識(shí)/問題的快捷短語來與小蜜進(jìn)行交互,在減少用戶輸入成本的同時(shí)幫助用戶快速獲取解決方案。

結(jié)合小蜜中逐漸落地的大模型能力,配合小蜜的新的表達(dá)形式,快捷短語也誕生了新的交互形式變化,即生成式快捷短語。

業(yè)務(wù)難點(diǎn)&挑戰(zhàn)

生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容,而后用戶可以通過點(diǎn)擊的方式輸入文本,與小蜜進(jìn)行交互的同時(shí),配合小蜜中的大模型多輪定位等功能, 幫助用戶快速定位到需要的解決方案。這就要求快捷短語生成的內(nèi)容具有如下特點(diǎn):

  • 完整性:可以完整表達(dá)用戶遇到的問題與訴求,幫助用戶快速定位問題;
  • 業(yè)務(wù)相關(guān)性:生成的內(nèi)容有實(shí)際的業(yè)務(wù)相關(guān)性,如問題或訴求等相關(guān)業(yè)務(wù)屬性的完整描述。

但是在現(xiàn)實(shí)中,用戶并不會(huì)經(jīng)常做到“一次性輸入完整內(nèi)容”,而是會(huì)有如下特點(diǎn):

  • 多次/多輪輸入:用戶一般要通過多次內(nèi)容輸入才能把自己的問題與訴求表達(dá)清楚;
  • 同種語義,多種表達(dá):用戶對(duì)于一些詞匯的理解不同,表達(dá)上也不統(tǒng)一;
  • 表達(dá)內(nèi)容無利于定位:用戶的情緒化表達(dá),以及其他一些敘述,無法幫助用戶推進(jìn)解決問題。

生成內(nèi)容的要求與實(shí)際生活中用戶的輸入有較大的差距,這也給我們帶來了挑戰(zhàn)。

方案設(shè)計(jì)

生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容,配合小蜜中的大模型多輪定位等功能,推進(jìn)用戶對(duì)話進(jìn)展的同時(shí)獲取解決方案。與之前的綁定知識(shí)不同,生成式快捷短語不綁定固定知識(shí),而是讓用戶以對(duì)話的形式走大模型多輪定位獲取解決方案。

考慮到大模型的性能問題,實(shí)際線上部署的時(shí)候,先以前置判別模型進(jìn)行判別,用以減少大模型調(diào)用量。

基于不同場(chǎng)景下需要展示的內(nèi)容的不同,結(jié)合之前已經(jīng)存在的基于知識(shí)/問題的快捷短語,設(shè)計(jì)了以下鏈路:

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

業(yè)務(wù)應(yīng)用

從線上AB效果來看,特定場(chǎng)景下生成式快捷短語相比基于固定候選池的推進(jìn)式短語點(diǎn)擊率提升明顯,顯著降低了用戶輸入的成本,幫助用戶快速獲取解決方案。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

? 2.2.4 多輪追問生成

業(yè)務(wù)背景

傳統(tǒng)的對(duì)話機(jī)器人設(shè)計(jì)分為2種類型,1)每輪咨詢重新定位方案,導(dǎo)致對(duì)話隔離感非常強(qiáng),幾乎沒有多輪對(duì)話的體感;2)依賴于多輪劇本,通過運(yùn)營(yíng)維護(hù)多輪劇本,將一個(gè)問題完整的解決掉,但是運(yùn)營(yíng)成本和維護(hù)成本都非常高。

業(yè)務(wù)挑戰(zhàn)&難點(diǎn)

消費(fèi)者在小蜜機(jī)器人咨詢問題繁多,包含了閑聊、單訴求和多訴求。而每輪訴求之后,消費(fèi)者通常會(huì)針對(duì)小蜜當(dāng)前所給出的解決方案進(jìn)行一步咨詢,咨詢內(nèi)容大概包含以下3種情況:1)對(duì)當(dāng)前訴求的進(jìn)一步描述或者對(duì)當(dāng)前答案的進(jìn)一步詢問;2)表達(dá)情緒上的不滿、催促或者感謝;3)當(dāng)前訴求完結(jié),跨訴求咨詢其他新問題。因此如何精準(zhǔn)判別消費(fèi)者的同訴求追問并給出擬人化的合理性回復(fù)是算法面臨的挑戰(zhàn)。

方案設(shè)計(jì)

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

業(yè)務(wù)應(yīng)用

我們?cè)谔詫?天貓平臺(tái)小蜜機(jī)器人中,上線應(yīng)用了多輪追問大模型生成能力,針對(duì)消費(fèi)者單個(gè)訴求完成了更好的多輪對(duì)話,降低了對(duì)話割裂感,最終降低了轉(zhuǎn)人工率、并提升了滿意度,讓用戶能夠在小蜜獲得更好的對(duì)話服務(wù)體驗(yàn)。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

? 2.2.5 基于檢索增強(qiáng)的文檔問答大模型應(yīng)用

業(yè)務(wù)背景

淘寶促銷活動(dòng)期間,用戶咨詢機(jī)器人有關(guān)活動(dòng)問題的量就會(huì)暴漲,為了更好的支撐平臺(tái)的活動(dòng),給到消費(fèi)者更好的購(gòu)物體驗(yàn),業(yè)務(wù)運(yùn)營(yíng)耗費(fèi)了大量的成本消化活動(dòng)、維護(hù)活動(dòng)FAQ。

業(yè)務(wù)挑戰(zhàn)&難點(diǎn)

活動(dòng)期間基本處于封網(wǎng)狀態(tài)(特別是活動(dòng)量最大的雙十一),算法很難基于現(xiàn)有樣本重新訓(xùn)練,因此要求算法模型具備較強(qiáng)的ZERO-SHOT能力。

雙十一活動(dòng)的特點(diǎn)是多樣性高、時(shí)效性強(qiáng),且規(guī)則較為復(fù)雜,如何結(jié)合淘寶的規(guī)則更好的理解消費(fèi)者的問題,并且給出淺顯易懂的回復(fù)答案是算法面臨的挑戰(zhàn)。

方案設(shè)計(jì)

  • 工程鏈路設(shè)計(jì)

我們對(duì)文檔按段落進(jìn)行拆分,得到文檔的段落內(nèi)容以及對(duì)應(yīng)的各級(jí)標(biāo)題。然后對(duì)段落內(nèi)容以及各級(jí)標(biāo)題分別進(jìn)行向量化,并保存到向量數(shù)據(jù)庫(kù)中。檢索時(shí),我們將用戶的query也進(jìn)行向量化,然后與向量數(shù)據(jù)庫(kù)中的向量進(jìn)行匹配,搜索最相似的n條文檔段落,最后將這些段落交由大模型進(jìn)行最終的答案生成。整體流程如下:

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

文檔索引構(gòu)建可以將文檔轉(zhuǎn)為文檔索引塊(Chunk),主要分為解析(Parsing)和切分(Chunking)兩步:

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
  • 算法方案
    • Doc向量化
    • SimCSE模型架構(gòu)】基于SimCSE模型結(jié)構(gòu),最后一層將embedding向量投影到256維。
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
    • 【效果評(píng)估】我們?cè)谛∶蹟?shù)據(jù)集上對(duì)我們的模型進(jìn)行測(cè)試,并與其他開放的模型進(jìn)行對(duì)比。
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
    • Doc重排

在進(jìn)行重排優(yōu)化策略時(shí),我們針對(duì)數(shù)據(jù)層、訓(xùn)練層和模型層均進(jìn)行了針對(duì)性實(shí)驗(yàn)及優(yōu)化。

    • 【效果評(píng)估】
  • 我們?cè)谛∶圩约旱闹嘏舃enchmark數(shù)據(jù)集上評(píng)估了模型效果

  • 為了驗(yàn)證模型的泛化性,我們?cè)陂_源的數(shù)據(jù)集上也進(jìn)行了評(píng)估,我們的large版本已經(jīng)可以達(dá)到當(dāng)前的SOTA水平。
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
    • SFT
  • 【數(shù)據(jù)層】
  1. 1. 少量高質(zhì)量的業(yè)務(wù)域問答數(shù)據(jù)+大量的高質(zhì)量通用域問答數(shù)據(jù);2. Role Prompt采用[Human, Assistant]的方式。

【模型層】

  1. 1. 基座選擇Qwen7b,文檔問答的prompt都非常長(zhǎng),采用較小的基座來兼容效果并能實(shí)際在業(yè)務(wù)落地;2. 更長(zhǎng)的context并不會(huì)帶來效果上的提升,我們嘗試過8k版本或者自己訓(xùn)練的4k版本,發(fā)現(xiàn)評(píng)測(cè)效果相比2k沒有帶來明顯的提升。

【訓(xùn)練層】

  1. 1. 訓(xùn)練采用全參訓(xùn)練,經(jīng)過我們的多次實(shí)驗(yàn),7b模型的全參相比lora能取得更好的效果;2. 對(duì)于訓(xùn)練的超參,我們發(fā)現(xiàn)對(duì)于訓(xùn)練的超參進(jìn)行業(yè)務(wù)域的微調(diào)帶來的提升并不明顯且成本高。
  • 實(shí)際線上流程


業(yè)務(wù)應(yīng)用

我們?cè)谔詫?天貓平臺(tái)小蜜中,分別上線應(yīng)用基于FAQ檢索增強(qiáng)的大模型生成和基于文檔檢索增強(qiáng)的大模型生成,通過AB實(shí)驗(yàn)對(duì)比,對(duì)滿意度和轉(zhuǎn)人工都帶來了正向提升。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

2.3 店小蜜&自營(yíng)小蜜

業(yè)務(wù)背景

店小蜜是一款服務(wù)于消費(fèi)者、人工客服、訓(xùn)練師和商家運(yùn)營(yíng)的全鏈路客服機(jī)器人,日承接對(duì)話3000萬輪次。

店小蜜零售大模型旨在提高大模型在零售場(chǎng)景的服務(wù)問答場(chǎng)景(包括但不限于商品問答能力、營(yíng)銷導(dǎo)購(gòu)能力、商品文案以及圖片生成能力、服務(wù)診斷能力等)以及店鋪運(yùn)營(yíng)水平。

以下是用戶在店小蜜的服務(wù)流程

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

售前商品問答

商品問答是基于商品知識(shí)庫(kù)、商品詳情頁等數(shù)據(jù)源,來回答消費(fèi)者提出的商品屬性相關(guān)的問題,這類問題通??梢越唤o智能機(jī)器人處理,節(jié)省售前咨詢?nèi)斯こ杀尽?/h2>
  • 整體鏈路
智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

如圖所示,商品問答大模型整合了多種知識(shí)源側(cè)信息,包括商品知識(shí)庫(kù)、IC庫(kù)等,將各個(gè)源的信息進(jìn)行整合形成商品知識(shí)文檔作為模型輸入??紤]到線上RT限制,在將商品知識(shí)文檔傳給大模型之前先進(jìn)行多源商品知識(shí)召回,將各個(gè)源頭與消費(fèi)者咨詢最相關(guān)的知識(shí)給到大模型,在保證回復(fù)內(nèi)容準(zhǔn)確的同時(shí)兼顧回復(fù)的響應(yīng)時(shí)間。

商品問答大模型效果

模型能力對(duì)比

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

可以看出,大模型的精準(zhǔn)率、覆蓋率基于小模型分別提升17pt/2pt。從實(shí)際消費(fèi)者問答參評(píng)滿意度看,消費(fèi)者對(duì)大模型返回答案的認(rèn)可度更高,大模型也帶來了商品咨詢轉(zhuǎn)化率的提升。

業(yè)務(wù)應(yīng)用

在商品問答場(chǎng)景,大模型的優(yōu)勢(shì)主要有:更強(qiáng)的檢索能力、更豐富的外部知識(shí)、更強(qiáng)的理解推理能力。詳細(xì)可以見下表的case梳理。

智能對(duì)話新紀(jì)元:百萬日活對(duì)話機(jī)器人的LLM落地實(shí)踐

03

總結(jié)

小蜜對(duì)話能力全面擁抱大模型,我們也初步看到了LLM在服務(wù)對(duì)話領(lǐng)域巨大的應(yīng)用潛力。與此同時(shí),LLM也帶來了算法方法論的完全變革,也涌現(xiàn)了一系列的問題值得我們進(jìn)一步的探索:

  1. 影響LLM業(yè)務(wù)效果的因素比小模型更復(fù)雜:基座模型、Prompt工程、SFT數(shù)據(jù)、訓(xùn)練的Trick,優(yōu)化哪個(gè)是最有效的?
  2. 在垂直領(lǐng)域,單純依靠無Finetune Prompting無法滿足業(yè)務(wù)效果,我們需要進(jìn)行一定程度SFT的前提下,我們發(fā)現(xiàn)SFT在LLM上極容易過擬合。那么此時(shí)基座的能力和SFT任務(wù)的關(guān)系是什么?我們是應(yīng)該選擇“能力更好的基座”還是“更容易被SFT的基座”?
  3. 我們大量的算法工作還是停留在'更換基座->更換SFT數(shù)據(jù)'的循環(huán)中,本質(zhì)是一種“基于LLM的監(jiān)督學(xué)習(xí)”,如何更有機(jī)的結(jié)合Prompt工程、SFT、甚至Continue Training打出一套領(lǐng)域落地的組合拳,還沒有清晰的成功路徑。
  4. Agent是否是實(shí)現(xiàn)AGI的最近靠譜路徑?我們能否基于Agent架構(gòu)更進(jìn)一步逼近擬人、更強(qiáng)泛化和業(yè)務(wù)推理能力的客服AI?
  5. ....

上面的每一個(gè)問題,在LLM時(shí)代目前都還是Open Problem,它帶來的既是興奮,也有挑戰(zhàn),小蜜也將持續(xù)走在LLM業(yè)務(wù)應(yīng)用的最前沿。

作者:智能小蜜團(tuán)隊(duì)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多