01 前言 阿里小蜜家族(阿里小蜜、店小蜜、萬象),從2015年發(fā)展至今,已經(jīng)成為了覆蓋淘天P-C(平臺(tái)-消費(fèi)者)、B-C(商家-消費(fèi)者)、P-B(平臺(tái)-商家)全咨詢體系的智能對(duì)話機(jī)器人,日均接待量級(jí)在百萬(阿里小蜜)到千萬(店小蜜)范圍。 ![]() 作為淘天集團(tuán)乃至行業(yè)內(nèi)最大體量的對(duì)話機(jī)器人應(yīng)用之一,阿里小蜜在對(duì)話算法能力上持續(xù)探索,在2022年chatgpt爆炸性的誕生之后,我們也加快了擁抱LLM技術(shù)的步伐。技術(shù)飛速發(fā)展,小蜜算法團(tuán)隊(duì)全力投入LLM在客服域的落地應(yīng)用中,以端到端直出的方式,覆蓋了售后小蜜場(chǎng)景的問題定位、SOP方案播放和溝通追問等環(huán)節(jié),以及售前小蜜(自營(yíng)店/店小蜜商家)的商品問答能力。 02 當(dāng)前落地方案-基于大模型的進(jìn)化 2.1 從Pipeline到大模型直出,將NLU/DM/NLG通過大模型端到端替換 對(duì)于大模型在對(duì)話機(jī)器人中的業(yè)務(wù)&技術(shù)價(jià)值,我們也有過反復(fù)的思考和討論,但我們對(duì)LLM在小蜜中應(yīng)用的終極目標(biāo)一直保持不變,也就是用LLM端到端的實(shí)現(xiàn)對(duì)話生成,這是基于以下的判斷:
2.2 阿里小蜜:分階段、分場(chǎng)景的業(yè)務(wù)覆蓋 我們從業(yè)務(wù)視角將一通消費(fèi)者的客服咨詢對(duì)話拆分為三個(gè)階段:?jiǎn)栴}溝通、SOP操作和方案溝通。 在業(yè)務(wù)分割的基礎(chǔ)上,我們分階段的實(shí)現(xiàn)了不同的大模型對(duì)話能力(如下圖)。同時(shí)針對(duì)營(yíng)銷活動(dòng)/購(gòu)買指南等以FAQ/文檔為主的業(yè)務(wù)場(chǎng)景,我們沒有采用多階段方案,而是直接使用了端到端檢索增強(qiáng)的算法來實(shí)現(xiàn)對(duì)話。 ![]() ? 2.2.1 多輪問題定位業(yè)務(wù)背景作為客服機(jī)器人,阿里小蜜需要承接用戶表達(dá)的問題并進(jìn)行理解,進(jìn)而定位到對(duì)應(yīng)的知識(shí)或解決方案流程。過去小蜜問題溝通的模式始終沒有跳脫出一問一答的形式,長(zhǎng)遠(yuǎn)來源,這樣會(huì)導(dǎo)致兩大類問題:
業(yè)務(wù)挑戰(zhàn)&難點(diǎn)誠(chéng)然單輪交互存在著各種問題,但多輪化的改造、尤其是基于大模型的多輪化改造也需要解決以下幾個(gè)難點(diǎn):
方案設(shè)計(jì)
我們?cè)陲L(fēng)控上做了較多的把控,對(duì)準(zhǔn)入和準(zhǔn)出都進(jìn)行了嚴(yán)格的限制,在接入風(fēng)控模型的基礎(chǔ)上,我們還載入了違禁詞庫(kù)對(duì)輸入文本進(jìn)行準(zhǔn)入控制。 另外,通過判斷模型輸出不同的標(biāo)記來區(qū)分多輪對(duì)話階段,如“[定位問題]xxxxx”,表示模型判斷可以進(jìn)行知識(shí)庫(kù)檢索,我們將模型生成結(jié)果進(jìn)行檢索,并定位到對(duì)應(yīng)解決方案,結(jié)束問題溝通。而拒識(shí)或澄清,我們將會(huì)輸出話術(shù)并與用戶進(jìn)行進(jìn)一步確認(rèn)。COT主要發(fā)揮的核心作用是,讓模型學(xué)習(xí)到作為一名淘寶售后客服,回答用戶問題的主要思路和模版。 ![]()
為了建設(shè)小蜜問題溝通階段的多輪能力,最直接的學(xué)習(xí)目標(biāo)就是對(duì)齊人工端小二溝通習(xí)慣。因此我們對(duì)人人語聊進(jìn)行了細(xì)致的處理,使得模型盡可能模仿小二進(jìn)行問題溝通。
訓(xùn)練初期,我們發(fā)現(xiàn)模型比較容易過擬合,容易生成高頻且?guī)в谢糜X的結(jié)果,泛化性很差;其次,全部使用人工咨詢的SFT指令進(jìn)行訓(xùn)練,模型的通用指令能力似乎喪失了,也難以對(duì)通用知識(shí)進(jìn)行拒識(shí),因此我們混合了更多通用數(shù)據(jù),對(duì)模型進(jìn)行重新SFT訓(xùn)練,增加模型的泛化能力,避免定位到錯(cuò)誤的解決方案誤導(dǎo)用戶。 業(yè)務(wù)應(yīng)用基于大模型的多輪問題定位能力AB期間對(duì)于自主對(duì)話的部分帶來了了轉(zhuǎn)人工率的下降和滿意度的明顯上升,9月份完成在淘寶小蜜的全量上線。 訴求澄清+信息收集 ![]() 信息不足反問 ![]() ![]() ![]() ? 2.2.2 case服務(wù)軌跡理解及應(yīng)用業(yè)務(wù)背景以上我們討論了用戶進(jìn)線后問題溝通的能力優(yōu)化,然而小蜜的問題預(yù)測(cè)或溝通能力始終和人工有差距,其中一個(gè)重要的因素就是進(jìn)線時(shí)小蜜沒有任何上下文,而人工小二則可以查閱豐富完整的服務(wù)軌跡信息。 業(yè)務(wù)難點(diǎn)&挑戰(zhàn)在大模型時(shí)代之前,算法側(cè)對(duì)于case服務(wù)軌跡的理解也進(jìn)行了探索并在首頁猜問等場(chǎng)景落地,但受任務(wù)定義、模型框架等方面影響,理解內(nèi)容存在一定的局限性,特別是對(duì)于需要進(jìn)行靈活理解的場(chǎng)景較難適配,導(dǎo)致小蜜對(duì)服務(wù)軌跡包含的信息利用不夠充分。 從用戶視角而言,進(jìn)線后缺乏直接的“被理解”的體感,且在對(duì)話中需要重復(fù)描述,說明小蜜的“智能”能力存在提升的空間,從平臺(tái)運(yùn)營(yíng)視角而言,對(duì)于case服務(wù)軌跡理解的不充分,導(dǎo)致較難實(shí)現(xiàn)解決方案和轉(zhuǎn)人工策略(如重復(fù)進(jìn)線場(chǎng)景)的差異化運(yùn)營(yíng)。 整體case服務(wù)軌跡能力的架構(gòu)設(shè)計(jì)如下,我們先基于BC語聊在未問先答應(yīng)用場(chǎng)景進(jìn)行了試點(diǎn)。 ![]() BC語聊在未問先答場(chǎng)景應(yīng)用“未問先答”是小蜜推出的新能力,在用戶剛剛進(jìn)線時(shí),根據(jù)用戶當(dāng)前狀態(tài),立即推送用戶可能需要的解決方案,更快地幫助用戶路由到問題,減少咨詢成本。 業(yè)務(wù)應(yīng)用考慮到信息的抽取結(jié)果將會(huì)應(yīng)用到下游豐富的大模型對(duì)話場(chǎng)景,而抽取枚舉值將會(huì)損失豐富的細(xì)節(jié)信息,因此我們考慮讓模型既可以輸出自然語言摘要結(jié)果,也可以輸出對(duì)應(yīng)的枚舉值,流程如圖所示: ![]() ? 2.2.3 生成式快捷短語業(yè)務(wù)背景為了讓小蜜可以更好的定位到用戶的問題,在小蜜整體的交互中,增加了一些以推薦為導(dǎo)向的方法,快捷短語便是其中的一環(huán)??旖荻陶Z的目的是生成單個(gè)或多個(gè)用戶可能想了解/輸入的內(nèi)容,讓用戶通過點(diǎn)擊基于知識(shí)/問題的快捷短語來與小蜜進(jìn)行交互,在減少用戶輸入成本的同時(shí)幫助用戶快速獲取解決方案。 結(jié)合小蜜中逐漸落地的大模型能力,配合小蜜的新的表達(dá)形式,快捷短語也誕生了新的交互形式變化,即生成式快捷短語。 業(yè)務(wù)難點(diǎn)&挑戰(zhàn)生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容,而后用戶可以通過點(diǎn)擊的方式輸入文本,與小蜜進(jìn)行交互的同時(shí),配合小蜜中的大模型多輪定位等功能, 幫助用戶快速定位到需要的解決方案。這就要求快捷短語生成的內(nèi)容具有如下特點(diǎn):
但是在現(xiàn)實(shí)中,用戶并不會(huì)經(jīng)常做到“一次性輸入完整內(nèi)容”,而是會(huì)有如下特點(diǎn):
生成內(nèi)容的要求與實(shí)際生活中用戶的輸入有較大的差距,這也給我們帶來了挑戰(zhàn)。 方案設(shè)計(jì)生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容,配合小蜜中的大模型多輪定位等功能,推進(jìn)用戶對(duì)話進(jìn)展的同時(shí)獲取解決方案。與之前的綁定知識(shí)不同,生成式快捷短語不綁定固定知識(shí),而是讓用戶以對(duì)話的形式走大模型多輪定位獲取解決方案。 考慮到大模型的性能問題,實(shí)際線上部署的時(shí)候,先以前置判別模型進(jìn)行判別,用以減少大模型調(diào)用量。 基于不同場(chǎng)景下需要展示的內(nèi)容的不同,結(jié)合之前已經(jīng)存在的基于知識(shí)/問題的快捷短語,設(shè)計(jì)了以下鏈路: ![]() 業(yè)務(wù)應(yīng)用從線上AB效果來看,特定場(chǎng)景下生成式快捷短語相比基于固定候選池的推進(jìn)式短語點(diǎn)擊率提升明顯,顯著降低了用戶輸入的成本,幫助用戶快速獲取解決方案。 ![]() ![]() ![]() ? 2.2.4 多輪追問生成業(yè)務(wù)背景傳統(tǒng)的對(duì)話機(jī)器人設(shè)計(jì)分為2種類型,1)每輪咨詢重新定位方案,導(dǎo)致對(duì)話隔離感非常強(qiáng),幾乎沒有多輪對(duì)話的體感;2)依賴于多輪劇本,通過運(yùn)營(yíng)維護(hù)多輪劇本,將一個(gè)問題完整的解決掉,但是運(yùn)營(yíng)成本和維護(hù)成本都非常高。 業(yè)務(wù)挑戰(zhàn)&難點(diǎn)消費(fèi)者在小蜜機(jī)器人咨詢問題繁多,包含了閑聊、單訴求和多訴求。而每輪訴求之后,消費(fèi)者通常會(huì)針對(duì)小蜜當(dāng)前所給出的解決方案進(jìn)行一步咨詢,咨詢內(nèi)容大概包含以下3種情況:1)對(duì)當(dāng)前訴求的進(jìn)一步描述或者對(duì)當(dāng)前答案的進(jìn)一步詢問;2)表達(dá)情緒上的不滿、催促或者感謝;3)當(dāng)前訴求完結(jié),跨訴求咨詢其他新問題。因此如何精準(zhǔn)判別消費(fèi)者的同訴求追問并給出擬人化的合理性回復(fù)是算法面臨的挑戰(zhàn)。 方案設(shè)計(jì)![]() 業(yè)務(wù)應(yīng)用我們?cè)谔詫?天貓平臺(tái)小蜜機(jī)器人中,上線應(yīng)用了多輪追問大模型生成能力,針對(duì)消費(fèi)者單個(gè)訴求完成了更好的多輪對(duì)話,降低了對(duì)話割裂感,最終降低了轉(zhuǎn)人工率、并提升了滿意度,讓用戶能夠在小蜜獲得更好的對(duì)話服務(wù)體驗(yàn)。 ![]() ? 2.2.5 基于檢索增強(qiáng)的文檔問答大模型應(yīng)用業(yè)務(wù)背景淘寶促銷活動(dòng)期間,用戶咨詢機(jī)器人有關(guān)活動(dòng)問題的量就會(huì)暴漲,為了更好的支撐平臺(tái)的活動(dòng),給到消費(fèi)者更好的購(gòu)物體驗(yàn),業(yè)務(wù)運(yùn)營(yíng)耗費(fèi)了大量的成本消化活動(dòng)、維護(hù)活動(dòng)FAQ。 業(yè)務(wù)挑戰(zhàn)&難點(diǎn)活動(dòng)期間基本處于封網(wǎng)狀態(tài)(特別是活動(dòng)量最大的雙十一),算法很難基于現(xiàn)有樣本重新訓(xùn)練,因此要求算法模型具備較強(qiáng)的ZERO-SHOT能力。 雙十一活動(dòng)的特點(diǎn)是多樣性高、時(shí)效性強(qiáng),且規(guī)則較為復(fù)雜,如何結(jié)合淘寶的規(guī)則更好的理解消費(fèi)者的問題,并且給出淺顯易懂的回復(fù)答案是算法面臨的挑戰(zhàn)。 方案設(shè)計(jì)
我們對(duì)文檔按段落進(jìn)行拆分,得到文檔的段落內(nèi)容以及對(duì)應(yīng)的各級(jí)標(biāo)題。然后對(duì)段落內(nèi)容以及各級(jí)標(biāo)題分別進(jìn)行向量化,并保存到向量數(shù)據(jù)庫(kù)中。檢索時(shí),我們將用戶的query也進(jìn)行向量化,然后與向量數(shù)據(jù)庫(kù)中的向量進(jìn)行匹配,搜索最相似的n條文檔段落,最后將這些段落交由大模型進(jìn)行最終的答案生成。整體流程如下: ![]() 文檔索引構(gòu)建可以將文檔轉(zhuǎn)為文檔索引塊(Chunk),主要分為解析(Parsing)和切分(Chunking)兩步: ![]()
![]()
![]()
在進(jìn)行重排優(yōu)化策略時(shí),我們針對(duì)數(shù)據(jù)層、訓(xùn)練層和模型層均進(jìn)行了針對(duì)性實(shí)驗(yàn)及優(yōu)化。
![]() ![]()
【模型層】
【訓(xùn)練層】
業(yè)務(wù)應(yīng)用我們?cè)谔詫?天貓平臺(tái)小蜜中,分別上線應(yīng)用基于FAQ檢索增強(qiáng)的大模型生成和基于文檔檢索增強(qiáng)的大模型生成,通過AB實(shí)驗(yàn)對(duì)比,對(duì)滿意度和轉(zhuǎn)人工都帶來了正向提升。 ![]() ![]() 2.3 店小蜜&自營(yíng)小蜜 業(yè)務(wù)背景店小蜜是一款服務(wù)于消費(fèi)者、人工客服、訓(xùn)練師和商家運(yùn)營(yíng)的全鏈路客服機(jī)器人,日承接對(duì)話3000萬輪次。店小蜜零售大模型旨在提高大模型在零售場(chǎng)景的服務(wù)問答場(chǎng)景(包括但不限于商品問答能力、營(yíng)銷導(dǎo)購(gòu)能力、商品文案以及圖片生成能力、服務(wù)診斷能力等)以及店鋪運(yùn)營(yíng)水平。以下是用戶在店小蜜的服務(wù)流程![]() 售前商品問答商品問答是基于商品知識(shí)庫(kù)、商品詳情頁等數(shù)據(jù)源,來回答消費(fèi)者提出的商品屬性相關(guān)的問題,這類問題通??梢越唤o智能機(jī)器人處理,節(jié)省售前咨詢?nèi)斯こ杀尽?/h2>![]() 如圖所示,商品問答大模型整合了多種知識(shí)源側(cè)信息,包括商品知識(shí)庫(kù)、IC庫(kù)等,將各個(gè)源的信息進(jìn)行整合形成商品知識(shí)文檔作為模型輸入??紤]到線上RT限制,在將商品知識(shí)文檔傳給大模型之前先進(jìn)行多源商品知識(shí)召回,將各個(gè)源頭與消費(fèi)者咨詢最相關(guān)的知識(shí)給到大模型,在保證回復(fù)內(nèi)容準(zhǔn)確的同時(shí)兼顧回復(fù)的響應(yīng)時(shí)間。 商品問答大模型效果模型能力對(duì)比 ![]() 可以看出,大模型的精準(zhǔn)率、覆蓋率基于小模型分別提升17pt/2pt。從實(shí)際消費(fèi)者問答參評(píng)滿意度看,消費(fèi)者對(duì)大模型返回答案的認(rèn)可度更高,大模型也帶來了商品咨詢轉(zhuǎn)化率的提升。 業(yè)務(wù)應(yīng)用在商品問答場(chǎng)景,大模型的優(yōu)勢(shì)主要有:更強(qiáng)的檢索能力、更豐富的外部知識(shí)、更強(qiáng)的理解推理能力。詳細(xì)可以見下表的case梳理。 ![]() 03 總結(jié) 小蜜對(duì)話能力全面擁抱大模型,我們也初步看到了LLM在服務(wù)對(duì)話領(lǐng)域巨大的應(yīng)用潛力。與此同時(shí),LLM也帶來了算法方法論的完全變革,也涌現(xiàn)了一系列的問題值得我們進(jìn)一步的探索:
上面的每一個(gè)問題,在LLM時(shí)代目前都還是Open Problem,它帶來的既是興奮,也有挑戰(zhàn),小蜜也將持續(xù)走在LLM業(yè)務(wù)應(yīng)用的最前沿。 作者:智能小蜜團(tuán)隊(duì) |
|