隨著互聯(lián)網(wǎng)進(jìn)入了下半場(chǎng),精益化發(fā)展成為了主旋律,為了實(shí)現(xiàn)同樣的獲客成本下收益最大化,各家對(duì)推薦系統(tǒng)的需求日益強(qiáng)烈。 本文通俗的講述通過幾個(gè)段落簡(jiǎn)單講述什么是推薦系統(tǒng)、推薦系統(tǒng)運(yùn)作流程、圖譜應(yīng)用的優(yōu)勢(shì)、圖譜推薦的原理、圖譜推薦的難點(diǎn),供大家參考了解。 一、什么是推薦系統(tǒng)推薦系統(tǒng),正如它的字面信息一樣,就是通過推薦內(nèi)容滿足用戶個(gè)性化的需求,解決信息過載的問題的系統(tǒng)。 推薦系統(tǒng)根據(jù)形式的差異接入了不同的場(chǎng)景,在大家的日常生活中就無時(shí)不刻都在享受這它的便利。 當(dāng)你一大早打開淘寶,掃一眼“猜您喜歡”,發(fā)現(xiàn)一個(gè)自己喜歡的寶貝,直接添加進(jìn)購(gòu)物車;打開今日頭條,看了下自己感興趣的新聞,中間看到一個(gè)自己不了解的內(nèi)容,打開百度輸入后,輸入框下面展示了幾個(gè)相關(guān)內(nèi)容…… 根據(jù)推薦的形式能不能清晰地影響用戶的操作可以把推薦劃分為隱形推薦和顯性推薦。
另外,根據(jù)推薦的階段不同,也可以將推薦分為相關(guān)性推薦、預(yù)測(cè)式推薦、生成式推薦。
二、推薦流程推薦的過程可以簡(jiǎn)單理解為三個(gè)步驟:召回、過濾、排序。
有的系統(tǒng)也會(huì)將過濾放在第一步,先根據(jù)條件過濾一些輸入信息,然后喂給推薦系統(tǒng)。 這樣能夠減少推薦系統(tǒng)的計(jì)算量,縮短推薦系統(tǒng)處理時(shí)間,提高推薦系統(tǒng)的即時(shí)性,但是這么做也會(huì)存在一些問題:減少輸入導(dǎo)致類別特征的內(nèi)容丟失,影響推薦系統(tǒng)的內(nèi)容數(shù)量與質(zhì)量。 三、知識(shí)圖譜在推薦應(yīng)用的優(yōu)勢(shì)知識(shí)圖譜就是實(shí)體的屬性關(guān)系網(wǎng),能夠很好的表達(dá)實(shí)體之間的關(guān)系,這個(gè)關(guān)系可以是具有同樣屬性的實(shí)體,也可以是上下位的實(shí)體關(guān)系。 對(duì)于推薦系統(tǒng)來說,這個(gè)圖譜中的實(shí)體不僅僅是推薦的內(nèi)容,還包含了用戶的信息,或者是標(biāo)簽,所以知識(shí)圖譜很好的提供了一個(gè)推薦對(duì)象的關(guān)系網(wǎng)。 通過知識(shí)圖譜,推薦系統(tǒng)可以很好給你推薦關(guān)聯(lián)內(nèi)容,例如,你購(gòu)買了手機(jī),那么它就可以給你推薦充電寶、保護(hù)套、鋼化膜等,因?yàn)樵谒哪X子中知道這些產(chǎn)品是手機(jī)的附件。 也可以通過用戶搜索的藍(lán)牙耳機(jī),給他推薦同樣具有藍(lán)牙功能的耳機(jī)。 四、圖譜在推薦中的應(yīng)用我們通過一個(gè)簡(jiǎn)單的商品圖譜和大家講解圖譜推薦的遍歷邏輯。這是一個(gè)數(shù)碼垂類下的耳機(jī)的簡(jiǎn)化商品圖譜。 1. 下位實(shí)體遍歷下位關(guān)系是相關(guān)性最強(qiáng)的關(guān)系,通常包含的含義是下一步操作、必要條件,例如:買了手機(jī)就會(huì)買手機(jī)殼、買了汽車就會(huì)買玻璃水等。 不過也不是所有的下位關(guān)系都是能放置在推薦序列的前列中的,例如:筆記本貼紙與筆記本相關(guān),但是不是大家都會(huì)貼筆記本貼紙,所以下位關(guān)系也存在低概率的情況,這部分就會(huì)被其他高概率的遍歷邏輯給擠到較后的排列中。 2. 組合屬性遍歷在圖譜中有的實(shí)體由多個(gè)相同的父實(shí)體連接,這種實(shí)體之間通常具有強(qiáng)相關(guān)性,就好比是你同父母的親兄弟,這種推薦也是應(yīng)用的最多的。 在下面這個(gè)實(shí)例中就可以理解該用戶為bose的忠實(shí)用戶,計(jì)劃購(gòu)買它的耳機(jī),那么我們根據(jù)用戶搜索QC30的記錄,推薦QC35、QC25等結(jié)果,這樣就既能夠提高成交的可能性,也能夠?qū)崿F(xiàn)更高的客單價(jià),實(shí)現(xiàn)商家、平臺(tái)的雙贏。 3. 同屬性遍歷除了上面兩種相關(guān)性較強(qiáng)的遍歷邏輯之外,相同父實(shí)體的子實(shí)體也具有相關(guān)性,但是我們需要注意當(dāng)一個(gè)實(shí)體具有多個(gè)父實(shí)體的情況下,不是所有的父實(shí)體都適合被往下遍歷。 例如:用戶咨詢QC30,那么我們給它推薦bose的家庭音響解決方案就不合適,因?yàn)橛脩舯举|(zhì)需求只是購(gòu)買耳機(jī)。 4. 二元實(shí)體遍歷二元實(shí)體遍歷適合同類父實(shí)體的場(chǎng)景,同類的父實(shí)體通常表示這兩個(gè)產(chǎn)品是一個(gè)互補(bǔ)或者相似的含義。 例如:用戶咨詢QC30,那么他可能需要一個(gè)MP4來搭配他的耳機(jī),同樣的情況還有鼠標(biāo)-鍵盤、短袖-短褲等。 5. 多路徑遍歷對(duì)比優(yōu)于圖譜中實(shí)體之間的關(guān)系是網(wǎng)狀的,所以在遍歷時(shí)存在兩個(gè)實(shí)體之間可以通過多種遍歷邏輯推理得到。 那么我們就需要采取一種方式來對(duì)比那種遍歷邏輯的結(jié)果才是我們應(yīng)該采用的。 一般會(huì)根據(jù)邊的權(quán)重計(jì)算得到兩個(gè)實(shí)體的相關(guān)度。 五、如何過濾根據(jù)推薦系統(tǒng)生成的推薦序列過濾推薦結(jié)果,這個(gè)根據(jù)不同業(yè)務(wù)方的需要會(huì)有很大的差別,這里就簡(jiǎn)單說明一些通用的實(shí)例: 1. 時(shí)間區(qū)間內(nèi)已經(jīng)發(fā)生期望操作的結(jié)果期望操作是指用戶使用產(chǎn)品時(shí),我們期望用戶最終實(shí)現(xiàn)的行為,可能是點(diǎn)擊、購(gòu)買等。 如果用戶已經(jīng)對(duì)推薦的內(nèi)容發(fā)生了期望操作,那么繼續(xù)推薦這個(gè)內(nèi)容,無疑會(huì)浪費(fèi)有效面積,導(dǎo)致客單量降低。 為了避免這種情況,推薦系統(tǒng)會(huì)針對(duì)不同的推薦內(nèi)容設(shè)置一個(gè)時(shí)間區(qū)間,在這個(gè)時(shí)間區(qū)間內(nèi)已經(jīng)產(chǎn)生過期望操作的就不再進(jìn)行推薦,例如,服飾可以設(shè)置為1個(gè)月,快消品則可以設(shè)置更短的時(shí)間限制。 2. 展示未產(chǎn)生期望操作的結(jié)果一千個(gè)讀者就有一千個(gè)哈姆雷特,面對(duì)一千個(gè)用戶,推薦系統(tǒng)的結(jié)果肯定不可能都是一千個(gè)都是滿意的,所以當(dāng)推薦的內(nèi)容用戶沒有產(chǎn)生期望操作時(shí),系統(tǒng)可以認(rèn)為該推薦結(jié)果對(duì)于這個(gè)用戶是弱關(guān)聯(lián)性推薦或者說是無效推薦,那么系統(tǒng)在再次生成推薦序列是就可以將其過濾,讓其他用戶可能感興趣的結(jié)果補(bǔ)充進(jìn)行展示。 3. 同類型的結(jié)果當(dāng)生成的推薦序列中已經(jīng)存在很多的同類產(chǎn)品時(shí),我們也需要進(jìn)行過濾。 同類的結(jié)果,用戶只會(huì)對(duì)其中的幾個(gè)結(jié)果產(chǎn)生操作,如果過多地展示同類的內(nèi)容,就會(huì)導(dǎo)致推薦的內(nèi)容豐富度不夠。 一般同類的結(jié)果,推薦系統(tǒng)只會(huì)保留其中相關(guān)度最高的幾個(gè),并且在展示上會(huì)將同類結(jié)果控制放置間隔,避免一起出現(xiàn)。 六、圖譜推薦指標(biāo)圖譜更新前都需要評(píng)估相對(duì)的效果,只有相對(duì)效果優(yōu)與原先的結(jié)果,圖譜才能上線。 評(píng)估相對(duì)結(jié)果的指標(biāo)可以分為服務(wù)指標(biāo)和業(yè)務(wù)指標(biāo)。
1. 服務(wù)指標(biāo)實(shí)體識(shí)別準(zhǔn)確率=實(shí)體解析正確數(shù)/用戶問句總數(shù); 實(shí)體識(shí)別召回率=實(shí)體解析正確數(shù)/相關(guān)實(shí)體總數(shù); 內(nèi)容相關(guān)度=用戶評(píng)分/推薦數(shù)量。 2. 業(yè)務(wù)指標(biāo)展現(xiàn)點(diǎn)擊比=用戶點(diǎn)擊數(shù)/展現(xiàn)數(shù)量; 轉(zhuǎn)化率=用戶產(chǎn)生期望操作數(shù)/展現(xiàn)數(shù)量。 七、圖譜應(yīng)用的難點(diǎn)知識(shí)圖譜雖然在推薦系統(tǒng)中應(yīng)用存在優(yōu)勢(shì),但是在實(shí)際應(yīng)用中會(huì)因?yàn)樗姆N種難點(diǎn)被限制應(yīng)用,下面和大家一起講講圖譜應(yīng)用的困難。 1. 知識(shí)圖譜schema維護(hù)在推薦系統(tǒng)中應(yīng)用的圖譜都是大規(guī)模的圖譜,實(shí)體都是在萬級(jí)的,像阿里的商品圖譜甚至達(dá)到了十億級(jí)。那么大的圖譜完全由人工運(yùn)營(yíng)維護(hù)肯定是不現(xiàn)實(shí)的,實(shí)際上這些圖譜也的確由系統(tǒng)自動(dòng)進(jìn)行維護(hù),人工只是輔助進(jìn)行運(yùn)營(yíng)。 系統(tǒng)通過現(xiàn)成的表結(jié)構(gòu)數(shù)據(jù)、機(jī)器閱讀理解抽取的實(shí)體與關(guān)系自動(dòng)構(gòu)建知識(shí)圖譜。 例如:阿里的商品圖譜部分?jǐn)?shù)據(jù)來源就是寶貝下面的商品詳情: 但是目前的技術(shù)還不能做到100%的自動(dòng)構(gòu)建準(zhǔn)確,因此構(gòu)建后如何篩選出有問題的關(guān)系就需要人工借助工具進(jìn)行調(diào)整了,常見的需要人工糾正的有:
2. 推薦的時(shí)效性差圖譜的量級(jí)達(dá)到了一定,如何快速的萬級(jí)億級(jí)的實(shí)體和屬性中找到對(duì)應(yīng)的數(shù)據(jù),對(duì)于模型來說是一個(gè)十分艱巨的工作。 另外大規(guī)模的圖譜,實(shí)體之間的關(guān)系密切,如果做到的二元遍歷,那么延伸出的實(shí)體也是指數(shù)量級(jí)的,無法直接拿來做推薦。 所以圖譜推薦的時(shí)效性較差,不適合應(yīng)用于需要實(shí)時(shí)返回推薦結(jié)果的場(chǎng)景,所以圖譜推薦往往應(yīng)用在用戶使用的間隙生成推薦的內(nèi)容。 例如:資訊推薦、猜您喜歡等 3. 在線維護(hù)困難圖譜中實(shí)體的關(guān)系十分緊密,這就導(dǎo)致了修改一個(gè)實(shí)體或者一條邊,那對(duì)應(yīng)的變化可能是幾百個(gè)實(shí)體和邊,一個(gè)小小的改動(dòng)可能就是蝴蝶效應(yīng),而且恢復(fù)困難。 所以圖譜服務(wù)都是通過本地?cái)?shù)據(jù)應(yīng)用于中臺(tái)服務(wù)中,需要更新圖譜時(shí),再將本地運(yùn)營(yíng)的圖譜發(fā)布到服務(wù)的本地?cái)?shù)據(jù)庫中應(yīng)用。 4. 如何避免臟數(shù)據(jù)對(duì)圖譜更新的影響在購(gòu)物網(wǎng)站推薦的場(chǎng)景中,圖譜中實(shí)體與實(shí)體之間的關(guān)系是會(huì)有概率值來表示兩個(gè)實(shí)體之間的相關(guān)度的。 這個(gè)概率值會(huì)根據(jù)用戶的購(gòu)買操作記錄自動(dòng)評(píng)估實(shí)體與實(shí)體之間的概率。但是有時(shí)新店為了提高信譽(yù)和寶貝的評(píng)價(jià),就會(huì)發(fā)生刷單的行為。 刷榜單的行為會(huì)導(dǎo)致圖譜中概率邊的數(shù)值被影響,產(chǎn)生不準(zhǔn)確的數(shù)值,導(dǎo)致推薦出相關(guān)度不足的結(jié)果。這種情況一般通過清洗訂單數(shù)據(jù),只將高置信的購(gòu)買記錄作為圖譜更新的評(píng)估數(shù)據(jù)。 八、寫在最后基于知識(shí)圖譜的推薦只是推薦系統(tǒng)的一部分,推薦系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng)。 如今在互聯(lián)網(wǎng)的下半場(chǎng),推薦系統(tǒng)越來越被重視,圖譜在推薦系統(tǒng)中的應(yīng)用目前還比較淺,期望圖譜的落地更加成熟。 |
|