国产综合久久久久,国产精品久久国产精品99盘,国产午夜不卡精品午夜电影

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

推薦算法的物以類聚人以群分

發(fā)布時間：2023-07-03 13:18:23 作者：網(wǎng)友整理

在理解了內(nèi)容和用戶的基礎(chǔ)特征之后，我們將進一步探討推薦算法是如何匹配用戶和內(nèi)容的。概括而言，這一過程所做的就是“物以類聚，人以群分”。

一、物以類聚：基于內(nèi)容屬性的相似性推薦

有了完善的物品畫像，我們就可以基于其固有屬性來計算物品與物品之間的相似度，從而推薦與用戶歷史消費相似的新物品。以內(nèi)容推薦為例，其用于相似度計算的常見因素有：作者層面的相似性（基于訂閱或偏好關(guān)系），內(nèi)容層面的相似性（如關(guān)鍵詞、話題、類目、聚類、標簽等）。

基于內(nèi)容屬性的推薦方式，常見于音樂（如潘多拉）、電影和書籍（如豆瓣）的推薦場景中。以圖書推薦場景為例，在豆瓣圖書上，有三本書分別有如下標簽：

從標簽層面不難看出，《推薦系統(tǒng)實踐》與《推薦系統(tǒng)》在標簽集合層面擁有更多的相同標簽，具有更高的相似度。那么，當用戶A選擇了《推薦系統(tǒng)實踐》之后，系統(tǒng)應(yīng)當優(yōu)先給他推薦的是《推薦系統(tǒng)》，而非《大數(shù)據(jù)時代》。

如果想要進一步細化，那么可以借助TF–IDF方式給不同的標簽設(shè)定權(quán)重。其基本思想是：出現(xiàn)頻率越高的標簽區(qū)分度越低，反之亦然。比如“計算機”是一個高頻出現(xiàn)的標簽，那么這個標簽的區(qū)分度就沒有那么高，權(quán)重較低；而“推薦系統(tǒng)”是一個低頻出現(xiàn)的標簽，則該標簽就更具有顯著性和區(qū)分度，權(quán)重較高。

基于內(nèi)容屬性推薦的好處在于，只依賴物品本身的特征而不依賴用戶的行為，讓新的物品、冷僻的物品都能得到展示的機會。其存在的問題在于，推薦質(zhì)量的優(yōu)劣完全依賴于特征構(gòu)建的完備性，但特征構(gòu)建本身是一項系統(tǒng)的工程，存在一定成本。在上面的例子中，如果標簽詞粒度不夠細，不能夠全面描述書的內(nèi)容（比如每本書的標簽詞只有三個），就很難計算出置信的相似度，達不到足夠好的推薦效果。

此外，基于內(nèi)容屬性推薦沒有考慮用戶對物品的態(tài)度，用戶的品位和調(diào)性很難得到詮釋和表達。比如，市面上關(guān)于內(nèi)容分發(fā)的書籍很多，僅從標簽詞上很難分辨出高下。為了在推薦中更好地引入受眾反饋因素，提出了基于用戶行為的“協(xié)同過濾”概念。

二、人以群分：基于用戶行為的協(xié)同過濾

舉一個生活中的場景：初次為人父母，“無證上崗”的新手爸媽們內(nèi)心是激動而又惶恐的。“打聽”成了他們育兒的重要法寶之一。“你家寶寶用的是什么沐浴液啊？”“你們有沒有上什么早教班啊？”……我在的多個親子群里，無時無刻不在發(fā)生這樣的討論。這樣的討論也構(gòu)成大家進行后續(xù)消費決策的主要因素之一。

這種基于人和人之間的相互推薦固然是弱社交關(guān)系分發(fā)的一種形態(tài)，但促成大家進行價值信息交換和購買轉(zhuǎn)化的，其實是人和人之間的相似點，即為人父母、擁有相似的價值觀和消費觀。

把用戶的消費行為作為特征，以此進行用戶相似性或物品相似性的計算，進行信息匹配，是協(xié)同過濾（Collaborative Filtering）的基礎(chǔ)。

協(xié)同推薦可以分為三個子類：基于物品（Item-based）的協(xié)同、基于用戶（User-based）的協(xié)同和基于模型（Model-based）的協(xié)同。

基于用戶的協(xié)同就契合了上面的例子，其基礎(chǔ)思路分為兩步：第一步，找到那些與你在某一方面口味相似的人群（比如你們都是新手爸媽，傾向于同一種教育理念）；第二步，將這一人群喜歡的新東西推薦給你。

下圖中，用戶A和用戶C都閱讀了內(nèi)容A和內(nèi)容C，用戶B閱讀了內(nèi)容B。基于閱讀行為來看用戶相似度，用戶A和用戶C更為相似。那么，當用戶C閱讀了新內(nèi)容D之后，這一內(nèi)容就應(yīng)當推薦給用戶A。

基于物品的協(xié)同，其推薦的基礎(chǔ)思路是：先確定你喜歡什么物品，再找到與之相似的物品推薦給你。只是物品與物品間的相似度不是從內(nèi)容屬性的角度衡量的，而是從用戶反饋的角度衡量的。

比如下圖中，內(nèi)容A和內(nèi)容C都被用戶B、C閱讀，從閱讀行為的角度看，兩篇內(nèi)容更相似。那么，當用戶A閱讀了內(nèi)容A時，系統(tǒng)就選擇與內(nèi)容A相似的內(nèi)容C，將其推薦給用戶A。

以書籍為例，在協(xié)同推薦的場景下，一本書的特征（標簽）不再是作者、題材、領(lǐng)域這些靜態(tài)固有屬性，而是哪些用戶購買了、哪些用戶在購買后給了高分或低分這樣的行為動作。

依賴不同的協(xié)同算法，同樣的數(shù)據(jù)集合可能會得到不同的結(jié)果。下表中，展示了不同書籍的用戶購買情況。對于用戶E而言，其購買了《推薦系統(tǒng)實踐》和《大數(shù)據(jù)時代》兩本書。那下一步，我們應(yīng)該給他推薦哪本書呢？

在基于物品的協(xié)同下，應(yīng)該給他推薦《推薦系統(tǒng)》。這是因為《推薦系統(tǒng)》與用戶E已經(jīng)購買的兩本書的購買用戶重疊度更高。

在基于用戶的協(xié)同下，應(yīng)該給他推薦《集體智慧編程》。這是因為用戶E的消費歷史跟用戶A、B、D重疊更高、更相似，而A、B、D三位用戶都購買了《集體智慧編程》。

基于用戶的協(xié)同算法在1992年就已經(jīng)被提出，而基于物品的協(xié)同算法直到2001年才被亞馬遜提出。大家一度認為基于物品的協(xié)同要優(yōu)于基于用戶的協(xié)同，這是因為大型電商網(wǎng)站的用戶數(shù)量往往遠大于商品數(shù)量，且商品的更新頻率相對較低，基于物品的協(xié)同能夠以離線運算的方式獲得更好的推薦效果。但對新聞推薦系統(tǒng)、社交性推薦系統(tǒng)等而言，其物品是海量和頻繁更新的，故而基于用戶的協(xié)同也有著相應(yīng)的用武之地。

協(xié)同類推薦的典型應(yīng)用場景，如豆瓣在書籍介紹下展示的“喜歡讀×××的人也喜歡……”。基于模型的協(xié)同，是用用戶的喜好信息來訓(xùn)練算法模型，實時預(yù)測用戶可能的點擊率。比如，在Netflix的系統(tǒng)中就將受限玻爾茲曼機（Restricted Boltzmann machines，RBM）神經(jīng)網(wǎng)絡(luò)應(yīng)用于協(xié)同過濾。將深度學(xué)習(xí)應(yīng)用于基于模型的協(xié)同，也成了業(yè)界廣泛使用的方式。

協(xié)同推薦是目前應(yīng)用最為廣泛的推薦機制，其基于用戶行為的特點使我們不需要對物品或信息進行完整的標簽化分析和建模，從而實現(xiàn)了領(lǐng)域無關(guān)，可以很好地發(fā)現(xiàn)用戶的潛在興趣偏好。

作者：小武

分享到：

標簽：算法推薦