作者:張哲
來(lái)源:華章科技
01 推薦系統(tǒng)技術(shù)架構(gòu)
下面來(lái)看下短視頻社區(qū)平臺(tái)的推薦系統(tǒng)架構(gòu)是如何劃分的,由底層往上分別是日志信息層、模型策略層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)結(jié)果層與用戶(hù)交互層,如圖2-5所示。
▲圖2-5 推薦系統(tǒng)技術(shù)架構(gòu)
1. 日志信息層
該層主要分為兩部分,一部分是靜態(tài)數(shù)據(jù),例如用戶(hù)數(shù)據(jù)與內(nèi)容數(shù)據(jù),用戶(hù)的年齡、性別、地區(qū),稿件內(nèi)容的標(biāo)題、時(shí)長(zhǎng)、作者,在很長(zhǎng)一段時(shí)間內(nèi)都是固定數(shù)據(jù),系統(tǒng)每天取其增量存入日志信息層;另一部分是行為數(shù)據(jù),例如推薦請(qǐng)求日志,記錄哪些內(nèi)容曝光給了哪些用戶(hù);推薦點(diǎn)擊日志,哪些用戶(hù)點(diǎn)擊了哪些內(nèi)容;用戶(hù)瀏覽時(shí)長(zhǎng)日志信息、用戶(hù)LBS地點(diǎn)信息等等。
2. 模型策略層
該層主要是決定采取何種模型、策略來(lái)分析與解讀日志信息層的靜態(tài)數(shù)據(jù)和行為數(shù)據(jù),例如在召回階段是更多地進(jìn)行熱門(mén)內(nèi)容召回,還是根據(jù)用戶(hù)行為進(jìn)行協(xié)同過(guò)濾的召回;在排序階段采用何種機(jī)器學(xué)習(xí)模型來(lái)進(jìn)行精排等策略。
3. 數(shù)據(jù)計(jì)算層
該層是基于模型策略層定下召回排序策略和模型后,采取離線(xiàn)大規(guī)模計(jì)算與在線(xiàn)實(shí)時(shí)計(jì)算兩種方式,計(jì)算出模型訓(xùn)練的結(jié)果。離線(xiàn)計(jì)算是由于機(jī)器數(shù)量與性能的限制,大量數(shù)據(jù)需要采取離線(xiàn)方式計(jì)算出結(jié)果,在線(xiàn)計(jì)算是針對(duì)線(xiàn)上用戶(hù)的實(shí)時(shí)反饋行為,系統(tǒng)快速做出回應(yīng),改善用戶(hù)體驗(yàn)。
4. 數(shù)據(jù)結(jié)果層
該層作用是在不同數(shù)據(jù)應(yīng)用系統(tǒng)中存儲(chǔ)數(shù)據(jù)計(jì)算層得出的相應(yīng)計(jì)算結(jié)果,例如用戶(hù)畫(huà)像與內(nèi)容特征可以存儲(chǔ)在ElasticSearch(搜索數(shù)據(jù)庫(kù))中,因?yàn)檫@些數(shù)據(jù)只需要批量查詢(xún)讀取;而用戶(hù)行為數(shù)據(jù)則需要存儲(chǔ)在redis(內(nèi)存應(yīng)用)中,方便快速響應(yīng)前端界面的用戶(hù)反饋。
5. 用戶(hù)交互層
該層的交互邏輯分為兩部分,第一部分是展現(xiàn)由各層最終計(jì)算出的推薦結(jié)果給用戶(hù),第二部分是記錄用戶(hù)對(duì)于推薦結(jié)果的反饋行為,例如瀏覽行為(時(shí)長(zhǎng)/路徑)、點(diǎn)擊行為(點(diǎn)擊哪些內(nèi)容/完播率等)、負(fù)反饋行為(不感興趣/投訴等不同程度的負(fù)反饋)。
02 推薦系統(tǒng)四大模塊
基于以上描述,我們了解了推薦系統(tǒng)技術(shù)架構(gòu)的整體框架,但還是給人感覺(jué)太復(fù)雜、太技術(shù)范兒了。歸根結(jié)底來(lái)說(shuō),推薦系統(tǒng)要做的不就是從海量?jī)?nèi)容庫(kù)里選出幾十個(gè)用戶(hù)可能感興趣的優(yōu)質(zhì)視頻嗎?我們將推薦系統(tǒng)抽象成一個(gè)信息過(guò)濾系統(tǒng),分為審核、召回、排序、規(guī)則四個(gè)模塊,層層遞進(jìn)地過(guò)濾內(nèi)容,如圖2-6所示。
▲圖2-6 推薦系統(tǒng)技術(shù)架構(gòu)簡(jiǎn)化
- 審核模塊將符合短視頻社區(qū)規(guī)則與價(jià)值觀的視頻過(guò)濾出來(lái),輸出量級(jí)大致在百萬(wàn)左右;
- 召回模塊將根據(jù)用戶(hù)行為與熱門(mén)等規(guī)則,快速找到一小部分優(yōu)質(zhì)內(nèi)容,輸出量級(jí)大致在十萬(wàn)左右;
- 排序模塊分為粗排與精排,采用比較復(fù)雜的模型,融入較多特征,輸出量級(jí)在百個(gè)視頻數(shù)量左右;
- 規(guī)則模塊,也叫ReRanker(重排序)模塊,會(huì)在排序模塊結(jié)果的基礎(chǔ)上附加人工干預(yù)、規(guī)則限制等,最終將結(jié)果呈現(xiàn)給用戶(hù),輸出結(jié)果在幾十個(gè)左右。
本文摘編自《短視頻社區(qū):產(chǎn)品、運(yùn)營(yíng)與商業(yè)化》(ISBN:978-7-111-70525-3),經(jīng)出版方授權(quán)發(fā)布。






