現(xiàn)狀
閑魚是一個基于C2C場景的閑置交易平臺,每個用戶既是買家也是賣家,并隨著這些年的高速發(fā)展,一方面閑魚的商品越來越豐富,在自由享受交易樂趣的同時也存在商品良莠不齊的問題,另一方面這些年閑魚一直在深耕商品理解,沉淀了豐富的商品屬性資產(chǎn),因此我們希望針對這些基礎(chǔ)屬性資產(chǎn)進(jìn)行分析處理,進(jìn)行商品分層,挖掘出閑魚的優(yōu)質(zhì)商品,形成閑魚特有精品庫。
問題
閑魚雖然倡導(dǎo)輕發(fā)布,一張圖片加一段描述一分鐘就即可完成發(fā)布,但是通過引導(dǎo)用戶售賣補(bǔ)全屬性,圖文算法分析等手段沉淀了不少商品屬性和用戶屬性,其中商品屬性包括基礎(chǔ)屬性和二手屬性等,用戶屬性包括信用屬性和服務(wù)等,因此我們核心要解的問題是:如何利用些結(jié)構(gòu)化信息發(fā)現(xiàn)并定義優(yōu)質(zhì)商品,進(jìn)而沉淀優(yōu)質(zhì)商品,構(gòu)建閑魚精品庫。
整體架構(gòu)
通過前文的介紹 我們知道了需要解的問題,從系統(tǒng)角度看,我們解決思路是以結(jié)構(gòu)化信息為基礎(chǔ)(包含商品和人屬性),抽象出不同維度的指標(biāo)模型,最終為商品打標(biāo),實現(xiàn)閑魚精品庫。進(jìn)一步拆解下去,系統(tǒng)核心要解決兩個問題
-
如何定義優(yōu)質(zhì)商品
-
如何沉淀精品標(biāo)簽
結(jié)合算法能力,工程能力,下游導(dǎo)購鏈路,我們梳理了閑魚的精品庫系統(tǒng)架構(gòu)
商品理解(優(yōu)質(zhì)商品定義)
解決優(yōu)質(zhì)商品定義的問題,傳統(tǒng)直接做法是直接使用深度學(xué)習(xí)網(wǎng)絡(luò)DNN,SVM,GBDT等網(wǎng)絡(luò), 這種做法的好處能快速的達(dá)到效果,但帶來問題是黑盒模型,運營無法獲得輸入,且后續(xù)指標(biāo)準(zhǔn)確率較難提升,而我們要跟運營持續(xù)協(xié)作,并在后續(xù)需要更深入的應(yīng)用。因此我們采用另外一種解法:基于閑魚知識庫可解釋的商品理解
通過對閑魚動銷高的商品結(jié)構(gòu)信息分析歸類,我們抽象出一些維度去定義優(yōu)質(zhì)商品,如商品信息完善度,價格指標(biāo),供需指標(biāo)、賣家指標(biāo)等,算法通過上述四個商品維度去分析商品信息,通過智能因子分析函數(shù)發(fā)現(xiàn)每個商品維度相關(guān)的關(guān)鍵因子,并通過仿真系統(tǒng)對這些關(guān)鍵因子組成的指數(shù)進(jìn)行動銷率回歸預(yù)測分析,驗證指數(shù)的有效性,通過循環(huán)迭代后形成信息完善度指數(shù)模型,價格指數(shù)模型,賣家指數(shù)模型,供需數(shù)據(jù)模型能及指數(shù)加權(quán)后優(yōu)質(zhì)商品分模型。
特征計算&存儲(精品標(biāo)簽沉淀)
有了優(yōu)質(zhì)商品定義模型,我們需要對閑魚所有商品打標(biāo)(包括安全負(fù)向標(biāo)簽),跟其它電商場景不一樣的,閑魚商品有個顯著的特征:大部分是孤品,因此這里帶來一個顯著的差異:特征計算鏈路考慮實時計算和離線鏈路
實時計算
如上圖所以,每當(dāng)商品信息有變更,如用戶編輯商品,新發(fā)商品等,都將會觸發(fā)一次實時計算鏈路,數(shù)據(jù)計算是基于TPP平臺實現(xiàn)的,TPP是集團(tuán)內(nèi)部算法開發(fā)和托管的平臺,除模型計算外,還需要重點考慮安全問題,商品安全檢測、用戶安全檢測等。在標(biāo)簽進(jìn)下游HA3引擎及基礎(chǔ)數(shù)據(jù)標(biāo)簽存儲前,我們架設(shè)一個異構(gòu)數(shù)據(jù)統(tǒng)一接入層,主要是負(fù)責(zé)后續(xù)各種不同來源的數(shù)據(jù)源,同擴(kuò)適配器將各種數(shù)據(jù)統(tǒng)一化為Metaq消息,通過元數(shù)據(jù)中心完成統(tǒng)一的注冊和管理,保證數(shù)據(jù)shcema的全局統(tǒng)一,便于后續(xù)特征模型的快速接入。
離線計算
二手商品隨著時間推移,有價值衰減的情況,因此離線計算每天會將閑魚的全量在線商品重新計算一遍,分為數(shù)據(jù)整合、數(shù)據(jù)計算,數(shù)據(jù)導(dǎo)入三塊,過程涉及到計算量比較大,主要是基于ODPS大數(shù)據(jù)計算平臺來完成。ODPS(MaxCompute) 是阿里巴巴自主研發(fā)的海量數(shù)據(jù)處理平臺。主要服務(wù)于批量結(jié)構(gòu)化數(shù)據(jù)的存儲和計算,可以提供海量數(shù)據(jù)倉庫的解決方案以及針對大數(shù)據(jù)的分析建模服務(wù)。
全量增量相互覆蓋問題
實時+離線帶來一個難題:全量與增量的相互覆蓋問題。例如T+1全量的導(dǎo)入時間從早上0點開始,2點結(jié)束,這期間不停有最新的增量數(shù)據(jù)寫入,很可能出現(xiàn)1點增量數(shù)據(jù)在2點被離線數(shù)據(jù)覆蓋,從而出現(xiàn)臟數(shù)據(jù)。針對這個問題,我們的解決思路是先把T+1全量數(shù)據(jù)寫到備庫并記下全量數(shù)據(jù)的截止時間,等全量回流完成后,再從截止時間開始回放期間的增量變更數(shù)據(jù),直到追上最新的變更記錄,然后再切換版本。幾個步驟如下圖所示:
這里我們的選擇是iGraph,iGraph是集團(tuán)內(nèi)部一個大規(guī)模分布式在線圖存儲和檢索服務(wù),提供全量ODPS+增量消息的回流服務(wù),原理跟上述類似。
服務(wù)能力
服務(wù)能力主要是根據(jù)下游應(yīng)用場景抽象出來,重點分為這幾塊:數(shù)據(jù)在線查詢能力:數(shù)據(jù)要實時的,要具備多維度查詢能力,數(shù)據(jù)要足夠的聚合,避免下游子業(yè)務(wù)頻繁且無效的聚合加工操作,這里我們通過HSF接口服務(wù)來提供。消息訂閱能力:優(yōu)質(zhì)商品實時變更消息服務(wù),供下游業(yè)務(wù)訂閱,做到上下游的數(shù)據(jù)聯(lián)動。離線數(shù)據(jù)服務(wù)能力:提供天級、小時級、分鐘級的ODPS離線數(shù)據(jù),供下游數(shù)據(jù)加工處理。
業(yè)務(wù)層
通過閑魚選品平臺(馬赫),運營同學(xué)配置圈選邏輯提供各種的投放玩法,給用戶呈現(xiàn)不同的優(yōu)質(zhì)商品觸達(dá)方式,如下圖所示:
另外通過搜索推薦給用戶提供精品庫的個性化推薦服務(wù),快速支撐商品側(cè)的業(yè)務(wù)形態(tài),如為價格指導(dǎo)提供閑魚的二手價格錨點。
業(yè)務(wù)效果
通過商品分層沉淀出來的閑魚的精品庫,目前已支持上百種選品策略,用戶的點擊和購買提標(biāo)都有較明顯的提升效果,如在新用戶首頁購,如在新用戶首購接入精品庫,支持轉(zhuǎn)化率提升近1倍,手機(jī)頻道頁的點擊率提升20%以上,搜索優(yōu)質(zhì)價格標(biāo)簽透出,提升交買賣家轉(zhuǎn)化率相對基準(zhǔn)桶提升1%等。
展望
本文介紹一種基于對商品結(jié)構(gòu)化信息的理解構(gòu)建了一套閑魚精品庫建設(shè)方案,限于篇幅的原因,本文主要介紹系統(tǒng)的整體架構(gòu)及幾個關(guān)鍵點的解決思路,希望能給讀者帶來的一些思考和啟發(fā)。后續(xù)我們會通過商品聚簇的方式來加深對商品的理解,如對價格的判斷,另一方面我們會對接下游回收流程,使好商品能快速流通起來,提升閑魚的平臺價值。






