5月21日,知乎聯(lián)合清華大學(xué)對外開放基于知乎的大規(guī)模富文本查詢和推薦數(shù)據(jù)集“ZhihuRec”。該數(shù)據(jù)集包含了知乎上的1億個行為數(shù)據(jù),是目前為止,國內(nèi)用于個性化推薦的最大的實(shí)際交互數(shù)據(jù)集。
作為一個大型數(shù)據(jù)集,ZhihuRec具有社交化問答場景中的詳細(xì)信息,覆蓋了知乎10天內(nèi)、79.8萬用戶、16.5萬個問題、55.4萬個回答、24萬個作者、7萬話題以及50.1萬用戶搜索行為日志,保留了完整的用戶交互(例如點(diǎn)擊、跳過、搜索等)、時機(jī)和內(nèi)容信息,且所有數(shù)據(jù)均經(jīng)過脫敏處理。
該數(shù)據(jù)集可用于評估常規(guī)top-N推薦、順序推薦和上下文感知推薦中的算法應(yīng)用,還可用于集成搜索和推薦以及帶有負(fù)反饋的推薦。 此外,該數(shù)據(jù)集不僅可以用于推薦研究,還可以應(yīng)用于用戶建模(例如,性別預(yù)測,用戶興趣預(yù)測),搜索和推薦系統(tǒng)的組合以及其他有趣的主題。
個性化推薦技術(shù)已經(jīng)廣泛應(yīng)用于購物、視頻、閱讀、社交等互聯(lián)網(wǎng)場景。但開放式大規(guī)模真實(shí)場景數(shù)據(jù)集十分罕有。ZhihuRec數(shù)據(jù)集的開放,不僅豐富了開放式大規(guī)模真實(shí)場景數(shù)據(jù)集的研究樣本,更填補(bǔ)了推薦系統(tǒng)中用戶交互日志的空白。
知乎成立十年來,聚集了超過3 .53億條內(nèi)容,每天會新增超過2000萬條創(chuàng)作和互動,為中文互聯(lián)網(wǎng)貢獻(xiàn)了寶貴的文本財(cái)富。
2018年,知乎曾聯(lián)合中國信息檢索學(xué)術(shù)會議(CCIR)、清華大學(xué)計(jì)算機(jī)系信息檢索課題組(THUIR)共同舉辦了“移動環(huán)境下知識分享平臺上的內(nèi)容推薦”大賽,首次在比賽中開放ZhihuRec數(shù)據(jù)集,吸引了眾多高校和企業(yè)技術(shù)團(tuán)隊(duì)參賽和關(guān)注。此次知乎聯(lián)合清華大學(xué)將該數(shù)據(jù)集進(jìn)一步豐富并全面開放,旨在通過更大范圍的數(shù)據(jù)開源,為行業(yè)算法技術(shù)突破與演進(jìn)提供更多數(shù)據(jù)和場景支持。