
財聯社4月12日訊(記者 崔銘)“得數據者得天下”,大模型帶火數據要素板塊。機構人士向財聯社記者表示,大模型的發展會對很多行業產生較大改變,通過大模型去訓練針對特定行業應用的小模型,將會讓數據變得精細化、專業化,做數據確權或手上有優質數據的公司將會獲益。
近期國內百度(09888.HK)、阿里巴巴(09988.HK)、商湯(00020.HK)等企業陸續進軍大模型領域,加速了垂直行業應用落地。在具體賦能行業的過程中,投喂專業數據進行微調可以大幅提升模型表現。數據要素的重要性突出,有機構甚至稱其為AI時代的“鋰礦”,還稱“得數據者得天下”。
前述機構人士告訴記者,“鋰礦”的比喻很恰當,但數據跟鋰礦的背后邏輯不同。“一般情況下,鋰礦挖掘出來后,作為商品可以自由售賣。但數據即便挖掘出來,只能在‘可用不可見’的時候,脫敏后去銷售一些數據的計算結果,而不能拿到原始數據。”該機構人士認為,一些數據供應商會受益于此,比如有政府數據或做政府數據開發的供應商。
有業內人士向記者表示,“現在還不清楚大模型的數據具體是從哪里來的,比如百度、知乎里很多是個人數據,平臺可以取得用戶授權去引用,但這個數據不一定能夠合法合規地進行售賣。如果要開發個人數據或使用個人數據去做大模型,肯定是需要個人同意開發數據,這個方面還存疑。”
據悉,百度文心一言和阿里通義千文并未公開具體的訓練數據集。百度此前在回應文心一言“套殼”時稱,文心一言文生圖能力來自文心跨模態大模型ERNIE-ViLG,“在大模型訓練中,我們使用的是互聯網公開數據,符合行業慣例。”
值得注意的是,昨日網信辦發布《生成式人工智能服務管理辦法(征求意見稿)》,其中第七條提到,“提供者應當對生成式人工智能產品的預訓練數據、優化訓練數據來源的合法性負責”,強調對數據安全方向的關注。
受消息提振,二級市場上數據要素概念板塊拉升。記者注意到,其中一類為擁有政企、地域數據的企業,如每日互動(300766.SZ)、易華錄(300212.SZ)等,另一類則為手握IP、版權的文化傳媒企業,如華策影視(300133.SZ)、捷成股份(300182.SZ)、中文在線(300364.SZ)等,還有包含第三方內容審核業務的人民網(603000.SH)等公司。
每日互動證券部相關人士對以投資者身份致電的記者表示,“我們數據合規走在非常前面,在業務開展過程中,都有雙道保險。比如說我們在開展之前都會獲得用戶授權,包括我們開展這個業務都是所學的數據都是最小化的,是合理必要的這樣一個數字范圍。”
分析人士告訴記者,當前AI對于數據相關概念板塊的拉動,也包含了一定的“市場熱情”。目前來看,還不是落在具體業績和落地方向上,而是一個偏概念的行情。在AI浪潮下,仍有許多應當警惕的風險,首當其沖的是個人隱私問題,此外還存在假數據、數據不精準等問題。
(編輯 劉琰)






