圖片來源@視覺中國
文 | 零點有數科技
ChatGPT是AI target=_blank class=infotextkey>OpenAI最新的語言模型,與其他大型語言模型一樣,能夠以不同的樣式和目的生成文本,并且在準確度、敘述細節和上下文連貫性方面表現更加優異。目前來看,ChatGPT在很多領域都有廣泛的應用前景,但任何工具的應用都是有前提的,了解其背后的工作機制和局限之處,才能更好地利用這項技術。
01 ChatGPT概述
ChatGPT是OpenAI最新的語言模型,較其前身GPT-3有大幅提高。與其他大型語言模型一樣,ChatGPT能夠以不同的樣式和目的生成文本,并且在準確度、敘述細節和上下文連貫性方面表現更加優異。作為OpenAI最新一代的大型語言模型,ChatGPT的設計非常注重交互性。為了調優ChatGPT,OpenAI使用了監督學習和強化學習的組合,其中強化學習的組件使其獨一無二。OpenAI使用了“人類反饋強化學習”(RLHF)的訓練方法,該方法在訓練過程中利用人類反饋,以最小化無用、失真或有偏見的輸出。
目前來看,ChatGPT在很多領域都有廣泛的應用前景,并且它的操作簡單,對用戶非常友好。但任何工具的應用都是有前提的,了解其背后的工作機制和局限之處,才能更好地利用這項技術,零點有數數據科學家將基于此談談ChatGPT在應用時需要注意的幾個方面。
02 ChatGPT的局限之處
多場景問題一是標注數據。諸如回答內容存在事實性錯誤,對于確定的事實,其給出的答案無法達到高置信度,對于常識性的知識問題不能高效地給出符合日常認知的答案。大模型訓練所需語料涉及面非常廣,僅就人文學科而言,就存在非常龐雜的知識的語料,因此,在標注過程中,相關任務對標注人員的知識面、邏輯思考能力等都有極高的要求。在此基礎上,還需要針對更多語料中提及的知識進行自動抽取,反復校驗,才可一步步改進。如下圖,關于古詩《登鸛雀樓》的提問,ChatGPT未能給出符合常識的回答,包括古詩的原文和作者信息。
二是數據理解。對于簡單的數據說明可以順利地進行比較分析,但面對略復雜的語義理解要求回答比較困難,對于中文豐富的詞匯體系、語法和句法的特點,特別是涉及近義詞之間的差別和近義程度的區分,還需要補充更多更廣泛的訓練數據、做進一步的訓練和優化,才能修正相應問題。示例如下圖。
三是數據分析能力。由于數據理解和分析能力暫未完善,ChatGPT目前無法正確有效地進行數理邏輯計算。如下圖所示,針對四人四天喝四桶水,八人八天喝多少桶水的數據計算問題,并沒有一次性形成合理的計算邏輯鏈路,給出正確的計算結果。
答復的生成內容不具備實時性
知識庫信息未能實時更新。由于ChatGPT目前的版本僅支持2021年之前的語料信息提問,其回答的內容沒有進行實時信息關聯。訓練一個模型的人力成本較大、時間周期較長,短期內難以有效地更新學習即時性的知識信息。
俄烏戰爭起始于2022年2月,而ChatGPT使用的最新訓練數據只截止到2020年,因此對于最近發生的俄烏戰爭事件,無法給出具有時效性的情況分析。模型能力覆蓋廣,但專業深度仍有提高空間模型復雜度,豐富性和通用性足夠高,但對于某個專業領域方向的資深知識信息結構認知仍有提高空間。
在上述的問答中,ChatGPT對于網絡通信中的信息增益率公式只給出了概述性的描述,并未有效地展示公式的符合化表示及解釋說明。
03 ChatGPT場景應用問題
盡管ChatGPT在不同場景中的應用性較強,但同時也凸顯出一些值得關注的隱憂,從某種意義上而言,ChatGPT的出現,讓諸多領域面臨新的挑戰。教育教學在教育教學方面,最為直接的影響是學生在學習過程中,缺乏足夠的思考,直接詢問ChatGPT,輕松地獲取到相關的知識和解答,特別是在論文的寫作過程中,直接查詢或生成相關內容,不僅不利于學生有效掌握相關知識,無法鍛煉問題研究能力,甚至會形成過度依賴,影響學生的創造力,不利于教育的發展。公共安全在公共安全領域,主要涉及社會治安和信息安全。就社會治安而言,利用ChatGPT可以模仿不同人員的對話習慣,再結合語音合成功能,進而實現高仿真的人類交流和互動,相關功能如果應用在詐騙等場合,助長違法犯罪,影響社會穩定。就信息安全而言,數據治理面臨更大風險,特別是關涉國家安全、商業機密、個人隱私等多方面的敏感數據。ChatGPT模型訓練所使用的數據一般為大量可公開的數據和知識,但基于現有的技術研發數據管理體制,不一定能保證直接相關的敏感數據或基于公開數據研究所得的敏感數據不被泄露。倫理道德
在倫理道德方面,無論是個人還是社會或國家同樣受到一定的影響。從個人的角度來看,對于大多數未成年人,甚至部分成年人,尚未形成成熟且穩定的心智,在使用ChatGPT的過程中,個人想法很容易被直接或間接地帶偏,進而做出不合適的行為;從社會或國家的角度來看,ChatGPT如果作為一個文化沖擊的工具,對整個社會和國家產生不良影響。
以上這些方面,都亟待相關技術方在技術層面對相關內容進行完善,對各種使用方進行權限的控制和監控,同時相關職能部門應從國家層面進行立法,進行合理的限制和管控。
04 關于ChatGPT算法的拓展構想
站在數據智能垂直應用的角度上,零點有數數據科學家基于豐富的業務經驗,從以下四個方面談了關于ChatGPT算法的拓展構想:
一是行業訓練數據優勢。ChatGPT還需要進一步整合各行業歷史沉淀數據,并將數據轉換為高質量、有效的訓練數據集,才能更好地提升行業應用模型的精度。
二是強化推理能力。基于對業務場景的了解出發,對未知業務場景做從規則、向量表示推理到prompt的范式多層次學習推理過程。
三是線上更新機制。實時收集線上數據,并實時進行模式化的更新,動態反饋更新至模型中,形成模型長期反饋更新學習的機制。
四是合理挖掘發現行業應用場景。通過更深層次地將GPT技術與垂直行業的業務做融合,構建行業化的GPT模型,并服務于業務實際需求。(本文首發鈦媒體App)