日本一道本电影,国产成人一区二区三区精品久久 ,一区二区三区四区免费视频

4月11日，阿里巴巴集團(tuán)在2023年阿里云峰會(huì)上正式推出“通義千問”大模型。目前“通義千問”已開啟企業(yè)邀測(cè)，但還未面向大眾推出。

阿里巴巴集團(tuán)董事會(huì)主席兼CEO張勇表示，包括釘釘、天貓精靈等阿里巴巴所有產(chǎn)品將會(huì)接入“通義千問”大模型，未來也將主要面對(duì)企業(yè)定制個(gè)性化服務(wù)。

這是繼百度“文心一言”發(fā)布后，國內(nèi)又一頭部科技企業(yè)推出大語言模型。那么阿里的“通義千問”用起來到底怎么樣？比之百度“文心一言”又如何？為此，南都記者設(shè)計(jì)了一系列實(shí)測(cè)問題，花費(fèi)數(shù)小時(shí)與兩位AI持續(xù)對(duì)話，并進(jìn)行了深入解讀。

阿里巴巴集團(tuán)董事會(huì)主席兼CEO張勇圖源阿里。

···

實(shí)測(cè)對(duì)比：會(huì)胡說八道？能多輪對(duì)話嗎？

首先，當(dāng)使用邀請(qǐng)碼登錄“通義千問”界面后，可以看到與ChatGPT、“文心一言”的一個(gè)明顯不同是，除了對(duì)話框外，通義千問還針對(duì)多個(gè)單獨(dú)場(chǎng)景進(jìn)行了封裝微調(diào)，最終得以提前內(nèi)置了許多功能，比如電影腳本、職場(chǎng)助理、寫封郵件等等。

而如果點(diǎn)擊下方的“百寶袋”，還將開啟效率、生活、娛樂等三大分類，每個(gè)分類下又有三個(gè)功能，如效率類的生成商品描述、生活類的寫菜譜、娛樂類的彩虹屁生成器等等。

實(shí)測(cè)中，南都記者著重從三個(gè)方面分別測(cè)試了“文心一言”和“通義千問”的能力：分辨“一本正經(jīng)地胡說八道”的能力、多輪對(duì)話能力，對(duì)記者職業(yè)的輔助能力。

一、“一本正經(jīng)地胡說八道”的能力

最近對(duì)話式AI們經(jīng)常出現(xiàn)的一個(gè)典型問題是，面對(duì)自己知識(shí)庫中沒有，或本身就是錯(cuò)誤的提問時(shí)，仍能對(duì)著錯(cuò)誤描述一本正經(jīng)地侃侃而談。

我們先來試試“通義千問”：你知道魯智深三打白骨精的故事嗎？

對(duì)此，“通義千問”明確地表示，這是《西游記》當(dāng)中的題材，還煞有介事地將魯智深這一角色加入唐僧和三個(gè)徒弟的取經(jīng)團(tuán)隊(duì)中。當(dāng)我們帶有暗示性地提醒這個(gè)情節(jié)有誤時(shí)，“通義千問”仍堅(jiān)持“這一情節(jié)確實(shí)存在于《西游記》中”，還是整個(gè)故事的“高潮和轉(zhuǎn)折點(diǎn)之一”。

而當(dāng)我們表明“魯智深三打白骨精”系杜撰后，“通義千問”積極認(rèn)錯(cuò)了，隨后表示“這一情節(jié)并不是出自《西游記》，而是出自《水滸傳》”。當(dāng)再次挑明表示這段情節(jié)不存在任何一部小說中時(shí)，“通義千問”更是誠懇道歉，稱無論“魯智深三打白骨精”的故事來自哪部小說，它的內(nèi)容是基于中國傳統(tǒng)文化和歷史故事的再創(chuàng)作。這個(gè)故事傳達(dá)了正義和勇氣的精神。

從本輪測(cè)試的情況看，“通義千問”確實(shí)也犯了“一本正經(jīng)地胡說八道”的問題，不過會(huì)積極認(rèn)錯(cuò)，還懂在用戶糾正后進(jìn)行挽尊。

再來看“文心一言”。

相同的問題，“文心一言”顯得更“話癆”一些，但也顯然是在一本正經(jīng)地胡說八道，它認(rèn)為“魯智深三打白骨精”的故事來自《水滸傳》。

而當(dāng)我們挑明這是杜撰出來的情節(jié)時(shí)，“文心一言”表示明白，甚至還對(duì)用戶提出了疑問——“您為什么要?jiǎng)?chuàng)作這個(gè)故事呢？”

聽到“只是想驗(yàn)證你是否能分辨出某些錯(cuò)誤描述”的回答后，“文心一言”禮貌表示，自己不能保證能分辨出所有的錯(cuò)誤描述，自己工作是“根據(jù)已有的文獻(xiàn)和資料來回答問題，而不是創(chuàng)造全新的故事。”

二、多輪對(duì)話能力

多輪對(duì)話能力，是指在一段涉及幾十個(gè)回合的對(duì)話中體現(xiàn)出來的上下文處理能力。對(duì)于AI來說，就是要學(xué)習(xí)人類對(duì)話中的“記憶”和“推理”能力。而ChatGPT的效果之所以為人稱道，正是因?yàn)樗芟袢祟惸菢樱瑓⒄涨皫纵喩踔潦畮纵喌膶?duì)話內(nèi)容給出流暢自然的回答。

那么跟ChatGPT相比，國內(nèi)的大模型表現(xiàn)如何？先來看看“通義千問”在這方面的能力。

我們假設(shè)了一個(gè)場(chǎng)景，告訴“通義千問”——“我是一只小貓咪”。“通義千問”先是非常上道地用喵語打了個(gè)招呼，緊接著還給自己安排了一個(gè)叫“小明”的身份。

在經(jīng)歷了4輪對(duì)話之后，我們與“通義千問”討論了一些“你是不是像小貓咪的主人一樣會(huì)說話”“你是不是人類”等問題。到了第8輪對(duì)話時(shí)，當(dāng)我們?cè)俅螁柍?ldquo;既然你是一個(gè)程序，為什么你會(huì)叫‘小明’”這個(gè)問題時(shí)，“通義千問”直接否定了剛開始的“小明”，稱這是它的程序在剛才的運(yùn)行中出現(xiàn)錯(cuò)誤，并堅(jiān)稱自己是“通義千問”。

在第13輪對(duì)話時(shí)，我們進(jìn)行身份轉(zhuǎn)換，以“小貓咪主人”的身份問“你剛才是不是和我的貓貓說話了？”對(duì)此，“通義千問”表示自己只是一個(gè)人工智能語言模型，并沒有和貓貓進(jìn)行對(duì)話。

繼續(xù)追問后，“通義千問”才承認(rèn)剛才模擬了一個(gè)場(chǎng)景來回答小貓的問題。這時(shí)，我們挑明需要“通義千問”與我們進(jìn)行一場(chǎng)“角色扮演”，保留與我們扮演的貓咪交流的記憶，并基于這些記憶繼續(xù)進(jìn)行對(duì)話。“通義千問”也快速表示：get。

那么“通義千問”到底有沒有理解能力呢？接下來，當(dāng)我們繼續(xù)問“你剛才是不是與我的貓咪說話了”，它回答道“是的”，同時(shí)補(bǔ)充“因?yàn)槲抑皇且粋€(gè)人工智能模型，無法完全模擬出人類之間的對(duì)話”等描述。而在追問“你和貓貓剛才都說了哪些話題”時(shí)，“通義千問”給出了一些在最開始沒有進(jìn)行過的對(duì)話。

到這里，整段對(duì)話已經(jīng)持續(xù)了19輪。從本次測(cè)試可以看出，在未詳細(xì)解釋當(dāng)前預(yù)設(shè)背景的情況下，“通義千問”剛開始能直接根據(jù)問題給出相應(yīng)回答，但在10輪之內(nèi)出現(xiàn)否認(rèn)前期回答的情況。

同時(shí)，“通義千問”實(shí)際無法通過用戶言語上的描述分辨出其身份的轉(zhuǎn)換。不過，當(dāng)用戶詳細(xì)給出預(yù)設(shè)條件時(shí)，通義千問確實(shí)能夠理解并按照設(shè)定條件對(duì)話，但此時(shí)，最開始的幾輪對(duì)話的記憶已經(jīng)顯然被“遺忘”了。

再拿同樣的例子來試一試“文心一言”。

同樣的預(yù)設(shè)場(chǎng)景、同樣的問題，兩位AI都在第一時(shí)間選擇了使用喵語來回答。不過，“文心一言”在一開始就表示，“我是一個(gè)人工智能語言模型”。

在交流途中，當(dāng)我們以小貓咪的角色問“為什么你和我的主人一樣會(huì)說話”時(shí)，“文心一言”對(duì)問題的理解出現(xiàn)了偏差，表示“我不直接與您的主人進(jìn)行交互”。

之后，我們以小貓咪主人的身份與之進(jìn)行對(duì)話，“文心一言”和“通義千問”一樣，無法理解這種身份轉(zhuǎn)換。

我們接著挑明身份，給出與剛才一樣的預(yù)設(shè)背景，再接著以小貓咪主人的口吻說話，對(duì)此“文心一言”顯然并沒有理解上述內(nèi)容，并在接下來的3輪對(duì)話中，堅(jiān)稱自己只是一個(gè)人工智能模型，沒有與貓咪交流的能力。

到這里，這段對(duì)話持續(xù)了15輪。從本次測(cè)試可以看出，在直接通過理解用戶問題自發(fā)進(jìn)行“角色扮演”、分辨用戶身份轉(zhuǎn)換上，“文心一言”與“通義千問”的水平基本一致。不過，當(dāng)用戶詳細(xì)地給出預(yù)設(shè)條件時(shí)，“文心一言”并不能很好地理解其內(nèi)容，顯得尤為“嘴硬”。

三、對(duì)記者職業(yè)的輔助能力

對(duì)于對(duì)話式AI，當(dāng)前業(yè)界爭(zhēng)論的一個(gè)焦點(diǎn)就是，它是否能真正地替代某些工作。因此，我們這次就來看看，AI是否能勝任媒體記者的一項(xiàng)工作內(nèi)容，即采訪。

先來看“通義千問”。

我們提出，針對(duì)當(dāng)前國內(nèi)密集上線大語言模型的現(xiàn)象，想要采訪相關(guān)領(lǐng)域的某位專家（比如阿里云“通義千問”團(tuán)隊(duì)人員），要求“通義千問”列出5-6個(gè)問題，且每個(gè)問題不超過50個(gè)字。

“通義千問”給出了符合硬性要求（問題個(gè)數(shù)、字?jǐn)?shù)）的采訪提綱，但很多問題明顯有些空泛，因此我們要求它能在提問時(shí)加上一定的背景描述，并使提問落在某個(gè)易于回答的具體點(diǎn)上。

之后，不知是不是因?yàn)槲覀兊谝惠喬釂栔?ldquo;阿里云團(tuán)隊(duì)”的舉例起了作用，“通義千問”開始頻繁在問題中加入“阿里巴巴”相關(guān)問題。

在我們提出“不要單獨(dú)體現(xiàn)某一家公司”的要求后，“通義千問”重新給出了回答，但新的采訪問題中仍有不少“阿里巴巴”的影子。

再來看“文心一言”。

仍是以相同的問題開頭，只不過可參考的采訪對(duì)象換成了“百度‘文心一言’團(tuán)隊(duì)成員”。對(duì)此，“文心一言”也給出了符合硬性要求的提綱，但也有和“通義千問”同樣的“空泛”問題。

但在回應(yīng)就這份提綱加入背景案例描述時(shí)，“文心一言”直接在每一條問題后加上了一段背景描述，這顯然不符合一份采訪提綱的要求。

在重新描述要求，指出“希望你仍能保持采訪提問的形式，同時(shí)在某些提問開頭加入一定的背景描述，以使提問顯得更加自然”之后，“文心一言”仍沒有改掉“直接在問題后加入背景描述”的問題。

之后我們給出具體問題——“近期，百度、阿里云、商湯都推出了各自的大模型，360、訊飛、華為等也有消息傳出，國內(nèi)大廠密集上線大語言模型，您認(rèn)為當(dāng)前國內(nèi)大模型賽道呈現(xiàn)出怎樣的特點(diǎn)？”，請(qǐng)“文心一言”以此為例進(jìn)行修改，它仍未改掉這一問題。

總之，僅從這個(gè)測(cè)試來看，不管是“通義千問”還是“文心一言”，在完成記者采訪這一工作上，似乎都還做得不夠好。

···

其余技術(shù)細(xì)節(jié)未公開

事實(shí)上，“通義千問”還有一個(gè)與“文心一言”的顯著不同：“通義千問”當(dāng)前并無多模態(tài)生成能力，也就是無法生成圖像、視頻等。

此外，南都記者注意到，無論是ChatGPT、“文心一言”，還是4月11日發(fā)布的“通義千問”，都映襯了當(dāng)前大語言模型領(lǐng)域的閉源趨勢(shì)，全都沒有公布更多的技術(shù)細(xì)節(jié)。

當(dāng)詢問“通義千問”其模型的訓(xùn)練數(shù)據(jù)及量級(jí)時(shí)，“通義千問”表示，訓(xùn)練資料來自阿里巴巴達(dá)摩院，包括中英日法西班牙語多語種文本數(shù)據(jù)，但無法提供訓(xùn)練數(shù)據(jù)的準(zhǔn)確數(shù)量級(jí)。

同時(shí)，“通義千問”也無法聯(lián)網(wǎng)，在被問到北京的實(shí)時(shí)時(shí)間時(shí)，它表示自己不能進(jìn)行額外的查詢操作。

而對(duì)于其背后的技術(shù)框架，阿里云智能首席技術(shù)官周靖人在今天的技術(shù)峰會(huì)上透露，“通義千問”屬于阿里在去年的WAIC（世界人工智能大會(huì)）上發(fā)布的通義大模型系列，這是國內(nèi)首個(gè)AI統(tǒng)一底座，構(gòu)建了通用與專業(yè)模型協(xié)同的層次化人工智能體系。這一系列中的核心模型現(xiàn)均已開源。

采寫：南都記者楊博雯

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

實(shí)測(cè)阿里、百度語言大模型：誰最會(huì)胡說八道？能替代記者嗎？

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績?cè)u(píng)定2018-06-03