你收到的語(yǔ)音到底是不是真人呢?可別那么快就下定論!
近期,不少人遭遇了“本人語(yǔ)音”的電信詐騙。當(dāng)收到朋友的借錢(qián)微信后,人們的第一反應(yīng)通常是朋友被盜號(hào)了,但“朋友”立馬補(bǔ)充了一條“真人語(yǔ)音”做確認(rèn)。許多人往往一聽(tīng)到朋友的聲音,便放心將錢(qián)轉(zhuǎn)了出去,等到收款后被拉黑,被騙人才恍然大悟朋友的微信真的被盜了。對(duì)于類(lèi)似高技術(shù)含量的騙局,人們往往防不勝防。
平安科技研究語(yǔ)音技術(shù)的科學(xué)家們正在努力研究語(yǔ)音防偽技術(shù),并有了突破性的進(jìn)展,最近,已于國(guó)際會(huì)議Interspeech2020上發(fā)表了專(zhuān)業(yè)論文"Improving Replay Detection System with Channel Consistency DenseNeXt for the ASVspoof 2019 Challenge"。
平安科技研究語(yǔ)音技術(shù)的科學(xué)家表示:AI語(yǔ)音合成并沒(méi)有想象中那么簡(jiǎn)單。
六種情緒設(shè)定,攻克機(jī)器音“情緒”難題
基于20年的客戶(hù)服務(wù)積累,如今平安AI語(yǔ)音平臺(tái)已實(shí)現(xiàn)客服工作的AI覆蓋率達(dá)83%,解決率接近90%。通過(guò)平安智能語(yǔ)音中臺(tái)的運(yùn)用,成功賦能超8萬(wàn)位遠(yuǎn)程坐席。平安AI客服所使用的并不是刻板的電子音,而是非常有人情味的talker。使用過(guò)Siri等智能助手的用戶(hù)對(duì)于“機(jī)器音”并不會(huì)陌生,機(jī)器的聲音往往是冰冷而生硬的,沒(méi)有抑揚(yáng)頓挫的語(yǔ)調(diào),也不會(huì)適時(shí)地?cái)嗑洹W寵C(jī)器的聲音口語(yǔ)化是語(yǔ)音合成遇到的第一個(gè)問(wèn)題。
機(jī)器聲音的口語(yǔ)化意味著情緒與技術(shù)的深度融合,而“情緒識(shí)別”早已成為學(xué)術(shù)界和商業(yè)界公認(rèn)的難點(diǎn)問(wèn)題。近年來(lái),平安科技的研發(fā)團(tuán)隊(duì)在該領(lǐng)域的研究中取得了突破性進(jìn)展,并基于平安特定業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)了文本情緒識(shí)別,通過(guò)識(shí)別用戶(hù)或坐席的情緒狀態(tài),已可分辨出為正面、負(fù)面和中性三大類(lèi)別。研發(fā)團(tuán)隊(duì)也將繼續(xù)把“情緒”作為研發(fā)的重點(diǎn)和難點(diǎn),相信在不久之后,喜怒哀樂(lè)終將從機(jī)器人的口中傳遞出來(lái)。
通過(guò)結(jié)合金融行業(yè)的屬性與平安日常的業(yè)務(wù)場(chǎng)景,研發(fā)團(tuán)隊(duì)的科學(xué)家為語(yǔ)音機(jī)器人配備了4種基于語(yǔ)氣來(lái)區(qū)分語(yǔ)音的合成音庫(kù),充分滿(mǎn)足營(yíng)銷(xiāo)所需。例如,客服人員交流,需要溫和的語(yǔ)氣;而電商促銷(xiāo),則需要高興、積極的語(yǔ)氣。盡管目前科學(xué)家們對(duì)于情感語(yǔ)音仍在探索中,但研發(fā)團(tuán)隊(duì)已經(jīng)為不同的情緒風(fēng)格分別錄入了數(shù)百句話并導(dǎo)入了語(yǔ)音庫(kù)中,在收集了一定數(shù)量的素材之后,基于素材建造訓(xùn)練模型,再通過(guò)模型構(gòu)架、網(wǎng)絡(luò)構(gòu)架的優(yōu)化,不斷地進(jìn)行機(jī)器訓(xùn)練,直到最后機(jī)器人擁有與真人相似的語(yǔ)氣及情緒,能和人們進(jìn)行生動(dòng)、無(wú)障礙的自然交流。
多方聯(lián)合建立方言語(yǔ)音庫(kù),讓AI成為“地道的中國(guó)人”
許多人在學(xué)普通話之前,首先學(xué)會(huì)的“母語(yǔ)”其實(shí)是所在地區(qū)的方言,如今人群中方言的使用比率依然很高。以上海話為例,平安科技的研發(fā)團(tuán)隊(duì)針對(duì)上海方的言研發(fā)做了大量工作,調(diào)研顯示2019年上海的外地人口比例在4成左右,即便是聚集四面八方“滬漂”的上海,使用上海方言的本地人占比仍能達(dá)到6成左右。
對(duì)于一個(gè)普通人來(lái)說(shuō),掌握多種方言并不容易,但對(duì)于人工智能而言,它可以通過(guò)海量的語(yǔ)音訓(xùn)練掌握更多種類(lèi)的方言。平安科技的科學(xué)家認(rèn)為中國(guó)的人工智能,應(yīng)當(dāng)是“一個(gè)地道的中國(guó)人”。除了普通話,地大物博的各地區(qū)方言,它也能聽(tīng)得懂才行。
為了可以讓AI更好地識(shí)別方言,平安科技的科學(xué)家們將中國(guó)劃分為8個(gè)方言區(qū)。以上海話為例,他們?cè)O(shè)計(jì)了一套詳細(xì)的上海話規(guī)則,給到標(biāo)注人員去標(biāo)注。在這其中,還有一個(gè)難點(diǎn)就是語(yǔ)音庫(kù)的建立。
平安科技科研隊(duì)伍人員來(lái)自全國(guó)各地,然而來(lái)自上海本地的同事僅有兩位,無(wú)法組件豐富的語(yǔ)言庫(kù)樣本。
為了建立豐富的上海話語(yǔ)言庫(kù),平安科技的研發(fā)團(tuán)隊(duì)與多個(gè)上海高校展開(kāi)合作。找到學(xué)校的大學(xué)老師,并招募學(xué)校里的上海本地同學(xué)幫忙錄音與標(biāo)注。目前,平安科技正在研發(fā)上海話語(yǔ)音合成模型,提供專(zhuān)業(yè)服務(wù)的同時(shí)也不忘人情味的加入,打破語(yǔ)言邊界,讓溝通變得方便高效。
截至到目前,平安科技技術(shù)研究院語(yǔ)音技術(shù)團(tuán)隊(duì)結(jié)合具體的業(yè)務(wù)場(chǎng)景,總共梳理了兩三萬(wàn)句業(yè)務(wù)話術(shù),并整理出一些常用的口語(yǔ)標(biāo)記。接到平安AI客服電話時(shí),聽(tīng)到的是機(jī)器實(shí)時(shí)合成的機(jī)器音,并沒(méi)有冰冷與生硬,而是一種較人性化、較柔和的擬人聲音,這是通過(guò)大量的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)來(lái)實(shí)現(xiàn)的。
技術(shù)不斷的精進(jìn),讓機(jī)器的學(xué)習(xí)也不斷深入。而無(wú)限接近人類(lèi)的擬人化、人性化,將成為AI未來(lái)發(fā)展需要攻克的長(zhǎng)期命題。未來(lái),平安科技還將繼續(xù)完善AI學(xué)習(xí)的數(shù)據(jù)庫(kù),讓語(yǔ)音技術(shù)在不斷實(shí)踐與訓(xùn)練中獲得更人性化的提升,為更多的場(chǎng)景中的智能化運(yùn)用實(shí)現(xiàn)更多助力。未來(lái),平安科技的專(zhuān)業(yè)團(tuán)隊(duì)將致力于語(yǔ)音防偽技術(shù)落地,保障廣大群眾財(cái)產(chǎn)安全,更好地承擔(dān)社會(huì)責(zé)任。






