如上圖,我們通過微信發送了一段語音,在對語音進行轉文字時。語音識別引擎首先會將把這段語音進行分幀(切分成若干小段),然后利用聲學模型將提取的每一幀的聲學特征識別為一個個“狀態”,多個狀態會組合成一個音素(語音中的最小的單位),音素構成了諸多同音字,再利用 語言模型 從諸多同音字中挑選出可以使 語義完整的字(例如 不會把“吃飯”識別成“癡泛”),最后將文本展示出來。
如何將上述過程從質量的角度刻畫出來,是本框架解決的主要問題。同時,AI算法測試依托純手工測試、亦或是半自動化測試所面臨著在執行效率、結果可靠性方面的局限性較大,本框架也是從手動、半自動測試轉變為全自動、智能化測試的一次嘗試。
我們需要解決的重點問題
- 基于文本相似度計算及標注質量風險等級閾值設置,實現語音標注質量的風險自動評估。
- 基于SER(句錯誤率)、WER(字錯誤率)、字錯誤前提下的音節錯誤率、字錯誤且音節正確前提下的音調錯誤率 指標,實現宏觀指標的自動評估(每條標注信息分析精確到每個字的結果分析(正確、編輯、刪除、插入)、每個錯字的音節、音調分析)。
- 基于標注數據意圖(場景)的劃分,實現各意圖指標的自動評估。
- 基于標注數據各維度(如,發音人性別、信噪比等),實現各維度指標的自動評估。
- 基于由字符到音節再到音調的深層次的啟發式分析,更好的啟發測試同學發現問題。
重難點分析
重點分析
- 給出宏觀的WER、SER指標結果,以及每條標注的數據WER結果。
- 給出不同維度的WER、SER指標結果,并且與期望指標值進行比對,給出結論。
難點分析
1 如何實現標注質量的自動評估
標注質量差意味著期望值錯誤,將直接決定了后續統計結果的可靠性,音頻的標注進行質量評估是開展統計分析的前提。因此需要實現對所有標注數據進行標注質量風險評級,并輸出整體標注質量情況。
2 如何實現將每個標注數據進行精確到字、音節、音調的分析,找出其中正確的字、編輯的字、刪除的字、插入的字,并且將標注與識別文本標注對齊。例如:
標注文本(預期): 二三四五六七八九十
識別文本(實際): 一二三四五七捌九玖十
通過人工判斷可以得出:
- 正確的字(C):二三四五七九十
- 編輯的字(S):捌
- 刪除的字(D):六
- 插入的字(I) :一、玖
有同學也許會問,為什么捌是編輯、玖為什么是插入?這里答疑一下:
- “捌” 屬于編輯是因為在識別文本中,“捌”前面是“七”、后面是“九”。而標注文本的七和九之前剛好有一個字,因為這個字和捌不一樣,所以是編輯。
- “玖”屬于插入是因為在識別文本中,“玖”前面是“九”后面是“十”,而標注文本“九”和“十”之間沒有任何字,所以是插入。
3 如何實現基于字錯實現由字、到音節、再到音調的深層次分析挖掘,例如,按照如下梯度進行分析:
效果
測試框架通過配置待測試的標注數據集,自動實現以下結果的輸出。
1 模型宏觀指標
宏觀指標包含 質量風險評估、SER、WER等指標計算及與預期指標值的比對結果,幫助測試人員從宏觀角度快速掌握本次任務測試數據集的指標結果。
關于評估指標的計算,可以瀏覽下該文章內容:
AI算法測試——語音識別(ASR)模型評估指標探索
2 數據標注質量風險評估
通常,人工標注的文本數據與期望數據的相似度越高,那么說明標注質量越高(可能是誤讀,導致存在一定誤差,但屬于小概率事件),我們通過文本相似度計算(切詞、余弦相似度)實現標注質量的風險預測。
數據標注質量風險評估包含錄音文本、歸一化文本、標注人員工號、質量風險等級信息,幫助測試人員快速摸清數據標注質量,以及提高對于高風險標注數據的糾正效率。
3 語音測試樣本的數據統計分析詳情
全量語音識別的統計分析結果中包含每條標注數據的基本信息,結果比對的統計信息,以及精確的字、音、調的分析,幫助測試人員快速直觀的了解每一條標注信息標注結果,提高分析效率。
關于這部分實現,可以瀏覽下該文章內容:
語音識別算法(ASR)指標評估之編輯距離下WER計算圖解
4 意圖(場景)統計分析
意圖統計分析結果包含各意圖的字錯率、句錯率,以及與預期指標值的比對結果,幫助測試人員了解不同意圖(場景下)的指標表現。
5 其他維度統計分析
其他維度只要包含標注數據時打標的字錯率、句錯率,以及與預期指標值的比對結果各項維度,幫助測試人員了解不同數據特征下的指標表現,同時支持配置即統計(只需要配置到運行配置中,即可實現統計,無需代碼開發)
6 錯字前提下,音節正確分析詳情
由字符到音節,從錯字的角度出發,進行更深層次的啟發式分析,包含期望字、期望字音節、多音字讀音,對應的錯字數量,具體的每一個錯字,字的來源等信息,通過數據歸并統計分析,啟發測試人員從中發現更多的問題。
7 錯字且音節正確前提下,音調正確分析詳情
同音字分析,由音節到音調,這是基于錯字且音節正確前提下更深一步的啟發式分析,包含了期望字、期望字音節、多音字讀音、期望音調,對應的錯字數量、錯字音調等信息,通過數據歸并統計分析,啟發測試人員從中發現更深入的問題。
8 錯字且音節正確前提下,音調錯誤分析詳情
由音節到音調,這是基于錯字且音節正確前提下更深一步的啟發式分析,包含了期望字、期望字音節、多音字讀音、期望音調,對應的錯字數量、錯字音調等信息,通過數據歸并統計分析,啟發測試人員從中發現更深入的問題。






