自動(dòng)語(yǔ)音識(shí)別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用
自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition簡(jiǎn)稱"ASR")技術(shù)的目標(biāo)是讓計(jì)算機(jī)能夠“聽(tīng)寫”出不同人所說(shuō)出的連續(xù)語(yǔ)音,也就是俗稱的“語(yǔ)音聽(tīng)寫機(jī)”,是實(shí)現(xiàn)“聲音”到“文字”轉(zhuǎn)換的技術(shù)。 自動(dòng)語(yǔ)音識(shí)別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用,自動(dòng)語(yǔ)音識(shí)別通常有以下幾種分類方法:
(1)按系統(tǒng)的用戶情況分:特定人和非特定人識(shí)別系統(tǒng);
(2)按系統(tǒng)詞匯量分:小詞匯量、中詞匯量和大詞匯量系統(tǒng);
(3)按語(yǔ)音的輸入方式分:孤立詞、連接詞、連續(xù)語(yǔ)音系統(tǒng)等;
(4)按輸入語(yǔ)音的發(fā)音方式分:朗讀式、口語(yǔ)(自然發(fā)音)式;
(5)按輸入語(yǔ)音的方言背景情況分:普通話、方言背景普通話、方言語(yǔ)音識(shí)別系統(tǒng);
(6)按輸入語(yǔ)音的情感狀態(tài)分;中性語(yǔ)音、情感語(yǔ)音識(shí)別系統(tǒng)。語(yǔ)音識(shí)別技術(shù)適用于家用電器和電子設(shè)備,比如電視、計(jì)算機(jī)、汽車、音響、冷氣等的聲控遙控器,電話、手機(jī)或PDA上的聲控人名撥號(hào)、數(shù)字錄音機(jī)的聲控語(yǔ)音檢索標(biāo)簽、兒童玩具的聲控等;也可用于個(gè)人、呼叫中心,以及電信級(jí)應(yīng)用的信息查詢與服務(wù)等領(lǐng)域。
語(yǔ)音識(shí)別系統(tǒng)選擇識(shí)別基元的要求是,有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。自動(dòng)語(yǔ)音識(shí)別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用,英語(yǔ)通常采用上下文相關(guān)的音素建模,漢語(yǔ)的協(xié)同發(fā)音不如英語(yǔ)嚴(yán)重,可
以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計(jì)得過(guò)于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會(huì)使得性能急劇下降。 聽(tīng)寫機(jī):大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別系統(tǒng)通常稱為聽(tīng)寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語(yǔ)言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語(yǔ)言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對(duì)漢語(yǔ)易于分割的特點(diǎn),先進(jìn)行分割再對(duì)每一段進(jìn)行解碼,是用以提高效率的一個(gè)簡(jiǎn)化方法。 自動(dòng)語(yǔ)音識(shí)別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用對(duì)話系統(tǒng):用于實(shí)現(xiàn)人機(jī)口語(yǔ)對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫(kù)檢索等等。其前端是一個(gè)語(yǔ)音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語(yǔ)法分析器進(jìn)行分析獲取語(yǔ)義信息,再由對(duì)話管理器確定應(yīng)答信息,由語(yǔ)音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來(lái)獲取語(yǔ)義信息。