語音識別技術的基本方法

1樓：樸鬆月

一般來說,語音識別的方法有三種：基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。該方法起步較早，在語音識別技術提出的開始，就有了這方面的研究，但由於其模型及語音知識過於複雜，現階段沒有達到實用的階段。

通常認為常用語言中有有限個不同的語音基元，而且可以通過其語音訊號的頻域或時域特性來區分。這樣該方法分為兩步實現：

第一步，分段和標號

把語音訊號按時間分成離散的段，每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號

第二步，得到詞序列

根據第一步所得語音標號序列得到一個語音基元網格，從詞典得到有效的詞序列，也可結合句子的文法和語義同時進行。模板匹配的方法發展比較成熟，目前已達到了實用階段。在模板匹配方法中，要經過四個步驟：

特徵提取、模板訓練、模板分類、判決。常用的技術有三種：動態時間規整(dtw)、隱馬爾可夫（hmm）理論、向量量化（vq）技術。

1、動態時間規整(dtw)

語音訊號的端點檢測是進行語音識別中的一個基本步驟，它是特徵訓練和識別的基礎。所謂端點檢測就是在語音訊號中的各種段落(如音素、音節、詞素)的始點和終點的位置，從語音訊號中排除無聲段。在早期，進行端點檢測的主要依據是能量、振幅和過零率。

但效果往往不明顯。60年代日本學者itakura提出了動態時間規整演算法(dtw：dynamictimewarping)。

演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中，未知單詞的時間軸要不均勻地扭曲或彎折，以使其特徵與模型特徵對正。

2、隱馬爾可夫法(hmm)

隱馬爾可夫法(hmm)是70年代引入語音識別理論的，它的出現使得自然語音識別系統取得了實質性的突破。hmm方法現已成為語音識別的主流技術，目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於hmm模型的。hmm是對語音訊號的時間序列結構建立統計模型，將之看作一個數學上的雙重隨機過程：

一個是用具有有限狀態數的markov鏈來模擬語音訊號統計特性變化的隱含的隨機過程，另一個是與markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來，但前者的具體引數是不可測的。人的言語過程實際上就是一個雙重隨機過程，語音訊號本身是一個可觀測的時變序列，是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的引數流。

可見hmm合理地模仿了這一過程，很好地描述了語音訊號的整體非平穩性和區域性平穩性,是較為理想的一種語音模型。

3、向量量化(vq)

向量量化(vectorquantization)是一種重要的訊號壓縮方法。與hmm相比,向量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是：

將語音訊號波形的k個樣點的每一幀，或有k個引數的每一引數幀，構成k維空間中的一個向量，然後對向量進行量化。量化時，將k維無限空間劃分為m個區域邊界，然後將輸入向量與這些邊界進行比較，並被量化為“距離”最小的區域邊界的中心向量值。向量量化器的設計就是從大量訊號樣本中訓練出好的碼書，從實際效果出發尋找到好的失真測度定義公式，設計出最佳的向量量化系統，用最少的搜尋和計算失真的運算量，實現最大可能的平均訊雜比。

核心思想可以這樣理解：如果一個碼書是為某一特定的信源而優化設計的，那麼由這一資訊源產生的訊號與該碼書的平均量化失真就應小於其他資訊的訊號與該碼書的平均量化失真，也就是說編碼器本身存在區分能力。

在實際的應用過程中，人們還研究了多種降低複雜度的方法，這些方法大致可以分為兩類：無記憶的向量量化和有記憶的向量量化。無記憶的向量量化包括樹形搜尋的向量量化和多級向量量化。

利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ann)本質上是一個自適應非線性動力學系統，模擬了人類神經活動的原理，具有自適應性、並行性、魯棒性、容錯性和學習特性，其強的分類能力和輸入-輸出對映能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點，目前仍處於實驗探索階段。

由於ann不能很好的描述語音訊號的時間動態特性，所以常把ann與傳統識別方法結合，分別利用各自優點來進行語音識別。

語音識別技術的基本方法

語音識別晶元有哪些，常用的語音晶元有哪些？

黑曜石的基本真假識別方法，如何鑑別黑曜石的真假

語音輸入系統的原理，語音識別系統是什麼原理

其他用戶還看了：