視頻會議的語音壓縮技術(shù)指的是對原始語音數(shù)字音頻信號流(PCM編碼) 運用適當(dāng)?shù)臄?shù)字信號處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,壓縮信號編碼速率,也稱為壓縮編碼。以生成適合傳輸?shù)臄?shù)字信號流,提高傳輸效率。對語音編碼技術(shù)中語音質(zhì)量的評價主要分為兩類,客觀評定方法和主觀評定方法。其中客觀評定方法用客觀測量的手段來評價語音編碼的質(zhì)量,其特點是計算簡單,但不能完全反映人對語音質(zhì)量的感覺。主觀評定方法符合人類聽話時對語音質(zhì)量的感覺,因而得到廣泛應(yīng)用。最主要的主觀評定方法是主觀評定等(Subjective Opinion Scale) ,或稱平均評定得分(MOS Mean Opinion Score) 。MOS 得分采用五級評分標準,下表給出主觀評定等級的質(zhì)量等級、分數(shù)和相應(yīng)的收聽注意力等級。
在互聯(lián)網(wǎng)中傳輸語音主要通過兩個部分進行語音質(zhì)量的保證
(1)回聲消除
分析聲學(xué)回聲的產(chǎn)生的機理,可以知道:聲學(xué)回聲最簡單的控制方法是改善揚聲器的周圍環(huán)境,盡量減少揚聲器播放聲音的反射。例如,可以在周圍的墻壁上附加一層吸音材料,或增加一層襯墊以增加散射,理想的周圍環(huán)境是其回響時間或RT-60(聲音衰減60dB所需要的時間)在300ms~600ms之間。因為這樣的環(huán)境一方面可以控制反射,又可以不會使講話者感到不適。改善環(huán)境可以有效地抑制間接聲學(xué)回聲,但對直接聲學(xué)回聲卻無能為力。
回聲抑制器回聲抑制器是使用較早的一種回聲控制方法。回聲抑制器是一種非線性的回聲消除。它通過簡單的比較器將接收到準備由揚聲器播放的聲音與當(dāng)前話筒拾取的聲音的電平進行比較。如果前者高于某個閾值,那么就允許傳至揚聲器,而且話筒被關(guān)閉,以阻止它拾取揚聲器播放的聲音而引起遠端回聲。如果話筒拾取的聲音電平高于某全閾值,揚聲器被禁止,以達到消除回聲的目的。由于回聲抑制是一種非線性的回聲控制方法,會引起揚聲器播放的不連續(xù)。影響回聲消除的效果,隨著高性能的回聲消除器的出現(xiàn),回聲抑制器已很少人使用了。
聲學(xué)回聲消除器聲學(xué)回聲消除的另一方法是使用聲學(xué)回聲消除器(AEC:AcousticEcho Chancellor),AEC是對揚聲器信號與由它產(chǎn)生的多路徑回聲的相關(guān)性為基礎(chǔ),建立遠端信號的語音模型,利用它對回聲進行估計,并不斷地修改濾波器的系數(shù),使得估計值更加逼近真實的回聲。然后,將回聲估計值從話筒的輸入信號中減去,從而達到消除回聲的目的,AEC還將話筒的輸入與揚聲器過去的值相比較,從而消除延長延遲的多次反射的聲學(xué)回聲。根椐存儲器存放的過去的揚聲器的輸出值的多少,AEC可以消除各種延遲的回聲。
(2)丟包補償
語音實時傳輸中的丟包恢復(fù)技術(shù)按照連接關(guān)系可以劃分為兩個大類:基于發(fā)送端的修復(fù)和基于接收端的修復(fù)。
一、基于發(fā)送端的修復(fù)技術(shù)
基于發(fā)送端的丟包恢復(fù)由發(fā)送端發(fā)起,并需要發(fā)送端和接收端協(xié)同進行。
1、增加冗余度
最簡單的方法,是讓每個數(shù)據(jù)包除了自身數(shù)據(jù)之外還包含前k個包的數(shù)據(jù)備份。為了盡量降低冗余度,當(dāng)前分組所包含的前k個分組的冗余數(shù)據(jù)可以用一個碼率更低的編碼器產(chǎn)生。增加數(shù)據(jù)的冗余度可以提高系統(tǒng)的容錯能力,但是同時增加了帶寬。這種方式與語音編碼方式無關(guān),只是在分組時針對這些語音數(shù)據(jù)作了冗余數(shù)據(jù)備份。
2、分類處理
為了在收端更好地采用波形替換技術(shù),發(fā)端可以根據(jù)語音信號的特性分類處理,具體做法是對于濁音信號先估算其基音周期L,然后把兩段長度為L的波形封裝到一個分組內(nèi)。對于非濁音信號(包括清音、噪聲和靜音)則全部封裝到一個分組內(nèi)。即用小數(shù)據(jù)包傳送濁音信號,用大數(shù)據(jù)包傳送其它信號。這種方式與語音編碼方式有關(guān),主要對語音的內(nèi)容分類,區(qū)分有用信息和無用信息,然后對這些信息分別編碼,分組采用自適應(yīng)策略;一旦分組丟失,接收端可根據(jù)收到的分組來推測丟失的分組所含信號的類型并采取相應(yīng)的策略。
3、前向糾錯
信道編碼用前向糾錯(FEC)碼來恢復(fù)在傳輸中發(fā)生差錯的比特,現(xiàn)在人們把FEC應(yīng)用到語音分組傳輸中來恢復(fù)丟失的數(shù)據(jù)分組,有多種FEC碼可用于此目的。最簡單的是奇偶校驗碼,其基本原理是為每k個信息分組加入一個奇偶校驗分組,奇偶校驗分組的數(shù)據(jù)由k個信息分組的相應(yīng)比特的校驗比特組成。這種方式與具體的語音編碼方式無關(guān),主要在分組時增加對分組的校驗位信息。
4、交織
當(dāng)語音信號發(fā)生大段的突發(fā)缺失,各種差錯掩蓋方法的效果就會大大降低,許多方法甚至無法工作,而突發(fā)的連續(xù)丟包是在Intemet上遇到的典型現(xiàn)象。為了最大限度地發(fā)揮這些差錯掩蓋技術(shù),可以采用交織技術(shù)打亂數(shù)據(jù)的發(fā)送順序,把大段的突發(fā)連續(xù)語音丟失轉(zhuǎn)化為隨機的小段丟失。這種方式與具體的語音編碼方式無關(guān),也與分組的編碼方式無關(guān),主要是對編碼后的數(shù)據(jù)重新組織,但采用交織方法會給系統(tǒng)帶來很大的時延。
5、優(yōu)先級設(shè)置
優(yōu)先級設(shè)置方法是指發(fā)端依據(jù)某個準則為不同的語音分組設(shè)置不同的優(yōu)先級,如依據(jù)語音的能量、與前一個分組的相似度、語音信號的平穩(wěn)特性或者當(dāng)前分組能否用前一個分組較好地預(yù)測等。當(dāng)網(wǎng)絡(luò)發(fā)生阻塞時,網(wǎng)絡(luò)保留高優(yōu)先級的分組,丟棄低優(yōu)先級的分組。這種方式與語音的編碼方式有關(guān),因為需要了解語音信息的優(yōu)先級,這種技術(shù)需要網(wǎng)絡(luò)支持并按優(yōu)先級傳輸分組,否則無法實現(xiàn)。
二、基于接收端的修復(fù)技術(shù)
基于收端的修復(fù)技術(shù)不需要發(fā)端的參與,本質(zhì)上是對接收到的數(shù)據(jù)通過一系列的方法來估計丟失的數(shù)據(jù),并根據(jù)人的生理特點進行優(yōu)化,基本上是一種被動的修補,通常比較容易實現(xiàn)且不增加帶寬需求。
1、插入方式
插人是指用固定的波形來填補缺口,這種固定的波形與缺口處的實際波形是不相關(guān)的。這類技術(shù)包括接合、靜音和噪聲替代等方法。接合技術(shù)是最簡單的方法,它會擾亂系統(tǒng)的定時關(guān)系,對聽覺效果的改善也不大。靜音替代的適用范圍非常有限,當(dāng)數(shù)據(jù)包的丟失頻率很低(小于2%)且缺口寬度小于4 ms時,這種方法比較有效;當(dāng)缺口寬度達40 ms時,其效果會讓人無法接受。與靜音替代相比,噪聲替代可給人帶來更好的主觀聽覺感受,同時能改善語音信號的可分辨性。當(dāng)采用背景噪聲而不是靜音的時候,人腦能下意識地用正確的聲音來修補語音信號中丟失的部分。插人方式與語音編碼無關(guān),也與分組的編碼無關(guān),只是對解碼后丟失的語音進行處理。
2、插值
與插人技術(shù)相比,插值技術(shù)對缺口處的實際波形做了估計,并試圖用與其相似的波形來修補波形缺口,這使得處理得到的聲音能給人帶來相對更好的主觀感受。目前屬于插值方法的有波形替代和時域修正兩種技術(shù)。
(1)波形替代
其原理是在缺口前面(或后面)的波形中尋找出和缺口處波形相似的一段信號并對其加工用來填補缺口。執(zhí)行一般由兩個步驟構(gòu)成,第一步是儲存最新重建的信號波形,第二步是對所存儲的波形進行分析,從中提取一段波形并加以改造用來替代缺口處原有的波形。這類技術(shù)常用重復(fù)、模式匹配、基音波形復(fù)制三種實現(xiàn)方式?;舨ㄐ螐?fù)制是通過峰值檢測來計算基音周期T并判斷語音信號是清音還是濁音。對于清音,它簡單地采用重復(fù)技術(shù)來填補波形缺口;對于濁音,它用缺口位置之前長度為T的一段波形通過重復(fù)來填補波形缺口。其效果最好,但是實現(xiàn)較復(fù)雜。模式匹配從存儲的缺口左側(cè)的重建波形中按某種匹配原則進行搜索,找到一段最佳匹配波
形,對它進行必要的修飾之后用來填補重建波形的缺口。它也可以同時從缺口兩側(cè)的重建波形中各找出一段最佳匹配波形,對它們進行加權(quán)合并,用來填補缺口。雙側(cè)搜索比單側(cè)搜索的聽覺效果好,但是它的代價是引入了很長的時延。其效果次于基音復(fù)制方式,但實現(xiàn)較簡單。重復(fù)方式用缺口前面最近的波彤來替代缺口處的實際波形。效果最差,但實現(xiàn)簡單。波形替代技術(shù)可使得填補缺口的波形與其前后的波形間的過渡比較平滑,但在缺口邊界,波形的相位存在突變。這種方式對解碼后的語音信息的修補,與具體的語音編碼和分組編碼無關(guān)。
(2)時域修正
這種技術(shù)采用缺口兩側(cè)的波形向缺口方向延展的方式來填補缺口。該方法計算量很大,但是由于它能夠避免邊界的相位不連續(xù)現(xiàn)象,聽覺效果優(yōu)于波形替代法。該種方法也同樣也是一種對解碼后的語音信號進行處理的技術(shù),與具體的語音編碼和分組編碼無關(guān)。
無論是基于發(fā)送端還是基于接收端的修復(fù)技術(shù),針對丟包恢復(fù)的要求,上述這些技術(shù)在設(shè)計時,一般的出發(fā)點有:
①針對語音本身??紤]的方面主要是分析和區(qū)分語音本身的不同內(nèi)容,如:濁音,噪音,背景音等,對這些內(nèi)容分別編碼傳輸。
②針對分組。通過對分組增加冗余信息和校驗信息來獲取容錯能力,但會引起帶寬的增加;
③針對比特位。這里主要指交織技術(shù),它是對編碼結(jié)果的再處理;
④針對語音復(fù)原后的信號?;谑斩说募夹g(shù)都采用這種原理來設(shè)計;
各種技術(shù)只在語音、分組、傳輸和語音復(fù)原階段采取了措施,而通常在發(fā)端采取的措施比在收端采取的措施有效,或者說發(fā)端采取的措施將直接影響收端對數(shù)據(jù)復(fù)原的效果,因此為了最大化丟包后數(shù)據(jù)的復(fù)原效果,應(yīng)重點在發(fā)端采取措施,使收端在不增加帶寬的情況下,當(dāng)丟包情況發(fā)生時,盡量減少對數(shù)據(jù)的影響。一般來說,采用基于發(fā)端修復(fù)的效果比基于收端的技術(shù)好,但是技術(shù)復(fù)雜,一般會增加網(wǎng)絡(luò)的帶寬和傳輸延遲,收端的技術(shù)簡單,取得的效果更適于人的聽覺生理特點。若能夠綜合考慮發(fā)端和收端過程中的不同階段的特點,既能取得好的修復(fù)效果,又能用簡單的方式實現(xiàn),將是今后丟包恢復(fù)技術(shù)研究的一個重要方向。
(3)抖動抑制
Internet的實質(zhì)是分組交換網(wǎng)絡(luò),IP分組是存儲、轉(zhuǎn)發(fā)的最小單元。因此,同一信源的分組可能經(jīng)過不同的路由傳輸?shù)浇邮斩?分組到達接收端的時延也不同。這種分組傳輸時延的不同被稱為時延抖動。時延抖動的存在引起收端解碼后的語音信號出現(xiàn)間斷,造成語音失真,所以必須進行時延抖動的吸收補償。與分組網(wǎng)傳輸數(shù)據(jù)相比,電路交換則是由于預(yù)先分配了信道資源,通信子網(wǎng)以流的方式對待數(shù)據(jù),即各幀數(shù)據(jù)從A端到達B端的時間相等,這樣也就不存在抖動的問題。在設(shè)計語音抖動處理方案時,可以做如下考慮:采用智能緩沖平滑的方法,即讓接收端對抖動程度做出預(yù)測,并把接收到的信元存放在緩沖器中,采用適當(dāng)長度的抗抖動緩存,吸收延時后再輸出。