本文摘自 : (美商)瓦器聲紋鑑識實驗室鑑定報告書前言引文
在過去半個世紀來的研究基礎上,語音已經在醫學上被認定為人類生物標誌物(biomarker)的一種,如同DNA、血液生化分析一般,可以適用於預防醫學的應用,例如早期巴金森氏(Parkinson’s)症、阿茲海莫(Alzheimer's)症、甚至於冠狀動脈(coronary
artery)疾病的非侵入式早期診斷。至於語音是否可像筆跡和指紋一般、用來辨識語者的身分,則在二十世紀末期在科學和司法學界裏掀起過一陣子的紛擾;在進入二十一世紀人工智慧時代以後,語音作為身份鑑別的工具已經廣為多數人接納;在司法上的證據能力也因為案例快速累積與嚴謹的規則建立【圖文附件
一、參考文獻 1】而快速地被建立。
語者身分識別的基礎是建立在人的聲音存在個人化的特性:此個人聲音的特異性源自於個人發聲器官的構造差異性(先天特異性)和教育程度、說話習慣等個人特質(經由學習所衍生的特異性)。發聲器官(先天、innate)的特異性,主要反映在聲音的物理特性上 — 基頻、共振峰的頻譜特性(音質或音色等);而個人的教育程度、說話習慣等個人(後天、acquired)特質則表現在說話心理和習慣性反應上 — 吐字速度、韻律、咬字精準度、方言關連性口音、等等高階的語音特徵方面。
語音的再現性(reproducibility)在低階表徵方面 ─語速、語調、音質等聽者直觀接受到的訊息─ 很容易受到情緒、環境背景音量、對話對象、等說話情境的影響而變化;一個人重複一個短句數次,使用數位數據檢視工具便能夠看得出聲紋圖、語速的明顯差異。通常出現在語者身份鑑識司法案例中的錄音數據,存在著錄音時間間隔、不同對話發生情境、不同錄音條件及設備,可想見對於語者比對的精確度必然存在著負面的影響。然而成人語言的高階表徵
─詞彙、發音方式、口頭禪或慣用語氣等,和語者個人教育、成長過程有關的特徵─ 除非在語者刻意偽裝或模仿的情況下,不但不容易在短期內快速改變,也很具有獨特性。成人的體型一旦定型,聲道的長度與截面型態就不再變化,其聲道特性可以透過大量語音的物理特性建立數學模型來模擬,這便是近年來語音深偽技術(Deepfake)的科學基礎。
任何人重複說同樣的字、詞、或語句,都不會有完全相同的聲音細節,因此語者鑑別科學是建立在 ‶個人聲音的(統計)變異性 恆小於不同個體聲音差異性″ 的(假設)前提下進行的。
語者比對在執行面上,有兩種模式
— 限制模式(constrained
mode, 也有鑑識人員慣稱為‶語詞相關″,text-dependent),受比對的語音內容須為相同的字詞、語句;開放模式(unconstrained mode, 也有鑑識人員慣稱為‶語詞獨立″,text-independent),則受比對的語音內容不限制為相同的語句;但是後者在實施時,仍須由鑑定人從比對的語料中選擇相同的音素在相似的發音環境(此音素前後位置的語音音素、韻律、語調等等)的語音來進行(聲紋或共振峰值)比對。前者通常在有限的字數比對狀況下有較高的準確率,特別是在受測者積極配合語音採樣、說話情境模擬的狀態下;後者必須要有至少數百(甚至數千)字的(隨機、自然談話)內容,供鑑定人員從中挑選具有相同音素(phoneme)的字進行人工比對,或是透過人工智慧、機器學習的科技建立語者的聲學模型之後,透過分析語者聲學參數的同異程度來獲得結論,在有限相似字數的比對操作中、通常開放模式的準確度會低於限制模式下的比對。
不論語音鑑定人採用何種分析策略,主要的語音特徵採自有聲母音(中文及相關方言裡稱為元音)的語音學參數,有聲子音(輔音)能夠影響母音的產生特徵,主要反映出語者口(鼻)腔內發音器官在發音過程中連續動作產生的細節。此外,語音鑑定專家可從語音訊號獲得的其它參數還有頻率擾動度(jitter)、振幅擾動度(shimmer)、發聲起始時間(voice onset time,VOT),都可在語者同/異的判斷上作為信心度提升的輔助證據。
從語者識別科學發展的過程與現今此專業從業者採用的技術來歸納,可以把聲音生物識別科學(biometrics)使用的技術(approaches)歸納為下列四種【圖文附件 一、參考文獻
2】- 聆聽法(auditory)、聲譜目視法(spectrographic)、 語音聲學法(acoustic-phonetic)、及電腦自動分析法(automatic)。以下針對本件聲音鑑識任務使用的三種技術稍做介紹,方便鑑識報告閱覽人瞭解鑑識人在整個聲音特質分析、比對過程每一個階段性的進展是如何形成最終的鑑識人專家意見。
1)
聆聽(auditory)法:具有相關學養的聲音鑑識專業人員,透過優於常人的聽覺感知與辨識能力,透過反覆聆聽待鑑識聲音檔案來掌握語者的聲學特色
— 音調、吐字速度、音韻、腔調、詞彙使用習慣、發音精準度及控制能力、是否自然或是有刻意模仿或偽裝的跡象等等,從而比對已知/未知/所有語者的聲音特徵,逐漸形成語音是出自相同/相異語者的主觀印象。在這個同/異語者語音特徵分辨的過程中,鑑定人要特別針對語音樣品中的些微發音/音質差異性研判應要歸因於個體中(intra-speaker)或是個體間(inter-speaker)的差異性。
任何人重複說同樣的字、詞、或語句,都不會有完全相同的聲音細節,因此,語音鑑定人在比對兩份語音紀錄中相同的一個字音的差異性時,若是把差異性歸因為出自不同語者的原因,那麼就這一次比對(判斷)而言,鑑定人比對的語音來源就是不同個體。鑑定人需要在比對所有語音學上有比對價值的字、詞、語氣、韻律之後,反覆重新校正(iteratively recalibrate)他/她對於聽見的兩份語音差異性原因的判斷,直到鑑定人的聽覺敏感度能夠一致性地判斷兩份語音紀錄出自同一人或是出自不同的兩人為止;若是經過一切嘗試,鑑定人無法一致性地將所有語音的差異性歸因於intra-
或是 inter-speaker variability,那麼鑑定人的聆聽法獲得的結論將是某一種程度的無法判斷(inconclusive)。
常人對於熟悉的家人、朋友,一般都能透過聽覺辨識出語者,對於數位陌生人輪流談話,通常也都能憑聽覺辨識語者更迭的發生;這種常人皆有的聲音辨人能力,便是聆聽法語者識別的基礎。聲音鑑識專業人員,在常人的聽覺敏感度基礎上透過對聲學的物理知識、發聲學的原理認知,能夠比常人從語音中擷取更多的聲音細節,這些細節的聲音資訊主要是和語者生物跡證密切相關的物理(生理)及心理性聲音參數。聆聽法對於音質差異度大的語音(例如男、女對話)能夠達到絕對的辨識度,對於音質相似的聲音,通常在具有充分語音數據的前提下、也能夠正確地做出偏向同或異人的主觀認定;在必須要做成更精準認定判斷的情況下,聲音鑑識專業人員還有第二道經過科學驗證的科學手段可用。
2)
聲譜目視(spectrographic)法:通稱為視覺輔助聲音特性分析(auditory-spectrographic/aural-spectrographic)的語者鑑識法,這一技術透過把語音資訊轉化為聲譜的形式,透過視覺觀察語音的量化訊息來輔助聲音鑑識專業人員更精準判斷語音中存在的差異應該歸因於intra- 或是 inter-speaker variability。從這些圖譜中鑑定人可以精確觀察語者的基頻、評估語音產生時舌、唇形、鼻腔共振的各種特性,補足聽覺感官的不足,幫助鑑定人更準確地做出語音源自同/異個體的判斷。如今,由於委託鑑識案件的規模通常僅涉及有限的語音素材,在資源與時間限制、不足以支持開發自動化人工智慧語者辨識模型的狀況下,絕對多數聲音鑑識專業人員選擇的技術是以電腦分析聲音數據,提供(聆聽法)後段人工的數據判讀與統計學分析來達到符合科學鑑定的目標。
這一類聲音鑑識手段之所以稱為
‶視覺輔助″ 是因為在操作上,聲音鑑識專業人員藉助電腦的運算能力把聲音波形數據裏攜帶的物理資訊(時間-頻率-能量間的關連性),透過聲紋圖譜等圖像來量化顯示,使得聲音鑑識專業人員能夠超越聽覺的定性(qualitative)感知力而獲得音訊中的定量(quantitative)資訊,進而經由量化鑑識結果來獲得客觀陳述證據特性的能力,使得聽覺“藝術”
進階成為科學陳述。在這一個過程中,因為同一人多次重複相同的字、詞、或語句,都不會有完全相同的聲紋細節,聲音鑑識專業人員在此就需要發揮學養來判斷/學習視覺資訊中的一切異同是基於出自於同一人的聲音變化(不穩定性)或是不同人的相似(巧合)聲學現象;這個過程的區分正確性與後續的綜合性分析處理、對於最終的鑑定判斷精準度有著絕對的影響力。
3)
語音聲學(acoustic-phonetic)法:這是前一種技術的進階版本,除了仍然保有聲譜目視法具有的視覺功能之外,還增加了電腦透過語音生成模型來數值化語者發音器官物理參數的運算能力。使用這種語者鑑定技術的鑑定人,經常會透過電腦的運算來取得語者的基頻、共振峰音頻、jitter、shimmer、VOT等等鑑定人聽覺可以定性感知卻難以用文字精準描述的聲音特質。聲音鑑定人通常會把這些電腦輔助獲得的大量語音相關數據,使用統計學的分析方法,做出“最少” 鑑定人主觀意見的語者同/異判斷;鑑定人的主觀意識仍然透過挑選讓電腦分析比對的字彙、存在整個語者鑑識的早期階段。
4)
電腦自動鑑識法:這個技術基本上是依賴成熟人工智慧(artificial
intelligence)的全自動化語者識別技術,表面上看似幾乎不涉及鑑定人的主觀意識,但是好的電腦語者模型建立需要極大且適當(case-dependent)的語音數據庫,訓練電腦機械學習(machine learning)的程式與參數選擇,仍然涉及“局外人” (outsider)的間接人為意識調控,雖然可能是目前最“客觀”
的語者識別科學方法,但是正確進入的門檻(特別是獲得此技術的金錢投資)遠高於前述的其它三種較成熟的技術。
音源過濾理論(Source-Filter model of
Speech Production)【圖文附件 一、參考文獻 6~8】是研究語言相關科學領域主流的語音產生理論,它把人(也有研究工作推廣到諸如鳥類、蛙類等動物學領域)的發聲器官(聲道vocal
tract)簡化為一端被聲門(glottis)- 由位於喉頭(larynx)的聲帶(vocal folds)所構成 - 封閉的共鳴管子,這根共鳴管子的長度(length)、形態(cross-section)、口徑(dimension)變化、及聲帶的生理特質(physiological characteristics)等等參數可視為因人而異的個體特徵,這樣的個人化特徵直接決定了每一個人的音質特色。
基礎音源過濾理論進一步簡化聲道為一支固定內徑與長度的管子,將之使用在語者識別的研究領域裡,可以簡單地解釋語音共振峰 ─ 主要是F1~F4 [F代表Formant(共振峰)]的產生 ─ 發聲的波長(可透過音速=波長×頻率 換算為頻率)是這支(共振)管子長度的1/4、3/4、5/4、和7/4倍時,從共振管(聲道)釋放出的聲波能量會因為聲波的共振現象而加強。在這一個簡單的模型裡,如果共振管的長度是17.5公分(此數值近似於男性平均聲道長度且有簡化數字的優點),則共振頻率將發生在500、1500、2500、3500 Hz。但是由於聲道的寬度(內徑)、形狀、長度、等等會隨著不同音位(phoneme、產生特定語音時發音器官特有的姿態)伴隨著喉頭升降、嘴唇的伸縮、開合而變化,因此同一個人的不同語音伴隨著相對應而獨特的共振峰物理性質;不同人的相同語音則會有相似的整體輪廓、但是不同的個人化特質(例如:共振峰頻率的絕對與相對數值)。
這支共振管(聲道)封閉末端的聲帶振動成為音源(source),透過位於咽喉(laryngopharynx)及上方口腔內的舌、唇、齒、鼻腔、小舌(uvula)等各發音器官姿態的調整及聲道的傳播(過濾)而產生各式不同的語音。聲帶以外的其他發音器官的總體形成了音源過濾理論模型中的過濾器(filter),在基頻(聲帶發音的振動頻率)和簡單的倍頻(harmonics)之外賦予了個人整體的聲道共振特性、形成了個人語音的豐富音頻訊號,而這些共振特性會隨者不同音位而變化,因而每個個體的語音會隨著不同發音而產生共振峰頻率的變異。
上面三段文字簡要地解說了語音中每個人音質和共振峰特徵因人而異的原理,這樣的生理性特質在每一個人身上是獨特的,除了專精於控制發音能力的個人(例如聲樂家、口技專家)之外,普羅大眾僅有在發生呼吸道疾病時(例如感冒、過敏症)才會有明顯的音質變更而降低語者辨識的準確度。這一些可歸屬於先天生理因素相關的語音特徵多能夠以科學分析運算的方式(例如線性預測編碼─
LPC,linear predictive coding)來解析聲紋圖譜所蘊含的資訊,轉化成為共振峰頻率的時間變化關係,使得語言學研究能夠客觀地解析語音的物理性質。
語音之所以能作為生物標誌,除了前述的先天生理特質之外,還有後天性(acquired)透過學習與習慣而表現出來的個人化語言特徵,例如:字彙、語調、韻律、節奏、發音方式(捲舌、齒音、鼻音)、口音、等等行為表現。這一類的後天性的個人語言特徵目前還難以用科學方法來客觀描述,通常需要通過專業人員的仔細、反覆聆聽形成鑑定人員主觀認知的一種印象,有相當程度的藝術性質存在其中,類似於《易經.繫辭上傳》:「形而上者謂之道,形而下者謂之器。」。
司法鑑定報告書(Forensic Examiner’s
Report)必須能夠經得起其它聲音鑑識專家的檢驗,或許會產生不同的見解,但是必須要能夠呈現原鑑定人在形成報告書判斷的一切細節與數據。為了需要時方便同儕審查(peer
review)的標準作業,在語者鑑識技術引領科技發展的英、美兩國,都對鑑定報告的撰寫原則(guideline)有很明確的規範。
英國的司法體系有關語音鑑定語者同/異判定、採用較為複雜的兩階段判斷邏輯:第一階段,鑑定人主觀判斷被比對的兩份語音紀錄出自同一語者的“consistency” 或“distinctiveness” ,在三個層級的結論可能性、針對受驗語音出自相同語者(的假設)相似程度做出結論:
“consistent”, “not consistent”, or “no-decision”。在第一階段的判斷是“not
consistent” 的狀況之下,鑑定人再次從五層級可能結論中提出主觀的判斷:“exceptionally-distinctive”,
“highly-distinctive”, “distinctive”,
“moderately distinctive”, or“not-distinctive”。
美國司法體系【圖文附件 一、參考文獻 1,7.3節】則在鑑定人仔細審查過所有語音跡證後,針對受驗(比對)語音出自相同語者的假設、採用直接的七層次語者同/異判定分類法:確認(”identification”)、很可能確認(”probable identification”)、可能確認(”possible
identification”)、無法判斷(”inconclusive”)、可能排除(”possible
exclusion”)、很可能排除(”probable exclusion”)、排除(“exclusion”)。本案鑑定人將依照美國的司法系統從七層次語者同/異判定分類法做出最終的結論,這一套語者身份判定系統也被台灣的「警政署刑事警察局」所採用。