前言
我們生活在一個充滿聲音的世界,聲音如悅耳和刺耳、低音和高音、寧靜和喧囂等等,都會影響我們的情緒和決策。人類大腦不斷處理著來自環境的聲音,以提供關於周圍環境的重要資訊。但是,如果使用現代技術分析聲音,聲音信號可以提供更多的資訊。
如今,我們擁有人工智慧和機器學習技術,可以從語音、聲音、音樂、工業和交通噪音以及其他類型的聲音信號中提取對人類聽覺來說無法感知的資訊。在本文中,我們將分享我們在醫療保健項目中創建基於人工智慧的聲音識別解決方案時學到的經驗。
特別地,我們將解釋如何獲取音訊資料,為分析準備資料,並選擇適當的機器學習模型以實現最高的預測準確性。但首先,讓我們瞭解一下基礎知識:什麼是音訊分析,以及音訊資料為何如此具有挑戰性。
什麼是音訊分析?
音訊分析是一種將數位設備記錄的音訊訊號轉化、探索和解釋的過程。它旨在理解聲音資料,採用一系列技術,包括先進的深度學習演算法。音訊分析已經在各個行業得到廣泛應用,從娛樂業到醫療保健、製造業等等。以下是最常見的用例:
語音辨識: 語音辨識是電腦區分自然語言的能力,它允許我們通過語音命令來控制個人電腦、智慧手機和其他設備,以及向機器傳達文字而不是手動輸入。蘋果的Siri、亞馬遜的Alexa、谷歌助手和微軟的Cortana等都是技術已經深入到我們日常生活中的例子。
聲音識別: 聲音識別旨在通過聲音的獨特特徵來識別人類,而不是隔離單詞。這種方法在銀行業的使用者認證等安全系統中得到應用。例如,Nuance的Gatekeeper生物識別引擎通過聲音驗證銀行的員工和客戶。
音樂識別: 音樂識別是一種廣泛應用于應用程式的功能,如Shazam,它可以説明您從簡短的樣本中識別未知的歌曲。音樂音訊分析的另一個應用是音樂類型分類,例如,Spotify使用專有演算法將曲目分組到類別中。
環境聲音識別: 環境聲音識別側重于識別我們周圍的噪音,對汽車和製造業帶來了許多優勢。對於IoT應用程式來說,瞭解周圍環境非常重要。
像Audio Analytic這樣的系統「聆聽」車內外的事件,使車輛可以根據駕駛員的安全性進行調整。還有BOSCH的SoundSee技術,可以利用對槍擊感測器的音訊分析,判斷該手槍的口徑。
環境聲音識別在醫療領域也非常有用,它提供了一種無侵入式治療的遠端患者監測方法,以檢測諸如跌倒之類的事件。此外,分析咳嗽、打噴嚏、打呼嚕和其他聲音可以促進預篩查,識別患者的狀況,評估公共場所的感染水準等等。
一個實際應用這種分析的例子是Sleep.ai,它可以在睡眠期間檢測牙齒磨牙和打呼嚕聲音。這個由AltexSoft為一家荷蘭醫療初創公司創建的解決方案有助於牙醫識別和監測磨牙,最終瞭解這種異常的原因並進行治療。
無論您要分析哪種聲音,一切都始於對音訊資料及其特定特徵的瞭解。
什麼是音訊資料?
音訊資料以數位形式表示類比聲音,保留了原始聲音的主要特徵。正如我們從物理學的學校課程中所瞭解的那樣,聲音是通過介質(如空氣或水)傳播的振動波,最終達到我們的耳朵。它具有三個關鍵特徵,這些特徵在分析音訊資料時需要考慮:時間週期、振幅和頻率。
時間週期是某個聲音持續的時間,或者換句話說,完成一次振動週期需要多長時間(通常以秒為單位)。
振幅是以分貝(dB)衡量的聲音強度,我們將其感知為響度。
頻率以赫茲(Hz)為單位,指示每秒發生的聲音振動次數。人們會將頻率解釋為低音或高音。
雖然頻率是客觀參數,但音高是主觀的。人類聽覺範圍介於20和20,000 Hz之間。科學家認為,大多數人會將500 Hz以下的聲音感知為低音,例如飛機發動機的轟鳴聲;另一方面,對於我們來說,2000 Hz以上的聲音被認為是高音,例如哨子聲。有趣的是,隨著年紀的變化人耳對於頻率的敏銳度也會有所下降。
音訊資料檔案格式
與文本和圖像類似,音訊是非結構化資料,這意味著它不是以連接的行和列組成的表格形式排列的。相反,您可以以各種檔案格式存儲音訊,例如:
WAV(Waveform Audio File Format)由Microsoft和IBM開發。這是一種無損或原始檔案格式,這意味著它不會壓縮原始聲音錄音。
AIFF(Audio Interchange File Format)由蘋果開發。與WAV一樣,它適用於未經壓縮的音訊。
FLAC(Free Lossless Audio Codec)由Xiph.Org Foundation開發,提供了免費的多媒體格式和軟體工具。FLAC檔在不損失聲音品質的情況下進行了壓縮。
MP3(mpeg-1音訊第3層)由德國Fraunhofer Society開發。它是最常見的檔案格式,因為它使音樂易於存儲在可攜式裝置上,可以通過互聯網來回傳輸。雖然MP3對音訊進行了壓縮,但仍然提供了可接受的音質。
使用AIFF和WAV檔進行分析在AI領域中應該是較為妥當的選擇,因為它們不會丟失類比聲音中的任何資訊。但是這些音訊檔不能直接提供給機器學習模型。為了使音訊能夠被電腦理解,必須對資料進行轉換。
音訊資料轉換基礎
在深入研究音訊檔處理之前,我們需要介紹一些專門的術語,您將在我們從音訊資料收集到獲取機器學習預測的過程中的幾乎每個步驟中遇到這些術語。值得注意的是,音訊分析涉及與影像處理而不是聽覺的工作。
頻譜圖(Spectrum Plot)是一種圖表,其中X軸顯示聲音波的頻率,而Y軸代表其振幅。這種類型的聲音資料視覺化有助於分析頻率內容,但不包含時間成分。
時頻譜(Spectrogram) 是信號的詳細視圖,涵蓋聲音的所有三個特徵。您可以從X軸瞭解時間,從Y軸瞭解頻率,從顏色瞭解振幅。事件越大,顏色越亮,而沉默則以黑色表示。在一個圖表上,多個事件的同時發生可以顯示為圖像上的圖案或線。
總結來說,頻譜圖(Spectrum Plot)提供了單個時間點的頻率息,而時頻譜(Spectrogram)提供了音頻信號在時間和頻率上的變化。頻譜圖通常是一條線,而時頻譜是一個二維圖像,可以更全面地顯示音頻信號的特性。在音頻分析中,根據需要選擇適當的工具,以確保得到所需的信息。
為什麼音訊分析如此具有挑戰性?
音訊分析之所以具有挑戰性,是因為音訊資料通常非常大。對於機器學習模型來說,大資料量通常意味著更多的特徵,需要更多的計算資源,以及更多的處理時間。但正是這個挑戰使得音訊分析變得如此豐富有趣。
另一個挑戰是音訊資料的多樣性。不同類型的聲音在時間、頻率和振幅方面都具有不同的特徵。有些聲音是短暫的,而其他聲音則可以持續很長時間。有些聲音具有複雜的頻率元件,而其他聲音則可能是單一的頻率。解決這些問題需要仔細的特徵工程和合適的機器學習演算法。
音訊資料分析的步驟
我們將介紹一種通過實驗來預測設備馬達轉速的方法,以便更好理解音訊資料分析的步驟。
實驗概述:
我們將進行一個實驗,讓AI學習不同轉速下的聲音,並通過分析音訊資料來預測設備的馬達轉速。我們給AI三個不同的聲音樣本,分別代表不同轉速的設備:10 RPM、20 RPM和30 RPM。然後,我們讓AI模型從未見過的聲音樣本中預測馬達的轉速。
資料獲取 : 首先,我們需要收集代表每個轉速的音訊樣本。這可能涉及到使用專業的設備記錄各種轉速下的設備聲音。這些音訊檔應存儲為高品質的AIFF或WAV格式,以保留原始聲音資訊。
數據準備 : 在這一步中,我們將音訊檔轉換為數位形式,以便AI模型能夠理解。通常,音訊檔將被分成小的時間段,每個時間段稱為幀。然後,我們可以對每個幀進行分析,以獲取其頻譜特徵。
特徵提取 : 音訊資料的特徵提取是一個重要的步驟。我們將使用頻譜分析來提取每個音訊幀的頻率資訊。對於每個幀,我們可以計算其頻率分佈,將其表示為頻譜圖。
模型訓練 : 我們將使用深度學習模型,如卷積神經網路(CNN)或迴圈神經網路(RNN),來訓練AI模型。我們將以前兩個步驟中提取的頻譜圖作為輸入,並將其與相應的轉速標籤(10 RPM、20 RPM、30 RPM)關聯起來。
模型評估 : 一旦模型訓練完成,我們需要評估其性能。我們可以使用測試集中的未見過的音訊樣本來測試模型的準確性。模型將輸出一個預測的轉速值,我們將使用這些預測結果來計算模型的準確性。
應用: 一旦模型經過訓練和驗證,我們可以將其應用於未知的音訊資料,以預測設備的馬達轉速。這在實際應用中可能非常有用,例如,用於監測和維護工業設備。
通過這個實驗,我們可以看到如何利用音訊資料進行設備馬達轉速的預測。當然,這只是音訊分析領域的一個小示例,但它突顯了音訊資料的潛力和應用廣泛性。無論是醫療保健、製造業、汽車行業,還是其他領域,音訊分析都有可能幫助我們解決問題和取得新發現。
結論
音訊資料分析是一個特別的領域,大家都熟悉聲音,但它可分析的特質又遠遠大於我們的認知。具有廣泛的應用潛力。通過音訊分析,我們不僅可以理解聲音,還可以利用其潛在資訊來做出預測和決策。在這篇文章中,我們深入探討了音訊資料的特性、轉換和分析步驟,並通過一個實際的實驗示例展示了如何使用音訊資料來預測設備的馬達轉速。
隨著技術的不斷進步,音訊分析領域將繼續發展,為我們的生活和工作帶來更多創新和機會。我們也希望我們所研發的方向可以帶給客戶更好的應用體驗並解決困擾已久的問題。
希望這篇文章能夠為您提供關於音訊資料分析的基本瞭解,並激發您對這一領域的興趣。無論您是初學者還是專家,音訊分析都有無限可能等待著我們去探索和發現。
Comments