嵌入式神經網絡賦予機器視覺、聽覺和分析能力
人工智能(AI)潛在的應用與日俱增。不同的神經網絡(NN)經過測試、調整和改進,解決了不同的問題。出現(xiàn)了使用AI優(yōu)化數(shù)據分析的各種方法。今天大部分的AI應用,比如谷歌翻譯和亞馬遜Alexa語音識別和視覺識別系統(tǒng),還在利用云的力量。通過依賴一直在線的互聯(lián)網連接,高帶寬鏈接和網絡服務,物聯(lián)網產品和智能手機應用也可以集成AI功能。到目前為止,大部分注意力都集中在基于視覺的人工智能上,一部分原因是它容易出現(xiàn)在新聞報道和視頻中,另一部分原因是它更類似于人類的活動。
本文引用地址:http://butianyuan.cn/article/201803/377467.htm聲音和視覺神經網絡(圖片來源于:CEVA)
在圖像識別中,對一個2D圖像進行分析(一次處理一組像素),通過神經網絡的連續(xù)層識別更大的特征點。最開始檢測到的邊緣是具有高差異性的部位。以人臉為例,最早識別的邊緣是在眼睛、鼻子和嘴巴這些特征周邊。隨著檢測過程在神經網絡中的深入,將會檢測到整個面部的特征。
在最后階段,結合特征和位置信息,就能在可用的數(shù)據庫中識別到具有最大匹配度的一個特定的人臉。
神經網絡的特征提取(圖片來源于:CEVA)
相機拍攝或捕捉的物體,可以通過神經網絡在其數(shù)據庫找到具有最高匹配概率的人臉。尤其好的是物體不需要在完全相同的角度或位置,或者是相同的光線條件下進行拍攝。
AI這么快就流行起來,在很大程度上是因為開放的軟件工具(也稱為框架),使得構建和訓練一個神經網絡實現(xiàn)目標應用程序變得容易起來,即使是使用各種不同的編程語言。兩個常見的通用框架是TensorFlow和Caffe。對于已知的識別目標,可以離線定義和訓練一個神經網絡。一旦訓練完成,神經網絡可以很容易地部署到嵌入式平臺上。這是一個聰明的劃分,允許借助PC或云的能力訓練神經網絡,而功耗敏感的嵌入式處理器只需使用訓練好的數(shù)據來進行識別。
類人的識別人和物體的能力與流行的應用密切相關,比如工業(yè)機器人和自動駕駛汽車。
然而,人工智能在音頻領域具備同樣的興趣點和能力。采用和圖像特征分析同樣的方式,可以將音頻分解成特征點來輸入給神經網絡。有一種方法是使用梅爾頻率倒譜系數(shù)(MFCC)將音頻分解成有用的特征。最開始音頻樣本被分解成短時間的幀,例如20 ms,然后對信號進行傅里葉變換,使用重疊三角窗將音頻頻譜的功率映射到一個非線性尺度上。
聲音神經網絡分解圖(圖片來源于:CEVA)
通過提取的特征,神經網絡可以用來確定音頻樣本和音頻樣本數(shù)據庫中詞匯或者語音的相似度。和圖像識別一樣,神經網絡為特定詞匯在數(shù)據庫中提取了可能的匹配。對于那些想要復制谷歌和亞馬遜的“OK Google”或“Alexa”語音觸發(fā)(VT)功能的人來說,KITT.AI通過Snowboy提供了一個解決方案。觸發(fā)關鍵詞可以上傳到他們的平臺進行分析,導出一個文件,集成到嵌入式平臺上的Snowboy應用程序中,這樣語音觸發(fā)(VT)的關鍵詞在離線情況下也可以被檢測到。音頻識別也并不局限于語言識別。TensorFlow提供了一個iOS上的示例工程,可以區(qū)分男性和女性的聲音。
另一個應用程序是檢測我們居住的城市和住宅周圍動物和其它聲音。這已經由安裝在英國伊麗莎白女王奧林匹克公園的深度學習蝙蝠監(jiān)控系統(tǒng)驗證過了。它提供了將視覺和聽覺識別神經網絡集成到一個平臺的可能性。比如通過音頻識別特定的聲音,可以用來觸發(fā)安全系統(tǒng)進行錄像。
有很多基于云的AI應用程序是不現(xiàn)實的,一方面有數(shù)據隱私問題,另一方面由于數(shù)據連通性差或帶寬不夠造成的服務不能持續(xù)。另外,實時性能也是一個值得關注的問題。例如工業(yè)制造系統(tǒng)需求一個瞬時響應,以實時操作生產線,連接云服務的延時就太長了。
因此,將AI功能移動到終端設備越來越受到關注。也就是說,在正在使用的設備上發(fā)揮人工智能的力量。很多IP供應商提供了解決方案,比如CEVA的CEVA-X2和NeuPro IP核和配套軟件,很容易和現(xiàn)有的神經網絡框架進行集成。它為開發(fā)具備人工智能的嵌入式系統(tǒng)提供了可能性,同時提供了低功耗處理器的靈活性。以一個語音識別系統(tǒng)作為例子,可以利用集成在芯片上的功耗優(yōu)化的人工智能,來識別一個語音觸發(fā)(VT)的關鍵詞和一個最小的語音命令(VC)的集合。更復雜的語音命令和功能,可以在應用程序從低功耗的語音觸發(fā)狀態(tài)下喚醒之后,由基于云的AI完成。
最后,卷積神經網絡(CNN)也可以用來提高文本到語音(TTS)系統(tǒng)的質量。一直以來TTS是將來自同一個配音員的許多小塊的高質量錄音,整合成連續(xù)的聲音。雖然所輸出的結果是人類可以理解的,但由于輸出結果存在奇怪的語調和音調,仍然感覺像是機器人的聲音。如果試圖表現(xiàn)不同的情緒則需要一組全新的錄音。谷歌的WaveNet改善了當前的情況,通過卷積神經網絡(CNN)以每秒16000個采樣生成TTS波形。與之前的聲音樣本相比,其輸出結果是無縫連接的,明顯更自然更高質量的聲音。
評論