美光高性能內(nèi)存與存儲,推動 AI 豐富殘障人士生活體驗
美光云計算高級業(yè)務(wù)發(fā)展經(jīng)理 Eric Booth 90 歲的祖母患有嚴重的聽力障礙,即使佩戴助聽器也很難聽清別人在說什么。Eric 注意到,她需要湊近講話者,識別他們的唇語,努力理解他們的話語。而當(dāng)多人進行交談時,她常常會感到迷茫。
本文引用地址:http://butianyuan.cn/article/202312/453661.htmEric 萌生了一個想法:
為何不用祖母的智能手機幫她來“傾聽”呢?
他打開手機的記事簿功能,按下麥克風(fēng)按鈕,向她展示了手機如何將他的話轉(zhuǎn)錄成屏幕上的文字。
他表示:“我的祖母非常興奮,笑得合不攏嘴,她現(xiàn)在可以參與到從前無法進行的對話中?!边@也讓我們看到了該技術(shù)如何切實改善了言語、語言和聽力障礙者的生活質(zhì)量?!?/p>
將語音轉(zhuǎn)化成文本的技術(shù)看似簡單,卻很容易被忽視。事實上,它的演變過程十分復(fù)雜,歷經(jīng)幾十年的發(fā)展才達到現(xiàn)有水平。
快速發(fā)展的技術(shù)
距第一臺語音識別 (SR) 設(shè)備 Audrey 的問世已經(jīng)過了很久。1962 年,貝爾實驗室推出了 Audrey,當(dāng)時這臺約 2 米高的計算機只能識別個位數(shù)字,且無法輸出文字。它會根據(jù)說出的數(shù)字閃爍相應(yīng)次數(shù)的燈光,例如聽到“9”時閃爍九次。
甚至幾年前,SR 技術(shù)還不方便用戶使用:它難以準確識別聲音,無法過濾即使最輕微的環(huán)境聲,轉(zhuǎn)錄速度也很慢。彼時,SR 技術(shù)想真正融入日常生活,還有很長的路要走。
如今,人工智能、虛擬助理技術(shù)、5G 蜂窩技術(shù)與內(nèi)存、存儲和計算機處理技術(shù)的進步使 SR 成為可能,幫助我們實現(xiàn)許多從前做不到的事情:比如用陌生的語言進行交流,即時轉(zhuǎn)錄長錄音,只通過語音就能訂購我們想要的任何東西并享受送貨上門。
生成式 AI 正進一步提升該技術(shù)。語音識別將音頻轉(zhuǎn)化為文字,而生成式 AI 則對文字進行處理,讓用戶真正理解其含義。SR 技術(shù)不再僅聚焦于識別說了什么?而是專注于理解這些話是什么意思?是在提問嗎?如果是,答案是什么?
這種類型的機器學(xué)習(xí)能根據(jù)用戶提示或?qū)υ拕?chuàng)建文本、視頻、圖像、計算機代碼和其他內(nèi)容。以語音識別為基礎(chǔ)的生成式 AI 將學(xué)習(xí)提升到了全新水平,賦能 SR 技術(shù)以進一步幫助言語和聽力障礙人士。
盡管靈活的語音識別可能會接收到不符合常規(guī)語音模式的語言,但生成式 AI 和自然語言處理 (NLP) 能理解并將其轉(zhuǎn)化為相關(guān)建議。這一過程使全面且高度個性化的語言治療方案成為可能。
Eric 的女兒曾接受語言治療,他深知其所需的時間和精力。這一經(jīng)歷促使他攻讀位于愛達荷州的博伊西州立大學(xué)的博士課程,以研究利用技術(shù)幫助語言障礙患兒的方法。
Eric 表示:“在語言治療中,過去我們認為治療師會給患者提供閱讀內(nèi)容并利用工具對他們的發(fā)音和吐字進行評分。但借助生成式 AI,我們能用工具來管理整個過程。生成式 AI 擅長識別各種語言模式,因此能更好地判斷出患者是否經(jīng)常發(fā)錯 O 音?!?/p>
大語言模型
不久前,語音識別還需依賴大型內(nèi)存服務(wù)器,并將收集到的全部數(shù)據(jù)上傳云端。而如今,語音識別功能已內(nèi)置在手機中,具有更快的計算速度和更大的內(nèi)存,過去需要數(shù)據(jù)中心處理的流程現(xiàn)在能夠直接在手機上進行。
AI 模型訓(xùn)練不僅能生成更復(fù)雜的模型,還可以將這些模型簡化,從而在手機或個人電腦等終端設(shè)備上運行。很快,生成式 AI 程序就會出現(xiàn)在您的手機或其他終端設(shè)備上。隨著大語言模型的快速發(fā)展,他們難以在云環(huán)境之外進行訓(xùn)練。然而,一旦模型通過訓(xùn)練并進行簡化后,就能轉(zhuǎn)移到終端設(shè)備上。
過去幾年,大語言模型取得了巨大進步。Eric 表示:“大語言模型擁有數(shù)萬億個參數(shù),是實現(xiàn)生成式 AI 聊天機器人和高級搜索功能的關(guān)鍵。幾年前,萬億級的參數(shù)量難以想象,我們根本無法處理,而如今,這一數(shù)字已是基準線。當(dāng)然,模型越大,就越智能,這正是拉動計算和內(nèi)存需求的因素?!?/p>
NLP 和生成式 AI 需要大量大語言模型訓(xùn)練,其所使用的參數(shù)越多,所需的內(nèi)存容量就越大(見下圖)。
為了處理這些不斷擴大的模型,遷移學(xué)習(xí)越來越流行。該思路是在一個特定的環(huán)境中使用大量數(shù)據(jù)訓(xùn)練模型,然后對該模型的參數(shù)進行微調(diào)以適應(yīng)另一個具有較小數(shù)據(jù)集的環(huán)境。假設(shè)大的數(shù)據(jù)集是成人語音,小的數(shù)據(jù)集是兒童語音,遷移學(xué)習(xí)可以提供一個精準匹配兩個數(shù)據(jù)集的模型。而如果您想訓(xùn)練的模型是以成人語音為主,同時包括少量的兒童語音,那么準確性就會降低。在一種環(huán)境中進行大數(shù)據(jù)集訓(xùn)練,然后將數(shù)據(jù)微調(diào)并轉(zhuǎn)移到另一個具有較少數(shù)據(jù)的環(huán)境中,這一組合非常有效。Eric 在他的論文《評估和改進兒童定向自動語音識別》中闡釋了關(guān)于這方面的進展。
預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)遵循了同樣的思路,在一個任務(wù)或數(shù)據(jù)集上訓(xùn)練模型,然后將這些參數(shù)轉(zhuǎn)移到另一個任務(wù)或數(shù)據(jù)集上進行不同的模型訓(xùn)練。以 ChatGPT 為例,(ChatGPT? 中的“P”代表預(yù)訓(xùn)練),它通過大量互聯(lián)網(wǎng)對話數(shù)據(jù)進行了預(yù)訓(xùn)練,因此能夠回答常規(guī)問題,并能根據(jù)提供給它的額外語境來更好地適應(yīng)當(dāng)前對話。這為該模型發(fā)展提供了有利條件,避免了從零開始,因為您只需少量數(shù)據(jù)就能創(chuàng)建強大的模型。
如今,許多 AI 研究人員都專注于生成式 AI。這不僅源于 ChatGPT 所帶動的熱潮,還因為生成式 AI 在醫(yī)療保健和其他行業(yè)具有潛在的深遠影響。
為所需之人提供幫助
根據(jù)美國言語語言聽力協(xié)會 (American Speech-Language-Hearing Association) 的數(shù)據(jù),美國有超過 100 萬兒童在學(xué)校接受專業(yè)的言語和語言障礙幫助。Eric 表示,總體而言,8% 的兒童存在語言發(fā)育遲緩或障礙問題。
“您當(dāng)前無法在市場上接觸到兒童言語治療技術(shù)。因為該技術(shù)尚未實現(xiàn),但它尤為重要,尤其對低收入家庭的患兒而言?!盓ric 表示,對兒童進行治療評估至少需要兩小時,但美國政府可能只會承擔(dān) 30 分鐘的費用。
“電腦可以承擔(dān)很多工作,為治療師騰出時間來做更長遠的規(guī)劃和更有針對性的治療?!?/p>
學(xué)習(xí)障礙資源基金會 (Learning Disabilities Resources Foundation) 認為,患有學(xué)習(xí)障礙(如閱讀障礙)的兒童也可受益于語音轉(zhuǎn)錄文字技術(shù)。正如巧妙地利用語音轉(zhuǎn)錄文字技術(shù)幫助 Eric 的祖母參與到交談中,這項關(guān)鍵 AI 技術(shù)還有大量尚待開發(fā)和探索的應(yīng)用空間。
賦能生成式 AI 和SR 技術(shù)發(fā)展
如今,美光正在開發(fā)密度更高、速度更快的內(nèi)存和存儲,助力手機取代云端直接進行語言處理,以節(jié)省數(shù)據(jù)傳輸時間。
為了提升終端設(shè)備的性能,美光低功耗 LPDDR5X 內(nèi)存具有雙倍數(shù)據(jù)傳輸速率,可實現(xiàn)功耗與性能的平衡和流暢的用戶體驗。LPDDR5X 移動內(nèi)存采用了業(yè)界先進技術(shù),峰值速度可達 8.533 GB/秒,較上一代產(chǎn)品提高 33%。LPDDR5X 的高速與高帶寬對于實現(xiàn)高性能終端生成式 AI 至關(guān)重要。
借助生成式 AI,SR 技術(shù)的處理速度和準確度逐漸接近人腦,但距離真正實現(xiàn)目標還存在較大困難,尤其是在處理兒童語言和發(fā)音問題,以及幫助聽力或語言障礙者。Eric 正在進行的研究能夠切實改善生成式 AI 技術(shù),豐富全人類生活體驗。
生成式 AI 通過深度學(xué)習(xí)正在將語音轉(zhuǎn)化為更加自然的文字。過去,AI 模型擅長挖掘大量數(shù)據(jù)、識別模式、診斷并確定原因;如今,生成式 AI 能夠“讀取”文字,并通過數(shù)據(jù)推斷人類交流的語境。本質(zhì)上,生成式 AI 是在“訓(xùn)練”自己。為了做到這一點,AI 需要能同時訪問并獲取大量數(shù)據(jù),并從海量內(nèi)存中提取數(shù)據(jù)以做出適當(dāng)?shù)捻憫?yīng)。美光正在積極推動這些技術(shù)進步。
美光高密度 DDR5 DRAM 模塊和 TB 級 SSD 存儲可提供超高速度與超高帶寬,滿足在數(shù)據(jù)中心訓(xùn)練生成式 AI 模型的需求。最新發(fā)布的第二代 HBM3 (HBM3E) 進一步提升了性能,容量擴大超過 50% ,帶寬超過 1.2 TB/秒,可將百萬億級參數(shù)的 AI 模型訓(xùn)練時間縮短 30% 以上。隨著這些技術(shù)的速度和準確度不斷提高,未來,更多的語言障礙人士將能進行正常的溝通,發(fā)出自己的聲音。
Eric 預(yù)測:“在不久的將來,我們將看到生成式 AI 和 SR 技術(shù)在性能上取得飛躍式發(fā)展。我很高興能看到這項技術(shù)不斷豐富全人類生活體驗。”
評論