大數據文摘作品
作者:Miggy
#對於癱瘓患者來說,最大的苦楚來自無法與外界溝通。雖然大腦依然活躍並且希望表達,但無法驅動發聲肌肉,會讓這類患者的語言機制逐漸蛻化。
來自加州大學舊金山分校神經外科主任Edward Chang正在為失去說話能力的人開發腦機介面技術。他的實驗室致力於解碼與聲道指令相關的大腦訊號,並透過神經植入物,將大腦的語言機能,透過電腦輸出出來。該專案不僅需要當今最好的神經技術硬件,還需要強大的機器學習模型。
最近,這項技術也取得了長足的進步,讓一位因癱瘓「失聲」15年的患者利用電腦開始了與外界的交流。 Chang也將這個技術過程記錄了下來,發佈在IEEE上。
一起來看看。
#電腦螢幕上顯示「你要喝點水嗎? 」這個問題。下面,三個小點正在閃爍,隨後一行字出現:「不,我不渴。 」
大腦的活動讓溝通發生——值得一提的是,發出這段對話的,是一個超過15 年沒有說話的失聲者的大腦。15年前,由於一次中風,他的大腦和身體其他部位就「斷聯」了,這位患者與外界的溝通從此停擺。他嘗試使用許多新技術嘗試與外界交流;最近,他使用附在棒球帽上的指針在觸摸屏上敲擊單詞,這種方法有效但速度慢。
最近,這位患者自願參加了我的研究小組在舊金山加州大學的臨床試驗,希望能探索更快的溝通方法。到目前為止,他只在研究期間可以利用大腦產生文字的這套技術系統,但他希望幫助將這項技術開發成像他這樣的人可以在日常生活中使用的東西。
在我們的試點研究中,這位志願者的大腦表面覆蓋了一個薄而靈活的電極陣列。電極記錄神經信號並將它們發送到語音解碼器,語音解碼器將信號翻譯成他想說的話。這是無法說話的癱瘓者第一次使用神經技術從大腦中「廣播」出整個單詞,而不僅僅是字母。
該試驗是十多年來對支配言語的潛在大腦機制研究的成果,我們為迄今為止所取得的成就感到無比自豪。但我們才剛開始。我在UCSF的實驗室正在與世界各地的同事合作,使這項技術足夠安全、穩定和可靠,足以滿足家庭日常使用。我們還在努力提高系統的性能,因此值得付出努力。
第一個版本的腦機介面給了志願者一個包含50 個實用單字的詞彙。
在過去的二十年裡,神經植入物技術取得了長足的進步。用於聽力的假體植入物發展得最遠,其設計與內耳的耳蝸神經接口或直接進入聽覺腦幹。還有大量關於視網膜和大腦植入物的研究,以及為假手提供觸覺的努力。所有這些感官假肢都從外部世界獲取信息,並將其轉換為電信號,輸入大腦的處理中心。
上週,文摘菌還報道了一篇通過植入物幫助嗅覺失靈的患者重新感到味覺的案例。
另一類神經義肢記錄大腦的電活動並將其轉換為控制外部世界的訊號,例如機械手臂、電玩控制器或電腦螢幕上的遊標。BrainGate 聯盟等組織已使用最後一種控制方式來讓癱瘓的人輸入單字-有時一次輸入一個字母,有時使用自動完成功能來加快輸入速度。
這類透過大腦打字的技術並非首創,不過,研究者通常將植入物放置在運動皮層,也即是控制運動的大腦部分。然後透過使用者想像某些物理動作來控制在虛擬鍵盤上移動的遊標。另一種方法是我的一些合作者在2021 年的一篇論文中首創的,它讓一個使用者想像他正拿著筆在紙上寫信,在運動皮質中產生訊號,這些訊號被翻譯成文字。這種方法的打字速度誕生了新的記錄,使志工每分鐘可以寫大約 18 個單字。
在我們最新的實驗室研究中,我們採取了更高效率的方法。我們不是解碼使用者移動遊標或筆的意圖,而是解碼控制聲道的意圖,包括控制喉部(通常稱為語音盒)、舌頭和嘴唇的數十塊肌肉。
對於癱瘓的人來說,看似簡單的對話設定是由複雜的神經技術硬體和解碼他的大腦訊號的機器學習系統實現的。
#十多年前,我開始在這個領域工作。作為一名神經外科醫生,我經常會看到嚴重受傷導致無法說話的患者。令我驚訝的是,在許多情況下,腦損傷的位置與我在醫學院學到的綜合徵不匹配,我意識到我們仍然需要學習很多關於大腦如何處理語言的知識。我決定研究語言的潛在神經生物學,如果可能的話,開發一種腦機介面 (BMI) 來恢復失去語言的人的溝通。除了我的神經外科背景外,我的團隊還擁有語言學、電機工程、電腦科學、生物工程和醫學方面的專業知識。
語言是讓 人類與眾不同的能力之一。許多其他物種都會發聲,但只有人類以無數不同的方式組合了一組聲音來表達。這也是一種非常複雜的運動行為——一些專家認為這是人們執行的最複雜的運動行為。說話是透過聲道的調製氣流的產物;我們透過在喉部聲帶中產生可聽見的振動並改變嘴唇、下巴和舌頭的形狀來塑造呼吸。
聲道的許多肌肉與基於關節的肌肉(例如手臂和腿部的肌肉)完全不同,後者只能以幾種規定的方式移動。例如,控制嘴唇的肌肉是括約肌,而構成舌頭的肌肉更受液壓控制——舌頭主要由固定體積的肌肉組織組成,因此移動舌頭的一部分會改變其形狀別處。控制這些肌肉運動的物理原理與二頭肌或膕繩肌完全不同。
因為涉及的肌肉如此之多,而且它們每一個都有如此多的自由度,所以基本上有無數種可能的配置。但是當人們說話時,事實證明他們使用的核心動作相對較少(在不同的語言中會有所不同)。例如,當說英語的人發“d”音時,他們會把舌頭放在牙齒後面;當他們發出“k”音時,他們的舌根會向上接觸到口腔後部的天花板。很少有人意識到說出最簡單的單字所需的精確、複雜和協調的肌肉動作。
團隊成員 David Moses 查看病患腦波讀取 [左螢幕] 和解碼系統活動顯示 [右螢幕]。
我的研究小組專注於向臉部、喉嚨、嘴巴和舌頭的肌肉發送運動命令的大腦運動皮質部分。這些大腦區域是多任務的:它們管理產生語言的肌肉運動,以及吞嚥、微笑和接吻的相同肌肉的運動。
研究這些區域的神經活動需要毫米級的空間解析度和毫秒級的時間解析度。從歷史上看,非侵入性成像系統已經能夠提供其中之一,但不能同時提供兩者。當我們開始這項研究時,我們發現關於大腦活動模式如何與最簡單的語音組成部分相關聯的數據非常少:音素和音節。
在這裡,我們要感謝我們的志工。在 UCSF 癲癇中心,準備手術的患者通常會透過手術將電極放置在他們的大腦表面上幾天,這樣我們就可以繪製出癲癇發作時所涉及的區域。在這幾天的有線停機期間,許多患者自願參加神經學研究實驗,這些實驗利用了他們大腦中的電極記錄,讓我們能夠研究患者說話時的神經活動模式。
所涉及的硬體稱為 皮質電圖(ECoG)。 ECoG 系統中的電極不會穿透大腦,而是位於大腦表面。我們的陣列可以包含數百個電極感測器,每個感測器記錄數千個神經元。到目前為止,我們已經使用了一個具有 256 個通道的陣列。我們在這些早期研究中的目標是發現人們說簡單音節時皮質活動的模式。我們要求志願者說出特定的聲音和單詞,同時記錄他們的神經模式並追蹤他們的舌頭和嘴巴的運動。有時我們透過讓他們塗上彩色臉部彩繪並使用電腦視覺系統提取運動手勢來做到這一點;其他時候,我們使用位於患者下顎的超音波機器對他們移動的舌頭進行成像。
該系統從覆蓋在患者大腦上的柔性電極陣列開始,以接收來自運動皮質的訊號。此陣列專門捕獲用於患者聲道的運動命令。一個固定在頭骨上的連接埠引導連接到電腦系統的電線,該系統將大腦訊號解碼並將其翻譯成患者想說的話,再將他們的答案展示在顯示器上。
#我們使用這些系統將神經模式與聲道的運動相匹配。起初,我們有很多關於神經代碼的問題。一種可能性是神經活動編碼了特定肌肉的方向,大腦本質上就像按下鍵盤上的鍵一樣打開和關閉這些肌肉,並且透過另一種模式決定肌肉收縮的速度。另一個是神經活動與用於產生某種聲音的肌肉收縮的協調模式相對應。 (例如,要發出「aaah」的聲音,舌頭和下巴都需要下垂。)我們發現,有一個表示圖可以控制聲道的不同部分,以及不同的大腦區域。我們可以將二者結合起來,以產生流利的言語。
我們的工作取決於過去十年人工智慧的進步。我們可以將收集到的關於神經活動和語音運動學的數據輸入神經網絡,然後讓機器學習演算法在兩個數據集之間的關聯中找到模式,進而在神經活動和產生的語音之間建立聯繫,並使用這個模型來產生電腦生成的語音或文字。但是這種技術無法為癱瘓的人訓練演算法,因為我們缺少一半的數據:我們有神經模式,但沒有關於相應的肌肉運動。
我們意識到,使用機器學習的更聰明的方法是將問題分為兩個步驟。首先,解碼器將來自大腦的訊號翻譯成聲道肌肉的預期運動,然後將這些預期運動翻譯成合成語音或文字。
我們稱之為仿生方法,因為它複製了生物學的運動模式;在人體中,神經活動直接負責聲道的運動,僅間接負責發出的聲音。這種方法的一大優點在於訓練解碼器將肌肉運動轉化為聲音的第二步。因為聲道運動和聲音之間的關係更容易獲取,我們能夠在來自未癱瘓的人的大型數據集上訓練解碼器。
下一個重大挑戰是將科技帶給真正可以從中受益的人。
美國國立衛生研究院 (NIH) 正在資助 我們的試驗,該試驗於 2021 年開始。我們已經有兩名植入了 ECoG 陣列的癱瘓志願者,我們希望在未來幾年招募更多人。主要目標是改善他們的溝通,我們以每分鐘字數來衡量績效。使用全鍵盤打字的成年人平均每分鐘可以輸入 40 個單詞,最快的打字員可以達到每分鐘 80 個單字以上的速度。
我們認為,利用語音系統說話的效果會更好。人類講話比打字快得多:說英語的人一分鐘可以輕鬆地說出 150 個字。我們想讓癱瘓的人以每分鐘 100 字的速度進行溝通。為了實現這一目標,我們還有很多工作要做。
植入程序和其他的植入物類似。首先,外科醫師切除一小部分顱骨;接下來,將柔性 ECoG 陣列輕輕放置在皮質表面。然後將一個小端口固定在顱骨上,並通過頭皮上的一個單獨開口離開。我們目前需要這個端口,它連接到外部電線以從電極傳輸數據,但我們希望將來使系統無線化。
我們考慮使用穿透性微電極,因為它們可以記錄較小的神經群體,因此可以提供有關神經活動的更多細節。但目前的硬體在臨床應用中不如 ECoG 強大和安全。
另一個考慮因素是,穿透電極通常需要每天重新校準才能將神經訊號轉化為清晰的命令,而對神經設備的研究表明,設定速度和性能可靠性是讓人們使用該技術的關鍵。這就是為什麼我們在 創建長期使用的「即插即用」系統時優先考慮穩定性的原因。我們進行了一項研究,觀察志願者的神經訊號隨時間的變化,發現如果解碼器使用多個會話和多天的資料模式,它的表現會更好。在機器學習的術語中,我們說解碼器的「權重」被繼承,產生了整合的神經訊號。
因為我們的癱瘓志願者在我們觀察他們的大腦模式時不能說話,所以我們要求我們的第一位志願者嘗試兩種不同的方法。他首先列出了 50 個對日常生活很方便的單詞,例如“餓”、“口渴”、“請”、“幫助”和“計算機”。在幾個月的 48 次會議中,我們有時會要求他想像說出清單上的每個單詞,有時要求他開口嘗試「說出」這些單字。我們發現嘗試說話會產生更清晰的大腦訊號,並且足以訓練解碼演算法。然後志願者可以使用清單中的這些單字來產生他自己選擇的句子,例如「不,我不口渴」。
我們現在正在努力擴大詞彙量。為了實現這一目標,我們需要繼續改進目前的演算法和介面,但我相信這些改進將在未來幾個月和幾年內發生。現在已經建立了原理證明,目標是最佳化。我們可以專注於讓我們的系統更快、更準確,並且——最重要的是——更安全、更可靠。現在事情應該會進展得很快。
如果我們能夠更好地了解我們試圖解碼的大腦系統,以及癱瘓如何改變它們的活動,那麼最大的突破可能會到來。我們已經意識到,無法向聲道肌肉發送指令的癱瘓患者的神經模式與能夠發送指令的癲癇患者的神經模式截然不同。我們正在嘗試一項雄心勃勃的 BMI 工程壯舉,同時還有很多關於潛在神經科學的知識需要了解。我們相信,這一切都會匯聚在一起,讓我們的病人溝通的能力。
素材來源:https://spectrum.ieee.org/brain-computer-interface-speech
#以上是用機器學習解碼一顆“失聲”15年的大腦,讓它“開口說話”的詳細內容。更多資訊請關注PHP中文網其他相關文章!