先進神經晶片中心默罕默德·薩萬教授團隊,自然語言處理實驗室張岳教授團隊和朱君明教授團隊聯合發布了他們最新的研究結果:“A high-performance brain-sentence communication designed for logosyllabic language”.該研究實現腦機介面全譜漢語解碼,一定程度彌補了國際上漢語解碼腦機介面技術的空白。
腦機介面(Brain-computer interface,簡稱BCI)被公認為是未來生命科學和資訊科技交叉融合的主戰場,是具有重要社會價值和戰略意義的研究方向。
腦機介面技術是指在人類或動物腦與外部設備間創建資訊交換的連接通路,其實質是一種新型的資訊傳輸管道,讓資訊能夠繞過原有的肌肉及外圍神經通路實現與外在世界的連通,從而一定程度地取代人的運動、語言等功能。
腦機介面全譜漢語解碼器的設計與效能
今年八月,兩篇背靠背《自然》文章展示了腦機介面在語言恢復方面的強大能力。然而,現有的語言腦機介面技術多是為英文等字母語言體系建構而成,針對漢字等非字母體系的語言腦機介面系統研究仍是空白。
在這個研究中,研究團隊透過立體定位腦電技術(SEEG)擷取所有國語漢字發音過程對應的大腦內神經活動訊號,結合深度學習演算法和語言模型,實現了對全譜漢字發音的解碼,建立起覆蓋所有漢語普通話字元發音的漢語腦機介面系統,實現了大腦活動到完整普通話句子的端到端輸出。
漢語作為一種象形和音節結合的語言,具有超過50000個字符,與由26個字母組合而成的英語具有顯著不同,因此這對於現有的語言腦機接口系統來說是一個巨大的挑戰。為了解決這個問題,在過去三年裡,研究團隊深入分析漢語本身的發音規則和特徵。從漢語發音音節的聲母、聲調和韻母三個要素出發,結合拼音輸入系統的特點,設計了一種全新的適用於漢語的語言腦機介面系統。研究團隊透過設計涵蓋所有407個漢語拼音音節以及漢語發音特點的語音庫並同步收集腦電訊號,建構了超過100小時的漢語語音-SEEG資料庫。透過人工智慧模型訓練,該系統建構了針對漢字發音音節三要素(包括聲母、聲調和韻母)的預測模型,並最終透過語言模型對所有預測得到的元素進行整合,結合語義資訊產生最可能的完整漢語句子。
研究團隊對這腦機介面系統在模擬日常漢語環境中的解碼能力進行了評估。在超過100個隨機選擇的2個字元-15個字元的複雜交流場景解碼測試後,所有參與者字元錯誤率中位數平均僅為29%,部分參與者透過腦電解碼得到的句子完全正確率達到了30%。相對高效的解碼性能得益於三個獨立音節元素解碼器的優秀表現和智慧語言模型的完美配合。特別的是在分類21個聲母方面,聲母解碼器的準確率超過了40%(超過3倍基準線),並且Top 3正確率幾乎達到了100%;而用於區分4個聲調的聲調解碼器的準確率也達到了50%(超過2倍基準線)。除了三個獨立音節元素解碼器的突出貢獻以外,智慧語言模型強大的自動糾錯能力和上下文聯繫能力也讓整個語言腦機介面系統的表現更為突出。
這項研究為漢語這種意音文字語言的BCI解碼研究提供了全新視角,也證明透過強大的語言模型可顯著提高語言腦機介面系統的效能,為未來的意音文字語言神經義肢研究提供了新的方向。這項工作也預示著神經系統疾病患者很快就能透過意念來控制電腦生成漢語句子,重獲溝通能力!
參考內容
https://www.biorxiv.org/content/10.1101/2023.11.05.562313v1.full.pdf
以上是重要突破!西湖大學團隊與浙二醫院共同實現腦機介面中文解碼的詳細內容。更多資訊請關注PHP中文網其他相關文章!