Heim > Artikel > Technologie-Peripheriegeräte > Nutzen Sie maschinelles Lernen, um ein Gehirn zu entschlüsseln, das seit 15 Jahren „stimmlos' ist, und lassen Sie es „sprechen'
Big Data Digest Works
Autor: Miggy
Bei gelähmten Patienten entsteht der größte Schmerz dadurch, dass sie nicht mit ihnen kommunizieren können die Außenwelt kommuniziert. Obwohl das Gehirn immer noch aktiv ist und sich ausdrücken möchte, führt die Unfähigkeit, die Stimmmuskulatur anzutreiben, dazu, dass sich der Sprachmechanismus dieser Patienten allmählich verschlechtert.
Edward Chang, Chefarzt der Neurochirurgie an der University of California, San Francisco, entwickelt Gehirn-Computer-Schnittstellentechnologie für Menschen, die nicht mehr sprechen können. Sein Labor widmet sich der Dekodierung von Gehirnsignalen im Zusammenhang mit Befehlen des Stimmtrakts und der Ausgabe der Sprachfunktionen des Gehirns durch Computer über neuronale Implantate. Das Projekt erforderte nicht nur die beste heute verfügbare Neurotech-Hardware, sondern auch leistungsstarke Modelle für maschinelles Lernen.
In letzter Zeit hat auch diese Technologie große Fortschritte gemacht und ermöglicht es einem Patienten, der seit 15 Jahren aufgrund einer Lähmung „stimmlos“ ist, über einen Computer mit der Außenwelt zu kommunizieren. Chang hat diesen technischen Prozess auch aufgezeichnet und auf IEEE veröffentlicht.
Lass uns einen Blick darauf werfen.
Der Computerbildschirm zeigt „ Möchten Sie etwas Wasser? „Diese Frage. Unten blinken drei kleine Punkte, dann erscheint eine Wortzeile: „Nein, ich habe keinen Durst.“ „
Gehirnaktivität ermöglicht die Kommunikation – es ist erwähnenswert, dass das Gehirn, das dieses Gespräch hervorgebracht hat, das Gehirn einer stimmlosen Person war, die seit mehr als 15 Jahren nicht gesprochen hatte. Vor 15 Jahren, aufgrund von Nach einem Schlaganfall war sein Gehirn vom Rest seines Körpers „abgekoppelt“ und der Patient hatte keine Kommunikation mit der Außenwelt. Er versuchte, mit der Außenwelt zu kommunizieren, zuletzt nutzte er einen Zeiger Eine Baseballkappe zum Tippen auf einen Touchscreen ist effektiv, aber langsam. Vor Kurzem meldete sich dieser Patient freiwillig zur Teilnahme an der klinischen Studie meiner Forschungsgruppe an der University of California in San Francisco, in der Hoffnung, eine schnellere Kommunikationsmethode zu erforschen , er konnte das System nur dazu nutzen, während der Forschung Wörter aus dem Gehirn zu generieren, aber er hofft, dabei zu helfen, die Technologie zu etwas zu entwickeln, das Menschen wie er in ihrem täglichen Leben nutzen können. #In unserer Pilotstudie wurde die Oberfläche des Gehirns dieses Freiwilligen untersucht Die Elektroden zeichneten neuronale Signale auf und sendeten sie an einen Sprachdecoder, der die Signale in das übersetzte, was er sagen wollte. Es ist das erste Mal, dass eine gelähmte Person, die nicht sprechen kann, Neurotechnologie einsetzt Der Versuch ist der erste seit mehr als einem Jahrzehnt, der Aufschluss über die potenziellen Gehirne gibt, die das Sprechen steuern. Wir sind äußerst stolz auf das, was wir bisher erreicht haben UCSF arbeitet mit Kollegen auf der ganzen Welt zusammen, um diese Technologie sicher, stabil und zuverlässig für den täglichen Gebrauch zu machen. Wir arbeiten immer noch daran, die Leistung des Systems zu verbessern 🎜#Die erste Version der Gehirn-Computer-Schnittstelle gab Freiwilligen einen Wortschatz mit 50 nützlichen Wörtern. #
Wie funktionieren neurologische Implantate? am weitesten fortgeschritten, mit Designs, die mit dem Cochlea-Nerv im Innenohr oder direkt mit dem Hörhirnstamm verbunden sind. Es gibt auch umfangreiche Forschung zu Netzhaut- und Gehirnimplantaten sowie zu Handprothesen. Alle diese sensorischen Prothesen nehmen Informationen von außen auf Welt und wandeln sie in elektrische Signale um, die in das Verarbeitungszentrum des Gehirns eingespeist werden. Fallstudie zum Einsetzen von Objekten, um Patienten mit Geruchsverlust dabei zu helfen, ihren Geschmackssinn wiederzuerlangen.
Eine andere Art von Nervenprothese zeichnet die elektrische Aktivität des Gehirns auf und wandelt es in Signale um, um die Außenwelt zu steuern, wie zum Beispiel Roboterarme und Videospiel-Controller. Diese letzte Form der Steuerung wurde von Organisationen wie der BrainGate Alliance verwendet, um gelähmten Menschen das Tippen von Wörtern zu ermöglichen. Manchmal ein Buchstabe nach dem anderen, manchmal mit einer Autovervollständigungsfunktion, um das Tippen zu beschleunigen. #Diese Art des Tippens durch das Gehirn ist nicht die erste Technologie, aber Forscher setzen normalerweise Implantate in den motorischen Kortex ein, den Teil des Gehirns, der die Steuerung übernimmt Bewegung und steuern Sie dann die Bewegung auf der virtuellen Tastatur, indem Sie sich bestimmte physische Bewegungen des Cursors vorstellen. Bei einer anderen Methode, die einige meiner Mitarbeiter in einer Arbeit aus dem Jahr 2021 entwickelt haben, wird ein Benutzer aufgefordert, sich vorzustellen, dass er einen Stift auf Papier hält und einen Brief schreibt, wodurch im motorischen Kortex Signale erzeugt werden, die in Text übersetzt werden. Diese Methode stellte einen neuen Rekord in der Schreibgeschwindigkeit auf und ermöglichte es den Freiwilligen, etwa 18 Wörter pro Minute zu schreiben.
In unserer neuesten Laborforschung haben wir einen effizienteren Ansatz gewählt. Anstatt die Absicht des Benutzers zu entschlüsseln, den Cursor oder Stift zu bewegen, entschlüsseln wir die Absicht, den Stimmapparat zu steuern, einschließlich der Dutzenden von Muskeln, die den Kehlkopf (oft als Kehlkopf bezeichnet), die Zunge und die Lippen steuern.
Für einen gelähmten Mann wird ein scheinbar einfacher Gesprächsaufbau durch hochentwickelte Neurotech-Hardware und ein maschinelles Lernsystem ermöglicht, das seine Gehirnsignale entschlüsselt.
Ich habe vor mehr als zehn Jahren angefangen, in diesem Bereich zu arbeiten. Als Neurochirurg sehe ich oft Patienten mit schweren Verletzungen, die dazu führen, dass sie nicht sprechen können. Zu meiner Überraschung stimmte der Ort der Hirnschädigung in vielen Fällen nicht mit den Syndromen überein, die ich im Medizinstudium kennengelernt hatte, und mir wurde klar, dass wir noch viel darüber lernen mussten, wie das Gehirn Sprache verarbeitet. Ich beschloss, die zugrunde liegende Neurobiologie der Sprache zu studieren und, wenn möglich, eine Gehirn-Maschine-Schnittstelle (BMI) zu entwickeln, um die Kommunikation für Menschen wiederherzustellen, die die Sprache verloren haben. Zusätzlich zu meinem neurochirurgischen Hintergrund verfügt mein Team über Fachkenntnisse in den Bereichen Linguistik, Elektrotechnik, Informatik, Bioingenieurwesen und Medizin.
Sprache ist eine der Fähigkeiten, die Menschen einzigartig machen. Viele andere Arten machen Geräusche, aber nur der Mensch kombiniert eine Reihe von Geräuschen, um sie auf unzählige verschiedene Arten auszudrücken. Es handelt sich außerdem um ein sehr komplexes motorisches Verhalten – einige Experten halten es für das komplexeste motorische Verhalten, das Menschen zeigen. Sprache ist das Produkt eines modulierten Luftstroms durch den Stimmtrakt; wir formen unsere Atmung, indem wir hörbare Vibrationen in den Kehlkopfstimmbändern erzeugen und die Form unserer Lippen, unseres Kiefers und unserer Zunge verändern.
Die vielen Muskeln des Stimmapparats unterscheiden sich völlig von gelenkbasierten Muskeln, wie denen der Arme und Beine, die sich nur auf wenige vorgeschriebene Arten bewegen können. Zum Beispiel sind die Muskeln, die die Lippen kontrollieren, Schließmuskeln, während die Muskeln, aus denen die Zunge besteht, eher durch hydraulischen Druck kontrolliert werden – die Zunge besteht hauptsächlich aus einem festen Volumen an Muskelgewebe, sodass sich dieses Volumen durch die Bewegung eines Teils der Zunge verändert anderswo gestalten. Die Physik, die die Bewegung dieser Muskeln steuert, unterscheidet sich völlig von der des Bizeps oder der hinteren Oberschenkelmuskulatur.
Da so viele Muskeln beteiligt sind und jeder von ihnen so viele Freiheitsgrade hat, gibt es grundsätzlich unendlich viele mögliche Konfigurationen. Wenn Menschen jedoch sprechen, verwenden sie relativ wenige Kernaktionen (die je nach Sprache unterschiedlich sind). Wenn englischsprachige Menschen beispielsweise den Laut „d“ aussprechen, legen sie ihre Zunge hinter die Zähne; wenn sie den Laut „k“ aussprechen, reicht die Zungenbasis nach oben, um die Decke im hinteren Teil des Mundes zu berühren. Nur wenige Menschen sind sich der präzisen, komplexen und koordinierten Muskelbewegungen bewusst, die zum Sprechen einfachster Wörter erforderlich sind.
Teammitglied David Moses betrachtet die Gehirnwellenwerte des Patienten [linker Bildschirm] und dekodiert die Systemaktivitätsanzeigen [rechter Bildschirm].
Meine Forschungsgruppe konzentriert sich auf den motorischen Cortex-Teil des Gehirns, der Bewegungsbefehle an die Muskeln von Gesicht, Hals, Mund und Zunge sendet. Diese Gehirnregionen sind Multitasking-fähig: Sie verwalten Muskelbewegungen, die Sprache erzeugen, sowie Bewegungen derselben Muskeln, die Schlucken, Lächeln und Küssen bewirken.
Das Studium der neuronalen Aktivität in diesen Bereichen erfordert eine räumliche Auflösung im Millimeterbereich und eine zeitliche Auflösung im Millisekundenbereich. In der Vergangenheit konnten nichtinvasive Bildgebungssysteme das eine oder das andere liefern, jedoch nicht beides. Als wir mit dieser Studie begannen, stellten wir fest, dass es nur sehr wenige Daten darüber gab, wie Muster der Gehirnaktivität mit den einfachsten Komponenten der Sprache zusammenhängen: Phonemen und Silben.
An dieser Stelle möchten wir uns bei unseren ehrenamtlichen Helfern bedanken. Im Epilepsiezentrum der UCSF werden Patienten, die sich auf eine Operation vorbereiten, häufig mehrere Tage lang chirurgisch Elektroden auf der Oberfläche ihres Gehirns platziert, damit wir die von Anfällen betroffenen Bereiche kartieren können. In diesen Tagen der kabelgebundenen Ausfallzeit meldeten sich viele Patienten freiwillig zur Teilnahme an neurologischen Forschungsexperimenten, bei denen Elektrodenaufzeichnungen in ihren Gehirnen genutzt werden, die es uns ermöglichen, Muster neuronaler Aktivität zu untersuchen, während Patienten sprechen.
Die beteiligte Hardware heißt Elektrokortikographie (ECoG). Die Elektroden im ECoG-System dringen nicht in das Gehirn ein, sondern sitzen auf dessen Oberfläche. Unsere Arrays können Hunderte von Elektrodensensoren enthalten, von denen jeder Tausende von Neuronen aufzeichnet. Bisher haben wir ein Array mit 256 Kanälen verwendet. Unser Ziel in diesen frühen Studien war es, Muster kortikaler Aktivität zu entdecken, wenn Menschen einfache Silben sprechen. Wir haben Freiwillige gebeten, bestimmte Geräusche und Wörter zu sprechen, während ihre neuronalen Muster aufgezeichnet und ihre Zungen- und Mundbewegungen verfolgt wurden. Manchmal tun wir dies, indem wir sie bunte Gesichtsbemalung auftragen lassen und ein Computer-Vision-System verwenden, um motorische Gesten zu extrahieren; ein anderes Mal verwenden wir ein Ultraschallgerät, das unter dem Kiefer des Patienten platziert wird, um die sich bewegende Zunge des Patienten abzubilden.
Das System beginnt mit einem flexiblen Elektrodenarray, das auf das Gehirn des Patienten gelegt wird, um Signale vom motorischen Kortex zu empfangen. Das Array erfasst gezielt Bewegungsbefehle für den Stimmapparat des Patienten. Eine am Schädel befestigte Öffnung führt zu Drähten, die mit einem Computersystem verbunden sind, das Gehirnsignale entschlüsselt, sie in das übersetzt, was der Patient sagen möchte, und seine Antworten auf einem Display anzeigt.
Wir nutzen diese Systeme, um neuronale Muster an die Bewegung des Stimmapparates anzupassen. Anfangs hatten wir viele Fragen zum Neural Code. Eine Möglichkeit besteht darin, dass neuronale Aktivität die Richtung bestimmter Muskeln kodiert, wobei das Gehirn diese Muskeln im Wesentlichen ein- und ausschaltet, als würde man Tasten auf einer Tastatur drücken, und durch ein anderes Muster bestimmt, wie schnell sich die Muskeln zusammenziehen. Ein weiterer Grund ist, dass die neuronale Aktivität dem koordinierten Muster von Muskelkontraktionen entspricht, die zur Erzeugung eines bestimmten Klangs verwendet werden. (Um beispielsweise den Laut „aaah“ zu erzeugen, müssen sowohl die Zunge als auch der Kiefer gesenkt werden.) Wir haben herausgefunden, dass es eine Repräsentationskarte gibt, die verschiedene Teile des Stimmtrakts sowie verschiedene Gehirnregionen steuert. Wir können beides kombinieren, um eine flüssige Sprache zu erzeugen.
Unsere Arbeitsplätze hängen von der künstlichen Intelligenz der Vergangenheit ab Jahrzehnt Der Fortschritt der Intelligenz. Wir können die gesammelten Daten zur neuronalen Aktivität und Sprachkinematik in ein neuronales Netzwerk einspeisen und dann den Algorithmus für maschinelles Lernen Muster in der Korrelation zwischen den beiden Datensätzen finden lassen, wodurch eine Verbindung zwischen neuronaler Aktivität und der erzeugten Sprache hergestellt und verwendet wird Modell zur Erzeugung computergenerierter Sprache oder Texte. Aber diese Technik kann keine Algorithmen für gelähmte Menschen trainieren, weil uns die Hälfte der Daten fehlt: Wir haben die neuronalen Muster, aber nicht die entsprechenden Muskelbewegungen.
Wir haben erkannt, dass eine intelligentere Möglichkeit, maschinelles Lernen zu nutzen, darin besteht, das Problem in zwei Schritte zu unterteilen. Zunächst übersetzt der Decoder Signale vom Gehirn in beabsichtigte Bewegungen der Muskeln im Stimmtrakt und übersetzt diese beabsichtigten Bewegungen dann in synthetisierte Sprache oder Text.
Wir nennen es einen bionischen Ansatz, weil er biologische Bewegungsmuster im menschlichen Körper nachbildet; die neuronale Aktivität ist direkt für die Bewegung des Stimmapparats und nur indirekt für den erzeugten Klang verantwortlich. Ein großer Vorteil dieses Ansatzes ist der zweite Schritt, bei dem der Decoder trainiert wird, Muskelbewegungen in Geräusche umzuwandeln. Da die Beziehung zwischen der Bewegung des Stimmtrakts und dem Klang besser zugänglich ist, konnten wir den Decoder anhand eines großen Datensatzes von nicht gelähmten Menschen trainieren.
Die nächste große Herausforderung besteht darin, Technologie zu den Menschen zu bringen, die tatsächlich davon profitieren können.
Die National Institutes of Health (NIH) finanzieren unseren Pilotversuch, der 2021 beginnen wird. Wir haben bereits zwei gelähmte Freiwillige, denen ECoG-Arrays implantiert wurden, und wir hoffen, in den kommenden Jahren weitere zu rekrutieren. Das Hauptziel ist die Verbesserung ihrer Kommunikation und wir messen die Leistung in Wörtern pro Minute. Der durchschnittliche Erwachsene, der auf einer Volltastatur tippt, kann 40 Wörter pro Minute tippen, wobei die schnellsten Schreibkräfte Geschwindigkeiten von über 80 Wörtern pro Minute erreichen.
Wir glauben, dass die Verwendung des Sprachsystems zum Sprechen dies tun wird effektiver sein gut. Menschen sprechen viel schneller als sie tippen: Englischsprachige können problemlos 150 Wörter pro Minute produzieren. Wir möchten, dass gelähmte Menschen mit 100 Wörtern pro Minute kommunizieren können. Um dieses Ziel zu erreichen, liegt noch viel Arbeit vor uns.
Das Implantationsverfahren ist ähnlich wie bei anderen Implantaten. Zuerst entfernt der Chirurg einen kleinen Teil des Schädels; anschließend wird das flexible ECoG-Array vorsichtig auf der kortikalen Oberfläche platziert. Dann wird ein kleiner Port am Schädel befestigt und tritt durch eine separate Öffnung in der Kopfhaut aus. Wir benötigen derzeit diesen Anschluss, der an externe Kabel angeschlossen wird, um Daten von den Elektroden zu übertragen, aber wir hoffen, das System in Zukunft drahtlos machen zu können.
Wir haben über die Verwendung durchdringender Mikroelektroden nachgedacht, da diese kleinere Nervenpopulationen aufzeichnen und daher mehr Details über die Nervenaktivität liefern können. Allerdings ist die aktuelle Hardware für den klinischen Einsatz nicht so leistungsstark und sicher wie ECoG.
Eine weitere Überlegung ist, dass penetrierende Elektroden oft eine tägliche Neukalibrierung erfordern, um neuronale Signale in klare Befehle umzuwandeln, während Untersuchungen an neuronalen Geräten zeigen, dass die Geschwindigkeit der Einrichtung und die Zuverlässigkeit der Leistung es den Menschen ermöglichen, Schlüssel zu dieser Technologie zu nutzen. Aus diesem Grund legen wir bei der Entwicklung von „Plug-and-Play“-Systemen für den langfristigen Einsatz Wert auf Stabilität. Wir führten eine Studie durch, in der wir die Veränderungen neuronaler Signale im Laufe der Zeit bei Freiwilligen untersuchten, und stellten fest, dass der Decoder eine bessere Leistung erbrachte, wenn er Datenmuster über mehrere Sitzungen und Tage hinweg verwendete. In Bezug auf maschinelles Lernen sagen wir, dass die „Gewichte“ des Decoders vererbt werden, was zu einem integrierten neuronalen Signal führt.
Da unsere gelähmten Freiwilligen nicht sprechen konnten, während wir ihre Gehirnmuster beobachteten, baten wir unseren ersten Freiwilligen, zwei verschiedene Ansätze auszuprobieren. Er begann mit einer Liste von 50 Wörtern, die für den täglichen Gebrauch geeignet waren, wie zum Beispiel „hungrig“, „durst“, „bitte“, „helfen“ und „Computer“. Im Verlauf von 48 Sitzungen über mehrere Monate hinweg baten wir ihn manchmal, sich vorzustellen, jedes Wort auf der Liste auszusprechen, und manchmal baten wir ihn, die Wörter zu sprechen und zu versuchen, sie zu „sagen“. Wir fanden heraus, dass der Versuch zu sprechen klarere Gehirnsignale erzeugte, die ausreichten, um den Dekodierungsalgorithmus zu trainieren. Aus diesen Wörtern aus der Liste kann der Freiwillige dann einen Satz seiner Wahl bilden, etwa „Nein, ich habe keinen Durst.“
Wir arbeiten derzeit daran, unseren Wortschatz zu erweitern. Um dies zu erreichen, müssen wir die aktuellen Algorithmen und Schnittstellen weiter verbessern, aber ich glaube, dass diese Verbesserungen in den kommenden Monaten und Jahren eintreten werden. Nachdem nun der Grundsatznachweis erbracht wurde, lautet das Ziel die Optimierung. Wir können uns darauf konzentrieren, unsere Systeme schneller, genauer und – was am wichtigsten ist – sicherer und zuverlässiger zu machen. Jetzt sollte es schnell gehen.
Die größten Durchbrüche könnten erzielt werden, wenn wir die Gehirnsysteme, die wir zu entschlüsseln versuchen, besser verstehen und erfahren, wie Lähmungen ihre Aktivität verändern. Wir haben festgestellt, dass sich die neuronalen Muster von gelähmten Patienten, die nicht in der Lage sind, Befehle an ihre Stimmmuskeln zu senden, stark von denen von epileptischen Patienten unterscheiden, die in der Lage sind, Befehle zu senden. Wir versuchen eine ehrgeizige Meisterleistung der BMI-Technik und es gibt noch viel über die zugrunde liegenden Neurowissenschaften zu lernen. Wir glauben, dass alles zusammenkommt, um unseren Patienten die Fähigkeit zur Kommunikation zu geben.
Materialquelle: https://spectrum.ieee.org/brain-computer-interface-speech
Das obige ist der detaillierte Inhalt vonNutzen Sie maschinelles Lernen, um ein Gehirn zu entschlüsseln, das seit 15 Jahren „stimmlos' ist, und lassen Sie es „sprechen'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!