Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  ChatGPT und große Sprachmodelle: Welche Risiken bestehen?

ChatGPT und große Sprachmodelle: Welche Risiken bestehen?

PHPz
PHPznach vorne
2023-04-08 10:41:051257Durchsuche

Groß angelegte Sprachmodelle (LLMs) und KI-Chatbots stoßen aufgrund der Veröffentlichung von ChatGPT Ende 2022 und der damit verbundenen Abfragefreundlichkeit auf weltweites Interesse. Es handelt sich mittlerweile um eine der am schnellsten wachsenden Verbraucheranwendungen aller Zeiten, und ihre Beliebtheit veranlasst viele Wettbewerber dazu, ihre eigenen Dienste und Modelle zu entwickeln oder die von ihnen selbst entwickelten Dienste und Modelle schnell bereitzustellen.

Wie bei jeder neuen Technologie gibt es immer Bedenken, was dies für die Sicherheit bedeutet. In diesem Blog wurden kürzlich einige der Cybersicherheitsaspekte von ChatGPT und LLM allgemeiner betrachtet.

Was ist ChatGPT und was sind LLMs?

ChatGPT ist ein Chatbot mit künstlicher Intelligenz, der vom amerikanischen Technologie-Startup OpenAI entwickelt wurde. Es basiert auf GPT-3, einem 2020 veröffentlichten Sprachmodell, das Deep Learning nutzt, um menschenähnlichen Text zu generieren, aber die zugrunde liegende LLM-Technologie gibt es schon seit langem.

Im LLM werden Algorithmen auf großen Mengen textbasierter Daten trainiert, die oft aus dem offenen Internet stammen und somit Webseiten und – je nach LLM – andere Quellen wie wissenschaftliche Forschung, Bücher oder Social-Media-Beiträge abdecken deckt eine so große Datenmenge ab, dass es unmöglich ist, alle anstößigen oder ungenauen Inhalte bei der Aufnahme herauszufiltern, sodass „umstrittene“ Inhalte wahrscheinlich in seine Modelle einbezogen werden.

Diese Algorithmen analysieren die Beziehungen zwischen verschiedenen Wörtern und wandeln sie in probabilistische Modelle um. Dem Algorithmus kann dann ein „Hinweis“ gegeben werden (z. B. indem ihm eine Frage gestellt wird) und er liefert eine Antwort basierend auf den Beziehungen der Wörter in seinem Modell.

Typischerweise sind die Daten in seinem Modell nach dem Training statisch, obwohl sie durch „Feinabstimmung“ (Training auf zusätzlichen Daten) und „Hinweiserweiterung“ (Bereitstellung kontextbezogener Informationen zum Problem) verbessert werden können. Ein Beispiel für eine Verbesserung einer Eingabeaufforderung könnte sein:

Wie würden Sie unter Berücksichtigung der folgenden Informationen beschreiben...

Anschließendes Kopieren möglicherweise einer großen Textmenge (oder des gesamten Dokuments) in die Eingabeaufforderung/Frage.

ChatGPT ermöglicht es Benutzern effektiv, LLM-Fragen zu stellen, genau wie Sie es in einem Gespräch mit einem Chatbot tun würden. Weitere aktuelle Beispiele für LLM sind Ankündigungen von Googles Bard und Metas LLaMa (für wissenschaftliche Arbeiten).

LLMs sind zweifellos beeindruckend, da sie in der Lage sind, eine Fülle überzeugender Inhalte in einer Vielzahl von Menschen- und Computersprachen zu generieren. Sie sind jedoch weder Magie noch künstliche allgemeine Intelligenz und weisen einige schwerwiegende Mängel auf, darunter:

  • Sie können Dinge falsch machen und falsche Fakten „halluzinieren“
  • Sie können voreingenommen und oft leichtgläubig sein (z. B. in der Antwort auf Die Hauptfrage)
  • Sie benötigen riesige Rechenressourcen und riesige Datenmengen, um von Grund auf zu trainieren
  • Sie können dazu überredet werden, toxische Inhalte zu erstellen und sind anfällig für „Injektionsangriffe“

Wird LLM meine Informationen preisgeben?

Eine häufige Sorge besteht darin, dass LLM aus Ihren Eingabeaufforderungen „lernen“ und diese Informationen an andere weitergeben könnte, die verwandte Inhalte abfragen. Hier gibt es einige Gründe zur Besorgnis, aber nicht die Gründe, die viele Menschen in Betracht ziehen. Derzeit wird ein LLM trainiert und anschließend das resultierende Modell abgefragt. LLM fügt (zum Zeitpunkt des Schreibens) nicht automatisch Informationen aus einer Abfrage zu seinem Modell hinzu, damit andere diese abfragen können. Das heißt, die Aufnahme von Informationen in eine Abfrage führt nicht dazu, dass diese Daten in das LLM integriert werden.

Die Abfrage ist jedoch für die Organisation sichtbar, die das LLM bereitstellt (für ChatGPT, auch für OpenAI). Diese Abfragen werden gespeichert und mit ziemlicher Sicherheit irgendwann zur Entwicklung eines LLM-Dienstes oder -Modells verwendet. Dies kann bedeuten, dass der LLM-Anbieter (oder seine Partner/Auftragnehmer) in der Lage ist, die Abfragen zu lesen und sie möglicherweise auf irgendeine Weise in zukünftige Versionen zu integrieren. Daher müssen Sie die Nutzungsbedingungen und Datenschutzrichtlinien gründlich verstehen, bevor Sie sensible Fragen stellen.

Eine Frage kann aufgrund der in der Abfrage enthaltenen Daten oder aufgrund dessen, wer (und wann) die Frage gestellt hat, sensibel sein. Beispiele für Letzteres könnten sein, wenn sich herausstellt, dass der CEO gefragt hat: „Wie entlässt man einen Mitarbeiter am besten?“ oder wenn jemand aufschlussreiche Fragen zu Gesundheit oder Beziehung gestellt hat. Denken Sie auch daran, denselben Login zu verwenden, um Informationen über mehrere Abfragen hinweg zusammenzufassen.

Ein weiteres Risiko, das zunimmt, je mehr Organisationen LLMs erstellen, besteht darin, dass online gespeicherte Abfragen gehackt, durchgesickert oder, was wahrscheinlicher ist, versehentlich öffentlich zugänglich gemacht werden könnten. Hierzu können potenziell benutzeridentifizierende Informationen gehören. Ein weiteres Risiko besteht darin, dass der Betreiber des LLM später von einer Organisation übernommen wird, die einen anderen Datenschutzansatz verfolgt als bei der Eingabe der Daten durch den Nutzer.

Daher empfiehlt NCSC:

  • Geben Sie keine vertraulichen Informationen in Abfragen an öffentliche LLMs ein.
  • Senden Sie keine Abfragen an öffentliche LLMs, die Probleme verursachen.

Wie stelle ich vertrauliche Informationen sicher an ein LLM weiter?

Mit dem Aufkommen von LLM fragen sich viele Unternehmen möglicherweise, ob sie LLM nutzen können, um bestimmte Geschäftsaufgaben zu automatisieren, zu denen möglicherweise die Bereitstellung sensibler Informationen durch Feinabstimmung oder Just-in-Time-Erweiterung gehört. Während dieser Ansatz für öffentliche LLMs nicht empfohlen wird, kann ein „privates LLM“ beispielsweise von einem Cloud-Anbieter bereitgestellt oder vollständig selbst gehostet werden:

  • Für in der Cloud bereitgestellte LLMs gelten die Nutzungsbedingungen und Datenschutzrichtlinien sind wiederum von entscheidender Bedeutung (wie für ein öffentliches LLM), entsprechen aber eher den bestehenden Bedingungen des Cloud-Dienstes. Unternehmen müssen verstehen, wie sie Daten verwalten, die zur Feinabstimmung oder zeitnahen Erweiterung verwendet werden. Können die Forscher oder Partner des Anbieters es nutzen? Wenn ja, in welcher Form? Werden Daten einzeln oder in aggregierter Form mit anderen Organisationen geteilt? Unter welchen Voraussetzungen können die Mitarbeiter des Anbieters die Abfrage einsehen?
  • Selbst gehostetes LLM kann sehr teuer sein. Nach einer Sicherheitsbewertung können sie jedoch für die Verarbeitung von Organisationsdaten geeignet sein. Insbesondere sollten Organisationen unsere Leitlinien zum Schutz von Infrastruktur und Datenlieferketten beachten.

Erleichtern LLMs das Leben von Cyberkriminellen?

Es gab einige unglaubliche Demonstrationen, wie LLM beim Schreiben von Malware helfen kann. Es besteht die Sorge, dass LLM böswilligen (aber ungelernten) Personen dabei helfen könnte, Tools zu erstellen, die sie sonst nicht einsetzen könnten. In ihrem aktuellen Zustand sehen LLMs überzeugend aus (ob sie es sind oder nicht) und eignen sich eher für einfache als für komplexe Aufgaben. Dies bedeutet, dass LLM genutzt werden kann, um „Experten dabei zu helfen, Zeit zu sparen“, da Experten die Ergebnisse des LLM überprüfen können.

Bei komplexeren Aufgaben ist es für Experten derzeit einfacher, Malware von Grund auf zu erstellen, als Zeit damit zu verbringen, das zu korrigieren, was LLM generiert. Experten, die in der Lage sind, leistungsstarke Malware zu erstellen, können LLM jedoch möglicherweise dazu verleiten, leistungsstarke Malware zu schreiben. Der Kompromiss zwischen „Verwendung von LLM zur Erstellung von Malware von Grund auf“ und „Validierung von LLM-erstellter Malware“ wird sich mit der Verbesserung von LLM ändern.

Sie können LLM auch in technischen Fragen um Rat fragen. Kriminelle können LLM nutzen, um Cyberangriffe durchzuführen, die über ihre derzeitigen Möglichkeiten hinausgehen, insbesondere nachdem der Angreifer Zugriff auf das Netzwerk erlangt hat. Wenn ein Angreifer beispielsweise daran arbeitet, Berechtigungen zu erweitern oder Daten zu finden, fragt er möglicherweise LLM und erhält eine andere Antwort als die Suchmaschinenergebnisse, jedoch mit mehr Kontext. Aktuelle LLMs liefern Antworten, die überzeugend klingen, aber möglicherweise nur teilweise richtig sind, insbesondere da das Thema immer mehr zu einem Nischenthema wird. Die Antworten können Kriminellen dabei helfen, Angriffe durchzuführen, die sie sonst nicht durchführen könnten, oder sie können Maßnahmen vorschlagen, um die Entdeckung von Kriminellen zu beschleunigen. In beiden Fällen können die Abfragen des Angreifers vom LLM-Betreiber gespeichert und aufbewahrt werden.

Da LLM hervorragend darin ist, Schreibstile auf Abruf zu kopieren, besteht die Gefahr, dass Kriminelle LLM verwenden, um überzeugende Phishing-E-Mails zu verfassen, auch in mehreren Sprachen. Dies kann Angreifern mit hohen technischen Fähigkeiten, aber mangelnden Sprachkenntnissen helfen, überzeugende Phishing-E-Mails in der Muttersprache des Ziels zu erstellen (oder Social Engineering durchzuführen).

Zusammenfassend können wir kurzfristig Folgendes sehen:

  • Überzeugendere Phishing-E-Mails aufgrund von LLM
  • Angreifer, die Techniken ausprobieren, mit denen sie zuvor nicht vertraut waren

Weniger erfahrene Angreifer, die Funktionen schreiben Das Risiko leistungsstarker Malware ist ebenfalls gering.

Zusammenfassung

Dies ist eine aufregende Zeit für LLM, insbesondere da ChatGPT die Fantasie der Welt anregt. Wie bei allen technologischen Entwicklungen wird es Menschen geben, die sie gerne nutzen und studieren möchten, was sie zu bieten hat, und andere, die sie möglicherweise nie nutzen werden.

Wie wir oben dargelegt haben, sind mit der uneingeschränkten Nutzung eines öffentlichen LLM zweifellos Risiken verbunden. Einzelpersonen und Organisationen sollten äußerst vorsichtig mit den Daten sein, die sie in Eingabeaufforderungen übermitteln. Sie sollten sicherstellen, dass diejenigen, die LLM ausprobieren möchten, dies tun können, ohne dabei die Daten ihrer Organisation zu gefährden.

NCSC ist sich anderer aufkommender Bedrohungen (und Chancen) im Zusammenhang mit der Cybersicherheit und der Einführung von LLM bewusst und wir werden Sie selbstverständlich in zukünftigen Blogbeiträgen darauf aufmerksam machen.

David C – Technischer Direktor für Plattformforschung Paul J – Technischer Direktor für Datenwissenschaftsforschung

– Zusammengestellt vom britischen NCSC

Das obige ist der detaillierte Inhalt vonChatGPT und große Sprachmodelle: Welche Risiken bestehen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen