Heim >Technologie-Peripheriegeräte >KI >Datenmanagement ist der Schlüssel zur gesunden Entwicklung generativer künstlicher Intelligenz

Datenmanagement ist der Schlüssel zur gesunden Entwicklung generativer künstlicher Intelligenz

WBOY
WBOYnach vorne
2023-06-03 23:00:151193Durchsuche

2023 ist der offizielle Beginn der Ära der künstlichen Intelligenz und fast alle reden über ChatGPT.

Datenmanagement ist der Schlüssel zur gesunden Entwicklung generativer künstlicher Intelligenz

Generative KI-Sprachmodelle wie ChatGPT erregen unsere Aufmerksamkeit und unser Interesse, weil wir zum ersten Mal sehen können, wie KI wie echte Menschen mit uns spricht und Wörter generiert, die wir für nützlich halten. Kreative Artikel, Gedichte und weitere neue Inhalte. Generative KI-Lösungen scheinen voller bahnbrechendem Potenzial für schnellere und bessere Innovation, Produktivität und Wertschöpfung zu sein. Ihre Einschränkungen wurden jedoch nicht allgemein zur Kenntnis genommen, noch sind ihre Best Practices für Datenschutz und Datenverwaltung allgemein bekannt.

In letzter Zeit haben viele in der Technologie- und Sicherheitsbranche Alarm geschlagen, da es an Verständnis und angemessener Regulierung für den Einsatz von Technologien der künstlichen Intelligenz mangelt. Wir sehen bereits Bedenken hinsichtlich der Zuverlässigkeit der Ergebnisse von KI-Tools, dem Verlust von geistigem Eigentum (IP) und sensiblen Daten sowie Verstößen gegen Datenschutz und Sicherheit.

Der Vorfall von Samsung mit ChatGPT sorgte für Schlagzeilen, nachdem der Technologieriese seine Geheimnisse versehentlich an die künstliche Intelligenz weitergegeben hatte. Samsung ist nicht allein: Eine Cyberhaven-Studie ergab, dass 4 % der Mitarbeiter sensible Unternehmensdaten in große Sprachmodelle einbetten. Viele Menschen wissen nicht, dass das KI-Unternehmen, wenn es ein Modell anhand von Unternehmensdaten trainiert, diese Daten möglicherweise an anderer Stelle wiederverwenden kann.

Das Cybersecurity-Intelligence-Unternehmen Recorded Future gab bekannt: „Innerhalb weniger Tage nach der Veröffentlichung von ChatGPT haben wir eine Reihe von Bedrohungsakteuren im Dark Web und in speziellen Zugangsforen entdeckt, die fehlerhafte, aber leistungsstarke Malware, Social-Engineering-Tutorials, Pläne zum Geldverdienen und mehr teilen.“ , alles möglich durch die Verwendung von ChatGPT.“

Wenn sich eine Person für ein Tool wie ChatGPT anmeldet, hat sie Zugriff auf IP-Adressen, Browsereinstellungen, genau wie die heutigen Suchmaschinen und das Surfverhalten. Aber es steht mehr auf dem Spiel, denn „es könnte politische Überzeugungen oder sexuelle Orientierung ohne die Zustimmung des Einzelnen offenbaren und die Veröffentlichung peinlicher oder sogar karrierezerstörender Informationen bedeuten“, sagte Jose Blaya, technischer Leiter bei Private Internet Access.

Natürlich brauchen wir bessere Vorschriften und Standards, um diese neuen KI-Technologien umzusetzen. Es fehlt jedoch an Diskussionen über die wichtige Rolle von Data Governance und Datenmanagement – ​​diese spielen jedoch eine Schlüsselrolle bei der Einführung und sicheren Nutzung von KI in Unternehmen.

Alles dreht sich um Daten

Hier sind drei Bereiche, auf die wir uns konzentrieren sollten:

Datenverwaltung und Transparenz von Trainingsdaten: Ein Kernproblem betrifft proprietäre vorab trainierte KI-Modelle oder große Sprachmodelle ( LLM). Maschinelle Lernprogramme, die LLM verwenden, enthalten große Datensätze aus vielen verschiedenen Quellen. Das Problem besteht darin, dass LLM eine Blackbox ist, die wenig Transparenz über die Quelldaten bietet. Wir wissen nicht, ob diese Quellen betrügerische Daten enthalten, PII (persönlich identifizierbare Informationen) enthalten, vertrauenswürdig, unvoreingenommen, korrekt oder legal sind. LLM R&D gibt seine Quelldaten nicht weiter.

Die Washington Post analysierte den C4-Datensatz von Google über 15 Millionen Websites und fand Dutzende anstößiger Websites, die neben anderen fragwürdigen Inhalten hetzerische und personenbezogene Daten enthielten. Wir brauchen eine Datenverwaltung, die Transparenz über die verwendeten Datenquellen und die Gültigkeit/Vertrauenswürdigkeit des in diesen Quellen enthaltenen Wissens erfordert. Beispielsweise könnte Ihr KI-Bot anhand von Daten aus nicht verifizierten Quellen oder gefälschten Nachrichtenseiten trainiert werden, wodurch sein Wissen verzerrt wird, das nun Teil der neuen Richtlinien oder F&E-Initiativen Ihres Unternehmens ist.

Datenisolierung und Datendomänen: Derzeit haben verschiedene KI-Anbieter unterschiedliche Datenschutzrichtlinien für den Umgang mit den von Ihnen bereitgestellten Daten. Unbeabsichtigt kann es sein, dass Mitarbeiter dem LLM in ihren Eingabeaufforderungen Daten zur Verfügung stellen, ohne zu wissen, dass das Modell die Daten möglicherweise in seine Wissensdatenbank einbezieht. Unternehmen können der Welt unwissentlich Geschäftsgeheimnisse, Softwarecodes und personenbezogene Daten preisgeben.

Einige KI-Lösungen bieten Problemumgehungen, wie z. B. die Einführung von APIs, um den Datenschutz zu schützen, indem Ihre Daten von vorab trainierten Modellen ausgeschlossen werden. Dies schränkt jedoch auch den funktionalen Wert von KI ein. Denn der ideale Anwendungsfall besteht darin, ein vorab trainiertes Modell mit Ihren fallspezifischen Daten zu erweitern und dabei den Datenschutz zu wahren.

Eine Lösung besteht darin, dass vorab trainierte KI-Tools das Konzept der Datendomäne verstehen. „Gemeinsame“ Domänen von Trainingsdaten werden für das Vortraining verwendet und von gemeinsamen Anwendungen gemeinsam genutzt, während Trainingsmodelle, die auf „proprietären Daten“ basieren, sicher innerhalb der Grenzen der Organisation eingeschränkt sind. Das Datenmanagement stellt sicher, dass diese Grenzen geschaffen und erhalten bleiben.

Derivate der Künstlichen Intelligenz: Der dritte Bereich des Datenmanagements betrifft die durch den KI-Prozess erzeugten Daten und deren Endgültigkeit Eigentümer. Verwenden Sie beispielsweise einen KI-Bot, um Codierungsprobleme zu lösen. Wenn etwas falsch gemacht wurde, was zu einem Bug oder Bug führte, wissen wir normalerweise, wer was getan hat, um das Problem zu untersuchen und zu beheben. Aber mit KI ist es für Unternehmen schwierig zu definieren, wer für Fehler oder schlechte Ergebnisse verantwortlich ist, die aus von KI ausgeführten Aufgaben resultieren – man kann der Maschine nicht die Schuld geben: In gewissem Maße ist es der Mensch, der die Fehler oder schlechten Ergebnisse verursacht hat.

Die kompliziertere Frage ist: Besitzen Sie das geistige Eigentum der Werke, die mit Tools der generativen künstlichen Intelligenz erstellt wurden? Wie würden Sie sich vor Gericht verteidigen? Laut Harvard Business Review hat die Kunstwelt damit begonnen, Klagen gegen bestimmte Anwendungen der künstlichen Intelligenz einzureichen.

Jetzt ist es an der Zeit, über Datenverwaltungsstrategien nachzudenken

Anfangs haben wir das nicht getan wissen, welche Rolle künstliche Intelligenz bei schlechten Daten spielt, was nicht über die Risiken für Privatsphäre und Sicherheit, geistiges Eigentum und andere sensible Datensätze bekannt ist. Künstliche Intelligenz ist ebenfalls ein weites Feld mit mehreren Ansätzen wie LLM und Automatisierung auf Basis von Geschäftsprozesslogik. Dies sind nur einige der Themen, die durch die Kombination von Daten-Governance-Richtlinien und Datenverwaltungspraktiken untersucht werden:

# 🎜🎜#

Unterbrechen Sie das Experimentieren mit generativer KI, bis Sie eine Überwachungsstrategie, Richtlinie und Verfahren zur Risikominderung und Validierung der Ergebnisse haben.

Die Einbindung von Leitprinzipien für das Datenmanagement beginnt mit einem soliden Verständnis Ihrer Daten, unabhängig davon, wo sie sich befinden. Wo sind Ihre sensiblen PII- und Kundendaten? Über wie viele IP-Daten verfügen Sie und wo befinden sich diese Dateien? Können Sie die Nutzung überwachen, um sicherzustellen, dass diese Art von Daten nicht versehentlich in KI-Tools eingespeist werden, und um Sicherheits- oder Datenschutzverletzungen zu verhindern?

Stellen Sie KI-Anwendungen nicht mehr Daten zur Verfügung als erforderlich, und geben Sie keine sensiblen proprietären Daten weiter. Sperren/verschlüsseln Sie IP- und Kundendaten, um deren Weitergabe zu verhindern.

Verstehen Sie, wie und ob KI-Tools für Datenquellen transparent sein können.

Kann der Anbieter Ihre Daten schützen? Google teilte die Ankündigung in seinem Blog mit, aber das „Wie“ ist unklar: „Ob ein Unternehmen ein Modell in Vertex AI trainiert oder ein Kundenservice-Erlebnis auf Generative AI App Builder aufbaut, die privaten Daten bleiben privat und werden nicht verwendet.“ das breitere Basismodell-Trainingskorpus. „Lesen Sie die Vertragssprache jedes KI-Tools, um zu verstehen, ob die von Ihnen bereitgestellten Daten vertraulich behandelt werden können.“

Daten, die den Eigentümer, die Person oder die Abteilung kennzeichnen, die das Projekt als abgeleitete Arbeit in Auftrag gegeben haben. Dies ist hilfreich, da Sie möglicherweise letztendlich für die Arbeit Ihres Unternehmens verantwortlich sind und wissen möchten, wie KI in den Prozess integriert wird und wer daran beteiligt ist.

Gewährleistet die Datenportabilität zwischen Domänen. Beispielsweise möchte ein Team möglicherweise die Daten seiner IP-Adresse und identifizierenden Merkmale entfernen und sie zur zukünftigen Verwendung in einen gemeinsamen Trainingsdatensatz einspeisen. Die Automatisierung und Verfolgung dieses Prozesses ist von entscheidender Bedeutung.

Bleiben Sie über alle in der Branche entwickelten Vorschriften und Leitlinien auf dem Laufenden und sprechen Sie mit Kollegen in anderen Organisationen, um zu verstehen, wie sie an Risikominderung und Datenmanagement herangehen.

Bevor Sie ein generatives KI-Projekt starten, konsultieren Sie einen Rechtsexperten, um sich über Datenschutzverletzungen, Datenschutz- und IP-Verletzungen, böswillige Akteure oder falsche/irrtümliche Ergebnisrisiken und -prozesse im Klaren zu sein .

Praktische Ansätze für künstliche Intelligenz im Unternehmen

Künstliche Intelligenz entwickelt sich rasant und ist vielversprechend, mit dem Potenzial, Innovationen zu beschleunigen, Kosten zu senken und das Benutzererlebnis in einem beispiellosen Tempo zu verbessern. Aber wie die meisten leistungsstarken Tools muss KI mit Vorsicht und im richtigen Kontext eingesetzt werden, wobei geeignete Daten-Governance- und Datenmanagement-Leitlinien vorhanden sind. Es gibt noch keine klaren Standards für das Datenmanagement für künstliche Intelligenz, und dieser Bereich bedarf weiterer Erforschung. Gleichzeitig sollten Unternehmen Vorsicht walten lassen und sicherstellen, dass sie sich vor dem Einsatz von KI-Anwendungen ein klares Bild von Datengefährdung, Datenschutzverstößen und potenziellen Datensicherheitsrisiken machen.

Das obige ist der detaillierte Inhalt vonDatenmanagement ist der Schlüssel zur gesunden Entwicklung generativer künstlicher Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen