Heim >Technologie-Peripheriegeräte >KI >Chatbots verdauen das Internet und das Internet will die Früchte ernten

Chatbots verdauen das Internet und das Internet will die Früchte ernten

王林nach vorne: 2023-05-16 16:31:06774Durchsuche

Unternehmen für künstliche Intelligenz nutzen die von unzähligen Menschen im Internet erstellten Inhalte ohne deren Zustimmung oder Entschädigung aus. Mittlerweile fordern immer mehr Technologie- und Medienunternehmen Zahlungen in der Hoffnung, am Chatbot-Trend teilzuhaben.

Hier ist die Übersetzung:

Wenn Sie jemals gebloggt, auf Reddit gepostet oder etwas im offenen Web geteilt haben, dann ist es möglich, zur Entstehung von beizutragen die neueste Generation künstlicher Intelligenz.

Googles Bard, OpenAIs ChatGPT, Microsofts neue Version von Bing und ähnliche Tools anderer Startups integrieren alle Sprachmodelle für künstliche Intelligenz. Aber diese cleveren Roboterautoren wären ohne die riesigen Textmengen, die im Internet frei verfügbar sind, nicht möglich.

Heutzutage stehen Webinhalte wieder im Mittelpunkt des Wettbewerbs. Dies ist seit den Anfängen des Suchmaschinenkrieges nicht mehr passiert. Technologiegiganten versuchen, diese unersetzliche Quelle neuer Werte für sich zu erschließen.

Ursprünglich ahnungslose Technologie- und Medienunternehmen erkennen, dass diese Daten für die Förderung einer neuen Generation sprachbasierter künstlicher Intelligenz von entscheidender Bedeutung sind. Reddit ist eine der wertvollen Schulungsressourcen von OpenAI, hat jedoch kürzlich angekündigt, dass Unternehmen für künstliche Intelligenz Gebühren für den Datenzugriff erheben werden. OpenAI lehnte eine Stellungnahme ab.

Vor kurzem hat Twitter auch damit begonnen, Gebühren für Datenzugriffsdienste zu erheben, eine Änderung, die sich auf viele Aspekte des Twitter-Geschäfts auswirkt, einschließlich der Nutzung von Daten durch Unternehmen der künstlichen Intelligenz. Die News Media Alliance, die Verlage vertritt, kündigte diesen Monat in einem Papier an, dass Unternehmen Lizenzgebühren zahlen sollten, wenn sie die von ihren Mitgliedern erstellten Arbeiten zum Trainieren künstlicher Intelligenz nutzen.

Prashanth Chandrasekar, CEO von Stack Overflow, einer Frage-und-Antwort-Seite für Programmierer, sagte: „Was uns wirklich wichtig ist, ist der Besitz der Informationen.“ Das große Unternehmen für künstliche Intelligenz plant, für den Zugriff darauf Gebühren zu erheben Benutzergenerierte Inhalte auf der Website. „Die Stack Overflow-Community hat in den letzten 15 Jahren so viel Mühe darauf verwendet, Fragen zu beantworten, und wir möchten wirklich sicherstellen, dass die Mühe belohnt wird.“ Es gab bereits viele Dienste für künstliche Intelligenz, wie zum Beispiel Dall-E 2 von OpenAI, die durch Lernen Bilder erzeugen können, denen jedoch ein groß angelegter Diebstahl geistigen Eigentums vorgeworfen wird. Die Unternehmen, die diese Systeme entwickelt haben, sind derzeit in Rechtsstreitigkeiten wegen dieser Vorwürfe verwickelt. Der Kampf um KI-generierte Texte könnte sogar noch größer sein und nicht nur Fragen der Vergütung und Kreditwürdigkeit, sondern auch Datenschutzfragen betreffen.

Aber Emily M. Bender, Computerlinguistin an der University of Washington, glaubt, dass KI-Agenturen nach geltendem Recht nicht für ihre Handlungen verantwortlich sind.

Der Streit entsteht über die Art und Weise, wie Chatbots mit künstlicher Intelligenz entwickelt werden. Die Kernalgorithmen dieser Roboter werden als „große Sprachmodellalgorithmen“ bezeichnet. Sie müssen den Inhalt und die Art der menschlichen Sprache nachahmen, indem sie große Mengen vorhandener Sprachtextdaten absorbieren und verarbeiten. Diese Art von Daten unterscheidet sich von den Verhaltens- und persönlichen Informationen, die Dienste wie die Facebook-Muttergesellschaft Meta Platforms verwenden, um Anzeigen gezielt auszurichten, die wir aus dem Internet gewohnt sind.

Diese Daten werden von menschlichen Benutzern erstellt, die verschiedene Dienste nutzen, beispielsweise die Hunderte Millionen Beiträge, die von Reddit-Benutzern gepostet werden. Nur im Internet finden Sie eine ausreichend große Bibliothek künstlich erzeugter Vokabeln. Ohne sie wäre keine der heutigen chatbasierten KI- und verwandten Technologien erfolgreich.

Jesse Dodge, ein Forschungswissenschaftler am gemeinnützigen Allen Institute for Artificial Intelligence, stellte in einem 2021 veröffentlichten Artikel fest, dass in Wikipedia und unzähligen anderen Quellen von großen und kleinen Medienorganisationen urheberrechtlich geschützte Nachrichtenartikel zu finden sind Die am häufigsten verwendeten Webcrawler-Datenbanken. Sowohl Google als auch Facebook verwenden diesen Datensatz, um große Sprachmodelle zu trainieren, und OpenAI verwendet eine ähnliche Datenbank.

OpenAI gibt seine Datenquellen nicht mehr offen, aber laut einem vom Unternehmen aus dem Jahr 2020 veröffentlichten Papier verwendet sein großes Sprachmodell Beiträge, die von Reddit stammen, um die zum Training seiner künstlichen Intelligenzdaten verwendeten Daten zu filtern und zu verbessern .

Tim Rathschmidt, ein Sprecher von Reddit, sagte, es sei ungewiss, wie viel Einnahmen es durch die Erhebung von Gebühren für den Zugriff auf seine Daten von Unternehmen erzielen würde, glaubte jedoch, dass Daten dazu beitragen können, den heutigen Stand der Technik zu verbessern. Kunst große Sprachmodelle.

Berichten zufolge haben Führungskräfte der Verlagsbranche Folgendes untersucht: Inwieweit werden ihre Inhalte zum Trainieren von ChatGPT und anderen Tools für künstliche Intelligenz verwendet? Wie sollten sie ihrer Meinung nach entschädigt werden? Und mit welchen Gesetzen können sie ihre Rechte verteidigen? Danielle Coffey, General Counsel der Organisation, sagte jedoch, dass bisher mit keinem der Eigentümer großer KI-Chat-Engines (wie Google, OpenAI, Microsoft usw.) eine Einigung darüber erzielt wurde, dass sie einen Teil davon bezahlen Die Trainingsdaten stammen von Mitgliedern der News Media Alliance.

Twitter reagierte nicht auf eine Anfrage nach einem Kommentar. Microsoft lehnte eine Stellungnahme ab. Ein Google-Sprecher sagte: „Wir helfen seit langem YouTubern und Verlegern dabei, ihre Inhalte zu monetarisieren und die Beziehungen zu ihrem Publikum zu stärken. Im Einklang mit unseren KI-Grundsätzen werden wir dies weiterhin auf verantwortungsvolle und ethische Weise tun.“ „Es ist noch früh.“ „Tage“, sagte der Sprecher, und Google sucht nach Anregungen zum Aufbau künstlicher Intelligenz, die dem offenen Web zugute kommt.

Rechtlicher und ethischer Sumpf

Das Kopieren von im offenen Web verfügbaren Daten (auch als Scraping bekannt) ist unter bestimmten Umständen legal, obwohl Unternehmen immer noch die Einzelheiten ausarbeiten, wie und wann sie dies tun dürfen. Es gab endlose Debatten .

Die meisten Unternehmen und Organisationen sind bereit, ihre Daten online zu stellen, weil sie möchten, dass die Daten von Suchmaschinen entdeckt und indiziert werden, damit Menschen den Inhalt leicht finden können. Das Kopieren dieser Daten zum Trainieren künstlicher Intelligenz und das Ersetzen der Suche nach der Originalquelle ist jedoch etwas völlig anderes.

Der Computerlinguist Bender sagte, dass Technologieunternehmen, die Informationen aus dem Internet sammeln, um künstliche Intelligenz zu trainieren, nach dem Prinzip arbeiten: „Wir können es akzeptieren, deshalb gehört es uns.“ Durch das Konvertieren von Text (einschließlich Büchern, Zeitschriftenartikeln, Aufsätzen in persönlichen Blogs, Patenten, wissenschaftlichen Arbeiten und Wikipedia-Inhalten) in Chatbot-Antworten werden Links zur Quelle des Materials entfernt. Außerdem wird es für Benutzer schwieriger zu überprüfen, was der Bot ihnen sagt. Dies ist ein großes Problem für Systeme, die oft lügen.

Diese groß angelegten Kratzer stehlen auch unsere persönlichen Daten. Common Crawl ist eine gemeinnützige Organisation, die seit mehr als einem Jahrzehnt riesige Mengen an Inhalten im offenen Web durchsucht und ihre Datenbank Forschern kostenlos zur Verfügung stellt. Die Datenbank von Common Crawl dient auch als Ausgangspunkt für Unternehmen, die künstliche Intelligenz trainieren möchten, darunter Google, Meta, OpenAI und andere.

Sebastian Nagel, Datenwissenschaftler und Ingenieur bei Common Crawl, sagte, dass ein Blog-Beitrag, den Sie vor einigen Jahren geschrieben haben, obwohl er inzwischen gelöscht wurde, möglicherweise noch für die OpenAI-Nutzung existiert. In seinen Trainingsdaten verwendet das Unternehmen Webinhalte von vor Jahren, um seine künstliche Intelligenz zu trainieren.

Im Gegensatz zu Suchindizes von Google und Microsoft erfordert das Entfernen persönlicher Informationen aus trainierter KI eine Neuschulung des gesamten Modells, sagte Bender. Da die Kosten für die Neuschulung eines großen Sprachmodells sehr hoch sein können, sagte Dodge außerdem, dass das Unternehmen dies wahrscheinlich nicht tun wird, selbst wenn Benutzer nachweisen können, dass personenbezogene Daten zum Trainieren künstlicher Intelligenz verwendet wurden. Aufgrund der enormen erforderlichen Rechenleistung kann das Trainieren solcher Modelle mehrere zehn Millionen Dollar kosten.

Aber Dodge fügte hinzu, dass es in den meisten Fällen auch schwierig wäre, eine KI auf einen Datensatz zu trainieren, der persönliche Informationen enthält, um diese Informationen wiederzugeben. OpenAI sagte, es habe sein Chat-basiertes System angepasst, um Anfragen nach persönlichen Daten abzulehnen. Die Regierungen der Europäischen Union und der USA erwägen neue Gesetze und Vorschriften zur Regelung dieser Art künstlicher Intelligenz.

Rechenschaftspflicht und Gewinnbeteiligung

Einige Befürworter der KI glauben, dass KI Zugriff auf alle Daten haben sollte, die ihre Ingenieure erhalten können, weil Menschen auf diese Weise lernen. Logischerweise, warum sollte eine Maschine das nicht tun?

Bender sagte, abgesehen von der Tatsache, dass künstliche Intelligenz derzeit nicht mit Menschen identisch sei, gebe es ein Problem mit der oben genannten Sichtweise, das heißt, nach geltendem Recht könne künstliche Intelligenz nicht für ihr eigenes Handeln verantwortlich sein. Menschen, die die Arbeit anderer plagiieren oder versuchen, Fehlinformationen als Wahrheit umzuverpacken, können mit schwerwiegenden Konsequenzen rechnen, aber eine Maschine und ihre Schöpfer tragen nicht die gleiche Verantwortung.

Natürlich muss das nicht immer der Fall sein. So wie der Urheberrechtsinhaber Getty bildgenerierende KI-Unternehmen wegen der Verwendung ihres geistigen Eigentums als Trainingsdaten verklagt hat, werden Unternehmen und andere Organisationen wahrscheinlich die Hersteller chatbasierter KI verklagen, wenn sie ihre Inhalte ohne Genehmigung verwenden, es sei denn, sie stimmen zu zu einem Haftbefehl.

Diese persönlichen Aufsätze, die von unzähligen Menschen geschrieben wurden, sowie Beiträge, die in obskuren Foren und verschwundenen sozialen Netzwerken gepostet wurden, und alle möglichen anderen Dinge können die heutigen Chatbots wirklich zum Schreiben befähigen. Der einzige Nutzen, den die Ersteller dieser Inhalte daraus vielleicht ziehen können, ist, dass sie mit ihrem Sprachgebrauch etwas zur Kultivierung von Chatbots beigetragen haben.

Das obige ist der detaillierte Inhalt vonChatbots verdauen das Internet und das Internet will die Früchte ernten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

overflow 算法数据库人工智能 chatgpt bard 搜索引擎

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Die KI-Prüfung und die öffentliche Prüfung stehen vor der Tür! Das chinesische Team von Microsoft veröffentlicht den neuen Benchmark AGIEval, der speziell für Untersuchungen am Menschen entwickelt wurdeNächster Artikel：Die KI-Prüfung und die öffentliche Prüfung stehen vor der Tür! Das chinesische Team von Microsoft veröffentlicht den neuen Benchmark AGIEval, der speziell für Untersuchungen am Menschen entwickelt wurde

In Verbindung stehende Artikel

Mehr sehen