Heim >Technologie-Peripheriegeräte >KI >Der weltweite Bestand an qualitativ hochwertigen Sprachdaten ist knapp und kann nicht ignoriert werden.
Als eines der drei Elemente der künstlichen Intelligenz spielen Daten eine wichtige Rolle.
Aber haben Sie schon einmal darüber nachgedacht: Was wäre, wenn eines Tages alle Daten der Welt zur Neige gehen würden?
Eigentlich hat die Person, die diese Frage gestellt hat, definitiv kein psychisches Problem, denn dieser Tag kommt vielleicht wirklich bald! ! !
Kürzlich veröffentlichten der Forscher Pablo Villalobos und andere einen Artikel mit dem Titel „Werden uns die Daten ausgehen?“ Der Artikel „Analysis of the Limitations of Dataset Scaling in Machine Learning“ wurde auf arXiv veröffentlicht.
Basierend auf früheren Analysen der Datensatzgrößentrends sagten sie das Wachstum der Datensatzgrößen in den Bereichen Sprache und Sehen voraus und schätzten den Entwicklungstrend des Gesamtbestands verfügbarer unbeschrifteter Daten in den nächsten Jahrzehnten.
Ihre Forschung zeigt, dass hochwertige Sprachdaten bereits im Jahr 2026 erschöpft sein werden! Dadurch wird sich auch die Geschwindigkeit der maschinellen Lernentwicklung verlangsamen. Es ist wirklich nicht optimistisch.
Das Forschungsteam dieses Papiers besteht aus 11 Forschern und 3 Beratern mit Mitgliedern aus der ganzen Welt, die sich dafür einsetzen, die Lücke zwischen der Entwicklung der KI-Technologie und zu schließen KI-Strategie und Beratung wichtiger Entscheidungsträger im Bereich KI-Sicherheit.
Chinchilla ist ein neues Predictive-Computing-Optimierungsmodell, das von Forschern bei DeepMind vorgeschlagen wurde.
Tatsächlich wies ein Forscher bei früheren Experimenten mit Chinchilla einmal darauf hin, dass „Trainingsdaten bald zu einem Engpass bei der Erweiterung großer Sprachmodelle werden.“
Also analysierten sie das Wachstum der Datensatzgrößen für maschinelles Lernen für die Verarbeitung natürlicher Sprache und Computer Vision und verwendeten zwei Methoden zur Extrapolation: die Verwendung historischer Wachstumsraten und die Berechnung optimaler Schätzungen der Rechenbudgets für zukünftige Prognosen. Datensatzgröße.
Zuvor haben sie Daten zu Eingabetrends beim maschinellen Lernen, einschließlich einiger Trainingsdaten, gesammelt und auch das Wachstum der Datennutzung untersucht, indem sie den Gesamtbestand an unbeschrifteten Daten geschätzt haben, die in den nächsten Jahrzehnten im Internet verfügbar sind.
Da historische Vorhersagetrends aufgrund des abnormalen Wachstums des Rechenvolumens im letzten Jahrzehnt möglicherweise „irreführend“ sind, nutzte das Forschungsteam auch das Chinchilla-Skalierungsgesetz, um die Größe des Datensatzes in den nächsten Jahren abzuschätzen Verbessern Sie die Genauigkeit der Berechnungsergebnisse.
Letztendlich verwendeten die Forscher eine Reihe probabilistischer Modelle, um den Gesamtbestand an englischen Sprach- und Bilddaten in den nächsten Jahren abzuschätzen, und verglichen die Vorhersagen zur Trainingsdatensatzgröße und zum Gesamtdatenbestand. Die Ergebnisse sind in der Abbildung dargestellt unten.
Dies zeigt, dass die Wachstumsrate des Datensatzes viel schneller sein wird als der Datenbestand.
Sollte sich der aktuelle Trend fortsetzen, wird es daher unumgänglich sein, dass der Datenbestand aufgebraucht wird. Die folgende Tabelle zeigt die mittlere Anzahl der Jahre bis zur Erschöpfung an jedem Schnittpunkt der Prognosekurve.
Hochwertige Sprachdatenbestände könnten frühestens 2026 erschöpft sein.
Im Gegensatz dazu schneiden minderwertige Sprachdaten und Bilddaten etwas besser ab: Erstere werden zwischen 2030 und 2050 aufgebraucht sein, letztere zwischen 2030 und 2060.
Am Ende des Papiers kam das Forschungsteam zu dem Schluss, dass sich der Wachstumstrend von Modellen für maschinelles Lernen, die derzeit auf den ständig wachsenden riesigen Datensätzen basieren, wahrscheinlich verlangsamen wird, wenn die Dateneffizienz nicht wesentlich verbessert wird oder neue Datenquellen verfügbar sind runter.
Auf Reddit sagte ein Internetnutzer namens ktpr:
„Was ist falsch an selbstüberwachtem Lernen? Wenn die Aufgabe gut spezifiziert ist, kann sie sogar kombiniert werden, um die Datensatzgröße zu erweitern.“
Ein Internetnutzer namens lostmsn war noch unhöflicher. Er sagte unverblümt:
„Sie wissen nicht einmal etwas über Efficient Zero? Ich denke, der Autor ist ernsthaft am Puls der Zeit.“ Probe, entwickelt von Gao Yang von der Tsinghua-Universität Dr. vorgeschlagen.
Bei begrenztem Datenvolumen löste Efficient Zero das Leistungsproblem des Reinforcement Learning bis zu einem gewissen Grad und wurde am Atari Game, einem universellen Testbenchmark für Algorithmen, verifiziert.
Auf dem Blog des Autorenteams dieses Papiers gaben sogar sie selbst zu:
„Alle unsere Schlussfolgerungen basieren auf unrealistischen Annahmen über die aktuelle Nutzung und Produktion von maschinellen Lerndaten. Der Trend.“ wird ohne wesentliche Verbesserungen der Dateneffizienz fortgesetzt. „
“Ein zuverlässigeres Modell sollte die Verbesserung der Dateneffizienz des maschinellen Lernens, die Verwendung synthetischer Daten und andere algorithmische und wirtschaftliche Faktoren berücksichtigen.“ In praktischer Hinsicht weist diese Analyse also erhebliche Einschränkungen auf dass sich der Ausbau maschineller Lernmodelle deutlich verlangsamen wird.“
Das obige ist der detaillierte Inhalt vonDer weltweite Bestand an qualitativ hochwertigen Sprachdaten ist knapp und kann nicht ignoriert werden.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!