


Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug' töten?
Eine kleine Handarbeitswerkstatt ist letztendlich nicht mit dem Fließband der Fabrik zu vergleichen.
Wenn die aktuelle generative KI ein Kind ist, das kräftig wächst, dann sind die kontinuierlichen Daten die Nahrung, die sein Wachstum fördert.
Datenannotation ist der Prozess der Herstellung dieses „Lebensmittels“
Allerdings ist dieser Prozess wirklich mühsam und ermüdend.
Der „Annotator“, der Anmerkungen durchführt, muss nicht nur wiederholt verschiedene Objekte, Farben, Formen usw. im Bild identifizieren, sondern manchmal sogar die Daten bereinigen und vorverarbeiten.
Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz werden die Grenzen der manuellen Datenanmerkung immer deutlicher. Manuelle Datenanmerkungen kosten nicht nur Zeit und Mühe, sondern manchmal ist es auch schwierig, die Qualität sicherzustellen
Um diese Probleme zu lösen, hat Google kürzlich eine Methode namens AI Feedback Reinforcement Learning (RLAIF) vorgeschlagen, bei der große Modelle verwendet werden, um Menschen für die Präferenzanmerkung zu ersetzen.
Forschungsergebnisse zeigen, dass RLAIF vergleichbare Verbesserungen wie Reinforcement Learning with Human Feedback (RLHF) erzielen kann, ohne auf menschliche Anmerkungen angewiesen zu sein, und die Erfolgsquote bei beiden beträgt 50 %. Darüber hinaus ergab die Studie, dass sowohl RLAIF als auch RLHF der Basisstrategie des Supervised Fine-Tuning (SFT) überlegen sind
Diese Ergebnisse zeigen, dass RLAIF nicht auf manuelle Annotation angewiesen ist und eine praktikable Alternative zu RLHF darstellt.
Wenn diese Technologie in Zukunft wirklich umfassend gefördert und populär gemacht wird, werden dann viele Unternehmen, die bei der Datenanmerkung auf manuelle „Pulling Boxes“ angewiesen sind, in eine verzweifelte Situation geraten?
01 Aktueller Status der Datenanmerkung
Wenn wir den aktuellen Stand der inländischen Annotationsbranche einfach zusammenfassen wollen, ist das so: Die Arbeitsbelastung ist groß, aber die Effizienz ist nicht sehr hoch, und es ist ein undankbarer Zustand.
Markierte Unternehmen werden im KI-Bereich als Datenfabriken bezeichnet und konzentrieren sich normalerweise auf Gebiete mit reichen Humanressourcen wie Südostasien, Afrika oder Chinas Henan, Shanxi und Shandong.
Um die Kosten zu senken, werden die Chefs des Etikettierungsunternehmens einen Raum im Landkreis anmieten, um Computerausrüstung unterzubringen. Sobald eine Bestellung vorliegt, werden in der Nähe Teilzeitkräfte eingestellt, die diese bearbeiten. Wenn keine Bestellungen vorliegen, werden sie aufgelöst und eine Pause eingelegt
Vereinfacht ausgedrückt ähnelt diese Art von Arbeit ein wenig den temporären Dekorationsarbeitern am Straßenrand.
Danach muss der „Annotator“ zunächst markieren, zu welchem Typ die Frage gehört, und dann die Antworten bewerten und sortieren.
Wenn früher über die Kluft zwischen inländischen Großmodellen und fortgeschrittenen Großmodellen wie GPT-4 gesprochen wurde, fassten sie die Gründe für die geringe Qualität inländischer Daten zusammen.
Warum ist die Datenqualität nicht hoch? Ein Teil des Grundes liegt in der „Pipeline“ der Datenannotation
Derzeit gibt es zwei Arten von Datenquellen für chinesische Großmodelle: eine sind Open-Source-Datensätze, die andere sind chinesische Internetdaten, die durch Crawler gecrawlt werden.
Einer der Hauptgründe, warum die Leistung chinesischer Großmodelle nicht gut genug ist, ist die Qualität der Internetdaten. Profis nutzen beispielsweise Baidu bei der Informationssuche im Allgemeinen nicht.
Aber zu diesem Zeitpunkt tritt das Problem erneut auf: Für professionelle Teams ist nicht nur die Amortisationszeit für Daten lang, sondern es ist auch wahrscheinlich, dass First Mover Verluste erleiden.
Zum Beispiel hat ein bestimmtes Annotationsteam viel Geld und Zeit ausgegeben, um viele Daten zu erstellen, während andere sie möglicherweise einfach verpacken und für einen kleinen Geldbetrag kaufen.
Angesichts dieses „Trittbrettfahrer-Dilemmas“ sind viele große inländische Modelle in eine seltsame Situation geraten, in der zwar viele Daten vorhanden sind, deren Qualität jedoch nicht hoch ist
Wie lösen in diesem Fall einige der führenden ausländischen KI-Unternehmen wie OpenAI dieses Problem?
Zum Beispiel wurde zuvor bekannt, dass das Unternehmen eine große Anzahl kenianischer Arbeiter eingestellt hatte, um giftige Informationen zu einem Preis von 2 US-Dollar pro Stunde zu kennzeichnen.
Der wichtige Unterschied besteht jedoch darin, wie die Probleme der Datenqualität und Annotationseffizienz gelöst werden können
Der größte Unterschied zwischen OpenAI und inländischen Unternehmen besteht in dieser Hinsicht insbesondere darin, wie die Auswirkungen der „Subjektivität“ und „Instabilität“ der manuellen Annotation verringert werden können.
02 Der Ansatz von OpenAI Beim Umschreiben des Inhalts muss die Sprache ins Chinesische umgeschrieben werden und der Originalsatz muss nicht erscheinen
Um die „Subjektivität“ und „Instabilität“ solcher menschlichen Annotatoren zu verringern, verfolgt OpenAI grob zwei Hauptstrategien:
1. Kombination aus künstlichem Feedback und verstärkendem Lernen
Beim Umschreiben muss der Originalinhalt ins Chinesische konvertiert werden. So sieht es nach dem Umschreiben aus: Lassen Sie uns zunächst über die Kennzeichnung sprechen. Der größte Unterschied zwischen dem künstlichen Feedback von OpenAI und dem heimischen Feedback besteht darin, dass es hauptsächlich das Verhalten des intelligenten Systems sortiert oder bewertet, anstatt seine Ausgabe zu modifizieren oder zu kennzeichnen
Das Verhalten eines intelligenten Systems bezieht sich auf eine Reihe von Aktionen oder Entscheidungen, die ein intelligentes System in einer komplexen Umgebung auf der Grundlage seiner eigenen Ziele und Strategien trifft
Zum Beispiel Spiele spielen, Roboter steuern, mit Menschen sprechen usw.
Der Output eines intelligenten Systems bezieht sich auf die Generierung eines Ergebnisses oder einer Antwort basierend auf Eingabedaten in einer einfachen Aufgabe, wie zum Beispiel dem Schreiben eines Artikels oder dem Zeichnen eines Gemäldes.
Generell lässt sich das Verhalten intelligenter Systeme oft nur schwer nach „richtig“ oder „falsch“ beurteilen, sondern muss eher nach Präferenz oder Zufriedenheit beurteilt werden
Diese Art von Bewertungssystem, das auf „Präferenz“ oder „Zufriedenheit“ basiert, erfordert keine Änderung oder Annotation spezifischer Inhalte, wodurch der Einfluss menschlicher Subjektivität, Wissensstand und anderer Faktoren auf die Qualität und Genauigkeit der Datenannotation verringert wird
Es ist wahr, dass inländische Unternehmen bei der Kennzeichnung auch Systeme verwenden werden, die dem „Sortieren“ und „Scoring“ ähneln. Aufgrund des Fehlens eines „Belohnungsmodells“ wie OpenAI als Belohnungsfunktion zur Optimierung der Strategie des intelligenten Systems. Eine solche „Sortierung“ und „Bewertung“ ist immer noch im Wesentlichen eine Methode zur Änderung oder Kennzeichnung der Ausgabe.
2. Diversifizierte und groß angelegte Datenquellenkanäle
Die Hauptquellen für die Datenannotation in China sind externe Annotationsunternehmen oder selbst zusammengestellte Teams von Technologieunternehmen. Diese Teams bestehen größtenteils aus Studenten und verfügen nicht über ausreichende Professionalität und Erfahrung, um qualitativ hochwertiges und effizientes Feedback zu geben.
Im Gegensatz dazu wird das menschliche Feedback von OpenAI über mehrere Kanäle und Teams eingeholt
OpenAI kooperiert mit mehreren Datenunternehmen und -institutionen wie Scale AI, Appen, Lionbridge AI usw. und nutzt nicht nur Open-Source-Datensätze und Internet-Crawler zur Datenbeschaffung, sondern engagiert sich auch für die Beschaffung vielfältigerer und qualitativ hochwertigerer Daten
Die Kennzeichnungsmethoden dieser Datenunternehmen und -institutionen sind „automatisierter“ und „intelligenter“ als ihre inländischen Pendants
Zum Beispiel nutzt Scale AI eine Technologie namens Snorkel, eine Datenkennzeichnungsmethode, die auf schwach überwachtem Lernen basiert und hochwertige Kennzeichnungen aus mehreren ungenauen Datenquellen generieren kann.
Gleichzeitig kann Snorkel auch eine Vielzahl von Signalen wie Regeln, Modelle und Wissensdatenbanken verwenden, um Daten Beschriftungen hinzuzufügen, ohne dass jeder Datenpunkt manuell direkt beschriftet werden muss. Dadurch können Kosten und Zeit für manuelle Anmerkungen erheblich reduziert werden.
Da die Kosten für die Datenannotation gesenkt und der Zyklus verkürzt werden, können diese Datenunternehmen mit Wettbewerbsvorteilen hochwertige, schwierige und hochschwellige Unterteilungen wie autonomes Fahren, große Sprachmodelle, synthetische Daten usw. kontinuierlich auswählen Verbessern Sie die eigene Kernwettbewerbsfähigkeit und differenzierte Vorteile
Auf diese Weise wurde auch das Trittbrettfahrer-Dilemma „First Mover werden leiden“ durch starke technische und branchenspezifische Barrieren beseitigt.
Vergleich zwischen Standardisierung und kleinen Werkstätten
Es ist ersichtlich, dass die KI-Technologie zur automatischen Etikettierung nur diejenigen Etikettierungsunternehmen wirklich eliminieren wird, die noch eine rein manuelle Etikettierung verwenden.
Obwohl die Datenannotation nach einer „arbeitsintensiven“ Branche klingt, werden Sie, sobald Sie sich mit den Details befassen, feststellen, dass die Suche nach qualitativ hochwertigen Daten keine leichte Aufgabe ist.
Vertreten durch Scale AI, das Einhorn der Datenannotation im Ausland, nutzt Scale AI nicht nur billige Arbeitskräfte aus Afrika und anderen Ländern, sondern rekrutiert auch Dutzende von Doktoranden, die sich mit professionellen Daten in verschiedenen Branchen befassen.
Der größte Wert, den Scale AI großen Modellunternehmen wie OpenAI bietet, ist die Qualität der Datenannotation
Um die Datenqualität bestmöglich zu gewährleisten, ist neben dem bereits erwähnten Einsatz von KI-gestützter Annotation Eine weitere große Innovation von Scale AI eine einheitliche Datenplattform.
Diese Plattformen umfassen Scale Audit, Scale Analytics, ScaleData Quality usw. Über diese Plattformen können Kunden verschiedene Indikatoren im Annotationsprozess überwachen und analysieren, die Annotationsdaten überprüfen und optimieren sowie die Genauigkeit, Konsistenz und Vollständigkeit der Annotation bewerten.
Man kann sagen, dass solche standardisierten und einheitlichen Werkzeuge und Prozesse zu einem Schlüsselfaktor bei der Unterscheidung von „Fließbandfabriken“ und „Handwerkstätten“ in Etikettierunternehmen geworden sind.
In diesem Zusammenhang verwenden die meisten inländischen Annotationsunternehmen immer noch die „manuelle Überprüfung“, um die Qualität der Datenannotation zu überprüfen. Nur wenige Giganten wie Baidu haben fortschrittlichere Verwaltungs- und Bewertungstools wie die intelligente Datendienstplattform EasyData eingeführt.
Wenn es keine speziellen Tools zur Überwachung und Analyse von Annotationsergebnissen und -indikatoren gibt, kann die Datenqualitätskontrolle im Hinblick auf die Überprüfung wichtiger Daten nur auf manueller Erfahrung basieren. Diese Methode kann immer noch nur ein Workshop-ähnliches Niveau erreichen
Aus dieser Perspektive bedeutet das Aufkommen der Etikettierung mit künstlicher Intelligenz nicht das Ende inländischer Etikettierungsunternehmen, sondern das Ende der traditionellen ineffizienten, billigen und arbeitsintensiven Etikettierungsmethoden, denen es an technischem Inhalt mangelt
Das obige ist der detaillierte Inhalt vonWie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug' töten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Nutzung der Leistung der Datenvisualisierung mit Microsoft Power BI -Diagrammen In der heutigen datengesteuerten Welt ist es entscheidend, komplexe Informationen effektiv mit nicht-technischem Publikum zu kommunizieren. Die Datenvisualisierung schließt diese Lücke und transformiert Rohdaten i

Expertensysteme: Ein tiefes Eintauchen in die Entscheidungsfunktion der KI Stellen Sie sich vor, Zugang zu Expertenberatung zu irgendetwas, von medizinischen Diagnosen bis hin zur Finanzplanung. Das ist die Kraft von Expertensystemen in der künstlichen Intelligenz. Diese Systeme imitieren den Profi

Zunächst ist es offensichtlich, dass dies schnell passiert. Verschiedene Unternehmen sprechen über die Proportionen ihres Code, die derzeit von KI verfasst wurden, und diese nehmen mit einem schnellen Clip zu. Es gibt bereits viel Arbeitsplatzverschiebung

Die Filmindustrie befindet sich neben allen kreativen Sektoren vom digitalen Marketing bis hin zu sozialen Medien an einer technologischen Kreuzung. Als künstliche Intelligenz beginnt, jeden Aspekt des visuellen Geschichtenerzählens umzugestiegen und die Landschaft der Unterhaltung zu verändern

Der kostenlose KI/ML -Online -Kurs von ISRO: Ein Tor zu Geospatial Technology Innovation Die Indian Space Research Organization (ISRO) bietet durch ihr indisches Institut für Fernerkundung (IIRS) eine fantastische Gelegenheit für Studenten und Fachkräfte

Lokale Suchalgorithmen: Ein umfassender Leitfaden Die Planung eines groß angelegten Ereignisses erfordert eine effiziente Verteilung der Arbeitsbelastung. Wenn herkömmliche Ansätze scheitern, bieten lokale Suchalgorithmen eine leistungsstarke Lösung. In diesem Artikel wird Hill Climbing und Simul untersucht

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Der Chip Giant Nvidia sagte am Montag, es werde zum ersten Mal in den USA die Herstellung von KI -Supercomputern - Maschinen mit der Verarbeitung reichlicher Daten herstellen und komplexe Algorithmen ausführen. Die Ankündigung erfolgt nach Präsident Trump SI


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

VSCode Windows 64-Bit-Download
Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 Linux neue Version
SublimeText3 Linux neueste Version

Dreamweaver CS6
Visuelle Webentwicklungstools

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.