Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug' töten?-KI-php.cn

Heim

Technologie-Peripheriegeräte

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug' töten?

王林

Sep 20, 2023 pm 12:25 PM

谷歌KI-KennzeichnungViele KI

Eine kleine Handarbeitswerkstatt ist letztendlich nicht mit dem Fließband der Fabrik zu vergleichen.

Wenn die aktuelle generative KI ein Kind ist, das kräftig wächst, dann sind die kontinuierlichen Daten die Nahrung, die sein Wachstum fördert.

Datenannotation ist der Prozess der Herstellung dieses „Lebensmittels“

Allerdings ist dieser Prozess wirklich mühsam und ermüdend.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Der „Annotator“, der Anmerkungen durchführt, muss nicht nur wiederholt verschiedene Objekte, Farben, Formen usw. im Bild identifizieren, sondern manchmal sogar die Daten bereinigen und vorverarbeiten.

Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz werden die Grenzen der manuellen Datenanmerkung immer deutlicher. Manuelle Datenanmerkungen kosten nicht nur Zeit und Mühe, sondern manchmal ist es auch schwierig, die Qualität sicherzustellen

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Um diese Probleme zu lösen, hat Google kürzlich eine Methode namens AI Feedback Reinforcement Learning (RLAIF) vorgeschlagen, bei der große Modelle verwendet werden, um Menschen für die Präferenzanmerkung zu ersetzen.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Forschungsergebnisse zeigen, dass RLAIF vergleichbare Verbesserungen wie Reinforcement Learning with Human Feedback (RLHF) erzielen kann, ohne auf menschliche Anmerkungen angewiesen zu sein, und die Erfolgsquote bei beiden beträgt 50 %. Darüber hinaus ergab die Studie, dass sowohl RLAIF als auch RLHF der Basisstrategie des Supervised Fine-Tuning (SFT) überlegen sind

Diese Ergebnisse zeigen, dass RLAIF nicht auf manuelle Annotation angewiesen ist und eine praktikable Alternative zu RLHF darstellt.

Wenn diese Technologie in Zukunft wirklich umfassend gefördert und populär gemacht wird, werden dann viele Unternehmen, die bei der Datenanmerkung auf manuelle „Pulling Boxes“ angewiesen sind, in eine verzweifelte Situation geraten?

01 Aktueller Status der Datenanmerkung

Wenn wir den aktuellen Stand der inländischen Annotationsbranche einfach zusammenfassen wollen, ist das so: Die Arbeitsbelastung ist groß, aber die Effizienz ist nicht sehr hoch, und es ist ein undankbarer Zustand.

Markierte Unternehmen werden im KI-Bereich als Datenfabriken bezeichnet und konzentrieren sich normalerweise auf Gebiete mit reichen Humanressourcen wie Südostasien, Afrika oder Chinas Henan, Shanxi und Shandong.

Um die Kosten zu senken, werden die Chefs des Etikettierungsunternehmens einen Raum im Landkreis anmieten, um Computerausrüstung unterzubringen. Sobald eine Bestellung vorliegt, werden in der Nähe Teilzeitkräfte eingestellt, die diese bearbeiten. Wenn keine Bestellungen vorliegen, werden sie aufgelöst und eine Pause eingelegt

Vereinfacht ausgedrückt ähnelt diese Art von Arbeit ein wenig den temporären Dekorationsarbeitern am Straßenrand.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Am Arbeitsplatz übergibt das System dem „Annotator“ nach dem Zufallsprinzip einen Datensatz, der in der Regel mehrere Fragen und mehrere Antworten umfasst.

Danach muss der „Annotator“ zunächst markieren, zu welchem Typ die Frage gehört, und dann die Antworten bewerten und sortieren.

Wenn früher über die Kluft zwischen inländischen Großmodellen und fortgeschrittenen Großmodellen wie GPT-4 gesprochen wurde, fassten sie die Gründe für die geringe Qualität inländischer Daten zusammen.

Warum ist die Datenqualität nicht hoch? Ein Teil des Grundes liegt in der „Pipeline“ der Datenannotation

Derzeit gibt es zwei Arten von Datenquellen für chinesische Großmodelle: eine sind Open-Source-Datensätze, die andere sind chinesische Internetdaten, die durch Crawler gecrawlt werden.

Einer der Hauptgründe, warum die Leistung chinesischer Großmodelle nicht gut genug ist, ist die Qualität der Internetdaten. Profis nutzen beispielsweise Baidu bei der Informationssuche im Allgemeinen nicht.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Daher ist es bei eher beruflichen und vertikalen Datenproblemen wie medizinischer Versorgung, Finanzen usw. notwendig, mit einem professionellen Team zusammenzuarbeiten.

Aber zu diesem Zeitpunkt tritt das Problem erneut auf: Für professionelle Teams ist nicht nur die Amortisationszeit für Daten lang, sondern es ist auch wahrscheinlich, dass First Mover Verluste erleiden.

Zum Beispiel hat ein bestimmtes Annotationsteam viel Geld und Zeit ausgegeben, um viele Daten zu erstellen, während andere sie möglicherweise einfach verpacken und für einen kleinen Geldbetrag kaufen.

Angesichts dieses „Trittbrettfahrer-Dilemmas“ sind viele große inländische Modelle in eine seltsame Situation geraten, in der zwar viele Daten vorhanden sind, deren Qualität jedoch nicht hoch ist

Wie lösen in diesem Fall einige der führenden ausländischen KI-Unternehmen wie OpenAI dieses Problem?

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

OpenAI hat den Einsatz billiger und intensiver Arbeitskräfte nicht aufgegeben, um die Kosten bei der Datenannotation zu senken

Zum Beispiel wurde zuvor bekannt, dass das Unternehmen eine große Anzahl kenianischer Arbeiter eingestellt hatte, um giftige Informationen zu einem Preis von 2 US-Dollar pro Stunde zu kennzeichnen.

Der wichtige Unterschied besteht jedoch darin, wie die Probleme der Datenqualität und Annotationseffizienz gelöst werden können

Der größte Unterschied zwischen OpenAI und inländischen Unternehmen besteht in dieser Hinsicht insbesondere darin, wie die Auswirkungen der „Subjektivität“ und „Instabilität“ der manuellen Annotation verringert werden können.

02 Der Ansatz von OpenAI Beim Umschreiben des Inhalts muss die Sprache ins Chinesische umgeschrieben werden und der Originalsatz muss nicht erscheinen

Um die „Subjektivität“ und „Instabilität“ solcher menschlichen Annotatoren zu verringern, verfolgt OpenAI grob zwei Hauptstrategien:

1. Kombination aus künstlichem Feedback und verstärkendem Lernen

Beim Umschreiben muss der Originalinhalt ins Chinesische konvertiert werden. So sieht es nach dem Umschreiben aus: Lassen Sie uns zunächst über die Kennzeichnung sprechen. Der größte Unterschied zwischen dem künstlichen Feedback von OpenAI und dem heimischen Feedback besteht darin, dass es hauptsächlich das Verhalten des intelligenten Systems sortiert oder bewertet, anstatt seine Ausgabe zu modifizieren oder zu kennzeichnen

Das Verhalten eines intelligenten Systems bezieht sich auf eine Reihe von Aktionen oder Entscheidungen, die ein intelligentes System in einer komplexen Umgebung auf der Grundlage seiner eigenen Ziele und Strategien trifft

Zum Beispiel Spiele spielen, Roboter steuern, mit Menschen sprechen usw.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Der Output eines intelligenten Systems bezieht sich auf die Generierung eines Ergebnisses oder einer Antwort basierend auf Eingabedaten in einer einfachen Aufgabe, wie zum Beispiel dem Schreiben eines Artikels oder dem Zeichnen eines Gemäldes.

Generell lässt sich das Verhalten intelligenter Systeme oft nur schwer nach „richtig“ oder „falsch“ beurteilen, sondern muss eher nach Präferenz oder Zufriedenheit beurteilt werden

Diese Art von Bewertungssystem, das auf „Präferenz“ oder „Zufriedenheit“ basiert, erfordert keine Änderung oder Annotation spezifischer Inhalte, wodurch der Einfluss menschlicher Subjektivität, Wissensstand und anderer Faktoren auf die Qualität und Genauigkeit der Datenannotation verringert wird

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Es ist wahr, dass inländische Unternehmen bei der Kennzeichnung auch Systeme verwenden werden, die dem „Sortieren“ und „Scoring“ ähneln. Aufgrund des Fehlens eines „Belohnungsmodells“ wie OpenAI als Belohnungsfunktion zur Optimierung der Strategie des intelligenten Systems. Eine solche „Sortierung“ und „Bewertung“ ist immer noch im Wesentlichen eine Methode zur Änderung oder Kennzeichnung der Ausgabe.

2. Diversifizierte und groß angelegte Datenquellenkanäle

Die Hauptquellen für die Datenannotation in China sind externe Annotationsunternehmen oder selbst zusammengestellte Teams von Technologieunternehmen. Diese Teams bestehen größtenteils aus Studenten und verfügen nicht über ausreichende Professionalität und Erfahrung, um qualitativ hochwertiges und effizientes Feedback zu geben.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Im Gegensatz dazu wird das menschliche Feedback von OpenAI über mehrere Kanäle und Teams eingeholt

OpenAI kooperiert mit mehreren Datenunternehmen und -institutionen wie Scale AI, Appen, Lionbridge AI usw. und nutzt nicht nur Open-Source-Datensätze und Internet-Crawler zur Datenbeschaffung, sondern engagiert sich auch für die Beschaffung vielfältigerer und qualitativ hochwertigerer Daten

Die Kennzeichnungsmethoden dieser Datenunternehmen und -institutionen sind „automatisierter“ und „intelligenter“ als ihre inländischen Pendants

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Zum Beispiel nutzt Scale AI eine Technologie namens Snorkel, eine Datenkennzeichnungsmethode, die auf schwach überwachtem Lernen basiert und hochwertige Kennzeichnungen aus mehreren ungenauen Datenquellen generieren kann.

Gleichzeitig kann Snorkel auch eine Vielzahl von Signalen wie Regeln, Modelle und Wissensdatenbanken verwenden, um Daten Beschriftungen hinzuzufügen, ohne dass jeder Datenpunkt manuell direkt beschriftet werden muss. Dadurch können Kosten und Zeit für manuelle Anmerkungen erheblich reduziert werden.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Da die Kosten für die Datenannotation gesenkt und der Zyklus verkürzt werden, können diese Datenunternehmen mit Wettbewerbsvorteilen hochwertige, schwierige und hochschwellige Unterteilungen wie autonomes Fahren, große Sprachmodelle, synthetische Daten usw. kontinuierlich auswählen Verbessern Sie die eigene Kernwettbewerbsfähigkeit und differenzierte Vorteile

Auf diese Weise wurde auch das Trittbrettfahrer-Dilemma „First Mover werden leiden“ durch starke technische und branchenspezifische Barrieren beseitigt.

Vergleich zwischen Standardisierung und kleinen Werkstätten

Es ist ersichtlich, dass die KI-Technologie zur automatischen Etikettierung nur diejenigen Etikettierungsunternehmen wirklich eliminieren wird, die noch eine rein manuelle Etikettierung verwenden.

Obwohl die Datenannotation nach einer „arbeitsintensiven“ Branche klingt, werden Sie, sobald Sie sich mit den Details befassen, feststellen, dass die Suche nach qualitativ hochwertigen Daten keine leichte Aufgabe ist.

Vertreten durch Scale AI, das Einhorn der Datenannotation im Ausland, nutzt Scale AI nicht nur billige Arbeitskräfte aus Afrika und anderen Ländern, sondern rekrutiert auch Dutzende von Doktoranden, die sich mit professionellen Daten in verschiedenen Branchen befassen.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Der größte Wert, den Scale AI großen Modellunternehmen wie OpenAI bietet, ist die Qualität der Datenannotation

Um die Datenqualität bestmöglich zu gewährleisten, ist neben dem bereits erwähnten Einsatz von KI-gestützter Annotation Eine weitere große Innovation von Scale AI eine einheitliche Datenplattform.

Diese Plattformen umfassen Scale Audit, Scale Analytics, ScaleData Quality usw. Über diese Plattformen können Kunden verschiedene Indikatoren im Annotationsprozess überwachen und analysieren, die Annotationsdaten überprüfen und optimieren sowie die Genauigkeit, Konsistenz und Vollständigkeit der Annotation bewerten.

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Man kann sagen, dass solche standardisierten und einheitlichen Werkzeuge und Prozesse zu einem Schlüsselfaktor bei der Unterscheidung von „Fließbandfabriken“ und „Handwerkstätten“ in Etikettierunternehmen geworden sind.

In diesem Zusammenhang verwenden die meisten inländischen Annotationsunternehmen immer noch die „manuelle Überprüfung“, um die Qualität der Datenannotation zu überprüfen. Nur wenige Giganten wie Baidu haben fortschrittlichere Verwaltungs- und Bewertungstools wie die intelligente Datendienstplattform EasyData eingeführt.

Wenn es keine speziellen Tools zur Überwachung und Analyse von Annotationsergebnissen und -indikatoren gibt, kann die Datenqualitätskontrolle im Hinblick auf die Überprüfung wichtiger Daten nur auf manueller Erfahrung basieren. Diese Methode kann immer noch nur ein Workshop-ähnliches Niveau erreichen

Wie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug töten?

Daher beginnen immer mehr chinesische Unternehmen wie Baidu, My Neighbor Totoro Data usw., maschinelles Lernen und Technologien der künstlichen Intelligenz zu nutzen, um die Effizienz und Qualität der Datenanmerkung zu verbessern und ein Modell der Mensch-Maschine-Zusammenarbeit zu realisieren

Aus dieser Perspektive bedeutet das Aufkommen der Etikettierung mit künstlicher Intelligenz nicht das Ende inländischer Etikettierungsunternehmen, sondern das Ende der traditionellen ineffizienten, billigen und arbeitsintensiven Etikettierungsmethoden, denen es an technischem Inhalt mangelt

Das obige ist der detaillierte Inhalt vonWie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug' töten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:搜狐. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die meisten verwendeten 10 Power BI -Diagramme - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Nutzung der Leistung der Datenvisualisierung mit Microsoft Power BI -Diagrammen In der heutigen datengesteuerten Welt ist es entscheidend, komplexe Informationen effektiv mit nicht-technischem Publikum zu kommunizieren. Die Datenvisualisierung schließt diese Lücke und transformiert Rohdaten i

Expertensysteme in KIApr 16, 2025 pm 12:00 PM

Expertensysteme: Ein tiefes Eintauchen in die Entscheidungsfunktion der KI Stellen Sie sich vor, Zugang zu Expertenberatung zu irgendetwas, von medizinischen Diagnosen bis hin zur Finanzplanung. Das ist die Kraft von Expertensystemen in der künstlichen Intelligenz. Diese Systeme imitieren den Profi

Drei der besten Vibe -Codierer brechen diese KI -Revolution im Code aufApr 16, 2025 am 11:58 AM

Zunächst ist es offensichtlich, dass dies schnell passiert. Verschiedene Unternehmen sprechen über die Proportionen ihres Code, die derzeit von KI verfasst wurden, und diese nehmen mit einem schnellen Clip zu. Es gibt bereits viel Arbeitsplatzverschiebung

Runway Ai's Gen-4: Wie kann eine Montage über Absurd hinausgehenApr 16, 2025 am 11:45 AM

Die Filmindustrie befindet sich neben allen kreativen Sektoren vom digitalen Marketing bis hin zu sozialen Medien an einer technologischen Kreuzung. Als künstliche Intelligenz beginnt, jeden Aspekt des visuellen Geschichtenerzählens umzugestiegen und die Landschaft der Unterhaltung zu verändern

Wie kann man sich 5 Tage lang anmelden. - Analytics VidhyaApr 16, 2025 am 11:43 AM

Der kostenlose KI/ML -Online -Kurs von ISRO: Ein Tor zu Geospatial Technology Innovation Die Indian Space Research Organization (ISRO) bietet durch ihr indisches Institut für Fernerkundung (IIRS) eine fantastische Gelegenheit für Studenten und Fachkräfte

Lokale Suchalgorithmen in KIApr 16, 2025 am 11:40 AM

Lokale Suchalgorithmen: Ein umfassender Leitfaden Die Planung eines groß angelegten Ereignisses erfordert eine effiziente Verteilung der Arbeitsbelastung. Wenn herkömmliche Ansätze scheitern, bieten lokale Suchalgorithmen eine leistungsstarke Lösung. In diesem Artikel wird Hill Climbing und Simul untersucht

OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und KosteneffizienzApr 16, 2025 am 11:37 AM

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Die Eingabeaufforderung: Chatgpt generiert gefälschte PässeApr 16, 2025 am 11:35 AM

Der Chip Giant Nvidia sagte am Montag, es werde zum ersten Mal in den USA die Herstellung von KI -Supercomputern - Maschinen mit der Verarbeitung reichlicher Daten herstellen und komplexe Algorithmen ausführen. Die Ankündigung erfolgt nach Präsident Trump SI

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software