Heim >Technologie-Peripheriegeräte >KI >Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

WBOY
WBOYnach vorne
2023-05-24 09:25:051738Durchsuche

Xi Xiaoyao Technology Talk Original
Autor |. Seling Mengjiang In den letzten Tagen hat unsere Community für öffentliche Accounts einen Screenshot mit dem Titel „SuperClue Review“ weitergeleitet. iFlytek hat es sogar auf seinem offiziellen Account beworben:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Da das iFlytek Spark-Modell gerade erst veröffentlicht wurde und ich es nicht viel gespielt habe, wage ich keine Aussage darüber, ob es wirklich das leistungsstärkste ist eines, das in China hergestellt wurde.

Aber im Screenshot dieser Bewertung kann Baidu Wenxinyiyan, das derzeit beliebteste inländische Modell, nicht einmal ein kleines akademisches Open-Source-Modell ChatGLM-6B schlagen. Dies steht nicht nur in ernsthaftem Widerspruch zu den eigenen Erfahrungen des Autors, sondern in unserer professionellen NLP-Technologie-Community äußerten auch alle Verwirrung:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Aus Neugier ging der Autor zu dieser Superclue-Liste Github, die ich sehen möchte wie diese Bewertungsschlussfolgerung gezogen wird: https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

Zunächst bemerkte der Autor, dass es bei diesem Repo einige Probleme gibt:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Es scheint dass dieses empörende Gefühl nicht nur vom Autor geteilt wird, sondern erwartungsgemäß die Augen des Publikums immer noch scharf sind. . .

Der Autor hat sich die Bewertungsmethode dieser Liste genauer angesehen:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Guter Kerl, es stellt sich heraus, dass es bei den sogenannten Tests großer generativer Modelle ausschließlich darum geht, das Modell zu bitten, Multiple-Choice-Fragen zu beantworten. . .

Offensichtlich zielt diese Multiple-Choice-Bewertungsmethode auf das diskriminierende KI-Modell in der BERT-Ära ab. Damals verfügte das KI-Modell im Allgemeinen nicht über die Fähigkeit zur Generierung, sondern nur zur Unterscheidung (z. B , es kann bestimmen, zu welcher Kategorie ein Text gehört (unter den Optionen Welche ist die richtige Antwort auf eine Frage, beurteilen, ob die Semantik zweier Texte konsistent ist usw.).

Die Bewertung generativer Modelle unterscheidet sich deutlich von der Bewertung diskriminierender Modelle.

Für eine spezielle Generierungsaufgabe wie die maschinelle Übersetzung werden beispielsweise Bewertungsindikatoren wie BLEU im Allgemeinen verwendet, um die „Vokabular- und Phrasenabdeckung“ zwischen den vom Modell generierten Antworten und den Referenzantworten zu ermitteln. Allerdings gibt es nur sehr wenige generative Aufgaben mit Referenzantworten wie maschinelle Übersetzung, und die überwiegende Mehrheit der generativen Auswertungen erfordert eine manuelle Auswertung.

Zum Beispiel erfordern Generierungsaufgaben wie die Generierung von Dialogen im Chat-Stil, die Übertragung von Textstilen, die Generierung von Kapiteln, die Generierung von Titeln und die Zusammenfassung von Texten, dass jedes Modell ausgewertet wird, um Antworten frei zu generieren, und dann die Qualität der von generierten Antworten manuell zu vergleichen Sie können diese verschiedenen Modelle verwenden oder manuell feststellen, ob die Aufgabenanforderungen erfüllt sind.

Bei der aktuellen Runde des KI-Wettbewerbs handelt es sich um einen Wettbewerb um Fähigkeiten zur Modellgenerierung, nicht um einen Wettbewerb um Fähigkeiten zur Modellunterscheidung. Das aussagekräftigste Kriterium für die Bewertung ist die echte Reputation des Benutzers und nicht mehr kalte akademische Listen. Darüber hinaus handelt es sich um eine Liste, in der die Funktionen zur Modellgenerierung überhaupt nicht getestet werden.

Rückblick auf die letzten Jahre –

Im Jahr 2019, als OpenAI GPT-2 veröffentlichte, häuften wir Tricks an, um die Rangliste aufzufrischen;

Im Jahr 2020, als OpenAI GPT-3 veröffentlichte, häuften wir Tricks an Aktualisieren Sie die Rangliste ;

In den Jahren 2021-2022, als Instruktionsoptimierung und RLHF-Arbeit wie FLAN, T0, InstructGPT usw. ausbrachen, haben wir immer noch viele Teams, die darauf bestehen, Tricks zu stapeln, um die Rangliste aufzufrischen...

Das hoffe ich dass wir in dieser Welle des generativen Modell-Wettrüstens nicht noch einmal dieselben Fehler machen.

Wie sollen generative KI-Modelle getestet werden?

Entschuldigung, ich habe bereits gesagt, dass es sehr, sehr schwierig ist, ein unvoreingenommenes Testen zu erreichen, sogar noch schwieriger, als selbst ein generatives Modell zu entwickeln. Was sind die Schwierigkeiten? Ein paar konkrete Fragen:

  • Wie teilt man die Bewertungsdimensionen auf? Durch Verständnis, Gedächtnis, Argumentation, Ausdruck? Nach Fachgebiet? Oder traditionelle generative NLP-Bewertungsaufgaben kombinieren?
  • Wie werden die Gutachter geschult? Wie rekrutiert man bei Testfragen mit extrem hohen beruflichen Anforderungen wie Codierung, Debugging, mathematischer Ableitung sowie finanziellen, rechtlichen und medizinischen Fragen und Antworten Testpersonen?
  • Wie definiere ich die Bewertungskriterien für sehr subjektive Testfragen (z. B. das Erstellen von Texten im Xiaohongshu-Stil)?
  • Kann das Stellen einiger allgemeiner Schreibfragen die Textgenerierungs-/Schreibfähigkeiten eines Models widerspiegeln?
  • Untersuchen Sie die Unterfunktionen des Modells zur Textgenerierung. Werden Kapitelgenerierung, Frage- und Antwortgenerierung, Übersetzung, Zusammenfassung und Stilübertragung abgedeckt? Sind die Proportionen jeder Aufgabe gleichmäßig? Sind die Bewertungskriterien klar? Statistisch signifikant?
  • Sind in der oben genannten Unteraufgabe zur Generierung von Fragen und Antworten alle vertikalen Kategorien wie Wissenschaft, medizinische Versorgung, Automobile, Mutter und Baby, Finanzen, Ingenieurwesen, Politik, Militär, Unterhaltung usw. abgedeckt? Ist das Verhältnis gleichmäßig?
  • Wie bewertet man Konversationsfähigkeiten? Wie gestaltet man die Inspektionsaufgaben hinsichtlich Konsistenz, Vielfalt, Thementiefe und Personifizierung des Dialogs?
  • Sind für denselben Fähigkeitstest einfache Fragen, Fragen mit mittlerem Schwierigkeitsgrad und komplexe Langzeitfragen abgedeckt? Wie definieren? Welche Anteile machen sie aus?

Dies sind nur einige grundlegende Probleme, die gelöst werden müssen. Im Prozess des tatsächlichen Benchmark-Designs müssen wir uns einer Vielzahl von Problemen stellen, die viel schwieriger sind als die oben genannten Probleme.

Daher fordert der Autor als KI-Praktiker alle dazu auf, die Rankings verschiedener KI-Modelle rational zu betrachten. Es gibt nicht einmal einen unvoreingenommenen Test-Benchmark. Was nützt dieses Ranking also?

Wie ich bereits sagte: Ob ein generatives Modell gut ist oder nicht, hängt von echten Benutzern ab.

Egal wie hoch ein Model auf einer Liste steht: Wenn es das Problem, das Ihnen am Herzen liegt, nicht lösen kann, wird es für Sie nur ein durchschnittliches Model sein. Mit anderen Worten: Wenn ein ganz unten stehendes Modell in dem Szenario, um das Sie sich Sorgen machen, sehr stark ist, dann ist es ein Schatzmodell für Sie.

Hier stellt der Autor einen Testsatz für harte Fälle (schwieriger Fall) vor, der von unserem Team bereichert und geschrieben wurde. Dieser Testsatz konzentriert sich auf die Fähigkeit des Modells, schwierige Probleme/Anweisungen zu lösen.

Dieser schwierige Testsatz konzentriert sich auf das Sprachverständnis des Modells, das Verstehen und Befolgen komplexer Anweisungen, die Texterstellung, die Generierung komplexer Inhalte, mehrere Dialogrunden, die Erkennung von Widersprüchen, das logische Denken, das mathematische Denken, das kontrafaktische Denken, die Identifizierung gefährlicher Informationen und rechtliche Aspekte Ethikbewusstsein, Kenntnisse der chinesischen Literatur, sprachübergreifende Fähigkeiten und Codierungsfähigkeiten usw.

Ich betone noch einmal, dass es sich hierbei um einen Fallsatz handelt, der vom Team des Autors erstellt wurde, um die Fähigkeit des generativen Modells zu testen, schwierige Beispiele zu lösen. Die Bewertungsergebnisse können nur darstellen, „welches Modell sich für das Team des Autors besser anfühlt“, ganz im Gegenteil ein unvoreingenommenes Testergebnis. Wenn Sie ein unvoreingenommenes Testergebnis wünschen, beantworten Sie bitte zuerst die oben genannten Bewertungsfragen und definieren Sie dann einen verbindlichen Test-Benchmark.

Freunde, die selbst bewerten und verifizieren möchten, können auf das Passwort [KI-Bewertung] im Hintergrund dieses öffentlichen Kontos „Xi Xiaoyao Technology“ antworten, um die Testdatei herunterzuladen

Das Folgende sind die umstrittensten Nachrichten in der Superclue-Liste Bewertungsergebnisse von drei Modellen: Feixinghuo, Wenxinyiyan und ChatGPT:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Lösungsrate für schwierige Fälle:

  • ChatGPT (GPT-3.5-turbo): 11/24=45,83 %
  • Wen Xinyiyan (Version 2023.5.10): 13/24=54,16 %
  • iFlytek Spark (Version 2023.5.10): 7/24=29,16 %

Dies soll beweisen, dass iFlytek Spark nicht so gut ist wie Wen Ein Wort Aus deinem Herzen? Wenn Sie den vorherigen Artikel sorgfältig lesen, werden Sie verstehen, was der Autor sagen möchte.

Obwohl das Spark-Modell in diesem schwierigen Fall-Set innerhalb unseres Teams nicht so gut ist wie Wen Xinyiyan, bedeutet dies nicht, dass eines insgesamt definitiv besser ist als das andere. Es bedeutet nur, dass es im schwierigen Fall-Test-Set innerhalb unseres Teams ist Unser Team, Wenxinyiyan, hat die beste Leistung erbracht und sogar zwei schwierigere Fälle gelöst als ChatGPT.

Bei einfachen Fragen gibt es eigentlich keinen großen Unterschied zwischen dem Inlandsmodell und ChatGPT. Bei schwierigen Problemen hat jedes Modell seine eigenen Stärken. Nach der umfassenden Erfahrung des Autorenteams reicht Wen Xinyiyan aus, um Open-Source-Modelle wie ChatGLM-6B für akademische Tests zu schlagen. Einige Funktionen sind ChatGPT unterlegen, andere übertreffen ChatGPT.

Das Gleiche gilt für inländische Modelle anderer großer Hersteller wie Alibaba Tongyi Qianwen und iFlytek Spark.

Es ist immer noch derselbe Satz, jetzt gibt es nicht einmal einen unvoreingenommenen Test-Benchmark, was nützt also Ihr Model-Ranking?

Anstatt verschiedene voreingenommene Rankings zu diskutieren, ist es besser, einen Testsatz zu erstellen, der Ihnen am Herzen liegt, wie es mein Team getan hat.

Ein Modell, das Ihr Problem lösen kann, ist ein gutes Modell.

Das obige ist der detaillierte Inhalt vonBaidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen