


Dies ist die Methode in der neuesten Veröffentlichung der Northeastern University und des MIT: Reflexion.
Dieser Artikel wurde mit Genehmigung von AI New Media Qubit (öffentliche Konto-ID: QbitAI) nachgedruckt. Bitte wenden Sie sich für einen Nachdruck an die Quelle.
GPT-4 entwickelt sich weiter!
Mit einer einfachen Methode können große Sprachmodelle wie GPT-4 lernen, sich selbst zu reflektieren, und die Leistung kann direkt um 30 % verbessert werden.
Vorher gab das große Sprachmodell falsche Antworten. Sie entschuldigten sich oft wortlos und machten dann weiter zufällige Vermutungen.
Mit der Hinzufügung neuer Methoden wird GPT-4 nicht nur darüber nachdenken, wo es schief gelaufen ist, sondern auch Verbesserungsstrategien aufzeigen.
Zum Beispiel wird automatisch analysiert, warum es „in einer Schleife feststeckt“:
Oder denken Sie über Ihre eigene fehlerhafte Suchstrategie nach:
Dies ist die Methode in der neuesten von der Northeastern University veröffentlichten Arbeit und MIT: Reflexion.
Nicht nur auf GPT-4 anwendbar, sondern auch auf andere große Sprachmodelle, sodass sie die einzigartige menschliche Reflexionsfähigkeit erlernen können.
Der Artikel wurde auf der Preprint-Plattform arxiv veröffentlicht.
Dies brachte die Internetnutzer direkt dazu zu sagen: „Die Geschwindigkeit der KI-Entwicklung hat unsere Anpassungsfähigkeit überschritten und wir werden zerstört.“
Einige Internetnutzer haben sogar eine „Jobwarnung“ an Entwickler gesendet:
Der Stundensatz für das Schreiben von Code mit dieser Methode ist günstiger als der für normale Entwickler.
Verwenden Sie den binären Belohnungsmechanismus, um Reflexion zu erreichen
Wie Internetnutzer sagten, ähnelt die Reflexionsfähigkeit, die GPT-4 durch Reflexion verliehen wird, dem menschlichen Denkprozess:
lässt sich in zwei Worten zusammenfassen: Feedback .
Dieser Feedback-Prozess kann in drei Hauptschritte unterteilt werden:
- 1. Bewertung: Testen der Genauigkeit der aktuell generierten Antworten
- 2. Generierung von Selbstreflexion: Fehlererkennung – Korrektur umsetzen
- 3. Führen Sie eine iterative Feedbackschleife durch
Im ersten Schritt des Bewertungsprozesses muss zunächst die Selbstbewertung des LLM (Large Language Model) durchgeführt werden.
Das heißt, LLM muss zunächst über die Antwort selbst nachdenken, wenn es kein externes Feedback gibt.
Wie mache ich Selbstreflexion?
Das Forschungsteam verwendet einen binären Belohnungsmechanismus, um den von LLM im aktuellen Zustand durchgeführten Operationen Werte zuzuweisen:
1 bedeutet, dass das generierte Ergebnis in Ordnung ist, und 0 bedeutet, dass das generierte Ergebnis nicht gut ist .
Der Grund, warum binär anstelle von beschreibenderen Belohnungsmechanismen wie mehrwertiger oder kontinuierlicher Ausgabe verwendet wird, hängt mit der Tatsache zusammen, dass keine externe Eingabe erfolgt.
Um Selbstreflexion ohne externes Feedback durchzuführen, muss die Antwort auf binäre Zustände beschränkt werden. Nur so kann das LLM gezwungen werden, sinnvolle Schlussfolgerungen zu ziehen.
Wenn nach der Selbstbewertung die Ausgabe des binären Belohnungsmechanismus 1 ist, wird das Selbstreflexionsgerät nicht aktiviert. Wenn sie 0 ist, schaltet das LLM den Reflexionsmodus ein.
Während des Reflexionsprozesses löst das Modell eine heuristische Funktion h aus (analog zum menschlichen Denkprozess spielt h die gleiche Rolle wie Überwachung).
Und ε stellt die maximale Anzahl von Operationen dar, die während des Reflexionsprozesses ausgeführt werden dürfen.
Da es Aufsicht gibt, muss auch Korrektur durchgeführt werden. Die Funktion des Korrekturprozesses ist wie folgt:
Dabei wird das Selbstreflexionsmodell durch „spezifische Domänen-Fehlertrajektorien“ und Ideale trainiert Reflexionspaare“ kommt und ermöglicht keinen Zugriff auf domänenspezifische Lösungen für ein bestimmtes Problem im Datensatz.
Auf diese Weise kann LLM im Reflexionsprozess zu mehr „innovativen“ Dingen kommen. Nach der Reflexion stieg die Leistung um fast 30 %Da LLMs wie GPT-4 Selbstreflexion durchführen können, was ist der spezifische Effekt? Das Forschungsteam hat diesen Ansatz anhand der Benchmarks ALFWorld und HotpotQA bewertet. Im HotpotQA-Test mit 100 Frage-Antwort-Paaren zeigte LLM mit der Reflexionsmethode enorme Vorteile. Nach mehreren Reflexionsrunden und wiederholten Fragen verbesserte sich die Leistung von LLM um fast 30 %. Ohne Reflexion gab es nach Wiederholung der Fragen und Antworten keine Leistungsveränderung.Das obige ist der detaillierte Inhalt vonDie GPT-4-Codierungsfähigkeit wurde um 21 % verbessert! Die neue Methode des MIT ermöglicht es LLM, das Reflektieren zu lernen, Netizen: Es ist die gleiche Art und Weise, wie Menschen denken. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

正值AAAI 2023论文截止提交之际,知乎上突然出现了一张AI投稿群的匿名聊天截图。其中有人声称,自己可以提供「3000块一个strong accept」的服务。爆料一出,顿时引起了网友们的公愤。不过,先不要着急。知乎大佬「微调」表示,这大概率只是「口嗨」而已。据「微调」透露,打招呼和团伙作案这个是任何领域都不能避免的问题。随着openreview的兴起,cmt的各种弊端也越来越清楚,未来留给小圈子操作的空间会变小,但永远会有空间。因为这是个人的问题,不是投稿系统和机制的问题。引入open r

刚刚,CVPR 2023发文称:今年,我们收到了创纪录的9155份论文(比CVPR2022增加了12%),并录用了2360篇论文,接收率为25.78%。据统计,CVPR的投稿量在2010-2016的7年间仅从1724增加到2145。在2017年后则迅速飙升,进入快速增长期,2019年首次突破5000,至2022年投稿数已达到8161份。可以看到,今年提交了共9155份论文确实创下了最高记录。疫情放开后,今年的CVPR顶会将在加拿大举行。今年采用单轨会议的形式,并取消了传统Oral的评选。谷歌研究

自 2017 年首次举办以来,CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL 是面向机器人学习研究的 single-track 会议,涵盖机器人学、机器学习和控制等多个主题,包括理论与应用。2022年的CoRL大会于12月14日至18日在新西兰奥克兰举行。本届大会共收到504篇投稿,最终接收34篇Oral论文、163篇Poster论文,接收率为39%。目前,CoRL 2022 公布了最佳论文奖、最佳系统论文奖、特别创新奖等全部奖项。宾夕法尼亚大学GRASP实验

用 ChatGPT 辅助写论文这件事,越来越靠谱了。 ChatGPT 发布以来,各个领域的从业者都在探索 ChatGPT 的应用前景,挖掘它的潜力。其中,学术文本的理解与编辑是一种极具挑战性的应用场景,因为学术文本需要较高的专业性、严谨性等,有时还需要处理公式、代码、图谱等特殊的内容格式。现在,一个名为「ChatGPT 学术优化(chatgpt_academic)」的新项目在 GitHub 上爆火,上线几天就在 GitHub 上狂揽上万 Star。项目地址:https://github.com/

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。面对ChatGPT,Nature终于坐不住了。本周,这家权威学术出版机构下场,针对ChatGPT代写学研文章、被列为作者等一系列问题,给了定性。具体来说,Nature列出两项原则:(1)任何大型语言模型工具(比如ChatGPT)都不能成为论文作者;(2)如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。现在,上述要求已经添进作者投稿指南中。近段时间,ChatGPT染指学研圈情况越来越多。去年1

在ChatGPT走红之后,很多关注技术的同学都在问一个问题:有没有什么学习资料可以让我们系统地了解ChatGPT背后的原理?由于OpenAI还没有发布ChatGPT相关论文,这一问题变得棘手起来。不过,从OpenAI关于ChatGPT的博客中我们知道,ChatGPT用到的方法和它的兄弟模型——InstructGPT一样,只不过InstructGPT是在GPT-3上微调的,而ChatGPT则是基于GPT-3.5。在数据收集工作上,二者也存在一些差别。博客链接:ht

一桩14年的悬案,至今仍然疑云重重。故事的主人公MarcTessier-Lavigne,如今斯坦福大学的校长,被自家日报「TheStanfordDaily」强烈指控学术造假。而校长在17号给所有斯坦福师生怒发邮件,急证自己的清白。Nature重磅研究,涉嫌「伪造数据」2009年,时任生物技术公司Genentech高管的MarcTessier-Lavigne与其他人合著了一篇论文,发表在Nature上。论文地址:https://pubmed.ncbi.nlm.nih.gov/19225519/这篇

高数考不好,不知道是多少人的噩梦。如果说你高数考得还不如AI好,是不是就更难以接受了?没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。这件事最近还登上了微博热搜。△“仅”得81分,对AI的期待也太高了吧现在,谷歌那边又传来了最新大消息:不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!看来在培养“AI做题家”这件事上,科技巨头们已经卷出了


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

Dreamweaver Mac
Visuelle Webentwicklungstools

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.
