


Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした
GPT-4 は 論文レビューを行うことができますか?
スタンフォード大学や他の大学の研究者が実際にテストしました。
彼らは、Nature、ICLR、その他のトップカンファレンスからの何千もの論文を GPT-4 に投げ込み、レビューコメント (修正提案などを含む) を生成させ、それらを人間によって与えられた意見を比較してください。
調査の結果、次のことが判明しました。
GPT-4 によって提案された意見の 50% 以上が、少なくとも 1 人の人間の査読者と一致しています。
著者の 82.4% 以上が、GPT-4 によって提供された意見が非常に役立つと感じています
この研究がどのような啓発をもたらすか私たち? ?
結論は次のとおりです:
高品質な人間によるフィードバックに代わるものはまだありませんが、GPT-4 は著者が 正式な査読前に初稿を改善するのに役立ちます。
自動パイプラインを作成しました。 #####。 PDF 形式の論文全体を分析し、タイトル、要約、図、表のタイトル、その他のコンテンツを抽出してプロンプトを作成します
その後、GPT-4 にレビュー コメントを提供させます。 このうち、意見は各トップカンファレンスの基準と同じであり、次の 4 つの部分から構成されています。 研究の重要性と新規性、および受理または承認の可能性がある理由拒否と改善の提案具体的な実験は
最初に定量的な実験を行います:
既存の論文を読み、フィードバックを生成し、実際の人間の意見と系統的に比較して重複部分を特定します。パートここで、チームは Nature の本号と主要なサブジャーナルから 3096 件の記事と、ICLR Machine Learning Conference (昨年と今年を含む)
から 1709 件の記事を選択し、合計 4805 件を選択しました。記事。 そのうち、Nature の論文には合計 8,745 件の人による査読コメントが含まれ、ICLR 会議には 6,506 件のコメントが含まれていました。
GPT-4 が意見を出した後、パイプラインは一致リンクで人間の引数と GPT-4 の引数をそれぞれ抽出し、セマンティック テキスト マッチングを実行して重複する引数を見つけます。 GPT-4 意見の妥当性と信頼性を測定するために使用されます。
結果は次のとおりです:
1. GPT-4 の意見は人間の査読者の実際の意見とかなり重複しています
全体として、Nature 論文では次のように述べられています。 GPT-4 では 57.55% の意見が少なくとも 1 人の人間の査読者と一致していますが、ICLR ではこの数字は 77.18% にも上ります。
GPT-4 を各レビュー担当者の意見とさらに注意深く比較した結果、チームは次のことを発見しました。
GPT-4 は、 Nature 論文 重複率は人間の査読者では 30.85%、ICLR では 39.23% に低下しました。
さらに、論文の成績レベルも分析しました
(口頭発表、スポットライト、または直接拒否)次のことが判明しました:
これは、GPT-4 が高い識別能力を持ち、品質の悪い論文を識別できることを示しています。
著者も正式に提出する前に、GPT-4 によって与えられた修正意見を試すことができます。2. GPT-4 は非普遍的なフィードバックを提供できます
いわゆる非普遍的なフィードバックとは、GPT-4 が次のような普遍的なフィードバックを提供しないことを意味します。複数の論文に適用可能。レビューコメント。ここで、著者らは「ペアごとの重複率」指標を測定し、Nature と ICLR の両方で 0.43% と 3.91% に大幅に減少したことを発見しました。
これは、GPT-4 が特定の目標を持っていることを示しています3、主要かつ普遍的な問題について人間の意見と合意に達することができます
一般的に、最も早く出現し、複数のレビュー担当者によって言及されているコメントは、多くの場合、重要で共通の問題を表しています。
ここで、チームは、LLM が、全員が一致して認識する複数の共通の問題または欠陥を特定する可能性が高いことも発見しました。レビュー担当者
GPT-4 の全体的なパフォーマンスは許容範囲です
4. GPT-4 によって与えられた意見は、人間とは異なるいくつかの側面を強調しています
この研究では、GPT-4は人間よりも研究そのものの意味についてコメントする可能性が7.27倍、研究の新規性についてコメントする可能性が10.69倍高いことが判明しました。
GPT-4 も人間も追加の実験を推奨することがよくありますが、人間はアブレーション実験により重点を置いており、GPT-4 はより多くのデータセットでそれらを試すことを推奨しています。
著者らは、これらの発見は、GPT-4 と人間の審査員がさまざまな側面に異なる重点を置いていることを示しており、両者の協力が潜在的な利点をもたらす可能性があると述べました。
定量的実験の先には、ユーザー調査があります。
さまざまな機関から AI および計算生物学の分野の合計 308 人の研究者がこの研究に参加し、レビューのために論文を GPT-4 にアップロードしました
研究チームは、次の点について意見を収集しました。 GPT-4 レビュー担当者からの実際のフィードバック。
全体として、参加者の半数以上 (57.4%) が、GPT-4 によって生成されたフィードバックが役立つと感じました。人間には考えられない点もある。
そして、調査対象者の 82.4% が、少なくとも一部の人間の査読者からのフィードバックよりも有益であると回答しました。
さらに、半数以上 (50.5%) が、論文を改善するために GPT-4 などの大型モデルをさらに使用することに意欲を示しました。
そのうちの 1 人は、GPT-4 では結果が得られるまでに 5 分しかかからないと言いました。このフィードバックは非常に速く、研究者が論文を改善するのに非常に役立ちます。
もちろん、著者は次のように強調しています:
GPT-4 の機能にもいくつかの制限があります
最も明白なのは、GPT-4 がより集中していることです。 「全体的なレイアウト」に関して、特定のテクノロジー領域に関する詳細なアドバイス (例: モデル アーキテクチャ) がありません。
したがって、著者の最終結論が述べているように:
正式なレビューの前に、人間のレビュー担当者からの質の高いフィードバックが非常に重要ですが、実験と建設を補うために最初に水をテストすることができます。詳細は見逃される可能性があります。
もちろん、次の点にも注意してください。
正式なレビューでは、レビュー担当者は LLM に依存せず、独立して参加する必要があります。
著者 1 人は全員中国人です
この研究 著者は 3 人です 、全員中国人で、スタンフォード大学コンピュータ サイエンス学部の出身です。
彼らは:
- Liang Weixin、同校の博士課程の学生であり、スタンフォード AI 研究所の学生でもあります(SAIL) )メンバー。彼はスタンフォード大学で電気工学の修士号を取得し、浙江大学でコンピュータ サイエンスの学士号を取得しています。
- Yuhui Zhang も博士課程の学生で、マルチモーダル AI システムを研究しています。清華大学で学士号を取得し、スタンフォード大学で修士号を取得しました。
- Cao Hancheng は、同校の 5 年生の博士課程候補者で、経営科学と工学を専攻しており、スタンフォード大学の NLP および HCI グループにも参加しています。以前は清華大学電子工学部を卒業し、学士号を取得しました。
紙のリンク: https://arxiv.org/abs/2310.01783
以上がNature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

Dreamweaver Mac版
ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 中国語版
中国語版、とても使いやすい
