ChatGPT が中国の大学入学試験に参加し、全国的な A 論文と B 論文を提供したところ、深刻な偏りがあることが判明しました。
Xi Xiaoyao Technology Talk 原文
著者 | PythonChatGPT は、インテリジェントな人間とマシンの会話アプリケーションとして、発売後すぐに世界中で人気になりました。わずか1か月でユーザー数は1億人を超えました。 ChatGPT を使用して、SAT、AP、GRE などの多くの試験項目をテストすることもできます。しかし、ChatGPT が中国の大学入学試験に参加できるようになったらどうなるでしょうか?彼は偏見を持つだろうか?私たちのような一般人でもChatGPTに合格できるのでしょうか?復旦大学と華東師範大学の学生から寄せられたコメントを紹介します。
論文タイトル:
GAOKAO ベンチマークでの大規模言語モデルのパフォーマンスの評価
論文リンク:https://www.php.cn/link/de66dbc30377a1f7908db45298324aa3
ChatGPT を使用して大学入試の問題に答えるにはどうすればよいですか?
この論文では、次の図に示すように、ゼロ教師ありプロンプト方式を使用してテスト質問を ChatGPT 入力に変換します。主題や質問の種類に応じて、さまざまな調査方法が設計されています。数学の質問の場合は、数式をラテックス入力に変換します。
大学入試データセット
この記事のテストでは、2010 年から 2022 年までの全国 A 論文と全国 B 論文の計 13 問を使用しています。試験問題は1セットにつき10科目収録 科目は中国語、数学、英語、物理、化学、生活、歴史、地理 数学は理系数学と文系数学に分かれます。
データセットには、合計 2811 個のテスト問題が含まれています。具体的な問題の種類についてはここでは説明しませんが、読者の皆さんは大学入試問題についてよくご存じだと思います。
評価では、上海の曹陽第二中学校の高校教師が主観的な質問を採点するために雇われました。
実験と分析
過去数年間の大学入学試験においてChatGPTによって得られたスコアを以下の図に示します。各科目の得点は 100 点満点で正規化して計算されるため、この得点をあなたや私の大学入試の得点と直接比較することはできません。しかし、このスコアは理想的ではないこともわかり、復丹も華東師範大学も入学できないと推定されている。どうしてこれなの?
上の図は、さまざまな分野および主観的および客観的なトピックにおける ChatGPT のパフォーマンスを示しています。青は客観的な質問、黄色は主観的な質問です。分析の結果、ChatGPT は客観的な質問、特に英語の読解、多肢選択、およびクローゼでより優れたパフォーマンスを示し、正解率はそれぞれ 88.3%、78.1%、73.8% であることがわかりました。しかし、客観的な問題であっても、理科や数学の正答率は40%にも満たない。数学は本当に難しいです~
ChatGPT の主観的な質問に対するパフォーマンスは悪いです物理学、化学、生物学、数学の科目では、主観的な質問のパフォーマンスは明らかに客観的な質問ほど良くありません。理系科目も客観的な問題の得点が悪く、ChatGPTは文系科目に偏っているのでは?査読者のコメントによると、ChatGPT の主な欠点は次のとおりです。 1. 数学問題の複雑な方程式を正しく解くのが難しく、問題解決のプロセスで間違った公式が使用されます。 2. 長い資料を読むときに理解して要約する能力が不十分です。
概要
ChatGPTは学習過程で中国の大学入試問題データを使用していない可能性があるため、そのパフォーマンスはデータ漏洩の影響を受けず、信頼性が高いです。
観察結果によると、外国の試験と比較して、中国の大学入学試験問題における ChatGPT のパフォーマンスはわずかに劣っています。したがって、国内の学生は当面はChatGPT試験に合格できないことをあまり心配する必要はありません。ただし、記事で言及されている長文要約機能は GPT4-32K で大幅に向上しており、国内の大型モデルも中国のデータに基づいてさらに最適化されています。そのため、将来的には大型モデルの大学入試問題でのさらなる活躍が期待できます。
さらに、大学入学試験問題を解くために ChatGPT を使用するというアイデアは、どの州の試験問題がより難しいかについてのネチズン間の議論に答えることができるかもしれません。
以上がChatGPT が中国の大学入学試験に参加し、全国的な A 論文と B 論文を提供したところ、深刻な偏りがあることが判明しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Dreamweaver Mac版
ビジュアル Web 開発ツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ホットトピック









