ホームページ >テクノロジー周辺機器 >AI >Google Bard を批判するだけでなく、ChatGPT を利用した Microsoft の New Bing にも頻繁にエラーが発生します

Google Bard を批判するだけでなく、ChatGPT を利用した Microsoft の New Bing にも頻繁にエラーが発生します

WBOY
WBOY転載
2023-05-10 11:07:071478ブラウズ

2月8日東部時間8時30分、Googleの記者会見がパリで開催されました。前日、Microsoft は、ChatGPT テクノロジに基づく生成モデルを Bing と統合した、新世代の AI 駆動型検索エンジンである New Bing を正式に開始しました。 Microsoft 副社長の Yusuf Mehdi は完璧なデモンストレーションを行い [0]、その日 Microsoft の市場価値は 800 億ドル急上昇しました。 OpenAI が登録を受け付けていない中国でも、生成モデルが Bing 検索エンジンと Edge ブラウザのエクスペリエンスをどのように向上させるかを示す Yusuf のクリップが、Moments と WeChat グループで急速に広まっています。あなたにとって蜂蜜は他の人にとってはヒ素であり、検索大手の Google がどのような反応を示すか誰もが注目しています。

Google の記者会見では、誰もが New Bing の伝説的なライバルである Bard の登場を待っていました。 Google 検索エンジンでサポートされている大規模な言語モデルとして、誰もが Bard について空想にふけっています。しかし、記者会見ではバードについてはあまり語られなかった。そこで、Google が Twitter に投稿した Bard のビデオに誰もが注目し、注意深くそれを手に取った後、質問に答える際に Bard が事実誤認をしていることに突然気づきました。

「ジェームズ・ウェッブ望遠鏡による新発見について、9 歳の子供に何と伝えればよいでしょうか?」との質問に、バード氏はこう答えました。「系外惑星の最初の写真です。実際、この望遠鏡は、ジェームズ ウェッブ望遠鏡が打ち上げられる 18 年前の 2004 年に、ヨーロッパ南天天文台の超大型望遠鏡によって撮影されました。このミスが引き金となり、その日グーグルの株価は急落した。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

図 1 James Webb 望遠鏡での Bard のデモンストレーションのスクリーンショット

パリの記者会見で、バード氏のプレゼンテーションはわずか約 4 分であったにもかかわらず、星座の最適な観測時間に関する彼の答えにも明らかな事実逸脱がありました。以下に示すように、バードの答えでは、オリオン座を観察するのに最適な時期は 11 月から 2 月であると述べられていました。


别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

図 2 Bard による銀河観測時間のデモンストレーション スクリーンショット

#オリオン座の観測に最適な時期は情報源によって異なりますが、いずれも毎年 1 月に観測が最適な時期が始まることを明確に示しています。 Edtech ウェブサイト BYJU'S では 1 月から 3 月がベスト シーズンとされており [1]、Wikipedia では 1 月から 4 月がベスト シーズンとされています [2]。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#図 3 オリオン座の最適観測時間に対する BYJU の答え# Bard の記者会見と New Bing の記者会見のギャップと、判明した事実誤認により、その日、Google の市場価値は 1,000 億ドル近く急落しました。バード氏も解任され、冗談めかして史上最も高額な記者会見と呼ばれた。

私たちは疑問に思わずにはいられませんが、New Bing の一見完璧に見える記者会見には何か事実上の誤りが隠されているのでしょうか?? New Bing の事実誤認

New Bing によって生成されたコンテンツには、有名人の身元情報、財務報告書の数値、ナイトクラブの営業時間など、多くの事実誤認が含まれていることが判明しました。等

生成されたモデルの実際のエラー分類

GPT シリーズ (ChatGPT、InstructGPT などを含む) の場合、 T5 生成モデルで表されるように、事実誤認は次の 2 つのカテゴリに大別できます。

  • #生成されたコンテンツは、参照されたコンテンツ と競合します。コンテンツ生成プロセス中にシーケンスが増大するにつれて、大規模な言語モデルは参照コンテンツから逸脱する傾向があり、その結果、元のテキストの追加、削除、または改ざんが発生します。
  • #生成されたコンテンツには事実に基づく根拠がありません。この種のエラーはまったくナンセンスです。事実に基づくガイダンスがなければ、モデルの事前トレーニング中に保存された情報のみに依存すると、生成プロセス中にモデルが簡単に混乱する可能性があります。事実と矛盾したり、問題と無関係なコンテンツが生成される可能性が高くなります。
  • 次に、New Bing カンファレンス [3] と New Bing デモ [4] に示されている例を調べて、事実上の誤りがあるかどうか、またその種類を確認しましょう。記述の便宜上、New Bing および Edge に統合された New Bing プラグインを New Bing と呼びます。

日本の詩人の例における間違い

New Bing カンファレンス ビデオの 29:57 で、 New Bing は 日本の有名な詩人について尋ねると、「岸田絵里子 (1930-2004)、詩人、劇作家、エッセイスト」という答えが返ってきます。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出図 4 新しい Bing デモの詩人の例のスクリーンショット

しかし、Wikipedia と IMDB [5, 6, 7] によって提供される情報によると、岸田絵里子の生年は 1929 年、没年は 2011 年です。同時に、彼女は劇作家やエッセイストではなく、詩人、翻訳家、おとぎ話作家でもあります。岸田さんの家族は、岸田さんがニュービンに移送されて8年間の人生を失ったことを受け入れられないかもしれない。時を同じくして、同級生のガクトも残念ながら転校してしまう。 Wikipedia が提供する情報 [8] によると、Gackt は音楽を演奏し、歌い、作曲し、演技をしましたが、詩を作曲したことはありませんでした。

財務レポートの例のエラー

New Bing カンファレンス ビデオの 35:49 で、Yusuf が統合のデモを行いました。新しい Bing の Edge ブラウザーで、オープンした衣料品会社 Gap の 2022 年第 3 四半期財務報告書のキー ポイントを生成する方法。 New Bing の要約は一見すると非常に実践的で、ギャップの第 3 四半期レポートの要点を要点を使って示しており、これを見たバフェット氏は「ショック」を受けるかもしれません。しかし、Gap の 2022 年第 3 四半期レポート [9] を見つけて注意深く読んだところ、New Bing の要約には誤りと欠落が多く、耐えられないことがわかりました。

##図 5 New Bing による Gap の 2022 年第 3 四半期財務報告書の概要

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

まず第一に、New Bing は、Gap の調整後営業利益率 (減損費用とリストラクチャリング費用を調整した報告営業利益率) を 5.9% と示しました。しかし、有価証券報告書におけるギャップの営業総利益率は4.6%で、調整後は3.9%となった。

図 6 Gap の 2022 年第 3 四半期財務報告書のスクリーンショット

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

##New Bing はその後、調整後希薄化後 1 株あたり利益を 0.42 ドルと報告しました (希薄化後 1 株あたり利益、減損費用、再構築コスト、税金の影響を調整) が、財務報告書のデータでは 0.71 ドルとなっています。

#図 7 Gap の 2022 年第 3 四半期財務報告書のスクリーンショット

New Bing でさえ、Gap の通期売上高見通しを「純売上高成長率は 2 桁台前半になる見込み」としていますが、実際には第 4 四半期には「1 桁半ばの減少になる可能性があります」 。」これは増加ではなく減少です。この 2 つの言葉の違いは、ユーザーの投資行動を大きく誤解します。誰が損をするのでしょうか? New Bing はどこからともなく現れて、「営業総利益は 7%、希薄化後の 1 株あたり利益は 1.6 米ドルから 1.75 米ドルの間である。」というより詳細な通期財務指針を提示しました。これらの数字はギャップの第 3 四半期財務報告書には記載されていませんでした。 。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#図 8 Gap の 2022 年第 3 四半期財務報告書のスクリーンショット

ビデオの 36:15 で、Yusuf は New Bing を使用して、Gap とスポーツ カジュアル ウェア ブランドの Lululemon の財務報告書を比較する機能をデモンストレーションしました。この部分は誤った情報のホットスポットでもあります。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

図 9 New Bing の Gap と Lululemon の財務レポート比較機能

New Bing が提供する右側の表では、上記のギャップ営業総利益 5.9% に加えて、4.6% (調整後は 3.9%) となるはずです。ギャップの希薄化後の一株利益0.42ドルは0.77ドル(または調整後0.71ドル)となるはずだが、ニュービングもギャップの現金および現金同等物を14億ドルとしているが、実際には財務報告書では6億7900万ドルだった。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

図 10 ルルレモンの 2022 年第 3 四半期財務報告書のスクリーンショット ##New Bing が提供するルルレモンのデータにも同様の状況が見られます。ルルレモンの 2022 年第 3 四半期レポート [10] のデータによると、New Bing はルルレモンの粗利益率を 58.7% としていますが、実際には 55.9% であるはずです。 New Bing は、ルルレモンの営業粗利益率が 20.6% であると述べていますが、実際には 19.0% であるはずです。 New Bing は、ルルレモンの希薄化後 1 株当たり利益を 1.65 ドルと見積もっていますが、実際には 2.00 ドルになるはずです。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

図 11 ルルレモンの 2022 年第 3 四半期財務報告書のスクリーンショット

##私たちは不思議に思わずにはいられません。なぜ New Bing は Gap と Lululemon の財務報告についてこれほど深刻なナンセンスをしたのでしょうか? 合理的な推論は、生成された誤ったデータは、事前トレーニング段階で確認された財務レポート分析データ

からのものである可能性が高いということです。 ChatGPTのような大規模な言語モデルを生成する場合、生成されるシーケンスが長ければ長いほど、GapやLululemonなどの与えられた財務報告データから離脱し、我を忘れて関係のない虚偽の情報が生成されやすくなります。

ナイトクラブの例のエラー

New Bing 記者会見ビデオの 29:17 で、New Bing はメキシコシティのナイトライフを訪れる観光客は、「非建設的な」アドバイスを提供します。ニュー・ビングは、プライマー・ニベル・ナイト・クラブ、エル・アルマセン、エル・マラなど、同社が推奨しているいくつかのナイトクラブについて、これらのバーには顧客レビュー、連絡先情報、店舗紹介がないことを述べた。ただし、この情報は Google マップまたは店舗の Facebook ページで見つけることができます。 New Bing では十分に Web サーフィンができていないようです。

ニュー ビングのエル アルマセンの営業時間は火曜日から日曜日の午後 5 時から午後 11 時までですが、実際の営業時間は月曜日を除く午後 7 時から午後 7 時までです。 [11]。このため、5時に夕食に行く観光客は2時間もお腹が空いたままになります。グアダラハラ デ ノーチェはその逆で、実際の営業時間は毎日午後 5 時 30 分から午前 1 時 30 分または午前 12 時 30 分までである [12] が、New Bing に記載されている営業時間は午後 8 時からである。観光客は New Bing のおすすめを頼りにレストランを探しているようですが、食事ができるかどうかは運次第のようです。

#図 12 新しい Bing デモのナイトクラブの例のスクリーンショット

#その他のエラー

上記の情報誤りに加え、

商品価格の誤り、店舗住所の誤り、時間内にエラーが発生しますお待ちください。 デモ例のエラー

New Bing はまだ完全にオープンされていないため、New Bing での記者会見の検索結果を直接取得することはできませんが、Microsoft が提供するユーザーに体験してもらうために、いくつかの例が示されています [13]。答えを求めるという精神で、私たちはこれらのデモンストレーションを虫眼鏡の下に置いて研究しました。

これらの慎重に選択された例であっても、依然として多くの間違ったメッセージが存在することがわかりました。 「子供と一緒にできるアートのアイデアは何ですか?」では、New Bing が手工芸品を作るための多くの提案を提供します。 New Bing では、クラフトごとに、その作成に必要な材料がまとめられています。ただし、各工芸品の材料の概要は不完全です。たとえば、New Bing は、引用した Web サイト [14] から、紙のギターを作るには段ボール箱、輪ゴム、塗料、接着剤が必要であると要約しています。ただし、見積書に記載されていたスポンジブラシ、テープ、木製ビーズは省略されました。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

図 13 新しい Bing の例は、「子供たちと一緒にどんな工作ができるか」を示しています。 ?” ?” スクリーンショット

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

## 図 14 紙ギターの作成引用された Web サイト 必要な資料のスクリーンショット

New Bing のデモ例には、非常に明白でよくある間違いもあります。つまり、 、指定された参照リンクは、生成されたコンテンツとは何の関係もありません。

たとえば、次の「大きくて速い車が必要です。」の例では、2022 Kia Telluride が指定された引用文献 10 [15] に表示されません。同時に、この例でも「タイムトラベル」問題は避けられないが、New Bingは、起亜テルライドの2022年バージョンが2020年ワールド・カー・オブ・ザ・イヤー賞を受賞したと主張し、実際、起亜テルライドの2020年バージョンが賞を受賞した。その年。 2022年ワールド・カー・オブ・ザ・イヤー賞の受賞者はヒュンダイ・IONIQ 5であり、引用文献7[16]も「2020年ワールド・カー・オブ・ザ・イヤー賞」とは無関係の記事である。すべてのインスタンスのデモで、同様のエラーが最大 21 件見つかりました。

#図 15 新しい Bing デモの例「大型急行列車が必要です」のスクリーンショット

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

要約: エラーを見つけることで前進することができます上記の分析から、New Bing であろうと Bard であろうと、その答えは次のとおりであることがわかります。 easy 事実誤認が発生しました。 ChatGPT のような大規模言語モデルの機能に全世界が驚き、ChatGPT が史上最速で 1 億ユーザーに到達したアプリケーションになったとき、私たちは一方では AI の進歩を応援しますが、一方ではその一方で、AIが抱える多くの問題をどう解決するか、冷静に考えることも必要です。

1956 年にダートマス大学に集まった天才たちのグループが初めて人工知能とは何かを定義して以来、AI はいくつかの浮き沈みを経験してきました。過去 70 年間の開発プロセスには、感動的なこだわりが数多くあります。それは、第一世代の AI の未熟な探求であり、エキスパート システムの勇敢な試みであり、ヒントン、ベンジオ、レクンなどの学者たちでした。ニューラルネットワークのベンチ、それがAlphaGoを使ったDeepMindだった AIをサークルから外すために、Google、Meta、CMU、スタンフォード、清華などのトップ研究機関がオープンソースに固執したのがOpenAIだったプレッシャーに負けて GPT の道を選択しました。世界中の何世代にもわたる科学研究者のリレーが私たちを今日の場所に導いてくれました。

しかし、もし AI に真実ではない情報を大量に生成させると、AI に対する国民の信頼が失われ、あらゆる種類の誤った情報が飛び交うまで、そう長くはかからないでしょう。インターネットを氾濫させます。私たちは大きなモデルの間違いを指摘するのですが、企業やモデルを批判するのではなく、むしろ AI をより良くしたいと考えています。

アルゼンチンの詩人ボルヘスはかつてこう言いました: どんなに複雑で長い運命であっても、実際には人間が本当の自分に完全に目覚める瞬間だけを反映します。 。 ChatGPT のような大規模なモデルが人間と同等の書き込み能力をすでに備えている場合、次のステップは、現実世界の知識をより完全かつ正確に大規模なモデルに統合して、AI モデルを安全、確実に、広範囲に適用できるようにすることであることが明確にわかります。人々の日常生活。私たちはその瞬間をこれほど楽しみにしたことはありませんし、その瞬間にこれほど近づいたこともありません。

以上がGoogle Bard を批判するだけでなく、ChatGPT を利用した Microsoft の New Bing にも頻繁にエラーが発生しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。