杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化-AI-php.cn

ホームページ

テクノロジー周辺機器

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

青灯夜游

Mar 31, 2023 pm 10:42 PM

ai紙

現在、この論文は CVPR2023 に採択されました。

画像を読み取れるGPT-4が衝撃リリース！ただし、利用するには並ぶ必要があります。。。

まずはこれを試してみませんか~

小さなモデルを追加すると、テキストのみを簡単に理解できる ChatGPT や GPT-3 などの大きな言語モデルを作成できます画像を読むあらゆる種類の 厄介な詳細 に簡単に対処できます。

そして、この小さなモデルをトレーニングします。これは 1 枚のカード (RTX 3090) で実行できます。

効果については、写真をご覧ください。

たとえば、訓練された GPT-3 に「音楽シーン」の写真を入力し、「その現場ではどのような活動が行われているのですか?」と質問します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

GPT-3 は迷うことなく、コンサートに答えを出しました。

さらに難しくするには、GPT-3 に Jiang Zi の写真を与え、写真にあるカーテンの素材の種類を識別させます。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

GPT-3: レース。＃＃＃＃＃＃ビンゴ！ (何か付いているようです)

この方法は、杭州電子科学技術大学と合肥理工大学のチーム

Prophet

の最新の成果です。半年前にすでに開発されていたので、これに取り掛かります。論文の筆頭著者は杭州典子大学大学院生の邵振偉さんで、1歳の時に「進行性脊髄性筋萎縮症」と診断され、在学中に浙江大学に合格しなかったことを後悔していたという。受験して家から近い杭州典子大学を選びました。

この論文は CVPR2023 に採択されました。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化クロスモーダルタスクで新しい SOTA に到達する

# さっそく、Prophet のメソッドをサポートして GPT-3 を読み取る方法を直接見てみましょう。 . フィギュア能力。

まず、データセットのテスト結果を見てみましょう。

研究チームは、外部知識に基づいた 2 つの視覚的な質問と回答のデータセット、OK-VQA と A-OKVQA で Prophet をテストし、両方とも

新しい SOTA

を作成しました。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化具体的には、OK-VQA データセット上で、80B パラメーターを備えた Deepmind の大規模モデル Flamingo と比較して、Prophet は精度を達成しました成功率は61.1%で、フラミンゴ（57.8%）を破ることに成功しました。

そして、必要なコンピューティング能力リソースの点でも、Prophet は Flamingo を「上回っています」。

Flamingo-80B は

1536 TPUv4 グラフィックスカード

で 15 日間 トレーニングする必要がありますが、Prophet に必要なのは 1 つの RTX-3090 グラフィックスカード のみです。 VQA モデルを 4 日 トレーニングしてから、OpenAI API を一定回数呼び出します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化実際、GPT-3 によるクロスモーダルタスクの処理を支援する Prophet と同様のメソッド (PICa など) や、その後の KAT や REVIVE などがありました。

ただし、一部の詳細の処理では満足できない場合があります。

栗を渡して、下の絵を一緒に読んでもらい、次の質問に答えてもらいます。絵の中の木にはどんな実がなりますか?

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化 PICa、KAT、および REVIVE が写真から抽出した唯一の情報は、背後にココナッツの木があることを完全に無視して広場を歩いている人々のグループでした。最終的な答えは推測することしかできません。

Prophet ではこのような事態は起こらず、上記の方法で抽出された画像情報が不足する問題を解決し、GPT-3 の可能性をさらに引き出します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化では、預言者はどのようにしてそれを行ったのでしょうか?

小規模モデル大きなモデル

効果的に情報を抽出し、質問に正確に回答します。Prophet はこれを行うために、独自の

2 段階フレームワーク

を利用しています。これら 2 つの段階間の役割分担も明確です:

第 1 段階: 質問に基づいて啓発的な回答をします;
第 2 段階: これらの回答は範囲を狭め、GPT-3 の可能性を実現するのに十分なスペースを与えます。

まず、第 1 段階で、研究チームは、特定の外部知識 VQA データセットに対して、改良された MCAN モデル (VQA モデル) をトレーニングしました。

モデルをトレーニングした後、モデルから 2 つのヒューリスティックな回答 (回答候補と回答を認識した例) を抽出します。

このうち、回答候補をモデル分類層が出力する信頼度に基づいてソートし、上位10件を選出します。

応答認識の例は、モデル分類層の前の特徴をサンプル (この特徴空間で最も類似したラベル付きサンプル) の潜在的な回答特徴として使用することを指します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

次のステップは第 2 段階ですが、これは比較的単純で大まかです。

前のステップで取得した「感動的な回答」をプロンプトに整理し、そのプロンプトを GPT-3 に入力して視覚的な質問を完成させ、特定のプロンプトの下で質問に回答します。

ただし、前のステップでいくつかの回答のヒントが示されていますが、これは GPT-3 がこれらの回答に限定されることを意味するものではありません。

プロンプトによって与えられる回答の信頼度が低すぎる場合、または正しい回答がそれらのプロンプトの中にない場合、GPT-3 が新しい回答を生成する可能性は十分にあります。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

研究チーム

もちろん、研究結果に加えて、この研究を支えたチームについても言及する必要があります。

筆頭著者Shao Zhenweiは、1歳のときに「進行性脊髄性筋萎縮症」と診断され、第1級の身体障害であり、自力でのケアができません。生活も勉強も母親の全面的な世話が必要です。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

しかし、身体的な限界にもかかわらず、シャオ・ジェンウェイの知識への渇望は衰えていません。

2017 年の大学入学試験では 644 点の高得点を獲得し、杭州電子科学技術大学コンピューター専攻に首席で入学しました。

この期間中、彼は2018年の中国大学生自己啓発スター、2020年の全国奨学金、2021年の浙江省優秀卒業生などの栄誉も獲得しました。

シャオ・ジェンウェイは学部時代に、周裕教授とともに科学研究活動を開始していました。

2021年、シャオ・ジェンウェイさんは大学院への昇進の準備をしていたときに浙江大学と偶然出会い、同大学に残り、周余教授の研究グループに参加して修士号取得を目指しました。大学院2年目。研究方向はクロスモーダル学習。

Yu Zhou教授は、この研究論文の第二著者および責任著者であり、杭州点平大学コンピューターサイエンス学部の最年少教授であり、「複雑システム研究会」のメンバーです。文部省「モデリングとシミュレーション」研究室副所長。

Yu Zhou は、長年にわたり マルチモーダルインテリジェンス の方向を専門としており、研究チームを率い、国際的なビジュアル質問応答チャレンジ VQA チャレンジで優勝と準優勝を果たしました。何度も。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

研究チームのメンバーのほとんどは、杭州電子 メディアインテリジェンス研究所 (MIL) に所属しています。

当研究室は、国家優秀人材であるユ・ジュン教授が所長を務めており、近年では、多方面に焦点を当てたハイレベルな学会論文（TPAMI、IJCV、CVPRなど）を次々と発表しています。モーダル学習の分野で多くの IEEE ジャーナル賞を受賞しており、会議では最優秀論文賞を受賞しています。

当研究室は、国家重点研究開発計画や中国国家自然科学財団など20以上の国家プロジェクトを主催しており、浙江省自然科学賞で一等賞、教育自然科学賞で二位を受賞しています。科学賞。

以上が杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51ctoで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ベクトルストリーミング：錆を使用したメモリ効率の高いインデックスApr 12, 2025 am 10:42 AM

導入埋め込みのベクトルストリーミングが導入されています。これは、大規模なドキュメントの埋め込みを最適化するように設計されています。 Rustの並行性を使用して非同期チャンクと埋め込みを可能にすると、メモリの使用が減少し、

レプリットエージェントとは何ですか？ |入門ガイド - 分析VidhyaApr 12, 2025 am 10:40 AM

導入会話と同じように簡単にアプリを開発することを想像してください。セットアップする複雑な開発環境はなく、構成ファイルを調べる必要はありません。コンセプトを貴重なアプリに変換する

ラミニを使用してオープンソースLLMを微調整します。分析vidhyaApr 12, 2025 am 10:20 AM

最近、大規模な言語モデルとAIの台頭により、自然言語処理における無数の進歩が見られました。テキスト、コード、画像/ビデオ生成などのドメインのモデルは、人間のような推論とPをアーカイブしています

PythonのOpenCVとRoboflowによる性別検出-AnalyticsVidhyaApr 12, 2025 am 10:19 AM

導入顔の画像からの性別検出は、コンピュータービジョンの多くの魅力的なアプリケーションの1つです。このプロジェクトでは、OpenCVを対立する場所と性別分類のためにRoboflow APIを組み合わせて、

広告コンテンツのパーソナライズにおける生成AIの役割は何ですか？Apr 12, 2025 am 10:18 AM

導入広告の世界は、物々交換システムの概念以来進化の下にありました。広告主は、製品を私たちの注意を引くための創造的な方法を見つけました。現在の年齢では、消費者はBRを期待しています

Openai＆＃039; s o1-preview vs o1-mini：AGIへの一歩Apr 12, 2025 am 10:04 AM

導入 9月12日に、Openaiは「LLMSとの推論学習」というタイトルのアップデートをリリースしました。彼らは、複雑な推論タスクに取り組むために補強学習を使用して訓練されたO1モデルを導入しました。このmodを設定するもの

Openai O1でゲームを構築する方法は？ - 分析VidhyaApr 12, 2025 am 10:03 AM

導入 Openai O1モデルファミリは、特に科学、コーディング、問題解決において、推論と経済のパフォーマンスを大幅に進めています。 Openaiの目標は、これまでにない高度なAIとO1モデルを作成することです

導入今日、顧客クエリ管理の世界は前例のないペースで動いており、新しいツールが毎日見出しを作っています。大規模な言語モデル（LLM）エージェントは、このコンテキストでの最新のイノベーションであり、CUを後押しします

See all articles

ホットAIツール

ホットツール

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、