ホームページ >テクノロジー周辺機器 >AI >アメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウントカメラを使用して新しい AI をトレーニングします

アメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウントカメラを使用して新しい AI をトレーニングします

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-06-03 10:08:09840ブラウズ

すごいことに、ニューヨーク州立大学の教授は、AI モデルをトレーニングするために、娘の頭に GoPro のようなカメラを取り付けました。

信じられないように聞こえますが、この教授の行動には実際には十分な根拠があります。

LLM の背後にある複雑なニューラルネットワークをトレーニングするには、大量のデータが必要です。

現在の LLM トレーニングプロセスは、必ずしも最もシンプルで効率的な方法なのでしょうか?

絶対に違います！科学者たちは、人間の幼児の脳がスポンジのように水を吸収し、急速に一貫した世界観を形成していることを発見しました。

LLM は時々驚くべきパフォーマンスを発揮しますが、時間の経過とともに、人間の子供はモデルよりも賢く、より創造的になるでしょう。

子供たちが言語を習得する秘訣

より良い方法でLLMを訓練するにはどうすればよいですか？

科学者たちが困惑しているとき、人間の子たちは目を輝かせました -

彼らが言語を学ぶ方法は、言語習得の達人と呼ぶことができます。

この話は誰もが知っています。幼い子供をまったく異なる言語と文化を持つ国に放り込むと、数か月以内に現地の言語の習得がネイティブレベルに近づく可能性があります。

そして大規模な言語モデルはそれに比べれば見劣りします。

まず第一に、データ量が多すぎます。

現在、モデルをトレーニングする大手企業は、世界中のすべてのデータをほぼ使い果たしています。 LLM の学習には、インターネットやさまざまな場所からマイニングされた天文学的な量のテキストが必要になるためです。

彼らが言語を習得するには、何兆もの言葉を与える必要があります。

この研究に参加したブレンデン・レイクとニューヨーク大学の学者たち

第二に、LLMは、多大な努力を払って非常に多くのデータを注ぎ込んだとしても、正確に学習できない可能性があります。

多くの LLM の出力は、次の単語を一定の精度で予測することです。そして、この正確さはますます不安になっています。

対照的に、子供たちが言語を流暢に話すことを学ぶのにそれほど多くの経験は必要ありません。

人間とAIを研究するニューヨーク州立大学の心理学者ブレンデン・レイク氏は、これに焦点を当てた。

彼は、1歳9ヶ月の娘ルナに実験を行うことにしました。

過去 11 か月間、レイクさんは娘に毎週 1 時間カメラを装着させ、娘の視点から娘の遊びの様子をビデオに録画させてきました。

Luna のカメラで撮影したビデオを使用して、レイク氏は、子供たちがさらされるのと同じデータを使用してモデルをトレーニングしたいと考えています。

幼児の娘に GoPro をストラップで掛けました

言語学者と児童専門家は現在、子供たちがどのように言語を習得するかについて意見が一致していませんが、レイク氏は次のように確信しています。LLM をさらに強化する効率の秘密は子供の学習パターンにあります！

そこで、Lake 氏は、LLM のトレーニング効率を向上させるために、子供たちが最初の文を学習するときに経験する刺激を研究するという研究プロジェクトを立ち上げました。

これを行うために、レイクのチームは米国中の 25 人の子供からビデオと音声のデータを収集する必要がありました。

これは記事の冒頭のシーンです - 彼らは GoPro のようなカメラをレイクの娘ルナを含む子供たちの頭に結び付けました。

Lake 氏は、OpenAI の Clip モデルが注釈と画像を結び付ける方法と同様に、モデルはビデオクリップと子供の視点からの養育者の発言を結び付けようとしていると説明しました。

Clip は画像を入力として受け取り、画像と注釈のペアのトレーニングデータに基づいて説明的な注釈を提案として出力できます。

論文のアドレス: https://openai.com/index/clip/

さらに、Lake チームのモデルは、GoPro 映像と介護者からの音声からのトレーニングデータに基づいてシーンの画像を結合することもできます。入力として、シーンを説明する言語を出力します。

さらに、モデルは説明をトレーニングで以前に見られたフレームに変換することもできます。

一見すると、とても簡単そうに思えますよね？つまり、モデルは人間の子供と同じように、話された言葉をビデオフレーム内で観察されるオブジェクトと一致させることを学習します。

しかし、実際の実装では、依然として多くの複雑な状況に直面することになります。

たとえば、子供たちは説明されているオブジェクトやアクションを常に見ているわけではありません。

さらに抽象的な状況もあります。たとえば、私たちは子供たちに牛乳を与えますが、その牛乳は不透明なカップに入っており、非常に緩やかなつながりにつながります。

このように、Lake 氏は次のように説明しました: この実験は、画像内のオブジェクトと対応する単語を照合するモデルをトレーニングできるかどうかを証明することを目的としたものではありません (OpenAI はすでにこれを実証しています)。

その代わりに、チームがやりたかったのは、子供が利用できる疎なレベルのデータ (信じられないほど疎なデータ) のみを使用して、モデルが実際にオブジェクトの認識を学習できるかどうかを確認することでした。

ご覧のとおり、これは、OpenAI、Google、Meta などの大企業がモデルを構築するという考え方とは真逆です。

ご存知のとおり、メタはラマ 3 を訓練するために 15 兆のトークンを使用しました。

Lake チームの実験が成功すれば、おそらく全世界が直面している LLM データ不足は解決されるでしょう。そうすれば、LLM のトレーニングにそれほど多くのデータが必要なくなるからです。

言い換えれば、新しいアイデアは、AI モデルに限られた入力から学習させ、その後、目にするデータから一般化させることです。

私たちの焦点は、ますます多くのデータからますます大規模な LLM をトレーニングすることに限定されるべきではないと思います。はい、この方法で LLM から驚くべきパフォーマンスを得ることができますが、私たちが知っている人間の知性の驚異からはどんどん遠ざかっています...

初期の実験は成功しました

初期の実験結果は証明されましたレイクチームの考えは正しいかもしれないと。

今年 2 月、彼らは 61 時間のビデオ映像を使用して、幼い子供の体験を記録するニューラルネットワークをトレーニングしました。

この研究では、モデルは被験者が話したさまざまな単語やフレーズを、ビデオフレームにキャプチャされた経験と結びつけることができたことがわかりました。その単語やフレーズが提示されている限り、モデルは関連する画像を思い出すことができました。。この論文は Science 誌に掲載されました。

論文アドレス: https://www.science.org/doi/10.1126/science.adi1374

レイク氏は、最も驚くべきことは、モデルがトレーニングされていない画像内のオブジェクトの名前を一般化できることだと言いました。

もちろん、精度は高くないかもしれません。しかし、このモデルはもともとコンセプトを検証するためのものでした。

モデルは子供が知っていることをすべて学習していないため、プロジェクトはまだ完了していません。

結局のところ、注釈付きのスピーチはわずか約 60 時間であり、これは子供が 2 年間で獲得する経験の 1 パーセントに過ぎません。そして、何が学習可能なのかを解明するには、チームにはさらに多くのデータが必要です。

そしてレイク氏は、最初のモデルで使用された方法にはまだ限界があることも認めました -

介護者の言葉に関連するビデオクリップのみを分析し、その映像のみを毎秒5フレームの速度で画像に変換しました、これらだけでは、AI は動詞とは何か、抽象的な単語とは何かを実際には学習しておらず、世界がどのように見えるかの静的なスライスを取得しているだけです。

前に何が起こったのか、後に何が起こったのか、会話の文脈について何も知らないため、「歩く」、「走る」、「跳ぶ」が何なのかを学ぶのは困難です。

しかし、将来的には、ビデオのモデリングを支えるテクノロジーがより成熟するにつれて、チームはより効果的なモデルを構築するとレイク氏は信じています。

言語習得が実際にどのように始まるのかのモデルを構築できれば、人間の学習と発達を理解するための重要な応用が開かれ、おそらく発達障害や子供が言語を学ぶ方法を理解するのに役立つでしょう。

最終的には、このようなモデルは何百万もの異なる言語療法のテストにも使用できるようになるでしょう。

そういえば、子どもたちはどうやって自分の目と耳で言語をしっかりマスターするのでしょうか？

Science の Lake チームによって投稿されたこの記事を詳しく見てみましょう。

言葉を物理的な物体や視覚的なイメージと結び付けましょう

人間の子供たちはどのようにして世界についての無知を脱ぎ捨て、知識を獲得するのでしょうか？この「ブラックボックス」の謎は、教育者たちの絶え間ない追求を惹きつけているだけでなく、個人の知恵の起源について私たち一人ひとりの心の中に閉じ込められている疑問でもあります。

韓国のSF作家キム・チョイエは、「共生仮説」の中で次の仮説を書きました：人間の子供たちが幼児期に示した知恵は、実際には失われた異星人の文明を継承しており、彼らは人間とのコミュニケーションにこの方法を使用することを選択しています。しかし、それはわずか5年しか続かず、人間が成長して確かな記憶を持った後、子供時代の素晴らしい記憶は消去されました。

ネチズンは、「メンポースープを飲み忘れた」人間の子についての話をオンラインでよく共有します。

神秘的な子供時代については、私たちにとって説明が難しく、戻るのが難しい神秘的な場所です。それは一種の「ノスタルジー」です。金色の草葉に書かれているように、「離れないでください」。その美しい世界を奪わないでください。私が大きくなったら、一緒にいてください。

幼児は新しい言葉を特定の物体や視覚的概念とどのように結びつけるのでしょうか?

たとえば、「ボール」という言葉を聞いたとき、子供たちは弾力性のある丸い物体をどのように思い浮かべるでしょうか

この目的のために、レイクのチームは子供にヘッドマウントカメラを装着し、彼の動きを追跡しました。 6 か月から 25 か月の成長を記録し、61 時間の視覚言語データストリームを記録しました。

この 1.5 年分の子供向けクリップデータセット (600,000 のビデオフレームと 37,500 の文字起こしされた発話ペアを含む) で、研究者らはモデル、子供視点対照学習モデル CVCL をトレーニングしました。

このモデルは、状況全体にわたる連想学習の形式をインスタンス化し、単語と考えられる視覚的指示対象との間のマッピングを識別します。

このモデルは、視覚エンコーダーと言語エンコーダーという 2 つのニューラルネットワークの比較目標を調整し、自己教師ありの方法でトレーニングされます (つまり、子の視点記録のみを使用し、外部ラベルは使用しません)。目標は、ビデオフレームと時間的に同時発生する言語発話のエンベディング (ベクトル) を結合することです (同時ビデオフレームと言語発話のエンベディングを処理する)

もちろん、SAYCam-S と呼ばれるこのデータセットには制限があります。子どもの起きている時間の 1% が、多くの経験を逃してしまいます。

それにもかかわらず、CVCL は子供の限られた経験から強力なマルチモーダル表現を学ぶことができます。

チームは、モデルが子供の日常経験に存在する多くの参照マッピングを取得するため、ゼロサンプルで新しい視覚的指示対象を一般化し、それらの視覚的および言語的概念システムを調整できることを実証することに成功しました。

学習された単語の意味マッピングの評価

具体的には、トレーニングが完了した後、チームは CVCL とさまざまな代替モデルによって学習された単語参照マッピングの品質を評価しました。

結果は、CVCL の分類精度が 61.6% であることを示しています。

そして、図 2D は、22 の概念のうち 11 について、CVCL のパフォーマンスが CLIP の誤差の 5% 以内であることを示していますが、CLIP のトレーニングデータは数桁大きい (画像ネットワークからの 4 億個)テキストペア）。

研究結果は、最も初期の単語指示マッピングの多くは、少なくとも 10 ～ 100 の自然に発生する単語と指示のペアから取得できることを示しています。

新しい視覚パラダイムへの一般化

さらに、研究者らは、CVCL によって学習された単語が分布外の視覚刺激に一般化できるかどうかも評価しました。

図 3A は、CVCL がこれらの視覚的な概念をある程度理解していることを示しており、全体の精度は 34.7% です。

明らかに、このタスクにはより大きな概念セットが必要であり、配布外の一般化にはさらなる困難が伴います。

左側はランダムに選択された 2 つのトレーニングケース、右側は 4 つのテストケースです。以下のパーセンテージは、この画像を認識する際のモデルの精度とパフォーマンスを表しています。選択されたケースは左から右にあります。 2 つの最大値、中央値と最小値。テストケースとトレーニングケースの色と形状がより似ている場合、モデル認識の精度も高くなることがわかります

マルチモーダルの一貫性は非常に優れています

最後に、研究者はテストを行いましたCVCL の視覚的および言語的概念システムの一貫性。

たとえば、「車」の視覚的埋め込みと単語の埋め込みの両方が「ボール」よりも「道路」に似ている場合、これはマルチモーダルアライメントがうまく機能していることを示しています。

下の写真は、CVCL の視覚システムと言語システムが高度に連携していることを示しています。

画像とテキストの関係、点線は各概念に対応する視覚重心と埋め込まれた単語間の距離を表します

さまざまなビジュアルコンセプトは、その例がどの程度緊密にクラスター化されているかによって異なります。赤ちゃんの視線は非常に近い物体の間をさまようため、モデルは「手」と「おもちゃ」を区別する際に明確な参照マッピングを形成しません。「車」と「ベビーベッド」の方がパフォーマンスが優れています

。図では、t-SNE を使用して CVCL 予測とラベル付きサンプルの比較を視覚的に示しています。

左側の青い点は、特定のカテゴリに属する 100 個のフレームに対応し、右側の緑色の点は、最もアクティブ化された 100 個のフレームに対応します (各概念の単語埋め込みとのコサイン類似性に基づいています) CVCL) 。各図の下には、各概念内の 1 つ以上のサブクラスターに属する複数のフレーム例があり、結合埋め込み空間で単語埋め込みが画像埋め込みとどのように相互作用するかを捉えています。たとえば、「階段」という単語の場合、屋内の木製の階段のイメージを表す 1 つのクラスターが表示され、屋外の一連の青い階段のイメージを表す別のメインクラスターが表示されます。これらの図のすべての t-SNE グラフは、同じセットの結合画像とテキストの埋め込みから派生しています。

下の図は、モデルがさまざまなビューでターゲットの位置を特定できることを示しています。

正規化された注目マップでは、黄色は注目が最も高い領域を示します。最初の 2 つのカテゴリ (ボールとルーク) では、モデルがさまざまなビューでターゲットを特定できることがわかります。ただし、下位の 2 つのカテゴリ (猫と紙) では、アテンションマップが指示対象とずれていることがあり、指示対象を見つける能力がカテゴリ間で一貫していないことを示唆しています。

もちろん、子供の学習モデルと機械学習モデルにはまだ多くの違いがあります。

しかし、Lake チームの研究は間違いなく私たちに多くのインスピレーションを与えてくれました。

以上がアメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウントカメラを使用して新しい AI をトレーニングしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Token 切片对象 https llama

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：ICML 2024 | 大規模言語モデルの事前トレーニングの新境地: 「ベストアダプテーションパッケージング」が文書処理標準を再構築次の記事：ICML 2024 | 大規模言語モデルの事前トレーニングの新境地: 「ベストアダプテーションパッケージング」が文書処理標準を再構築

続きを見る

アメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウント カメラを使用して新しい AI をトレーニングします

子供たちが言語を習得する秘訣

幼児の娘に GoPro をストラップで掛けました

初期の実験は成功しました

言葉を物理的な物体や視覚的なイメージと結び付けましょう

学習された単語の意味マッピングの評価

新しい視覚パラダイムへの一般化

マルチモーダルの一貫性は非常に優れています

関連記事

アメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウントカメラを使用して新しい AI をトレーニングします