ホームページ >テクノロジー周辺機器 >AI >パラメータ数は5,620億! Google、ロボットが自律的にさまざまなタスクを実行できるようにする史上最大の「ジェネラリスト」AI モデル PaLM-E をリリース
3 月 8 日の月曜日のニュース、Google とベルリン工科大学の人工知能研究者のグループは、最大 5,620 億のパラメーター量 (パラメーターGPT-3 の量は 1,750 億です)。
PaLM-E は既知の最大の VLM (ビジュアル言語モデル)。マルチモーダルに組み込まれた VLM として、画像を理解するだけでなく、言語を理解し、生成し、再トレーニングすることなくさまざまな複雑なロボット命令を実行することもできます。また、強力な創発能力 (予測不可能な動作をするモデル) も示します。
Google によると、「引き出しの中の米フレークを持ってきて」などの高度なコマンドが与えられると、PaLM-E はアームを備えた移動ロボット プラットフォーム (Google Robotics が開発) を生成できます。行動計画を立て、その行動を自分で実行する。
#PaLM-E は、シーンを前処理せずにロボットのカメラからのデータを分析することでこれを実現します。これにより、人間がデータを前処理したり注釈を付けたりする必要がなくなり、ロボット制御がより自律的になります。
PaLM-E は柔軟性もあり、環境に反応することができます。たとえば、PaLM-E モデルは、キッチンからポテトチップスの袋を取り出すようにロボットを誘導できますが、PaLM-E は制御ループに統合されているため、作業中に発生する可能性のある中断に耐性があります。あるビデオの例では、研究者がロボットの手からポテトチップスを掴んで動かしましたが、ロボットはポテトチップスを見つけて再び掴みました。
さらに、PaLM-E モデルは、本来は人間の指導が必要な複雑なタスクを自律的に完了するようにロボットを制御することもできます。ロボット工学に加えて、Google 研究者らは、PaLM-E の中核として大規模な言語モデルを使用することによるいくつかの興味深い効果も観察しました。その 1 つは、PaLM-E が「順方向転送」を示すことができることです。これは、PaLM-E がタスクから学習できることを意味します。獲得した知識とスキルは別のタスクに移すことができ、単一タスクのロボット モデルよりも優れたパフォーマンスを発揮できます。
Google の研究者らは、将来、ホーム オートメーションや産業用ロボットなど、PaLM-E のより多くの実世界への応用を検討する予定であり、PaLM-E がマルチモーダル AI のより多くの応用を刺激できることを期待しています。
IT Houseは、Google AIの強力なライバルであるMicrosoftも、同様の方法でビジュアルデータと大規模データを組み合わせた「ChatGPT for Robotics」に関する論文を最近発表したと報じた。ロボット。
以上がパラメータ数は5,620億! Google、ロボットが自律的にさまざまなタスクを実行できるようにする史上最大の「ジェネラリスト」AI モデル PaLM-E をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。