スタンフォード大学の 20 億パラメータの最終テストマルチモーダル AI エージェントモデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりました

スタンフォード大学の 20 億パラメータの最終テストマルチモーダル AI エージェントモデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりました

王林

May 07, 2024 pm 04:25 PM

ai電車

世界初の超小型マルチモーダル AI エージェントモデルOctopus V3、スタンフォード大学 NEXA AI チーム 、Agent をより賢く、より高速にし、エネルギー消費とコストを削減します。

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用

今年 4 月初旬、NEXA AI は待望の Octopus V2 をリリースしました。これは 関数呼び出しパフォーマンス -4# で GPT を上回りました。 ## は、推論に必要なテキストの量を 95% 削減し、エンドサイド AI アプリケーションに新たな可能性をもたらします。特許取得済みのコア技術「関数トークン」は、革新的な関数呼び出し方法により推論に必要なテキストの長さを大幅に削減します。

このアプローチにより、わずか

20 億のパラメーターを使用してモデルを効率的にトレーニングできますと精度と遅延の点で GPT-4## を上回ります# さまざまなエンドデバイスの展開ニーズに適応します。 Octopus V2 は LLM コミュニティでリリースされて以来、広く注目を集め、Hugging Face の CTO である Julien Chaumond 氏や、有名な AI ニュースレター AI Cheung の創設者である Rowan 氏、Figure AI の創設者である Brett Adcock 氏、OPPO エッジ人工知能チームリーダーの Manoj Kumar 氏など。これらは「デバイスサイド AI テクノロジーの新時代を創造する」と称賛されています。

有名なオープンソース AI プラットフォームである Hugging Face では、Octopus V2 は 12,000 回以上ダウンロードされています。

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用 NEXA AI チームは、1 か月も経たないうちに、次世代マルチモーダル AI

Agent

モデル Octopus V3 をリリースし、さらなる進歩を実証しました。画像処理機能と多言語テキスト処理機能により、スマートフォンなどのエンドサイドデバイスが真の AI 時代に突入する道が開かれます。

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用

パラメータ数が 10 億未満の初のマルチモーダル AI エージェントモデル

Octopus V3 はマルチモーダル機能を備えているだけではありません, 関数呼び出しのパフォーマンスは同様のモデルをはるかに上回り、GPT-4V GPT4 に匹敵しますが、モデルパラメーターの数は 10 億に達せず、多言語機能を備えています。

つまり、従来の大規模言語モデルと比較して、サイズが小さく、消費電力が少なく、Raspberry Pi などのさまざまな小型デバイス上で簡単に実行でき、高速性を実現します。 . と正確な関数呼び出し。

これは、将来的に AI エージェントが

スマートフォン、AR/VR、ロボット、スマートカーおよびその他のエンドサイドデバイスで広く使用され、さまざまな機能を提供できることを意味します。よりスムーズでスマートなエクスペリエンスをユーザーに提供します。一方、V3 はマルチモーダル処理機能を備えているため、テキストと画像の入力を同時に処理でき、多言語機能と組み合わせることで、ユーザーエクスペリエンスもより豊かになります。

たとえば、Instacart ショッピングアプリケーションでは、ユーザーはパイナップルの写真と簡単な会話指示を通じて AI エージェントに自動的に商品を検索させることができ、効率とユーザーエクスペリエンスを向上させることができます。

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用別の例として、電子メールの送信などのシナリオでは、Octopus V3 は自動的に情報を抽出し、テキスト付きの画像に基づいて電子メールのコンテンツを埋め込むことができ、よりインテリジェントな情報をユーザーに提供します。 , 便利なサービス。

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用ソフトウェアインタラクションからスマートカーまで、デバイス側 AI には大きな可能性があります

これらの特性に基づいて、Octopus V2 および V3 には豊富で多様なアプリケーションシナリオがあります。幅広いアプリケーションの可能性。

上記の携帯電話のシナリオに加えて、Octopus V2 をスマートカーに適用すると、新しいインタラクティブエクスペリエンスももたらす可能性があります。現在の音声アシスタントでは、運転中に目的地を一時的に変更したり、停車地を追加したりするなど、車の所有者がより複雑なタスクを完了するのを支援するのは困難であることがよくあります。 Octopus V3を適用すると、AIアシスタントは比較的曖昧で単純な指示に基づいて、対応するタスクを迅速かつ正確に完了できるようになります。

V2 および V3 の機能と組み合わせることで、情報の検索から指示に基づいた設計の完了まで、ユーザーは仮想シーンでスムーズな AI 体験を得ることができます。コミュニティユーザーの VR シーンデモでは、簡単な音声コマンドを入力します。 , AI エージェントを使用すると、ユーザーは数回クリックするだけで、リビングルームのデザインを迅速に完成させたり、ソファを交換したり、照明の色を変更したりすることができます。ユーザーが旅行指示を入力すると、ユーザーはすぐに日本に到着し、AI エージェントはユーザーが対応する観光スポットを検索したり、簡単な会話コミュニケーションで豊富な情報を提供したりすることもできます。

データは、世界の大規模言語モデル市場が急速に成長していることを示しています。 Granview Research の報告によると、世界の大規模言語モデル市場規模は 43 億 5,000 万米ドルと推定され、2024 年から 2030 年にかけて年間平均成長率 35.9% で成長すると予想されています。同様に、エッジ人工知能市場も活況を呈しており、世界のエッジ人工知能市場は2023年から2030年にかけて年平均成長率21.0%で成長し、2030年までに664億7,800万米ドルに達すると予想されています。

NEXA AI チームは、スタンフォード大学の優れた研究者によって設立されました。

創設者兼主任研究員の Alex Chen (Chen Wei) はスタンフォード大学で博士号取得を目指して勉強中です。彼は人工知能研究において豊富な経験を持ち、博士号を取得しています。スタンフォード大学の中国人研究者、スタンフォード中国起業家組織会長。

共同創設者兼最高技術責任者である Zack Li (Li Zhiyuan) もスタンフォード大学を卒業しており、Google および Google で 4 年間のエンドサイドの経験を持っています。 Amazon Lab126 研究所 AI の最前線での研究開発経験を持ち、スタンフォード中国起業家協会の会長も務めました。

スタンフォード大学の准教授であり、スタンフォードテクノロジーアントレプレナーシッププログラムの副ディレクターであるチャールズ (チャック) エスリーはアドバイザーとして機能しており、チームに指導とサポートを提供しています。

△ 斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用 左: Li Zhiyuan、右: Chen Wei現在、NEXA AI の独自技術は特許保護を申請しています。

NEXA AI の創設チームは、エンドサイド AI テクノロジーの開発を促進し、オープンソースモデルを通じてその革新的なテクノロジーの影響力を高め、よりスマートで効率的なシステムを構築することに引き続き尽力すると述べました。ユーザーのこれからの生活。

論文アドレス: https://arxiv.org/abs/2404.11459

以上がスタンフォード大学の 20 億パラメータの最終テストマルチモーダル AI エージェントモデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

テクノロジーのイノベーターからヘルスケアの先駆者まで：Geetha Manjunath博士＆＃039; s AIストーリーApr 19, 2025 am 11:02 AM

「Leading With Data」のこのエピソードでは、Niramai Analytixの創設者兼CEOであるGeetha Manjunath博士が特徴です。 AIとヘルスケアでの25年以上の経験を持つManjunath博士は、インド科学研究所から博士号を取得し、MBAを取得しています。

OllamaによるローカルLLMの展開を簡素化 - 分析VidhyaApr 19, 2025 am 11:01 AM

Ollamaを使用して、オープンソースLLMのパワーをローカルに活用してください：包括的なガイド大規模な言語モデル（LLMS）を実行すると、比類のない制御と透明性が局所的に提供されますが、環境のセットアップは困難な場合があります。 Ollamaはこのプロセスを簡素化します

モンステラピで大規模な言語モデルを微調整する方法Apr 19, 2025 am 10:49 AM

モンステラピで微調整されたLLMSの力を活用：包括的なガイド仮想アシスタントがあなたのニーズを完全に理解し、予測することを想像してください。これは、大規模な言語モデル（LLMS）の進歩のおかげで現実になりつつあります。しかし、a

5つの統計テストすべてのデータサイエンティストが知っておくべき - 分析vidhyaApr 19, 2025 am 10:27 AM

データサイエンスの重要な統計テスト：包括的なガイドデータからの貴重な洞察のロックを解除することは、データサイエンスで最も重要です。統計テストのマスタリングは、これを達成するための基本です。これらのテストは、データサイエンティストが厳密にValに力を与えます

フィレンツェ-2でコンピュータービジョンタスクを実行する方法-AnalyticsVidhyaApr 19, 2025 am 10:21 AM

導入元のトランスの導入は、現在の大規模な言語モデルへの道を開いた。同様に、トランスモデルの導入後、視覚変圧器（VIT）が導入されました。のように

Langchainテキストスプリッターを使用してデータを分割する7つの方法-AnalyticsVidhyaApr 19, 2025 am 10:11 AM

Langchainテキストスプリッター：効率と精度のためにLLM入力を最適化する以前の記事では、Langchainのドキュメントローダーについて説明しました。ただし、LLMにはコンテキストウィンドウサイズの制限（トークンで測定）があります。この制限を超えると、データが切り捨てられます

無料生成AIコース：イノベーションの未来を先駆けてApr 19, 2025 am 10:01 AM

生成AI：創造性と革新の革命生成的AIは、ボタンに触れるだけでテキスト、画像、音楽、仮想世界を作成することにより、産業を変革しています。その影響は、ビデオ編集、音楽制作、アート、エンターテイメント、HEAに及びます

ユニバーサルセンテンスエンコーダーとwikiqaを使用してQAモデルを作成するApr 19, 2025 am 10:00 AM

高度な質問応答のための埋め込みモデルの力を活用する今日の情報が豊富な世界では、正確な答えを即座に得る能力が最重要です。この記事では、堅牢な質問回答（QA）モデルの構築を示しています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

メモ帳++7.3.1

使いやすく無料のコードエディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。