


スタンフォード大学の 20 億パラメータの最終テスト マルチモーダル AI エージェント モデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりました
世界初の超小型マルチモーダル AI エージェント モデルOctopus V3、スタンフォード大学 NEXA AI チーム 、Agent をより賢く、より高速にし、エネルギー消費とコストを削減します。
今年 4 月初旬、NEXA AI は待望の Octopus V2 をリリースしました。これは 関数呼び出しパフォーマンス -4# で GPT を上回りました。 ## は、推論に必要なテキストの量を 95% 削減し、エンドサイド AI アプリケーションに新たな可能性をもたらします。特許取得済みのコア技術「関数トークン」は、革新的な関数呼び出し方法により推論に必要なテキストの長さを大幅に削減します。
このアプローチにより、わずか20 億のパラメーターを使用してモデルを効率的にトレーニングできます と 精度と遅延の点で GPT-4## を上回ります# さまざまなエンドデバイスの展開ニーズに適応します。 Octopus V2 は LLM コミュニティでリリースされて以来、広く注目を集め、Hugging Face の CTO である Julien Chaumond 氏や、有名な AI ニュースレター AI Cheung の創設者である Rowan 氏、Figure AI の創設者である Brett Adcock 氏、OPPO エッジ人工知能チーム リーダーの Manoj Kumar 氏など。これらは「デバイスサイド AI テクノロジーの新時代を創造する」と称賛されています。
有名なオープンソース AI プラットフォームである Hugging Face では、Octopus V2 は 12,000 回以上ダウンロードされています。
NEXA AI チームは、1 か月も経たないうちに、次世代マルチモーダル AI
モデル Octopus V3 をリリースし、さらなる進歩を実証しました。画像処理機能と多言語テキスト処理機能により、スマートフォンなどのエンドサイドデバイスが真の AI 時代に突入する道が開かれます。
Octopus V3 はマルチモーダル機能を備えているだけではありません, 関数呼び出しのパフォーマンスは同様のモデルをはるかに上回り、GPT-4V GPT4 に匹敵しますが、モデル パラメーターの数は 10 億に達せず、多言語機能を備えています。
つまり、従来の大規模言語モデルと比較して、サイズが小さく、消費電力が少なく、Raspberry Pi などのさまざまな小型デバイス上で簡単に実行でき、高速性を実現します。 . と正確な関数呼び出し。
これは、将来的に AI エージェントが
スマートフォン、AR/VR、ロボット、スマート カー およびその他のエンドサイド デバイスで広く使用され、さまざまな機能を提供できることを意味します。よりスムーズでスマートなエクスペリエンスをユーザーに提供します。 一方、V3 はマルチモーダル処理機能を備えているため、テキストと画像の入力を同時に処理でき、多言語機能と組み合わせることで、ユーザー エクスペリエンスもより豊かになります。
たとえば、Instacart ショッピング アプリケーションでは、ユーザーはパイナップルの写真と簡単な会話指示を通じて AI エージェントに自動的に商品を検索させることができ、効率とユーザー エクスペリエンスを向上させることができます。
別の例として、電子メールの送信などのシナリオでは、Octopus V3 は自動的に情報を抽出し、テキスト付きの画像に基づいて電子メールのコンテンツを埋め込むことができ、よりインテリジェントな情報をユーザーに提供します。 , 便利なサービス。
ソフトウェア インタラクションからスマート カーまで、デバイス側 AI には大きな可能性があります
これらの特性に基づいて、Octopus V2 および V3 には豊富で多様なアプリケーション シナリオがあります。幅広いアプリケーションの可能性。
上記の携帯電話のシナリオに加えて、Octopus V2 をスマート カーに適用すると、新しいインタラクティブ エクスペリエンスももたらす可能性があります。現在の音声アシスタントでは、運転中に目的地を一時的に変更したり、停車地を追加したりするなど、車の所有者がより複雑なタスクを完了するのを支援するのは困難であることがよくあります。 Octopus V3を適用すると、AIアシスタントは比較的曖昧で単純な指示に基づいて、対応するタスクを迅速かつ正確に完了できるようになります。
V2 および V3 の機能と組み合わせることで、情報の検索から指示に基づいた設計の完了まで、ユーザーは仮想シーンでスムーズな AI 体験を得ることができます。コミュニティ ユーザーの VR シーン デモでは、簡単な音声コマンドを入力します。 , AI エージェントを使用すると、ユーザーは数回クリックするだけで、リビング ルームのデザインを迅速に完成させたり、ソファを交換したり、照明の色を変更したりすることができます。ユーザーが旅行指示を入力すると、ユーザーはすぐに日本に到着し、AI エージェントはユーザーが対応する観光スポットを検索したり、簡単な会話コミュニケーションで豊富な情報を提供したりすることもできます。
データは、世界の大規模言語モデル市場が急速に成長していることを示しています。 Granview Research の報告によると、世界の大規模言語モデル市場規模は 43 億 5,000 万米ドルと推定され、2024 年から 2030 年にかけて年間平均成長率 35.9% で成長すると予想されています。同様に、エッジ人工知能市場も活況を呈しており、世界のエッジ人工知能市場は2023年から2030年にかけて年平均成長率21.0%で成長し、2030年までに664億7,800万米ドルに達すると予想されています。
NEXA AI チームは、スタンフォード大学の優れた研究者によって設立されました。
創設者兼主任研究員の Alex Chen (Chen Wei) はスタンフォード大学で博士号取得を目指して勉強中です。彼は人工知能研究において豊富な経験を持ち、博士号を取得しています。スタンフォード大学の中国人研究者、スタンフォード中国起業家組織会長。
共同創設者兼最高技術責任者である Zack Li (Li Zhiyuan) もスタンフォード大学を卒業しており、Google および Google で 4 年間のエンドサイドの経験を持っています。 Amazon Lab126 研究所 AI の最前線での研究開発経験を持ち、スタンフォード中国起業家協会の会長も務めました。
スタンフォード大学の准教授であり、スタンフォード テクノロジー アントレプレナーシップ プログラムの副ディレクターであるチャールズ (チャック) エスリーはアドバイザーとして機能しており、チームに指導とサポートを提供しています。
△左: Li Zhiyuan、右: Chen Wei現在、NEXA AI の独自技術は特許保護を申請しています。
NEXA AI の創設チームは、エンドサイド AI テクノロジーの開発を促進し、オープンソース モデルを通じてその革新的なテクノロジーの影響力を高め、よりスマートで効率的なシステムを構築することに引き続き尽力すると述べました。ユーザーのこれからの生活。
論文アドレス: https://arxiv.org/abs/2404.11459
以上がスタンフォード大学の 20 億パラメータの最終テスト マルチモーダル AI エージェント モデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「Leading With Data」のこのエピソードでは、Niramai Analytixの創設者兼CEOであるGeetha Manjunath博士が特徴です。 AIとヘルスケアでの25年以上の経験を持つManjunath博士は、インド科学研究所から博士号を取得し、MBAを取得しています。

Ollamaを使用して、オープンソースLLMのパワーをローカルに活用してください:包括的なガイド 大規模な言語モデル(LLMS)を実行すると、比類のない制御と透明性が局所的に提供されますが、環境のセットアップは困難な場合があります。 Ollamaはこのプロセスを簡素化します

モンステラピで微調整されたLLMSの力を活用:包括的なガイド 仮想アシスタントがあなたのニーズを完全に理解し、予測することを想像してください。 これは、大規模な言語モデル(LLMS)の進歩のおかげで現実になりつつあります。 しかし、a

データサイエンスの重要な統計テスト:包括的なガイド データからの貴重な洞察のロックを解除することは、データサイエンスで最も重要です。 統計テストのマスタリングは、これを達成するための基本です。これらのテストは、データサイエンティストが厳密にValに力を与えます

導入 元のトランスの導入は、現在の大規模な言語モデルへの道を開いた。同様に、トランスモデルの導入後、視覚変圧器(VIT)が導入されました。のように

Langchainテキストスプリッター:効率と精度のためにLLM入力を最適化する 以前の記事では、Langchainのドキュメントローダーについて説明しました。 ただし、LLMにはコンテキストウィンドウサイズの制限(トークンで測定)があります。 この制限を超えると、データが切り捨てられます

生成AI:創造性と革新の革命 生成的AIは、ボタンに触れるだけでテキスト、画像、音楽、仮想世界を作成することにより、産業を変革しています。 その影響は、ビデオ編集、音楽制作、アート、エンターテイメント、HEAに及びます

高度な質問応答のための埋め込みモデルの力を活用する 今日の情報が豊富な世界では、正確な答えを即座に得る能力が最重要です。 この記事では、堅牢な質問回答(QA)モデルの構築を示しています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

メモ帳++7.3.1
使いやすく無料のコードエディター

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
