ホームページ  >  記事  >  テクノロジー周辺機器  >  ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

王林
王林転載
2024-04-15 16:01:01849ブラウズ

Musk の第一世代マルチモーダル モデル Grok-1.5V がついに登場!

Grok 1.5V は、デジタル世界と物理世界を接続できると主張しています。

テキスト機能に加えて、ドキュメント、アイコン、スクリーンショット、写真などのさまざまな視覚情報も扱うことができます。

Grok 1.5V は、すべての初期テスターとすべての Grok ユーザーが間もなく利用できるようになります。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

Nvidia の上級科学者である Jim Fan は、Grok-1.5V の「最大のハイライト」を発見しました。彼の意見では、Grok-1.5V です。最も興味深いのは、自動運転のエッジケースを解決できる可能性です。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

「思考の連鎖」を使用することで、車は複雑なシナリオを解決し、ルールや反事実に基づいて推論し、その決定を説明することができます、Grok -1.5 V はピクセル レベルまでの知覚を強化し、ピクセル→アクションへの操作マッピングを促進します。

このことから、Tesla FSD V13 は言語トークンを理解できる可能性があります。

Tesla の利点は、高度に成熟したデータ管理ラインを備えているため、人間による高品質の解釈トレースを使用して多数のエッジ ケースにラベルを付けることが難しくないことです。マルチモーダル FSD 推論では、Grok のパフォーマンスの微調整は GPT-4V や Gemini よりもはるかに優れている可能性があります。

Wayve の LINGO-1 にも似たようなアイデアが以前にあったのではないか、と思われるかもしれません。しかし、忘れてはいけないのは、テスラが回転させているのは、以前よりもはるかに大きい、比類のないデータ フライホイールであるということです。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

マスク氏も適切なタイミングでメッセージ領域に現れ、さらに詳しく説明しました——

はい2 つのデータ ソースは、無限に拡張可能な合成データと現実世界のビデオです。前者には信憑性の問題がありますが、後者には問題がありません。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

一部のネチズンは、皆さん、これが AGI への最も実現可能な方法のように思えますと言いました。世界モデルを一貫して推論するための明示的な言語推論を備えたマルチモーダル モデル。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

モデルの機能

xAI の公式 Web サイトでは、Grok-1.5V がこのように紹介されています。

GPT-4V、Claude 3 Sonnet、Claude 3 Opus などのトップマルチモーダルモデルと競合できます。

複数の分野にまたがる推論であっても、文書の理解であっても、科学的な図、表、スクリーンショット、写真など、Grok-1.5V はそれらに匹敵することができます。

特に驚くべきことは、物理世界を理解するその卓越した能力です。

RealWorldQA ベンチマーク テストでは、チェーン プロンプトとゼロサンプル設定を考慮せずに、Grok が類似のモデルよりも優れたパフォーマンスを発揮することがわかります。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

次の 7 つの代表的な例は、さまざまなシナリオにおける Grok 1.5V の優れたパフォーマンスを示しています。

1. チャートに基づいてコードを作成する

次の図は、Grok が具体的な意思決定を行うための単純な推測ゲームのフローチャートを示しています。フローチャートに基づいて、Python コードを使用してプロセスを実装します。 #####################ユーザー:######

これを Python コードに変換できますか?

グロク:

もちろんです!このフローチャートは、コンピューターが乱数を生成し、ユーザーがそれが何であるかを推測する単純な推測ゲームを説明しています。フローチャートのロジックを表す Python コードは次のとおりです:

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

このコードは、フローチャートで説明されている推測ゲームを実行します。ユーザーは、正しい番号を推測するまで、推測された番号を入力するよう求められます。

#2. カロリーを計算する

食品の栄養成分リストに従って、Grok は 1 回分の分量を知ることができます。フードは 3 個で 60 カロリーを含み、ユーザーが 5 個に対して与えたフードの合計カロリーは 100 であると計算されます。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

ユーザー:

5 錠剤のカロリーはどれくらいですか?

Grok:

#1 食分にスライス 3 枚が含まれており、総カロリーが 60 カロリーの場合、 5枚で100カロリーくらいです。

まず、スライス 1 枚あたりのカロリーを決定します。60 カロリー ÷ 3 スライス = 20 カロリー/スライス。

次に、スライスあたりのカロリーにスライスの数を掛けます: 20 カロリー x 5 スライス = 100 カロリー。

3. 絵から就寝前の物語まで

グロクは、絵の内容に基づいて、就寝前の短い物語を話すことができます。

たとえば、次の落書き:

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

## ユーザー:

これは私の息子が描いたものです。彼の絵に基づいて就寝前の話をしてもらえますか?

グロク:

昔、冒険と驚異に満ちた土地に、勇敢な男が住んでいました。ティミーという名前の小さな男の子です。彼は家族と一緒に暖かい小屋に住んでおり、周囲の世界を探索することが何よりも大好きです。

晴れた日に、ティミーは近くの森を探検することにしました。彼は、これから目にする素晴らしいものをすべて記録するために、お気に入りのスナック、コンパス、そして信頼できるノートを詰め込んでいます。

森の奥深くに入った後、ティミーは太陽の光で輝く魔法の川を発見しました。魅力的な川の景色を見て、彼は小さな紙の船を作り、森の精霊たちへの特別な挨拶として水上に置くことにしました。

ティミーは紙の船を慎重に折り、その上に笑顔を描き、森のエルフたちへの愛と祝福を表現しました。それから彼は紙の船をそっと川に置き、それが水とともに流れていくのを眺めました。

日が沈むにつれ、ティミーは家に帰る時間だと悟りました。彼は森で過ごした日々を思い出し、この素晴らしい思い出は永遠に残るだろうと確信していました。

家に帰ったティミーは家族に自分の冒険について話しました。家族はとても幸せで、将来もっとエキサイティングな冒険を経験するだろうと信じていました。

それで、ティミーは愛と夢に満ちた心でゆっくりと眠りに落ち、空想の世界での新しい冒険を楽しみにしていました。

#4. ミームを理解する

以下のミームでは、左側が新興企業、右側が側は大企業です とはどういう意味ですか?

編集者は初見では理解できませんでした。 Grok の説明を読んで、私は突然気づきました。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

ユーザー:

この図がよくわかりません。説明してください。 。

グロク:

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。

而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

用户:

请将这个表转换为CSV格式。

Grok:

图像中的表格可以转换成CSV格式,如下所示:

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

6. 地板上的腐烂木头,都能给出建议

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

用户:

我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

Grok:

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。

如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题,Grok-1.5V也是不在话下。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

用户:

你能写出解决这个问题的Python代码吗?

Grok:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left 

現実世界の理解

有用な現実世界の AI アシスタントを開発し、物理世界に対するモデルの理解を向上させることが重要です。

この目標を達成するために、研究チームは新しいベンチマークである RealWorldQA も立ち上げました。

このベンチマークは、基本的な現実世界の空間を理解するマルチモーダル モデルの能力を評価するために使用できます。

現在のベンチマークの例の多くは人間にとって比較的理解しやすいものですが、最先端のモデルにとっては依然として困難です。

RealWorldQA の初期リリースには 700 を超える画像が含まれており、それぞれに質問と簡単に検証可能な回答が含まれています。

たとえば、「写真のピザカッターとハサミ、どちらの物体が大きいですか?」と尋ねるとします。

Grok の答えは次のとおりです。それらはほぼ同じサイズです。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

現在の車線からどこへ行くことができますか? A. 左折 B. 直進 C. 左折して直進 D. 右折

Grok は A を選択します。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

車の前のカメラから判断すると、前の灰色の車を回避するのに十分なスペースがありますか?

Grok の答えは「はい」です。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

この写真から、恐竜はどの方向を向いていますか?

グロクは「東です」と答えました。

ムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

このデータセットには、他の現実世界の画像に加えて、車両から撮影された匿名化された画像が含まれています。

研究チームはデータセットをオープンソース化しており、マルチモーダルモデルの改善に合わせてデータセットを拡張し続けたいと考えています。

最後に、xAI 公式ウェブサイトは、マルチモーダルの理解と生成能力を向上させることで、宇宙を理解できる有益な AGI の構築に徐々に近づくと結論付けています。

今後数か月以内に、画像、音声、ビデオ、その他のマルチモーダル モードにおけるこれら 2 つの機能にも大きな改善が見られると推定されています。

以上がムスクの新作! Grok-1.5V マルチモーダル モデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。