ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合-AI-php.cn

ホームページ

テクノロジー周辺機器

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

王林

Apr 15, 2024 pm 04:01 PM

pythonaiデータ

Musk の第一世代マルチモーダルモデル Grok-1.5V がついに登場!

Grok 1.5V は、デジタル世界と物理世界を接続できると主張しています。

テキスト機能に加えて、ドキュメント、アイコン、スクリーンショット、写真などのさまざまな視覚情報も扱うことができます。

Grok 1.5V は、すべての初期テスターとすべての Grok ユーザーが間もなく利用できるようになります。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

Nvidia の上級科学者である Jim Fan は、Grok-1.5V の「最大のハイライト」を発見しました。彼の意見では、Grok-1.5V です。最も興味深いのは、自動運転のエッジケースを解決できる可能性です。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

「思考の連鎖」を使用することで、車は複雑なシナリオを解決し、ルールや反事実に基づいて推論し、その決定を説明することができます、Grok -1.5 V はピクセルレベルまでの知覚を強化し、ピクセル→アクションへの操作マッピングを促進します。

このことから、Tesla FSD V13 は言語トークンを理解できる可能性があります。

Tesla の利点は、高度に成熟したデータ管理ラインを備えているため、人間による高品質の解釈トレースを使用して多数のエッジケースにラベルを付けることが難しくないことです。マルチモーダル FSD 推論では、Grok のパフォーマンスの微調整は GPT-4V や Gemini よりもはるかに優れている可能性があります。

Wayve の LINGO-1 にも似たようなアイデアが以前にあったのではないか、と思われるかもしれません。しかし、忘れてはいけないのは、テスラが回転させているのは、以前よりもはるかに大きい、比類のないデータフライホイールであるということです。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

マスク氏も適切なタイミングでメッセージ領域に現れ、さらに詳しく説明しました——

はい2 つのデータソースは、無限に拡張可能な合成データと現実世界のビデオです。前者には信憑性の問題がありますが、後者には問題がありません。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

一部のネチズンは、皆さん、これが AGI への最も実現可能な方法のように思えますと言いました。世界モデルを一貫して推論するための明示的な言語推論を備えたマルチモーダルモデル。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

モデルの機能

xAI の公式 Web サイトでは、Grok-1.5V がこのように紹介されています。

GPT-4V、Claude 3 Sonnet、Claude 3 Opus などのトップマルチモーダルモデルと競合できます。

複数の分野にまたがる推論であっても、文書の理解であっても、科学的な図、表、スクリーンショット、写真など、Grok-1.5V はそれらに匹敵することができます。

特に驚くべきことは、物理世界を理解するその卓越した能力です。

RealWorldQA ベンチマークテストでは、チェーンプロンプトとゼロサンプル設定を考慮せずに、Grok が類似のモデルよりも優れたパフォーマンスを発揮することがわかります。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

次の 7 つの代表的な例は、さまざまなシナリオにおける Grok 1.5V の優れたパフォーマンスを示しています。

1. チャートに基づいてコードを作成する

次の図は、Grok が具体的な意思決定を行うための単純な推測ゲームのフローチャートを示しています。フローチャートに基づいて、Python コードを使用してプロセスを実装します。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃ユーザー：＃＃＃＃＃＃

これを Python コードに変換できますか?

グロク:

もちろんです！このフローチャートは、コンピューターが乱数を生成し、ユーザーがそれが何であるかを推測する単純な推測ゲームを説明しています。フローチャートのロジックを表す Python コードは次のとおりです:

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

このコードは、フローチャートで説明されている推測ゲームを実行します。ユーザーは、正しい番号を推測するまで、推測された番号を入力するよう求められます。

#2. カロリーを計算する

食品の栄養成分リストに従って、Grok は 1 回分の分量を知ることができます。フードは 3 個で 60 カロリーを含み、ユーザーが 5 個に対して与えたフードの合計カロリーは 100 であると計算されます。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

ユーザー:

5 錠剤のカロリーはどれくらいですか?

Grok:

#1 食分にスライス 3 枚が含まれており、総カロリーが 60 カロリーの場合、 5枚で100カロリーくらいです。

まず、スライス 1 枚あたりのカロリーを決定します。60 カロリー ÷ 3 スライス = 20 カロリー/スライス。

次に、スライスあたりのカロリーにスライスの数を掛けます: 20 カロリー x 5 スライス = 100 カロリー。

3. 絵から就寝前の物語まで

グロクは、絵の内容に基づいて、就寝前の短い物語を話すことができます。

たとえば、次の落書き:

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

## ユーザー:

これは私の息子が描いたものです。彼の絵に基づいて就寝前の話をしてもらえますか?

グロク:

昔、冒険と驚異に満ちた土地に、勇敢な男が住んでいました。ティミーという名前の小さな男の子です。彼は家族と一緒に暖かい小屋に住んでおり、周囲の世界を探索することが何よりも大好きです。

晴れた日に、ティミーは近くの森を探検することにしました。彼は、これから目にする素晴らしいものをすべて記録するために、お気に入りのスナック、コンパス、そして信頼できるノートを詰め込んでいます。

森の奥深くに入った後、ティミーは太陽の光で輝く魔法の川を発見しました。魅力的な川の景色を見て、彼は小さな紙の船を作り、森の精霊たちへの特別な挨拶として水上に置くことにしました。

ティミーは紙の船を慎重に折り、その上に笑顔を描き、森のエルフたちへの愛と祝福を表現しました。それから彼は紙の船をそっと川に置き、それが水とともに流れていくのを眺めました。

日が沈むにつれ、ティミーは家に帰る時間だと悟りました。彼は森で過ごした日々を思い出し、この素晴らしい思い出は永遠に残るだろうと確信していました。

家に帰ったティミーは家族に自分の冒険について話しました。家族はとても幸せで、将来もっとエキサイティングな冒険を経験するだろうと信じていました。

それで、ティミーは愛と夢に満ちた心でゆっくりと眠りに落ち、空想の世界での新しい冒険を楽しみにしていました。

#4. ミームを理解する

以下のミームでは、左側が新興企業、右側が側は大企業ですとはどういう意味ですか?

編集者は初見では理解できませんでした。 Grok の説明を読んで、私は突然気づきました。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

ユーザー:

この図がよくわかりません。説明してください。。

グロク:

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里，一群人齐心协力挖掘一个深洞，每个人都在积极地参与。

而在右侧的「大公司」里，只有一人在挖洞，其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中，而大公司则可能因为其庞大的结构和官僚体制，使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

用户：

请将这个表转换为CSV格式。

Grok：

图像中的表格可以转换成CSV格式，如下所示：

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

请注意，CSV格式不支持样式或格式化，因此信息以纯文本格式显示。

6. 地板上的腐烂木头，都能给出建议

地板上的木材腐烂了怎么办？

照片拍给Grok，它可以帮我们判断腐烂情况，还能给出合理的处理建议。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

用户：

我地板上的螺丝周围出现了这些洞。是腐烂了吗？我应该更换木板吗？

Grok：

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出，这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命，建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害，并保持其结构的稳固。

如果你不知道如何更换木板，可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估，并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题，Grok-1.5V也是不在话下。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

用户：

你能写出解决这个问题的Python代码吗？

Grok：

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left

現実世界の理解

有用な現実世界の AI アシスタントを開発し、物理世界に対するモデルの理解を向上させることが重要です。

この目標を達成するために、研究チームは新しいベンチマークである RealWorldQA も立ち上げました。

このベンチマークは、基本的な現実世界の空間を理解するマルチモーダルモデルの能力を評価するために使用できます。

現在のベンチマークの例の多くは人間にとって比較的理解しやすいものですが、最先端のモデルにとっては依然として困難です。

RealWorldQA の初期リリースには 700 を超える画像が含まれており、それぞれに質問と簡単に検証可能な回答が含まれています。

たとえば、「写真のピザカッターとハサミ、どちらの物体が大きいですか?」と尋ねるとします。

Grok の答えは次のとおりです。それらはほぼ同じサイズです。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

現在の車線からどこへ行くことができますか? A. 左折 B. 直進 C. 左折して直進 D. 右折

Grok は A を選択します。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

車の前のカメラから判断すると、前の灰色の車を回避するのに十分なスペースがありますか?

Grok の答えは「はい」です。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

この写真から、恐竜はどの方向を向いていますか?

グロクは「東です」と答えました。

ムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合

このデータセットには、他の現実世界の画像に加えて、車両から撮影された匿名化された画像が含まれています。

研究チームはデータセットをオープンソース化しており、マルチモーダルモデルの改善に合わせてデータセットを拡張し続けたいと考えています。

最後に、xAI 公式ウェブサイトは、マルチモーダルの理解と生成能力を向上させることで、宇宙を理解できる有益な AGI の構築に徐々に近づくと結論付けています。

今後数か月以内に、画像、音声、ビデオ、その他のマルチモーダルモードにおけるこれら 2 つの機能にも大きな改善が見られると推定されています。

以上がムスクの新作！ Grok-1.5V マルチモーダルモデルの衝撃的なリリース: デジタル世界と物理世界の完璧な統合の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

解读CRISP-ML（Q）：机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前，没有用于构建和管理机器学习（ML）应用程序的标准实践。机器学习项目组织得不好，缺乏可重复性，而且从长远来看容易彻底失败。因此，我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程（CRISP-ML（Q））是CRISP-DM的升级版，以确保机器学习产品的质量。CRISP-ML（Q）有六个单独的阶段：1. 业务和数据理解2. 数据准备3. 模型

人工智能的环境成本和承诺Apr 08, 2023 pm 04:31 PM

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键，要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注，掩盖了人工智能可能加剧环境退化的方式，通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术，同时承认其大量消耗能源，引领人工智能潮流的科技公司需要探索人工智能对环境影响的

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用什么呈现数据Jan 20, 2021 pm 03:31 PM

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量，根据数量的多少画成长短不同的直条，然后把这些直条按一定的顺序排列起来；从条形统计图中很容易看出各种数量的多少。条形统计图分为：单式条形统计图和复式条形统计图，前者只表示1个项目的数据，后者可以同时表示多个项目的数据。

自动驾驶车道线检测分类的虚拟-真实域适应方法Apr 08, 2023 pm 02:31 PM

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“，2022年5月，加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集，但光照真实模拟环境生成的合成数据推动的无监督域适应（UDA，Unsupervised Domain Adaptation）方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成（adversarial d

数据通信中的信道传输速率单位是bps，它表示什么Jan 18, 2021 pm 02:58 PM

数据通信中的信道传输速率单位是bps，它表示“位/秒”或“比特/秒”，即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数，也称“比特率”。比特率表示单位时间内传送比特的数目，用于衡量数字信息的传送速度；根据每帧图像存储时所占的比特数和传输比特率，可以计算数字图像信息传输的速度。

数据分析方法有哪几种Dec 15, 2020 am 09:48 AM

数据分析方法有4种，分别是：1、趋势分析，趋势分析一般用于核心指标的长期跟踪；2、象限分析，可依据数据的不同，将各个比较主体划分到四个象限中；3、对比分析，分为横向对比和纵向对比；4、交叉分析，主要作用就是从多个维度细分数据。

聊一聊Python 实现数据的序列化操作Apr 12, 2023 am 09:31 AM

在日常开发中，对数据进行序列化和反序列化是常见的数据操作，Python提供了两个模块方便开发者实现数据的序列化操作，即 json 模块和 pickle 模块。这两个模块主要区别如下：json 是一个文本序列化格式，而 pickle 是一个二进制序列化格式；json 是我们可以直观阅读的，而 pickle 不可以；json 是可互操作的，在 Python 系统之外广泛使用，而 pickle 则是 Python 专用的；默认情况下，json 只能表示 Python 内置类型的子集，不能表示自定义的

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、