Heim >Technologie-Peripheriegeräte >KI >Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

王林
王林nach vorne
2024-04-15 16:01:01939Durchsuche

Musks multimodales Modell Grok-1.5V der ersten Generation ist endlich da!

Grok 1,5V behauptet, die digitale Welt und die physische Welt verbinden zu können.

Neben Textfunktionen können auch verschiedene visuelle Informationen wie Dokumente, Symbole, Screenshots und Fotos verarbeitet werden.

Bald wird Grok 1,5V für alle frühen Tester und alle Grok-Benutzer verfügbar sein.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Jim Fan, ein leitender Wissenschaftler bei NVIDIA, hat das „größte Highlight“ von Grok-1.5V entdeckt: Seiner Ansicht nach ist das Interessanteste an Grok-1.5V sein Potenzial, Randfälle der Autonomie zu lösen Fahren .

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Durch die Verwendung der „Denkkette“ kann es dem Auto helfen, komplexe Szenarien zu lösen, mit Regeln und Kontrafakten zu argumentieren und seine Entscheidungsfindung zu erklären, wodurch die Wahrnehmung auf Pixelebene verbessert werden kann Förderung der Operationszuordnung als Pixel->Action.

Daher wird Tesla FSD V13 wahrscheinlich Sprachtoken verstehen!

Der Vorteil von Tesla besteht darin, dass es über eine hoch ausgereifte Datenverwaltungslinie verfügt, sodass es nicht schwierig ist, eine große Anzahl von Grenzfällen mit hochwertigen menschlichen Interpretationsspuren zu kennzeichnen. Bei der multimodalen FSD-Überlegung ist die Feinabstimmung der Leistung von Grok wahrscheinlich weitaus besser als die von GPT-4V und Gemini.

Man könnte sagen, hatte Wayves LINGO-1 nicht schon früher ähnliche Ideen? Aber vergessen Sie nicht: Was Tesla in Umlauf bringt, ist ein beispielloses Datenschwungrad, viel größer als zuvor.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Musk erschien ebenfalls zum richtigen Zeitpunkt im Nachrichtenbereich und erläuterte weiter:

Es gibt zwei Datenquellen, die unendlich erweitert werden können: synthetische Daten und Videos aus der realen Welt. Bei ersterem stellt sich eine Frage der Authentizität, bei letzterem jedoch nicht.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Einige Internetnutzer sagten: „Gute Leute, das klingt nach dem machbarsten Weg zu AGI!“ Multimodale Modelle mit expliziter linguistischer Argumentation zur konsistenten Ableitung von Weltmodellen.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Modellfähigkeiten

Auf der offiziellen Website von xAI wird Grok-1.5V so vorgestellt.

Es kann mit den besten multimodalen Modellen wie GPT-4V, Claude 3 Sonnet, Claude 3 Opus usw. konkurrieren.

Ob es um multidisziplinäres Denken oder Dokumentenverständnis, wissenschaftliche Diagramme, Tabellen, Screenshots und Fotos usw. geht, Grok-1.5V kann mit ihnen mithalten.

Besonders überraschend ist seine herausragende Fähigkeit, die physische Welt zu verstehen.

Im RealWorldQA-Benchmark-Test wurde Grok ohne Eingabeaufforderungen und Null-Stichproben-Einstellungen mit dem folgenden Datensatz bewertet. Es ist ersichtlich, dass Grok besser abschneidet als ähnliche Modelle.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Die folgenden 7 repräsentativen Beispiele veranschaulichen die gute Leistung von Grok 1,5V in verschiedenen Szenarien.

1. Schreiben Sie Code basierend auf dem Diagramm

Die folgende Abbildung zeigt das Flussdiagramm eines einfachen Ratespiels, mit dem Grok den Prozess basierend auf dem spezifischen Inhalt des Flussdiagramms implementieren kann.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Benutzer:

Können Sie es in Python-Code übersetzen?

Grok:

Natürlich! Dieses Flussdiagramm zeigt ein einfaches Ratespiel, bei dem der Computer eine Zufallszahl generiert und der Benutzer erraten muss, um welche Zahl es sich handelt. Hier ist der Python-Code, der die Logik im Flussdiagramm darstellt:

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

Dieser Code führt das im Flussdiagramm beschriebene Ratespiel aus. Der Benutzer wird aufgefordert, die erratene Zahl einzugeben, bis der Benutzer die richtige Zahl errät.

2. Kalorien berechnen

Anhand der Nährwertzutatenliste des Lebensmittels kann Grok erkennen, dass das Lebensmittel 3 Stück pro Portion enthält und 60 Kalorien enthält Lebensmittel Die Gesamtkalorienzahl beträgt 100.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Benutzer:

Wie viele Kalorien haben 5 Tabletten?

Grok:

Wenn eine Portion 3 Scheiben enthält und die Gesamtkalorien 60 Kalorien betragen, dann haben 5 Scheiben etwa 100 Kalorien.

Bestimmen Sie zunächst die Kalorien pro Scheibe: 60 Kalorien ÷ 3 Scheiben = 20 Kalorien/Scheibe.

Als nächstes multiplizieren Sie die Kalorien pro Scheibe mit der Anzahl der Scheiben: 20 Kalorien x 5 Scheiben = 100 Kalorien.

3. Vom Gemälde zur Gutenachtgeschichte

Grok kann eine kurze Gutenachtgeschichte basierend auf dem Inhalt des Gemäldes erzählen.

Zum Beispiel das folgende Gekritzel:

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Benutzer:

Das hat mein Sohn gezeichnet. Kannst du anhand seiner Zeichnung eine Gute-Nacht-Geschichte erzählen?

Grok:

Vor langer Zeit lebte in einem Land voller Abenteuer und Wunder ein mutiger kleiner Junge namens Timmy. Er lebt mit seiner Familie in einer warmen Hütte und liebt nichts mehr, als die Welt um sich herum zu erkunden.

An einem sonnigen Tag beschloss Timmy, den nahegelegenen Wald zu erkunden. Er packt seine Lieblingssnacks, einen Kompass und sein zuverlässiges Notizbuch ein, um all die erstaunlichen Dinge aufzuzeichnen, die er gleich sehen wird.

Nachdem Timmy tief in den Wald gegangen war, entdeckte er einen magischen Fluss, der in der Sonne glitzerte. Die bezaubernde Landschaft des Flusses veranlasste ihn, ein kleines Papierboot zu bauen und es als besonderen Gruß an die Waldgeister auf dem Wasser zu platzieren.

Timmy faltete das Papierboot sorgfältig zusammen und zeichnete ein Smiley-Gesicht darauf, um seine Liebe und seinen Segen für die Waldelfen auszudrücken. Dann setzte er das Papierboot vorsichtig in den Fluss und sah zu, wie es mit dem Wasser davontrieb.

Als die Sonne unterging, wusste Timmy, dass es Zeit war, nach Hause zu gehen. Er dachte an seinen Tag im Wald zurück und wusste, dass diese wundervolle Erinnerung für immer bei ihm bleiben würde.

Als er nach Hause kam, erzählte Timmy seiner Familie von seinem Abenteuer. Die Familie war sehr glücklich, als sie das hörte, und glaubte, dass er in Zukunft noch weitere aufregende Abenteuer erleben würde.

Mit einem Herzen voller Liebe und Träume schlief Timmy langsam ein und freute sich darauf, neue Abenteuer in seiner Fantasiewelt zu erkunden.

4. Verstehen Sie das Meme

Das folgende Meme zeigt links ein Start-up-Unternehmen und rechts ein großes Unternehmen.

Der Redakteur hat es auf den ersten Blick nicht verstanden. Nachdem ich Groks Erklärung gelesen hatte, dämmerte es mir plötzlich.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Benutzer:

Ich verstehe dieses Bild nicht ganz, bitte erklären Sie es.

Grok:

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。

而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

用户:

请将这个表转换为CSV格式。

Grok:

图像中的表格可以转换成CSV格式,如下所示:

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

6. 地板上的腐烂木头,都能给出建议

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

用户:

我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

Grok:

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。

如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题,Grok-1.5V也是不在话下。

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

用户:

你能写出解决这个问题的Python代码吗?

Grok:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left 

Verständnis für die reale Welt

Die Entwicklung nützlicher KI-Assistenten für die reale Welt, die das Verständnis der Modelle für die physische Welt verbessern, ist von entscheidender Bedeutung.

Um dieses Ziel zu erreichen, hat das Forschungsteam außerdem einen neuen Benchmark eingeführt – RealWorldQA.

Dieser Benchmark kann verwendet werden, um die Fähigkeit multimodaler Modelle zu bewerten, grundlegende Räume der realen Welt zu verstehen.

Während viele Beispiele in aktuellen Benchmarks für Menschen relativ einfach zu verstehen sind, stellen sie für hochmoderne Modelle immer noch eine Herausforderung dar.

Die erste Version von RealWorldQA enthält über 700 Bilder, jedes mit einer Frage und einer leicht zu überprüfenden Antwort.

Wenn wir zum Beispiel fragen: Welcher Gegenstand ist größer, der Pizzaschneider oder die Schere auf dem Bild?

Die Antwort von Grok lautet: Sie sind ungefähr gleich groß.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Wohin kann ich von der aktuellen Spur aus gehen? A. Links abbiegen B. Geradeaus fahren C. Links abbiegen und geradeaus fahren D. Rechts abbiegen

Grok wählt A.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Ist der Kamera vor dem Auto nach zu urteilen, gibt es genug Platz, um das graue Auto davor zu umgehen?

Groks Antwort lautet: Ja.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

In welche Richtung blickt der Dinosaurier auf diesem Bild?

Grok antwortete: Osten.

Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten

Dieser Datensatz enthält neben anderen realen Bildern auch anonymisierte Bilder, die von Fahrzeugen aufgenommen wurden.

Das Forschungsteam hat diesen Datensatz als Open Source bereitgestellt und hofft, den Datensatz im Zuge der Verbesserung des multimodalen Modells weiter ausbauen zu können.

Abschließend kam die offizielle Website von xAI zu dem Schluss, dass sie sich durch die Verbesserung des multimodalen Verständnisses und der Generierungsfähigkeiten schrittweise dem Aufbau einer nützlichen AGI nähern werden, die das Universum verstehen kann.

Es wird geschätzt, dass wir in den nächsten Monaten auch erhebliche Verbesserungen dieser beiden Funktionen in den Bereichen Bild, Audio, Video und anderen multimodalen Modi sehen werden.

Das obige ist der detaillierte Inhalt vonMusks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen