>기술 주변기기 >일체 포함 >머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

王林
王林앞으로
2024-04-15 16:01:01909검색

Musk의 1세대 멀티모달 모델 Grok-1.5V가 드디어 출시되었습니다!

Grok 1.5V는 디지털 세계와 물리적 세계를 연결할 수 있다고 주장합니다.

텍스트 기능 외에도 문서, 아이콘, 스크린샷, 사진 등 다양한 시각적 정보도 처리할 수 있습니다.

곧 Grok 1.5V가 모든 초기 테스터와 모든 Grok 사용자에게 제공될 예정입니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

NVIDIA의 수석 과학자인 Jim Fan은 Grok-1.5V의 "가장 큰 하이라이트"를 발견했습니다. 그의 견해로는 Grok-1.5V의 가장 흥미로운 점은 자율주행의 엣지 케이스를 해결할 수 있는 잠재력입니다. 운전.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

자동차가 복잡한 시나리오를 해결하고, 규칙과 반사실을 추론하고, 의사 결정을 설명하는 데 도움을 줄 수 있습니다. 따라서 Grok-1.5V는 픽셀 수준에 대한 인식을 향상시킬 수 있습니다. 작업 매핑을 Pixel->Action으로 승격합니다.

따라서 Tesla FSD V13은 언어 토큰을 이해할 가능성이 높습니다!

Tesla의 장점은 매우 성숙한 데이터 관리 라인을 갖추고 있어 고품질의 사람이 해석한 흔적으로 수많은 엣지 케이스에 라벨을 붙이는 것이 어렵지 않습니다. 다중 모드 FSD 추론에서 Grok의 성능을 미세 조정하는 것은 GPT-4V 및 Gemini보다 훨씬 더 나을 가능성이 높습니다.

Wayve의 LINGO-1도 예전에도 비슷한 아이디어를 갖고 있지 않았나요? 그러나 Tesla가 회전하고 있는 것은 이전보다 훨씬 더 큰 비교할 수 없는 데이터 플라이휠이라는 것을 잊지 마십시오.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

Musk도 적절한 시간에 메시지 영역에 나타나 추가 설명을 했습니다. -

무한 확장이 가능한 두 가지 데이터 소스, 합성 데이터와 실제 비디오가 있습니다. 전자에는 진정성의 문제가 있지만 후자에는 그렇지 않습니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

일부 네티즌들은 "좋은 여러분, 이것이 AGI로 가는 가장 실현 가능한 경로인 것 같습니다!"라고 말했습니다. 세계 모델을 일관되게 추론하기 위한 명시적인 언어적 추론을 갖춘 다중 모드 모델입니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

모델 성능

xAI 공식 홈페이지에는 Grok-1.5V가 이렇게 소개되어 있습니다.

GPT-4V, Claude 3 Sonnet, Claude 3 Opus 등과 같은 최고의 멀티모달 모델과 경쟁할 수 있습니다.

다학제적 추론이든, 문서 이해든, 과학 다이어그램, 표, 스크린샷, 사진이든 Grok-1.5V는 이들과 경쟁할 수 있습니다.

특히 놀라운 점은 물리적 세계를 이해하는 뛰어난 능력입니다.

RealWorldQA 벤치마크 테스트에서 사고 체인 프롬프트와 제로 샘플 설정 없이 Grok은 다음 데이터 세트로 평가되었으며 Grok은 유사한 모델보다 더 나은 성능을 보인 것을 볼 수 있습니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

다음 7개의 대표적인 예는 다양한 시나리오에서 Grok 1.5V의 우수한 성능을 보여줍니다.

1. 차트를 기반으로 코드 작성

다음 그림은 Python 코드를 사용하여 흐름 차트의 특정 내용을 기반으로 프로세스를 구현할 수 있는 흐름도를 보여줍니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

사용자:

파이썬 코드로 번역할 수 있나요?

Grok:

물론이죠! 이 순서도는 컴퓨터가 난수를 생성하고 사용자가 그것이 무엇인지 추측해야 하는 간단한 추측 게임을 보여줍니다. 다음은 순서도의 논리를 나타내는 Python 코드입니다.

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

이 코드는 순서도에 설명된 추측 게임을 실행합니다. 사용자가 올바른 숫자를 추측할 때까지 추측한 숫자를 입력하라는 메시지가 표시됩니다.

2. 칼로리 계산

음식의 영양 성분 목록에 따르면 Grok은 음식이 1회 제공량당 3조각이고 이 계산을 통해 사용자가 5조각을 제공한다는 것을 알 수 있습니다. 음식 총 칼로리는 100입니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

사용자:

5알에 몇 칼로리가 들어있나요?

Grok:

1회 제공량에 3조각이 포함되어 있고 총 칼로리가 60칼로리라면 5조각에는 약 100칼로리가 있습니다.

먼저 슬라이스당 칼로리를 결정합니다. 60칼로리 ¼ 슬라이스 3개 = 슬라이스당 20칼로리입니다.

다음으로, 조각당 칼로리에 조각 수를 곱합니다. 즉, 20칼로리 x 5조각 = 100칼로리입니다.

3. 그림부터 취침 이야기까지

그록은 그림 내용을 바탕으로 짧은 취침 이야기를 들려줄 수 있습니다.

예를 들어 다음 낙서는 다음과 같습니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

사용자:

이것이 바로 제 아들이 그린 그림입니다.

Grok:

오래 전, 모험과 경이로움으로 가득한 땅에 티미라는 이름의 용감한 어린 소년이 살았습니다. 그는 가족과 함께 따뜻한 오두막에 살고 있으며 주변 세계를 탐험하는 것 외에는 아무것도 좋아하지 않습니다.

화창한 날, 티미는 근처 숲을 탐험하기로 결정했습니다. 그는 자신이 곧 보게 될 놀라운 일들을 모두 기록하기 위해 좋아하는 간식, 나침반, 믿을 수 있는 공책을 챙겨갑니다.

티미는 숲 속으로 깊이 들어간 후 햇빛에 반짝이는 마법의 강을 발견했습니다. 강의 매력적인 풍경을 보고 그는 숲의 정령들에게 특별한 인사를 전하기 위해 작은 종이배를 만들어 물 위에 띄워 놓기로 결심했습니다.

티미는 종이배를 조심스럽게 접고 그 위에 웃는 얼굴을 그려 숲의 엘프들에 대한 사랑과 축복을 표현했습니다. 그런 다음 그는 종이배를 강물에 조심스럽게 놓고 그것이 물과 함께 표류하는 것을 지켜보았습니다.

해가 지면서 Timmy는 집에 갈 시간임을 알았습니다. 그는 이 멋진 추억이 영원히 그와 함께할 것이라는 것을 알고 숲에서 보낸 하루를 회상했습니다.

집에 돌아온 Timmy는 가족에게 자신의 모험에 대해 이야기했습니다. 가족은 이 말을 듣고 매우 기뻐했으며 앞으로는 더 흥미로운 모험을 경험할 것이라고 믿었습니다.

그래서 티미는 사랑과 꿈이 가득한 마음으로 천천히 잠에 빠졌고 상상의 세계에서 새로운 모험을 탐험하기를 기대했습니다.

4. 밈 이해하기

다음 밈은 왼쪽이 스타트업 회사, 오른쪽이 대기업을 의미합니다.

편집자는 언뜻 이해하지 못했습니다. Grok의 설명을 읽은 후 갑자기 그 생각이 떠올랐습니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

사용자:

이 그림을 잘 이해하지 못합니다. 설명해주세요.

그록:

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。

而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

用户:

请将这个表转换为CSV格式。

Grok:

图像中的表格可以转换成CSV格式,如下所示:

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

6. 地板上的腐烂木头,都能给出建议

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

用户:

我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

Grok:

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。

如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题,Grok-1.5V也是不在话下。

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

用户:

你能写出解决这个问题的Python代码吗?

Grok:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left 

실제 세계 이해

실제 세계에 대한 모델의 이해를 향상시키는 유용한 실제 AI 도우미를 개발하는 것이 중요합니다.

이 목표를 달성하기 위해 연구팀은 RealWorldQA라는 새로운 벤치마크도 출시했습니다.

이 벤치마크는 다중 모드 모델이 기본적인 실제 공간을 이해하는 능력을 평가하는 데 사용할 수 있습니다.

현재 벤치마크의 많은 예는 인간이 비교적 이해하기 쉽지만, 최첨단 모델에는 여전히 어려운 부분입니다.

RealWorldQA의 초기 릴리스에는 700개 이상의 이미지가 포함되어 있으며 각 이미지에는 질문과 확인하기 쉬운 답변이 포함되어 있습니다.

예를 들어, 그림 속 피자 커터와 가위 중 어느 물체가 더 큰가요?

Grok의 답변은 크기가 거의 같다는 것입니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

현재 차선에서 어디로 갈 수 있나요? A. 좌회전 B. 직진 C. 좌회전 후 직진 D. 우회전

Grok은 A를 선택합니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

차량 앞의 카메라로 판단해 보면 앞의 회색 차량을 둘러볼 수 있는 공간이 충분한가요?

Grok의 대답은 다음과 같습니다. 그렇습니다.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

이 사진에서 공룡은 어느 방향을 바라보고 있나요?

Grok 답변: 동쪽.

머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합

이 데이터 세트에는 기타 실제 이미지 외에도 차량에서 촬영한 익명 처리된 이미지가 포함되어 있습니다.

연구팀은 이 데이터 세트를 오픈 소스로 만들었으며 다중 모드 모델이 개선됨에 따라 계속해서 확장할 수 있기를 바랍니다.

마지막으로 xAI 공식 홈페이지는 멀티모달 이해와 생성 능력을 향상시켜 점차 우주를 이해할 수 있는 유익한 AGI 구축에 접근할 것이라고 결론지었습니다.

앞으로 몇 달 안에 이미지, 오디오, 비디오 및 기타 다중 모드 모드에서 이 두 가지 기능이 크게 향상될 것으로 예상됩니다.

위 내용은 머스크의 신작! Grok-1.5V 다중 모드 모델의 충격적인 출시: 디지털 세계와 물리적 세계의 완벽한 통합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제