집 >기술 주변기기 >일체 포함 >CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트

CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트

王林앞으로: 2023-10-16 11:29:021001검색

본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.

많은 관심 속에 GPT4가 오늘 드디어 비전 관련 기능을 출시했습니다.

오늘 오후 친구들과 함께 빠르게 GPT의 이미지 인식 능력을 테스트해봤습니다. 기대는 했지만 여전히 큰 충격을 받았습니다.

핵심 관점:

자율주행에서 의미론적 문제는 대형 모델이 잘 해결했어야 했다고 생각하지만, 대형 모델의 신뢰성과 공간 인식 능력은 아직 만족스럽지 않습니다.

효율성과 관련된 소위 코너 케이스를 해결하는 것만으로도 충분하지만, 독립적인 주행을 완성하고 안전을 보장하기 위해 대형 모델에 전적으로 의존하기에는 아직 멀었습니다.

예1: 도로에 알 수 없는 장애물이 나타났습니다

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

ΔGPT4 설명

정확한 부분: 트럭 3대가 감지되었으며 앞 차량의 번호판 번호는 기본적으로 정확했습니다(한자가 있는 경우 무시) ), 날씨 환경에 맞게 수정하고 프롬프트 없이 전방의 알려지지 않은 장애물을 정확하게 식별합니다 .

잘못된 부분: 세 번째 트럭의 위치는 왼쪽에서 오른쪽으로 구분할 수 없으며, 두 번째 트럭 머리 위의 텍스트는 무작위 추측입니다(해상도가 부족해서?).

이것으로는 충분하지 않습니다. 계속해서 약간의 힌트를 주고 이 물체가 무엇인지, 눌러도 되는지 물어봅시다.

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

인상적이네요! 우리는 유사한 여러 시나리오를 테스트했으며, 알려지지 않은 장애물에 대한 성능은 놀랍다고 말할 수 있습니다.

예2: 도로 물 쌓임 이해하기

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

표지판을 자동으로 인식하는 프롬프트는 없습니다. 이는 기본이므로 계속해서 힌트를 드리겠습니다.

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

또 충격받았어요. . . 그는 자동으로 트럭 뒤의 안개를 알 수 있었고 웅덩이에 대해서도 언급했지만 다시 한 번 방향이 왼쪽이라고 말했습니다. . . GPT가 위치와 방향을 더 잘 출력할 수 있도록 하려면 여기에 몇 가지 즉각적인 엔지니어링이 필요할 수 있다고 생각합니다.

예3: 차량이 방향을 틀어 가드레일을 직격시켰습니다

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

첫 번째 프레임은 타이밍 정보가 없어서 그냥 주차된 것으로 간주했습니다. 여기 또 다른 프레임이 있습니다.

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

이 차는 가드레일을 뚫고 도로 가장자리에 맴돌았습니다. 정말 대단합니다. . . 하지만 오히려 쉬워 보이던 도로 표지판이 틀렸습니다. . . 내가 말할 수 있는 것은 이것이 항상 당신에게 충격을 줄 것이며 언제 울게 될지 결코 알 수 없는 거대한 모델이라는 것입니다. . . 또 다른 프레임:

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

이번에는 길 위의 잔해에 대해 직접적으로 이야기하는데, 또 감탄하게 됩니다. . . 하지만 한번은 길에 잘못된 화살표가 있다고 언급한 적이 있습니다. . . 일반적으로 이 장면에서는 특별한 주의가 필요한 정보가 도로 표지판과 같은 문제에 대해 가려지지 않습니다.

예제 4: 재미있는 놀이를 해보자

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

"누군가가 당신에게 손을 흔들었습니다"와 같은 이전의 어려운 사례에 비해 매우 정확하다고 말할 수 있습니다.

Example5 유명한 장면을 하나 보겠습니다. . . 배달 트럭이 새로 건설된 도로에 실수로 진입했습니다

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

처음에는 비교적 보수적이어서 원인을 직접 추측하지는 않았습니다. 정렬의 목표. CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

CoT 사용 후 차량이 자율주행차로 인식되지 않는다는 문제가 발견되었으므로 프롬프트를 통해 이러한 정보를 제공하면 보다 정확한 정보를 제공할 수 있습니다.

마지막으로 여러 가지 프롬프트를 통해 새로 깔린 아스팔트가 운전에 적합하지 않다는 결론을 내릴 수 있습니다. 최종 결과는 여전히 괜찮지만 프로세스가 더 힘들고 더 신속한 엔지니어링과 신중한 설계가 필요합니다.

이 이유는 그림이 첫 번째 관점이 아니고 세 번째 관점에서만 추론될 수 있기 때문일 수도 있습니다. 따라서 이 예는 그다지 정확하지 않습니다.

요약

몇 가지 빠른 시도를 통해 GPT4V의 성능과 일반화 성능이 완전히 입증되었습니다. 적절한 프롬프트는 GPT4V의 장점을 최대한 활용할 수 있어야 합니다.

의미론적 코너 케이스를 해결하는 것은 매우 유망해야 하지만 환상 문제는 보안 관련 시나리오에서 일부 애플리케이션을 여전히 괴롭힐 것입니다.

개인적으로는 이런 대형 모델을 합리적으로 활용하면 L4, 심지어 L5 자율주행의 발전도 크게 가속화할 수 있다고 생각합니다. 그런데 LLM이 직접 운전을 해야 하나요? 특히 엔드투엔드 운전은 아직 논란의 여지가 있는 문제로 남아 있습니다.

위 내용은 CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

堆 gpt prompt

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：졸업 후 인공지능 전공 대학생의 취업기회: 도전과 기회가 공존한다다음 기사：졸업 후 인공지능 전공 대학생의 취업기회: 도전과 기회가 공존한다