업데이트: Xinpu 시멘트 바닥을 주행하는 자율 주행 배달 차량이라는 새로운 예가 추가되었습니다.
많은 관심 속에서 GPT4는 마침내 오늘 비전 관련 기능을 출시했습니다. 오늘 오후에 친구들과 함께 GPT의 이미지 인식 기능을 빠르게 테스트했습니다. 기대는 했지만 여전히 큰 충격을 받았습니다. TL;DR은 자율주행에서 의미론적 문제가 대형 모델을 통해 잘 해결되었어야 한다고 생각하지만, 대형 모델의 신뢰성과 공간 인식 능력은 아직 만족스럽지 않습니다. 효율성과 관련된 소위 코너 케이스를 해결하는 것만으로도 충분하지만, 독립적인 주행을 완성하고 안전을 보장하기 위해 대형 모델에 전적으로 의존하는 것은 아직 멀었습니다.
GPT4 설명
정확한 부분: 트럭 3대가 감지되었으며 앞트럭의 번호판 번호는 기본적으로 정확했습니다(무시됨) 한자)(바)가 있는 경우 날씨 및 환경이 정확함, 프롬프트 없이 전방의 알 수 없는 장애물을 정확하게 식별함
부정확한 부분: 세 번째 트럭의 위치가 왼쪽에서 오른쪽으로 구별되지 않고, 두 번째 트럭의 머리 위에 텍스트가 있음 는 추측입니다. (해상도가 부족해서?)
이것으로는 충분하지 않습니다. 이 개체가 무엇인지, 눌러도 되는지에 대한 약간의 힌트를 계속 제공합니다.
인상적이네요! 비슷한 시나리오를 여러 번 테스트했는데, 알 수 없는 장애물에 대한 성능이 매우 놀랍다고 할 수 있습니다.
표지판을 자동으로 인식하는 프롬프트가 없습니다. 이것은 기본이어야 하며 계속해서 힌트를 제공합니다
또 충격을 받았습니다. . . 그는 자동으로 트럭 뒤의 안개를 알 수 있었고 웅덩이에 대해서도 언급했지만 다시 한 번 방향이 왼쪽이라고 말했습니다. . . GPT가 위치와 방향을 더 잘 출력할 수 있도록 하려면 여기에 몇 가지 즉각적인 엔지니어링이 필요할 수 있다고 생각합니다.
저는 처음에는 비교적 보수적이어서 직접적으로 추측하지는 않았습니다. 이는 정렬의 목표와 일치합니다. CoT를 사용해본 결과, 해당 차량이 자율주행차로 인식되지 않는 것이 문제인 것으로 확인되었으므로 이러한 정보를 프롬프트를 통해 제공하는 것이 보다 정확한 정보를 제공할 수 있습니다. 마지막으로, 여러 가지 프롬프트를 통해 새로 깔린 아스팔트가 운전에 적합하지 않다는 결론을 내릴 수 있습니다. 최종 결과는 여전히 괜찮지만 프로세스가 더 힘들고 더 신속한 엔지니어링과 신중한 설계가 필요합니다. 그 이유는 1인칭 시점의 사진이 아니고, 3인칭 시점에서만 추측이 가능하기 때문일 수도 있다. 따라서 이 예는 그다지 정확하지 않습니다.
몇 가지 빠른 시도로 GPT4V의 성능과 일반화 성능이 완전히 입증되었습니다. 적절한 프롬프트는 GPT4V의 강점을 최대한 활용할 수 있어야 합니다. 의미론적 코너 사례를 해결하는 것은 매우 유망하지만 보안 관련 시나리오에서 환상 문제는 여전히 일부 애플리케이션을 괴롭힐 것입니다. 개인적으로 이런 대형 모델을 합리적으로 활용하면 L4, 심지어 L5 자율주행의 발전도 크게 가속화할 수 있다고 생각합니다. 그런데 LLM이 직접 운전을 해야 하나요? 특히 엔드투엔드 운전은 아직 논란의 여지가 있는 문제로 남아 있습니다. 요즘 고민이 많아서 시간을 내서 여러분과 이야기 나눌 수 있는 글을 쓰겠습니다~
원본 링크: https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ
위 내용은 신나는! 자율주행에서의 GPT-4V 예비 연구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!