찾다
기술 주변기기일체 포함최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.

대형 모델의 다양한 적용이 최근에도 여전히 인기를 끌고 있습니다. 10월 초쯤에는 대형 모델을 자율주행에 적용시키려는 다소 교묘한 기사가 잇달아 등장했습니다. 나는 최근에 많은 친구들과 관련된 주제에 관해 많은 이야기를 나누었고, 이 글을 쓰면서 한편으로는 과거에 우리가 매우 관련이 있지만 실제로는 다른 개념을 혼동했다는 것을 발견했습니다. 이는 이러한 개념의 확장으로 모든 사람과 공유하고 논의할 가치가 있는 몇 가지 흥미로운 생각이 있습니다.

대형(언어) 모델

이것은 의심할 여지없이 현재 가장 인기 있는 방향이며 가장 집중된 논문의 초점이기도 합니다. 대규모 언어 모델이 자율 주행에 어떻게 도움이 될까요? 한편으로는 GPT-4V와 마찬가지로 이미지와의 정렬을 통해 매우 강력한 의미 이해 기능을 제공하지만, 다른 한편으로는 LLM을 에이전트로 사용하여 운전 행동을 직접 구현합니다. 후자는 실제로 현재 가장 섹시한 연구 방향이며 임베디드 AI에 대한 일련의 작업과 불가분의 관계가 있습니다.

지금까지 본 후자 유형의 작업은 대부분 LLM을 사용합니다. 1) 직접 사용 2) 지도 학습을 통해 미세 조정 3) 운전 작업에 대한 강화 학습을 통해 미세 조정. 본질적으로 학습방식을 기반으로 한 운전이라는 기존의 패러다임 틀에서 벗어날 수는 없습니다. 사실 매우 직접적인 질문은 '이 작업을 수행하기 위해 LLM을 사용하는 것이 왜 더 나은가?'입니다. 직관적으로 말하면 단어를 사용하여 운전하는 것은 비효율적이고 장황한 작업입니다. 그러던 어느날 문득 깨달았습니다LLM은 실제로 Agent를 위한 Pretrain을 언어를 통해 구현하고 있습니다! 이전에는 RL이 일반화하기 어려웠던 중요한 이유 중 하나는 다양한 작업을 통합하고 다양한 공통 데이터를 사용하여 사전 학습을 하기가 어려웠기 때문입니다. 그런데 LLM은 그런 문제를 아주 잘 해결했습니다. 질문. 그러나 실제로는 잘 해결되지 않은 몇 가지 문제가 있습니다. 1) Pretrain을 완료한 후 언어를 출력 인터페이스로 유지해야 합니까? 이는 실제로 많은 작업에 많은 불편을 초래하고, 어느 정도 중복된 계산을 초래하기도 합니다. 2) 에이전트로서의 LLM 접근 방식은 여전히 ​​기존 RL 모델 프리 방법의 본질적인 문제를 극복하지 못하고, 모델 프리 방법의 모든 문제가 여전히 존재합니다. 최근에는 모델 기반 + LLM을 에이전트로 사용하려는 시도도 있었는데, 이는 흥미로운 방향일 수 있습니다.

각 논문에서 제가 마지막으로 불평하고 싶은 것은 단순히 LLM에 연결하고 LLM이 모델을 해석 가능하게 만드는 이유를 출력하도록 하는 것이 아닙니다. 이 이유는 여전히 말도 안되는 것일 수 있습니다. . . 이전에 보장되지 않았던 것은 단지 문장이 출력된다고 해서 보장되지는 않습니다.

대형(시각적) 모델

순전히 대형 시각적 모델은 실제로 아직도 그 마법의 "출현" 순간을 보지 못했습니다. 대규모 시각적 모델에 대해 이야기할 때 일반적으로 두 가지 참조가 가능합니다. 하나는 CLIP, DINO 또는 SAM과 같은 대규모 웹 데이터 사전 학습을 기반으로 하는 초강력 시각적 정보 특징 추출기로 모델의 의미 이해 능력을 크게 향상시킵니다. ; 다른 하나는 GAIA로 대표되는 세계 모델로 구현된 쌍(이미지, 동작 등)의 공동 모델을 나타냅니다.

사실 전자는 기존의 라인을 따라 선형적인 스케일 업을 이어온 결과일 뿐이라고 생각합니다. 현재로서는 자율주행의 양적 변화 가능성을 보기 어렵습니다. 실제로 후자는 올해도 웨이브와 테슬라의 지속적인 홍보에 힘입어 연구자들의 시야에 지속적으로 진입해 왔다. 사람들이 월드 모델에 관해 이야기할 때 모델이 엔드투엔드(직접 작업을 출력함)이며 LLM과 관련되어 있다는 사실을 종종 포함합니다. 사실 이 가정은 일방적이다. 세계 모델에 대한 나의 이해도 매우 제한적입니다. Lecun의 인터뷰와 @Yu Yang의 모델 기반 RL 설문조사를 추천하고 싶습니다. 이에 대해서는 더 이상 다루지 않겠습니다.

Yu Yang: 환경 모델에 대해 알아보기(세계 모델)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

순수 시각 자율 주행

실제로는 이해하기 쉽고 시각 센서에만 의존하는 자율 주행 시스템을 말합니다. 사실 자율주행의 최고이자 궁극적인 소망은 바로 인간과 같은 두 눈으로 운전하는 것입니다. 이러한 개념은 일반적으로 위의 두 가지 대형 모델과 연관되어 있습니다. 왜냐하면 이미지의 복잡한 의미론에는 유용한 정보를 추출하기 위한 강력한 추상화 기능이 필요하기 때문입니다. 최근 테슬라의 지속적인 홍보 공세 속에서 이 개념은 아래에서 언급한 엔드투엔드(End-to-End)와도 겹친다. 그러나 실제로 순수한 시각적 드라이빙을 달성하는 방법은 여러 가지가 있으며, 엔드투엔드(end-to-end)는 당연히 그 중 하나이지만 유일한 것은 아닙니다. 순수 시각적인 자율주행을 구현하는데 가장 어려운 문제는 시각이 본질적으로 3D 정보에 둔감하다는 점인데, 대형 모델은 이를 본질적으로 바꾸지 못했다. 특히 다음 사항에 반영됩니다. 1) 전자기파를 수동적으로 수신하는 방식은 3D 공간에서 기하학적 정보를 측정할 수 있는 다른 센서와 달리 시각을 만듭니다. 2) 원근법은 멀리 있는 물체를 오류에 극도로 민감하게 만듭니다. 이는 기본적으로 동일 오류 3D 공간에서 구현되는 다운스트림 계획 및 제어에 매우 적합하지 않습니다. 그런데 시각으로 운전한다는 것은 3D 거리와 속도를 정확하게 예측할 수 있다는 것과 같은 것일까요? 이는 의미론적 이해뿐만 아니라 순수 시각적 자율주행에 있어서 심층적으로 연구할 가치가 있는 표현 문제라고 생각합니다.

End-to-End 자율 주행

이 개념은 센서에서 최종 출력까지의 제어 신호를 의미합니다(실제로는 웨이포인트 정보를 더 상위 계층 계획에 광범위하게 포함할 수도 있다고 생각합니다). 모델. 이는 1980년대 초 ALVINN처럼 센서 데이터를 입력하고 신경망을 통해 직접 제어 신호를 출력하는 다이렉트 엔드 투 엔드 방식일 수도 있고, 올해 CVPR 베스트처럼 단계적 엔드 투 엔드 방식일 수도 있다. 종이 UniAD. 그러나 이러한 방법의 공통점은 각 모듈이 자체 정의된 최적화 목표를 갖는 대신 다운스트림 감독 신호를 업스트림으로 직접 전달할 수 있다는 것입니다. 전반적으로 이것은 올바른 생각입니다. 딥 러닝은 이러한 공동 최적화에 의존하여 성공합니다. 그러나 자율주행이나 범용 로봇 등 매우 복잡하고 물리적인 세계를 다루는 시스템의 경우 엔지니어링 구현과 데이터 구성, 활용 효율성 측면에서 극복해야 할 문제가 많다.

Feed-Forward end-to-end 자율주행

이 개념은 거의 언급되지 않는 것 같지만 사실 end-to-end의 존재 자체도 가치가 있다고 생각하지만 문제는 사용법을 관찰하는 데 있습니다. 이 피드 포워드 방식의. 사실 저를 포함해서 저는 항상 end-to-end 구동이 Feed-Forward 형태여야 한다고 기본적으로 설정해 왔습니다. 현재 딥러닝 기반 방법의 99%가 이러한 구조를 가정하고 있기 때문입니다. (예: 제어 신호)u = f(x), x는 센서의 다양한 관찰입니다. 여기서 f는 매우 복잡한 함수일 수 있습니다. 그러나 실제로 일부 문제에서는 최종 출력이 특정 속성을 만족하거나 이에 가까워지길 원하므로 피드포워드 형식에서는 그러한 보장을 제공하기 어렵습니다. 따라서 u* = argmin g(u, x) s.t. h(u, x)

대형 모델의 개발과 함께 직접 Feed-Forward 엔드 투 엔드 자율주행 솔루션이 부활의 물결을 맞이했습니다. 물론 대형 모델은 매우 강력하지만 많은 분들이 생각해 보셨으면 하는 질문을 던집니다. 대형 모델이 엔드투엔드 만능이라면, 대형 모델이 바둑/고방 엔드를 할 수 있어야 한다는 뜻인가요? -끝으로? AlphaGo와 같은 패러다임은 의미가 없어야합니까? 답은 '아니오'라는 것을 모두가 알고 있다고 믿습니다. 물론, 이 피드포워드 방법은 빠른 근사 솔버로 사용될 수 있으며 대부분의 시나리오에서 좋은 결과를 얻을 수 있습니다.

Neural Planner의 사용을 공개한 다양한 솔루션으로 판단하면 신경 부분은 후속 최적화에서 고도로 볼록하지 않은 최적화 문제를 완화하기 위해 후속 최적화 솔루션에 대한 여러 초기화 제안만 제공합니다. 이는 본질적으로 AlphaGo의 빠른 출시와 동일합니다. 그러나 알파고는 후속 MCTS 검색을 '은폐' 솔루션이라고 부르지 않을 것이다. . .

마지막으로, 이것이 모든 사람이 이러한 개념 간의 차이점과 연관성을 명확히 하는 데 도움이 되고, 모든 사람이 문제를 논의할 때 자신이 말하는 내용을 명확하게 이해할 수 있기를 바랍니다. . .

최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.

원본 링크: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

위 내용은 최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구Apr 30, 2025 am 11:17 AM

훈련 된 치료사의 인간 관계와 직관을 제공 할 수는 없지만 연구에 따르면 많은 사람들이 비교적 얼굴이없고 익명의 AI 봇과의 걱정과 우려를 편안하게 공유하는 것으로 나타났습니다. 이것이 항상 좋은지 i

식료품 통로에 AI를 호출합니다식료품 통로에 AI를 호출합니다Apr 30, 2025 am 11:16 AM

수십 년 동안의 기술 인 인공 지능 (AI)은 식품 소매 산업에 혁명을 일으키고 있습니다. AI의 영향은 다양한 비즈니스 기능에 걸쳐 대규모 효율성 상승 및 비용 절감에서 간소화 된 프로세스에 이르기까지 AI의 영향은 불공정입니다.

당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것Apr 30, 2025 am 11:15 AM

그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 다양한 영향력 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI의 최신 AI에 대한 진행중인 Forbes 열 커버리지의 일부입니다 (여기 링크 참조). 또한, 내 comp

AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유Apr 30, 2025 am 11:14 AM

전문 이미지를 유지하려면 가끔 옷장 업데이트가 필요합니다. 온라인 쇼핑은 편리하지만 직접 시도한 트립 온의 확실성이 부족합니다. 내 해결책? AI 기반 개인화. 나는 AI 조수 큐레이팅 의류 selecti를 구상합니다

Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Apr 30, 2025 am 11:13 AM

Google Translate는 언어 학습 기능을 추가합니다 Android Authority에 따르면 APP Expert AssembledeBug는 최신 버전의 Google Translate 앱에는 사용자가 개인화 된 활동을 통해 언어 기술을 향상시킬 수 있도록 설계된 새로운 "연습"테스트 코드가 포함되어 있음을 발견했습니다. 이 기능은 현재 사용자에게는 보이지 않지만 AsschBLEDEBUG는 부분적으로이를 활성화하고 새로운 사용자 인터페이스 요소 중 일부를 볼 수 있습니다. 활성화되면이 기능은 "Beta"배지가 표시된 화면 하단에 새로운 졸업식 캡 아이콘을 추가하여 "연습"기능이 실험 형태로 처음 릴리스 될 것임을 나타내는 새로운 졸업식 캡 아이콘을 추가합니다. 관련 팝업 프롬프트는 "당신을 위해 맞춤화 된 활동을 연습하십시오!"를 보여줍니다. 이는 Google이 사용자 정의를 생성한다는 것을 의미합니다.

그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다Apr 30, 2025 am 11:12 AM

MIT 연구원들은 AI 에이전트를 위해 설계된 획기적인 웹 프로토콜 인 Nanda를 개발하고 있습니다. 네트워크 에이전트 및 분산 된 AI의 경우 Nanda는 인터넷 기능을 추가하여 AI Agen을 활성화하여 Anthropic의 MCP (Model Context Protocol)를 기반으로합니다.

프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다Apr 30, 2025 am 11:11 AM

Meta의 최신 벤처 : Chatgpt와 경쟁하는 AI 앱 Facebook, Instagram, WhatsApp 및 Threads의 모회사 인 Meta는 새로운 AI 기반 응용 프로그램을 시작하고 있습니다. 이 독립형 앱인 Meta AI는 OpenAi의 chatgpt와 직접 경쟁하는 것을 목표로합니다. 지렛대

비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년Apr 30, 2025 am 11:10 AM

AI 사이버 공격의 상승 조수를 탐색합니다 최근에 Ciso의 인류의 Ciso 인 Jason Clinton은 인간이 아닌 정체성과 관련된 새로운 위험을 강조했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.