찾다
기술 주변기기일체 포함최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.

대형 모델의 다양한 적용이 최근에도 여전히 인기를 끌고 있습니다. 10월 초쯤에는 대형 모델을 자율주행에 적용시키려는 다소 교묘한 기사가 잇달아 등장했습니다. 나는 최근에 많은 친구들과 관련된 주제에 관해 많은 이야기를 나누었고, 이 글을 쓰면서 한편으로는 과거에 우리가 매우 관련이 있지만 실제로는 다른 개념을 혼동했다는 것을 발견했습니다. 이는 이러한 개념의 확장으로 모든 사람과 공유하고 논의할 가치가 있는 몇 가지 흥미로운 생각이 있습니다.

대형(언어) 모델

이것은 의심할 여지없이 현재 가장 인기 있는 방향이며 가장 집중된 논문의 초점이기도 합니다. 대규모 언어 모델이 자율 주행에 어떻게 도움이 될까요? 한편으로는 GPT-4V와 마찬가지로 이미지와의 정렬을 통해 매우 강력한 의미 이해 기능을 제공하지만, 다른 한편으로는 LLM을 에이전트로 사용하여 운전 행동을 직접 구현합니다. 후자는 실제로 현재 가장 섹시한 연구 방향이며 임베디드 AI에 대한 일련의 작업과 불가분의 관계가 있습니다.

지금까지 본 후자 유형의 작업은 대부분 LLM을 사용합니다. 1) 직접 사용 2) 지도 학습을 통해 미세 조정 3) 운전 작업에 대한 강화 학습을 통해 미세 조정. 본질적으로 학습방식을 기반으로 한 운전이라는 기존의 패러다임 틀에서 벗어날 수는 없습니다. 사실 매우 직접적인 질문은 '이 작업을 수행하기 위해 LLM을 사용하는 것이 왜 더 나은가?'입니다. 직관적으로 말하면 단어를 사용하여 운전하는 것은 비효율적이고 장황한 작업입니다. 그러던 어느날 문득 깨달았습니다LLM은 실제로 Agent를 위한 Pretrain을 언어를 통해 구현하고 있습니다! 이전에는 RL이 일반화하기 어려웠던 중요한 이유 중 하나는 다양한 작업을 통합하고 다양한 공통 데이터를 사용하여 사전 학습을 하기가 어려웠기 때문입니다. 그런데 LLM은 그런 문제를 아주 잘 해결했습니다. 질문. 그러나 실제로는 잘 해결되지 않은 몇 가지 문제가 있습니다. 1) Pretrain을 완료한 후 언어를 출력 인터페이스로 유지해야 합니까? 이는 실제로 많은 작업에 많은 불편을 초래하고, 어느 정도 중복된 계산을 초래하기도 합니다. 2) 에이전트로서의 LLM 접근 방식은 여전히 ​​기존 RL 모델 프리 방법의 본질적인 문제를 극복하지 못하고, 모델 프리 방법의 모든 문제가 여전히 존재합니다. 최근에는 모델 기반 + LLM을 에이전트로 사용하려는 시도도 있었는데, 이는 흥미로운 방향일 수 있습니다.

각 논문에서 제가 마지막으로 불평하고 싶은 것은 단순히 LLM에 연결하고 LLM이 모델을 해석 가능하게 만드는 이유를 출력하도록 하는 것이 아닙니다. 이 이유는 여전히 말도 안되는 것일 수 있습니다. . . 이전에 보장되지 않았던 것은 단지 문장이 출력된다고 해서 보장되지는 않습니다.

대형(시각적) 모델

순전히 대형 시각적 모델은 실제로 아직도 그 마법의 "출현" 순간을 보지 못했습니다. 대규모 시각적 모델에 대해 이야기할 때 일반적으로 두 가지 참조가 가능합니다. 하나는 CLIP, DINO 또는 SAM과 같은 대규모 웹 데이터 사전 학습을 기반으로 하는 초강력 시각적 정보 특징 추출기로 모델의 의미 이해 능력을 크게 향상시킵니다. ; 다른 하나는 GAIA로 대표되는 세계 모델로 구현된 쌍(이미지, 동작 등)의 공동 모델을 나타냅니다.

사실 전자는 기존의 라인을 따라 선형적인 스케일 업을 이어온 결과일 뿐이라고 생각합니다. 현재로서는 자율주행의 양적 변화 가능성을 보기 어렵습니다. 실제로 후자는 올해도 웨이브와 테슬라의 지속적인 홍보에 힘입어 연구자들의 시야에 지속적으로 진입해 왔다. 사람들이 월드 모델에 관해 이야기할 때 모델이 엔드투엔드(직접 작업을 출력함)이며 LLM과 관련되어 있다는 사실을 종종 포함합니다. 사실 이 가정은 일방적이다. 세계 모델에 대한 나의 이해도 매우 제한적입니다. Lecun의 인터뷰와 @Yu Yang의 모델 기반 RL 설문조사를 추천하고 싶습니다. 이에 대해서는 더 이상 다루지 않겠습니다.

Yu Yang: 환경 모델에 대해 알아보기(세계 모델)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

순수 시각 자율 주행

실제로는 이해하기 쉽고 시각 센서에만 의존하는 자율 주행 시스템을 말합니다. 사실 자율주행의 최고이자 궁극적인 소망은 바로 인간과 같은 두 눈으로 운전하는 것입니다. 이러한 개념은 일반적으로 위의 두 가지 대형 모델과 연관되어 있습니다. 왜냐하면 이미지의 복잡한 의미론에는 유용한 정보를 추출하기 위한 강력한 추상화 기능이 필요하기 때문입니다. 최근 테슬라의 지속적인 홍보 공세 속에서 이 개념은 아래에서 언급한 엔드투엔드(End-to-End)와도 겹친다. 그러나 실제로 순수한 시각적 드라이빙을 달성하는 방법은 여러 가지가 있으며, 엔드투엔드(end-to-end)는 당연히 그 중 하나이지만 유일한 것은 아닙니다. 순수 시각적인 자율주행을 구현하는데 가장 어려운 문제는 시각이 본질적으로 3D 정보에 둔감하다는 점인데, 대형 모델은 이를 본질적으로 바꾸지 못했다. 특히 다음 사항에 반영됩니다. 1) 전자기파를 수동적으로 수신하는 방식은 3D 공간에서 기하학적 정보를 측정할 수 있는 다른 센서와 달리 시각을 만듭니다. 2) 원근법은 멀리 있는 물체를 오류에 극도로 민감하게 만듭니다. 이는 기본적으로 동일 오류 3D 공간에서 구현되는 다운스트림 계획 및 제어에 매우 적합하지 않습니다. 그런데 시각으로 운전한다는 것은 3D 거리와 속도를 정확하게 예측할 수 있다는 것과 같은 것일까요? 이는 의미론적 이해뿐만 아니라 순수 시각적 자율주행에 있어서 심층적으로 연구할 가치가 있는 표현 문제라고 생각합니다.

End-to-End 자율 주행

이 개념은 센서에서 최종 출력까지의 제어 신호를 의미합니다(실제로는 웨이포인트 정보를 더 상위 계층 계획에 광범위하게 포함할 수도 있다고 생각합니다). 모델. 이는 1980년대 초 ALVINN처럼 센서 데이터를 입력하고 신경망을 통해 직접 제어 신호를 출력하는 다이렉트 엔드 투 엔드 방식일 수도 있고, 올해 CVPR 베스트처럼 단계적 엔드 투 엔드 방식일 수도 있다. 종이 UniAD. 그러나 이러한 방법의 공통점은 각 모듈이 자체 정의된 최적화 목표를 갖는 대신 다운스트림 감독 신호를 업스트림으로 직접 전달할 수 있다는 것입니다. 전반적으로 이것은 올바른 생각입니다. 딥 러닝은 이러한 공동 최적화에 의존하여 성공합니다. 그러나 자율주행이나 범용 로봇 등 매우 복잡하고 물리적인 세계를 다루는 시스템의 경우 엔지니어링 구현과 데이터 구성, 활용 효율성 측면에서 극복해야 할 문제가 많다.

Feed-Forward end-to-end 자율주행

이 개념은 거의 언급되지 않는 것 같지만 사실 end-to-end의 존재 자체도 가치가 있다고 생각하지만 문제는 사용법을 관찰하는 데 있습니다. 이 피드 포워드 방식의. 사실 저를 포함해서 저는 항상 end-to-end 구동이 Feed-Forward 형태여야 한다고 기본적으로 설정해 왔습니다. 현재 딥러닝 기반 방법의 99%가 이러한 구조를 가정하고 있기 때문입니다. (예: 제어 신호)u = f(x), x는 센서의 다양한 관찰입니다. 여기서 f는 매우 복잡한 함수일 수 있습니다. 그러나 실제로 일부 문제에서는 최종 출력이 특정 속성을 만족하거나 이에 가까워지길 원하므로 피드포워드 형식에서는 그러한 보장을 제공하기 어렵습니다. 따라서 u* = argmin g(u, x) s.t. h(u, x)

대형 모델의 개발과 함께 직접 Feed-Forward 엔드 투 엔드 자율주행 솔루션이 부활의 물결을 맞이했습니다. 물론 대형 모델은 매우 강력하지만 많은 분들이 생각해 보셨으면 하는 질문을 던집니다. 대형 모델이 엔드투엔드 만능이라면, 대형 모델이 바둑/고방 엔드를 할 수 있어야 한다는 뜻인가요? -끝으로? AlphaGo와 같은 패러다임은 의미가 없어야합니까? 답은 '아니오'라는 것을 모두가 알고 있다고 믿습니다. 물론, 이 피드포워드 방법은 빠른 근사 솔버로 사용될 수 있으며 대부분의 시나리오에서 좋은 결과를 얻을 수 있습니다.

Neural Planner의 사용을 공개한 다양한 솔루션으로 판단하면 신경 부분은 후속 최적화에서 고도로 볼록하지 않은 최적화 문제를 완화하기 위해 후속 최적화 솔루션에 대한 여러 초기화 제안만 제공합니다. 이는 본질적으로 AlphaGo의 빠른 출시와 동일합니다. 그러나 알파고는 후속 MCTS 검색을 '은폐' 솔루션이라고 부르지 않을 것이다. . .

마지막으로, 이것이 모든 사람이 이러한 개념 간의 차이점과 연관성을 명확히 하는 데 도움이 되고, 모든 사람이 문제를 논의할 때 자신이 말하는 내용을 명확하게 이해할 수 있기를 바랍니다. . .

최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.

원본 링크: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

위 내용은 최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구