본 글은 자율주행하트 공개 계정의 승인을 받아 재인쇄되었습니다.
저자의 개인적인 생각
올해는 End-to-end가 매우 인기 있는 방향입니다. 올해 CVPR 최우수 논문도 UniAD에 상을 받았지만, end-to-end에도 문제가 많습니다. 해석성이 낮고, 훈련이 수렴되기 어렵기 때문에 해당 분야의 일부 학자들은 점차 엔드투엔드 해석성에 관심을 돌리기 시작했습니다. 오늘은 엔드투엔드 해석성에 관한 최신 연구를 여러분과 공유하겠습니다. ADAPT. 이 방법은 Transformer 아키텍처를 기반으로 하며 멀티 태스킹을 사용합니다. 공동 훈련 방법은 각 결정에 대한 차량 동작 설명과 추론을 끝까지 출력합니다. ADAPT에 대한 저자의 생각은 다음과 같습니다.
- 영상의 2D 기능을 활용한 예측입니다. 2D 기능을 bev 기능으로 변환하면 효과가 더 좋아질 가능성이 있습니다. LLM과 결합하면 더 좋을 수 있습니다. 예를 들어 텍스트 생성 부분이 LLM으로 대체됩니다.
- 현재 작업은 역사적인 비디오를 입력으로 사용하고 예측된 동작과 그에 대한 설명도 역사적이라면 더 의미가 있을 수 있습니다.
- 이미지를 토큰화하여 얻은
- 토큰은 좀 과하고 쓸모없는 정보가 많을 수도 있습니다.
엔드투엔드 자율주행은 운송 산업에서 엄청난 잠재력을 갖고 있으며, 현재 이 분야에 대한 연구가 뜨겁습니다. 예를 들어 CVPR2023의 최고 논문인 UniAD는 엔드 투 엔드 자동 운전을 수행합니다. 그러나 자동화된 의사결정 프로세스의 투명성과 설명 가능성이 부족하면 결국 도로 위의 실제 차량에서는 안전이 최우선 과제가 됩니다. 모델 해석성을 향상시키기 위해 주의 맵이나 비용 볼륨을 사용하려는 초기 시도가 있었지만 이러한 방법은 이해하기 어렵습니다. 그래서 이 작업의 출발점은 의사결정을 이해하기 쉽게 설명하는 방법을 찾는 것입니다. 아래 그림은 여러 가지 방법을 비교한 것임은 분명 말로 이해하기 쉽습니다.
각 결정에 대한 차량 동작 설명 및 추론을 끝까지 출력할 수 있습니다.
- 이 방법은 변압기 네트워크 구조를 기반으로 하며 다중 작업 방법을 통해 공동 훈련을 수행합니다.
- BDD-X(Berkeley; DeepDrive eXplanation)은 데이터 세트에 대해 SOTA 효과를 달성했습니다.
- 실제 시나리오에서 시스템의 효율성을 검증하기 위해 이 시스템은 원본 비디오를 입력하고 실제 동작에 대한 설명과 추론을 출력할 수 있습니다. ;
효과는 여전히 매우 좋습니다. 특히 세 번째 어두운 밤 장면에서 신호등이 눈에 띕니다.
비디오 캡션
비디오 설명의 주요 목표는 주어진 비디오의 개체와 관계를 자연어로 설명하는 것입니다. 초기 연구 작업은 유연성이 없고 풍부함이 부족한 고정된 템플릿에 식별된 요소를 채워 특정 구문 구조를 가진 문장을 생성했습니다.
유연한 구문 구조로 자연스러운 문장을 생성하기 위해 일부 방법에서는 시퀀스 학습 기술을 채택합니다. 특히 이러한 방법은 비디오 인코더를 사용하여 기능을 추출하고 언어 디코더를 사용하여 시각적 텍스트 정렬을 학습합니다. 설명을 더욱 풍부하게 만들기 위해 이러한 방법은 객체 수준 표현을 활용하여 비디오의 상세한 객체 인식 상호 작용 기능을 얻습니다.
기존 아키텍처는 일반적인 비디오 캡션 방향에서 특정 결과를 달성했지만 액션 표현에는 직접 적용할 수 없습니다. 단순히 비디오 설명을 자율 주행 동작 표현으로 전송하면 자율 주행 작업에 중요한 차량 속도 등과 같은 일부 주요 정보가 손실됩니다. 이러한 다중 모드 정보를 효과적으로 활용하여 문장을 생성하는 방법은 여전히 연구 중입니다. PaLM-E는 다중 모드 문장에서 잘 작동합니다.
엔드 투 엔드 자율 주행학습 기반 자율 주행은 활발한 연구 분야입니다. 후속 FusionAD를 포함한 최근 CVPR2023 최우수 논문 UniAD와 Wayve의 World 모델 기반 작업 MILE은 모두 이 방향에서 작업됩니다. 출력 형식에는 UniAD와 같은 궤적 지점과 MILE과 같은 차량 동작이 직접 포함됩니다.
또한 일부 방법은 차량, 자전거 타는 사람, 보행자와 같은 교통 참여자의 미래 행동을 모델링하여 차량의 웨이포인트를 예측하는 반면, 다른 방법은 센서 입력을 기반으로 직접 차량의 제어 신호를 예측합니다. 이 작품
자율주행 해석
자율주행 분야에서 대부분의 해석 방법은 비전을 기반으로 하며, 일부는 LiDAR 작업을 기반으로 합니다. 일부 방법은 주의 지도를 활용하여 중요하지 않은 이미지 영역을 필터링하여 자율 차량의 동작을 합리적이고 설명 가능하게 만듭니다. 그러나 주의 지도에는 덜 중요한 영역이 포함될 수 있습니다. LiDAR와 고정밀 지도를 입력으로 사용하고, 다른 교통 참가자의 경계 상자를 예측하고, 온톨로지를 활용하여 의사 결정 추론 프로세스를 설명하는 방법도 있습니다. 추가적으로 HD 맵에 대한 의존도를 줄이기 위해 분할을 통해 온라인 맵을 구축하는 방법도 있습니다. 비전 또는 LiDAR 기반 방법은 좋은 결과를 제공할 수 있지만, 구두 설명이 부족하면 전체 시스템이 복잡해 보이고 이해하기 어려워집니다. 오프라인에서 영상 특징을 추출하여 제어 신호를 예측하고 영상 설명 작업을 수행함으로써 최초로 자율주행차의 텍스트 해석 가능성을 탐구하는 연구입니다
자율주행에서의 다중 작업 학습
최종 프레임워크 다중 작업 학습은 텍스트 생성과 제어 신호 예측이라는 두 가지 작업으로 모델을 공동으로 훈련하기 위해 채택되었습니다. 다중 작업 학습은 자율 주행에 널리 사용됩니다. 더 나은 데이터 활용과 공유 기능으로 인해 서로 다른 작업의 공동 학습은 각 작업의 성능을 향상시킵니다. 따라서 이 작업에서는 제어 신호 예측과 텍스트 생성이라는 두 가지 작업의 공동 학습이 사용됩니다.
ADAPT 방법
다음은 네트워크 구조 다이어그램입니다.
전체 구조는 두 가지 작업으로 나뉩니다.
- Driving Caption Generation(DCG): 비디오 입력, 두 문장 출력, 첫 번째 문장 Description 자동차의 동작, 두 번째 문장에서는 "신호등이 녹색으로 바뀌기 때문에 자동차가 가속하고 있습니다."와 같이 이 동작을 취한 이유를 설명합니다.
- 제어 신호 예측(CSP): 동일한 비디오를 입력하고 일련의 출력을 출력합니다.
그 중 DCG와 CSP의 두 가지 작업은 비디오 인코더를 공유하지만 서로 다른 예측 헤드를 사용하여 서로 다른 최종 출력을 생성합니다.
DCG 작업의 경우 비전 언어 변환기 인코더를 사용하여 두 개의 자연어 문장을 생성합니다.
CSP 작업의 경우 모션 변환 인코더를 사용하여 제어 신호의 순서를 예측합니다.
비디오 인코더
여기서 비디오 스윈 변환기는 입력 비디오 프레임을 비디오 기능 토큰으로 변환하는 데 사용됩니다.
입력 桢이미지, 모양은 , 특징의 크기는 입니다. 여기서 는 채널의 크기입니다.
Prediction Heads
텍스트 생성 헤드
위의 기능 , 토큰화 후, 차원이 있는 비디오 토큰 을 얻은 다음 MLP를 사용하여 텍스트 토큰 임베딩에 맞춰 차원을 조정한 다음 텍스트 토큰과 비디오 토큰을 비전에 공급합니다. 언어 변환기 인코더를 함께 사용하여 동작 설명과 추론을 생성합니다.
제어 신호 예측 헤드
및 입력 桢비디오는 제어 신호 에 해당합니다. 여기서 각 제어 신호는 일 수 있습니다. -속도, 가속도, 방향 등과 같은 차원. 여기서의 접근 방식은 비디오 기능을 토큰화하고 모션 변환기를 통해 일련의 출력 신호를 생성하는 것입니다. 손실 함수는 MSE입니다.
첫 번째 프레임이 제공하기 때문에 여기에는 첫 번째 프레임이 포함되지 않습니다. 동적 정보가 너무 적습니다.
합동 훈련
이 프레임워크에서는 공유된 비디오 인코더로 인해 실제로 CSP와 DCG의 두 가지 작업이 비디오 표현 수준에서 일치한다고 가정합니다. 출발점은 동작 설명과 제어 신호가 세밀한 차량 동작의 서로 다른 표현이며, 동작 추론 설명은 주로 차량 동작에 영향을 미치는 운전 환경에 중점을 둡니다.
합동 훈련을 활용한 훈련
합동 훈련 장소임에도 불구하고 추론 시 독립적으로 실행할 수 있다는 점에 유의하세요. CSP 작업은 흐름도에 따라 동영상이 직접 입력되고, 출력 제어 DCG 작업의 경우 비디오를 직접 입력하고 설명 및 추론을 출력합니다. 텍스트는 [CLS]에서 시작하여 [SEP]에 도달하는 자동 회귀 방식을 기반으로 한 단어씩 생성됩니다. 길이 임계값.
실험 설계 및 비교
Dataset
사용된 데이터 세트는 BDD-X입니다. 이 데이터 세트에는 7000개의 페어링된 비디오와 제어 신호가 포함되어 있습니다. 각 동영상은 약 40초 동안 지속되며, 이미지 크기는 , 빈도는 FPS입니다. 각 동영상에는 가속, 우회전, 합류 등 1~5가지 차량 동작이 포함되어 있습니다. 이러한 모든 행동에는 행동 내러티브(예: "자동차가 멈췄습니다")와 추론(예: "신호등이 빨간색이기 때문에")을 포함한 텍스트로 주석이 추가됩니다. 총 약 29,000개의 행동 주석 쌍이 있습니다.
구체적인 구현 세부사항
- 비디오 스윈 변환기는 Kinetics-600에서 사전 훈련되었습니다.
- 비전 언어 변환기와 모션 변환기는 무작위로 초기화됩니다.
- 고정된 비디오 스윈 매개변수가 없으므로 전체 훈련이 종료됩니다.
- 입력 비디오 프레임 크기는 크기가 조정되고 잘려지며 네트워크에 대한 최종 입력은 224x224
- 입니다. 설명과 추론을 위해 전체 단어 대신 WordPiece 임베딩[75]이 사용됩니다(예: "stops"는 "stop" 및 "#s"로 잘라냄), 각 문장의 최대 길이는 15
- 훈련 중에 마스크된 언어 모델링은 토큰의 50%를 무작위로 마스크 처리하며 각 마스크의 토큰은 80% 확률로 [MASK] 토큰이 되면 10%의 확률로 단어가 무작위로 선택되고 나머지 10%의 확률은 그대로 유지됩니다.
- AdamW 옵티마이저가 사용되며 훈련 단계의 처음 10%에는 워밍업 메커니즘이 있습니다
- 4개의 V100 GPU로 훈련하는 데 약 13시간이 걸립니다
합동 훈련의 영향
여기에서는 공동 훈련의 효과를 설명하기 위해 세 가지 실험을 비교합니다.
Single
은 CSP 작업을 제거하고 DCG 작업만 유지하는 것을 의미하며, 이는
Single+
CSP만 훈련하는 것과 같습니다. 태스크는 아직 존재하지 않지만 DCG 모듈 입력 시 비디오 태그 외에 제어 신호 태그도 입력해야 합니다
효과 비교는 다음과 같습니다
DCG 태스크만 비교했을 때 ADAPT의 추론 효과가 훨씬 좋아집니다. 제어 신호 입력이 있으면 효과가 향상되지만 여전히 CSP 작업을 추가하는 효과만큼 좋지 않습니다. CSP 과제를 추가한 후 영상을 표현하고 이해하는 능력이 더욱 강해졌습니다
또한 아래 표를 보면 CSP에 대한 합동 훈련의 효과도 향상되었음을 알 수 있습니다.
여기 는 다음과 같이 이해될 수 있습니다. 정확도, 구체적으로는 예측된 제어 신호를 잘라내고 수식은 다음과 같습니다
다양한 제어 신호 유형의 영향
실험에서 사용된 기본 신호는 속도와 방향입니다. 그러나 실험 결과, 두 신호 중 하나만 사용하는 경우 두 신호를 동시에 사용하는 것만큼 효과가 좋지 않은 것으로 나타났습니다. 구체적인 데이터는 다음 표에 나와 있습니다. 속도와 방향이 네트워크에 도움이 될 수 있습니다. 더 나은 학습 동작 설명 및 추론
동작 설명과 추론의 상호 작용
1행과 3행은 교차 주의를 사용하는 효과가 더 우수함을 나타내며, 이는 설명을 기반으로 한 추론이 모델 훈련에 유익함을 나타냅니다. 추론 교환도 설명과 설명의 순서가 틀려 추론이 설명에 달려 있음을 보여줍니다.
다음 세 줄을 비교하면 설명만 출력하는 것과 추론만 출력하는 것이 둘 다 출력하는 것만큼 좋지 않습니다.
- 샘플링 속도의 영향
- 이러한 결과는 추측할 수 있습니다. 더 많은 프레임을 사용할수록 결과는 좋아지지만, 다음 표와 같이 해당 속도도 느려집니다.
필수 재작성된 내용은 다음과 같습니다. 원본 링크: https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ
위 내용은 새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Hugging Face의 올림픽 코더 -7b : 강력한 오픈 소스 코드 추론 모델 우수한 코드 중심 언어 모델을 개발하기위한 경쟁은 강화되고 있으며, Hugging Face는 엄청난 경쟁자 인 OlympicCoder-7B와 경쟁에 참여했습니다.

AI가 단순한 질문에 대답하는 것 이상을 할 수 있기를 바라는 여러분 중 몇 명이 있습니까? 나는 내가 가지고 있다는 것을 알고 있으며, 늦게 그것이 어떻게 변화하고 있는지에 놀랐습니다. AI 챗봇은 더 이상 채팅에 관한 것이 아니라 창작에 관한 것입니다.

Smart AI가 모든 수준의 엔터프라이즈 소프트웨어 플랫폼 및 애플리케이션에 통합되기 시작함에 따라 (강력한 핵심 도구와 덜 안정적인 시뮬레이션 도구가 있음을 강조해야 함) 이러한 에이전트를 관리하려면 새로운 인프라 기능 세트가 필요합니다. 독일 베를린에 본사를 둔 프로세스 오케스트레이션 회사 인 Camunda는 Smart AI가 적절한 역할을 수행하고 새로운 디지털 작업장에서 정확한 비즈니스 목표 및 규칙에 맞게 조정하는 데 도움이 될 수 있다고 생각합니다. 이 회사는 현재 조직이 AI 에이전트를 모델링, 배포 및 관리하도록 돕기 위해 설계된 지능형 오케스트레이션 기능을 제공합니다. 실용적인 소프트웨어 엔지니어링 관점에서, 이것이 무엇을 의미합니까? 확실성과 비 결정적 프로세스의 통합 이 회사는 핵심은 사용자 (일반적으로 데이터 과학자, 소프트웨어)를 허용하는 것이라고 말했다.

다음 '25 년 Google Cloud에 참석하면서 Google이 AI 제품을 구별하는 방법을보고 싶어했습니다. 에이전트 공간 (여기서 논의 된)과 고객 경험 제품군 (여기서 논의)에 관한 최근의 발표는 유망한 비즈니스 valu를 강조했습니다.

검색 증강 생성 (RAG) 시스템을위한 최적의 다국적 임베딩 모델 선택 오늘날의 상호 연결된 세계에서 효과적인 다국어 AI 시스템을 구축하는 것이 가장 중요합니다. 강력한 다국어 임베딩 모델은 RE에 중요합니다

Tesla의 Austin Robotaxi 런칭 : Musk의 주장에 대한 자세한 내용 Elon Musk는 최근 텍사스 오스틴에서 Tesla의 다가오는 Robotaxi 런칭을 발표하여 안전상의 이유로 소규모 10-20 대의 차량을 배치하여 빠른 확장 계획을 세웠습니다. 시간

인공 지능이 적용되는 방식은 예상치 못한 일 수 있습니다. 처음에 우리 중 많은 사람들이 주로 코드 작성 및 컨텐츠 작성과 같은 창의적이고 기술적 인 작업에 주로 사용되었다고 생각할 수도 있습니다. 그러나 하버드 비즈니스 리뷰 (Harvard Business Review)가 최근 조사한 결과는 그렇지 않습니다. 대부분의 사용자는 일뿐만 아니라 지원, 조직, 심지어 우정을 위해 인공 지능을 추구합니다! 이 보고서는 AI 신청 사례의 첫 번째는 치료 및 동반자라고 밝혔다. 이것은 24/7 가용성과 익명의 정직한 조언과 피드백을 제공하는 능력이 큰 가치가 있음을 보여줍니다. 반면에, 마케팅 작업 (예 : 블로그 작성, 소셜 미디어 게시물 만들기 또는 광고 사본)은 인기있는 사용 목록에서 훨씬 낮습니다. 이게 왜? 연구 결과와 그것이 어떻게 계속되는지 보자.

AI 요원의 부상은 비즈니스 환경을 변화시키고 있습니다. 클라우드 혁명과 비교하여, AI 에이전트의 영향은 지식 작업에 혁명을 일으킬 것으로 예상되며, 기하 급수적으로 더 크다. 인간의 의사 결정 마키를 시뮬레이션하는 능력


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.
