제목 재작성: ICCV 2023 우수한 학생 논문 추적, Github은 1.6K 별, 마법과 같은 포괄적인 정보를 획득했습니다!
1. 논문정보
올해 ICCV2023 최우수 학생논문은 현재 캘리포니아대학교 버클리캠퍼스에서 박사후 연구원으로 재직 중인 코넬대학교 Qianqian Wang 선생님께 선정되었습니다!
2.
비디오 모션 추정 분야에서 저자는 전통적인 방법이 주로 희소 특징 추적과 조밀한 광학 흐름의 두 가지 유형으로 나누어진다고 지적합니다. 두 가지 방법 모두 각각의 응용 분야에서 효과적인 것으로 입증되었지만 어느 방법도 비디오의 동작을 완전히 캡처하지 못합니다. 쌍을 이루는 광학 흐름은 긴 시간 창 내에서 모션 궤적을 캡처할 수 없는 반면 희소 추적은 모든 픽셀의 모션을 모델링할 수 없습니다. 이러한 격차를 해소하기 위해 많은 연구에서 비디오의 조밀한 픽셀 궤적과 장거리 픽셀 궤적을 동시에 추정하려고 시도했습니다. 이러한 연구 방법은 단순히 두 프레임의 광학 흐름 필드를 연결하는 것부터 여러 프레임에 걸쳐 각 픽셀의 궤적을 직접 예측하는 것까지 다양합니다. 그러나 이러한 방법은 모션을 추정할 때 제한된 상황만 고려하고 시간이나 공간에서 멀리 떨어져 있는 정보를 무시하는 경우가 많습니다. 이러한 근시안은 긴 궤적에서 오류가 누적될 뿐만 아니라 모션 추정에서 시공간적 불일치가 발생할 수 있습니다. 일부 방법은 장기적인 맥락을 고려하지만 여전히 2D 영역에서 작동하므로 폐색 이벤트에서 손실을 추적할 수 있습니다. 전반적으로 동영상의 조밀하고 장거리 궤적 추정은 현장에서 해결되지 않은 문제로 남아 있습니다. 이 문제에는 세 가지 주요 과제가 포함됩니다. 1) 긴 시퀀스에서 궤적 정확도를 유지하는 방법, 2) 교합 중인 점의 위치를 추적하는 방법, 3) 시공간 일관성을 유지하는 방법
이 기사에서 저자는 새로운 비디오 모션을 제안합니다. 비디오의 모든 정보를 활용하여 각 픽셀의 완전한 움직임 궤적을 공동으로 추정하는 추정 방법입니다. 이 방법은 "OmniMotion"이라고 하며 준 3D 표현을 사용합니다. 이 표현에서는 표준 3D 볼륨이 각 프레임의 로컬 볼륨에 매핑됩니다. 이 매핑은 동적 다중 뷰 형상을 유연하게 확장하는 역할을 하며 카메라와 장면 모션을 동시에 시뮬레이션할 수 있습니다. 이 표현은 루프 일관성을 보장할 뿐만 아니라 폐색 중에 모든 픽셀을 추적합니다. 작성자는 각 비디오에 대해 이 표현을 최적화하여 비디오 전체의 모션에 대한 솔루션을 제공합니다. 최적화 후에는 이 표현을 비디오의 연속 좌표에 대해 쿼리하여 전체 비디오에 걸친 모션 궤적을 얻을 수 있습니다.
본 문서에서 제안된 방법은 다음을 수행할 수 있습니다. 1) 전체 비디오 모션의 모든 지점에 대해 전역적으로 일관된 완전한 표현을 생성합니다. 궤적, 2) 폐색을 통한 점 추적, 3) 다양한 카메라 및 장면 동작 조합으로 실제 비디오를 처리합니다. TAP 비디오 추적 벤치마크에서 이 방법은 이전 방법을 훨씬 능가하는 우수한 성능을 보였습니다.
3. 방법본 논문에서는 비디오 시퀀스에서 밀집된 장거리 모션을 추정하기 위한 테스트 시간 최적화 기반 방법을 제안합니다. 먼저, 논문에서 제안된 방법에 대한 개요를 제공하겠습니다.
Input
: 저자의 방법은 일련의 프레임과 잡음이 있는 모션 추정 쌍(예: 광학 흐름 필드)을 입력으로 사용합니다.- 메서드 작업
- : 이러한 입력을 사용하여 이 메서드는 전체 비디오에 대해 완전하고 전체적으로 일관된 모션 표현을 찾습니다. 결과 기능
- : 최적화 후 이 표현은 비디오에 있는 모든 프레임의 모든 픽셀로 쿼리될 수 있으므로 전체 비디오에 걸쳐 부드럽고 정확한 모션 궤적이 생성됩니다. 이 방법은 또한 점이 언제 폐색되는지 식별하고 폐색을 통과하는 점을 추적할 수 있습니다. 핵심 내용
- :
- OmniMotion Representation: 다음 섹션에서 저자는 먼저 OmniMotion이라는 기본 표현을 설명합니다.
- 최적화 프로세스
- : 다음으로 저자는 비디오에서 이 표현을 복구하는 방법에 대한 최적화 프로세스를 설명합니다. 이 방법은 포괄적이고 일관된 비디오 모션 표현을 제공할 수 있으며 폐색과 같은 어려운 문제를 효과적으로 해결할 수 있습니다. 이제 자세히 알아보겠습니다
- 역전 불가: 이 버전은 "가역성" 구성 요소를 제거합니다. 전체 방법에 비해 모든 측정항목이 크게 감소하며, 특히 AJ 및 에서 가역성이 전체 시스템에서 중요한 역할을 한다는 것을 보여줍니다.
- 측광 없음: 이 버전은 "측광" 구성 요소를 제거합니다. "풀" 버전에 비해 성능은 떨어지지만 "되돌릴 수 없는" 버전에 비하면 성능이 더 좋습니다. 이는 광도 성분이 성능 향상에 일정한 역할을 하지만 가역 성분에 비해 중요성이 낮을 수 있음을 보여줍니다.
- 균일한 샘플링: 이 버전은 통합된 샘플링 전략을 사용합니다. 또한 정식 버전보다 성능이 약간 떨어지지만 "되돌릴 수 없음" 및 "알루미늄" 버전보다는 여전히 좋습니다.
- Full: 모든 구성 요소가 포함된 정식 버전이며 모든 지표에서 최고의 성능을 달성합니다. 이는 각 구성 요소가 성능 향상에 기여한다는 것을 보여주며, 특히 모든 구성 요소가 통합되면 시스템이 최고의 성능을 달성할 수 있음을 보여줍니다.
3.1 표준 3D 볼륨
비디오 콘텐츠는 관찰된 장면의 3차원 지도 역할을 하는 G라는 일반적인 볼륨으로 표현됩니다. NeRF에서 수행된 작업과 유사하게 G의 각 일반적인 3D 좌표 uvw를 밀도 σ 및 색상 c에 매핑하는 좌표 기반 네트워크 nerf를 정의했습니다. G에 저장된 밀도는 일반적인 공간에서 표면의 위치를 알려줍니다. 3D 전단사와 결합하면 여러 프레임에 걸쳐 표면을 추적하고 폐색 관계를 이해할 수 있습니다. G에 저장된 색상을 사용하면 최적화 중 광도 손실을 계산할 수 있습니다.
3.2 3D 전단사
이 문서에서는 3D 점을 로컬 좌표계에서 표준 3D 좌표계로 변환하는 연속 전단사 매핑을 소개합니다. 이 표준 좌표는 장면 점 또는 3D 궤적에 대한 시간에 따른 일관된 참조 또는 "인덱스" 역할을 합니다. 전단사 매핑을 사용하는 주요 이점은 모두 동일한 표준 지점에서 시작되므로 서로 다른 프레임 간의 3D 지점에서 제공되는 주기적인 일관성입니다.
한 로컬 프레임에서 다른 프레임으로의 3D 점 매핑 방정식은 다음과 같습니다.
복잡한 실제 동작을 캡처하기 위해 이러한 전단사는 INN(역전 신경망)으로 매개변수화됩니다. Real-NVP를 모델로 선택한 것은 단순성과 분석적으로 가역적인 속성의 영향을 받았습니다. Real-NVP는 아핀 결합 레이어라는 기본 변환을 사용하여 전단사 매핑을 구현합니다. 이러한 레이어는 한 부분은 변경되지 않고 다른 부분은 아핀 변환을 거치도록 입력을 분할합니다.
이 아키텍처를 더욱 향상시키기 위해 각 프레임의 잠재 코드 latent_i를 조건화하여 수행할 수 있습니다. 따라서 모든 가역 매핑 i는 단일 가역 네트워크 매핑 네트워크에 의해 결정되지만 서로 다른 잠재 코드를 갖습니다
3.3 프레임 간 동작 계산
프레임 간 동작 재계산
이 섹션에서는 2D 동작을 계산하는 방법을 설명합니다. 프레임 i의 모든 쿼리 픽셀에 대해. 직관적으로 쿼리 픽셀은 먼저 광선의 점을 샘플링하여 3D로 "리프트"된 다음 이러한 3D 점은 전단사 매핑 i 및 매핑 j를 사용하여 대상 프레임 j에 "매핑"되고 이어서 다른 샘플에서 알파 합성이 수행됩니다." 이렇게 매핑된 3D 점은 가정된 대응을 얻기 위해 "렌더링"되고 마지막으로 다시 2D로 "투영"됩니다.
4. 실험적 비교
이 실험 데이터 테이블은 Kinetics, DAVIS 및 RGB-Stacking의 세 가지 데이터 세트에 대한 다양한 모션 추정 방법의 성능을 보여줍니다. 개별 방법의 성능을 평가하기 위해 AJ, 평균, OA 및 TC의 네 가지 측정항목이 사용됩니다. 저자가 제안한 두 가지 방법(우리(TAP-Net)과 우리(RAFT)) 외에 7가지 다른 방법이 있습니다. 저자의 두 가지 방법 모두 대부분의 측정항목과 데이터세트에서 좋은 성능을 발휘한다는 점은 주목할 가치가 있습니다. 특히, 우리의 (RAFT) 방법은 세 가지 데이터 세트 모두에 대해 AJ, 평균 및 OA에서 최상의 결과를 달성하는 동시에 TC에서는 두 번째로 좋은 결과를 얻습니다. 우리의 (TAP-Net) 방법도 일부 측정에서 유사한 우수한 성능을 달성합니다. 한편, 다른 방법은 이러한 지표에 대해 엇갈린 성능을 보였습니다. 저자의 방법과 "Deformable Sprites" 방법은 각 비디오에 대한 테스트 시간 최적화를 통해 전역 모션을 추정하는 반면, 다른 모든 방법은 순방향 접근 방식을 사용하여 로컬에서 모션 추정을 수행한다는 점을 언급해야 합니다. 요약하자면, 저자의 방법은 위치 정확도, 폐색 정확도 및 시간적 연속성 측면에서 테스트된 다른 모든 방법을 능가하여 상당한 이점을 보여줍니다
이것은 DAVIS 데이터 세트에 대한 절제 실험 결과 표입니다. 전체 시스템 성능에 대한 각 구성 요소의 기여도를 확인하기 위해 절제 실험이 수행됩니다. 이 표에는 네 가지 방법이 나열되어 있으며 그 중 세 가지는 특정 주요 구성 요소를 제거하는 버전이며 최종 "전체" 버전에는 모든 구성 요소가 포함됩니다.
전반적으로 이 제거 실험의 결과는 각 구성 요소가 성능 면에서 어느 정도 향상되었지만 가역성이 아마도 가장 중요한 구성 요소일 것임을 보여줍니다. 왜냐하면 가역성이 없으면 성능 손실이 매우 심각할 것이기 때문입니다
5. 토론
이 작업에서 DAVIS 데이터 세트에 대해 수행된 절제 실험은 전체 시스템 성능에 대한 각 구성 요소의 중요한 역할을 밝히는 귀중한 통찰력을 제공합니다. 실험 결과에서 우리는 가역성 구성 요소가 전체 프레임워크에서 중요한 역할을 한다는 것을 분명히 알 수 있습니다. 이 중요한 구성 요소가 누락되면 시스템 성능이 크게 저하됩니다. 이는 동적 비디오 분석에서 가역성을 고려하는 것의 중요성을 더욱 강조합니다. 동시에 광도 성분의 손실로 인해 성능 저하도 발생하지만 가역성만큼 성능에 큰 영향을 미치지는 않는 것으로 보입니다. 또한 통합 샘플링 전략은 성능에 일정한 영향을 미치지만 처음 두 가지에 비해 그 영향이 상대적으로 작습니다. 마지막으로 완전한 접근 방식은 이러한 모든 구성 요소를 통합하고 모든 고려 사항에서 달성 가능한 최고의 성능을 보여줍니다. 전반적으로 이 작업은 비디오 분석의 다양한 구성 요소가 서로 상호 작용하는 방식과 전체 성능에 대한 구체적인 기여에 대한 통찰력을 얻을 수 있는 귀중한 기회를 제공하므로 비디오 처리 알고리즘을 설계하고 최적화할 때 통합 접근 방식의 필요성을 강조합니다
. 그러나 많은 모션 추정 방법과 마찬가지로 우리의 방법은 빠르고 매우 단단하지 않은 모션과 작은 구조를 처리하는 데 어려움을 겪습니다. 이러한 시나리오에서 쌍별 대응 방법은 정확한 전역 동작을 계산하는 방법에 대해 충분히 신뢰할 수 있는 대응을 제공하지 못할 수 있습니다. 또한 기본 최적화 문제의 볼록하지 않은 특성으로 인해 특정 어려운 동영상의 경우 최적화 프로세스가 초기화에 매우 민감할 수 있음을 관찰했습니다. 이는 예를 들어 잘못된 표면 순서 또는 표준 공간의 중복 개체와 같이 최적이 아닌 로컬 최소값으로 이어질 수 있으며 때로는 최적화를 통해 수정하기 어렵습니다.
마지막으로, 우리의 방법은 현재 형태에서는 계산 비용이 많이 들 수 있습니다. 첫째, 흐름 수집 프로세스에는 시퀀스 길이에 따라 2차적으로 증가하는 모든 쌍별 흐름에 대한 포괄적인 계산이 포함됩니다. 그러나 우리는 어휘 트리 또는 키프레임 기반 매칭과 같은 보다 효율적인 매칭 방법을 탐색하고 구조 동작 및 SLAM 문헌에서 영감을 얻어 이 프로세스의 확장성을 향상시킬 수 있다고 믿습니다. 둘째, 신경 암시적 표현을 사용하는 다른 방법과 마찬가지로 우리의 방법에는 상대적으로 긴 최적화 프로세스가 포함됩니다. 이 분야의 최근 연구는 이 프로세스를 가속화하고 더 긴 시퀀스로 확장하는 데 도움이 될 수 있습니다.
6. 결론
이 논문은 전체 상황과 일치하는 전체 비디오 움직임의 완전성을 평가하기 위한 새로운 테스트 시간 최적화 방법을 제안합니다. . 준3D 표준 볼륨과 각 프레임에 대한 로컬 표준 전단사로 구성된 OmniMotion이라는 새로운 비디오 모션 표현이 도입되었습니다. OmniMotion은 다양한 카메라 설정과 장면 역학으로 일반 비디오를 처리하고 폐색을 통해 정확하고 부드러운 장거리 모션을 생성할 수 있습니다. 이전의 최첨단 방법에 비해 질적, 양적 측면에서 상당한 개선이 이루어졌습니다.
다시 작성해야 하는 내용은 다음과 같습니다. 원본 링크: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg
위 내용은 제목 재작성: ICCV 2023 우수한 학생 논문 추적, Github은 1.6K 별, 마법과 같은 포괄적인 정보를 획득했습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Hugging Face의 올림픽 코더 -7b : 강력한 오픈 소스 코드 추론 모델 우수한 코드 중심 언어 모델을 개발하기위한 경쟁은 강화되고 있으며, Hugging Face는 엄청난 경쟁자 인 OlympicCoder-7B와 경쟁에 참여했습니다.

AI가 단순한 질문에 대답하는 것 이상을 할 수 있기를 바라는 여러분 중 몇 명이 있습니까? 나는 내가 가지고 있다는 것을 알고 있으며, 늦게 그것이 어떻게 변화하고 있는지에 놀랐습니다. AI 챗봇은 더 이상 채팅에 관한 것이 아니라 창작에 관한 것입니다.

Smart AI가 모든 수준의 엔터프라이즈 소프트웨어 플랫폼 및 애플리케이션에 통합되기 시작함에 따라 (강력한 핵심 도구와 덜 안정적인 시뮬레이션 도구가 있음을 강조해야 함) 이러한 에이전트를 관리하려면 새로운 인프라 기능 세트가 필요합니다. 독일 베를린에 본사를 둔 프로세스 오케스트레이션 회사 인 Camunda는 Smart AI가 적절한 역할을 수행하고 새로운 디지털 작업장에서 정확한 비즈니스 목표 및 규칙에 맞게 조정하는 데 도움이 될 수 있다고 생각합니다. 이 회사는 현재 조직이 AI 에이전트를 모델링, 배포 및 관리하도록 돕기 위해 설계된 지능형 오케스트레이션 기능을 제공합니다. 실용적인 소프트웨어 엔지니어링 관점에서, 이것이 무엇을 의미합니까? 확실성과 비 결정적 프로세스의 통합 이 회사는 핵심은 사용자 (일반적으로 데이터 과학자, 소프트웨어)를 허용하는 것이라고 말했다.

다음 '25 년 Google Cloud에 참석하면서 Google이 AI 제품을 구별하는 방법을보고 싶어했습니다. 에이전트 공간 (여기서 논의 된)과 고객 경험 제품군 (여기서 논의)에 관한 최근의 발표는 유망한 비즈니스 valu를 강조했습니다.

검색 증강 생성 (RAG) 시스템을위한 최적의 다국적 임베딩 모델 선택 오늘날의 상호 연결된 세계에서 효과적인 다국어 AI 시스템을 구축하는 것이 가장 중요합니다. 강력한 다국어 임베딩 모델은 RE에 중요합니다

Tesla의 Austin Robotaxi 런칭 : Musk의 주장에 대한 자세한 내용 Elon Musk는 최근 텍사스 오스틴에서 Tesla의 다가오는 Robotaxi 런칭을 발표하여 안전상의 이유로 소규모 10-20 대의 차량을 배치하여 빠른 확장 계획을 세웠습니다. 시간

인공 지능이 적용되는 방식은 예상치 못한 일 수 있습니다. 처음에 우리 중 많은 사람들이 주로 코드 작성 및 컨텐츠 작성과 같은 창의적이고 기술적 인 작업에 주로 사용되었다고 생각할 수도 있습니다. 그러나 하버드 비즈니스 리뷰 (Harvard Business Review)가 최근 조사한 결과는 그렇지 않습니다. 대부분의 사용자는 일뿐만 아니라 지원, 조직, 심지어 우정을 위해 인공 지능을 추구합니다! 이 보고서는 AI 신청 사례의 첫 번째는 치료 및 동반자라고 밝혔다. 이것은 24/7 가용성과 익명의 정직한 조언과 피드백을 제공하는 능력이 큰 가치가 있음을 보여줍니다. 반면에, 마케팅 작업 (예 : 블로그 작성, 소셜 미디어 게시물 만들기 또는 광고 사본)은 인기있는 사용 목록에서 훨씬 낮습니다. 이게 왜? 연구 결과와 그것이 어떻게 계속되는지 보자.

AI 요원의 부상은 비즈니스 환경을 변화시키고 있습니다. 클라우드 혁명과 비교하여, AI 에이전트의 영향은 지식 작업에 혁명을 일으킬 것으로 예상되며, 기하 급수적으로 더 크다. 인간의 의사 결정 마키를 시뮬레이션하는 능력


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경
