중국은 오랜 역사와 심오한 문화유산, 수많은 문화 유물을 보유하고 있으며, 이는 이전 세대의 지혜의 결정체로서 문서로서의 문화 유물의 가치는 자명합니다. 고서는 중국문명을 기록하는 중요한 매체이자 오늘날까지 전해지는 귀중한 문화유산이다. 문화유적의 보호 역시 중요한 장기적 기초사업이다. 전국 2,800개 이상의 도서관이 5천만 권 이상의 고대 서적을 소장하고 있으며, 그 중 1/3이 다양한 정도로 손상되었습니다. 기존 문화재 복원 인력 수에 따르면 소장품의 문화재를 모두 복원하는 데는 수백 년이 걸릴 것으로 보인다.
"고서 여행기"는 ByteDance와 중국 최초의 역사 기록 보관소, 둔황 서원, 간쑤 슬립 박물관, 국립 도서관(국립 고전 서적 박물관)이 공동으로 만든 고서 활성화 프로젝트로, 복원 고대 문서의 4대 발견 - 음유적 갑골, 거연 한죽전, 둔황 유고, 명청 기록 보관소, 고대 서적을 디지털 형식으로 생생하게 만듭니다 .
이 프로젝트는 VR 인터랙티브 다큐멘터리를 중심으로화산엔진 멀티미디어 연구실의 최신 3D 재구성 기술을 활용하고, 오프라인 문화유적을 PICO 가상 장면으로 복제하고, 자체 개발한 라이트 필드 영상 기술을 적용하여 수집합니다. 또한, 역동적인 캐릭터의 라이트 필드 정보를 생생하게 복원하여 VR 장면에서 높은 수준의 시청 자유도와 인터랙티브 경험을 제공합니다. 이 다큐멘터리에서 시청자는 PICO, Douyin 육안 VR 등의 방법을 사용하여 집을 떠나지 않고 시공간을 여행하고 역사적 사건에 직접 참여하며 고대 서적을 가까이 접촉하고 감상할 수 있습니다.
이 글에서는 화산엔진 멀티미디어 연구실의 3차원 재구성 기술과 라이트필드 영상기술의 원리, 고도화, 응용 분야에 대해 집중적으로 다루어 3차원 재구성 기술에 대한 이해와 관련 기술이 실제 제품에 활용될 수 있도록 돕습니다. 및 애플리케이션이 착륙했습니다. 1. 기술적 과제와 어려움문화재의 디지털화에는 문화재의 3차원 재구성과 디지털 복원이 필요하며 3차원 재구성 기술에도 큰 과제가 있습니다., 전처리, 포인트 클라우드 접합, 특징 분석, 메시 및 텍스처 생성 및 기타 단계가 포함됩니다. 기존의 3D 재구성은 시각 또는 다중 양식(깊이 데이터, 예: 레이저)을 기반으로 이미지의 3D 정보를 재구성하는 프로세스를 사용하여 정적 개체 및 장면을 모델링할 수 있지만 동적 개체 및 장면에 대한 효과적인 방법이 부족합니다. 모델링을 위한 토탈 솔루션
.화산 엔진 멀티미디어 연구소는 자체 개발한 물체 재구성 기술, 장면 재구성 기술 및 라이트 필드 비디오 기술
을 보유하고 있어 고정밀 형태의 정적 물체를 구성하고 복잡한 재료를 복원할 수 있습니다. 도시 공원, 주택 공간 등의 효과적인 모델링은 디지털 트윈의 중요한 기반입니다. 이는 고급 라이트 필드 비디오 기술을 사용하여 동적 객체와 동적 장면을 재구성하고 재현하여 완전한 기술 세트를 통해 주문형 및 라이브 방송을 달성할 수 있습니다. 솔루션 계획.2.1 사물 재구성 기술: 문화 유물 보호와 정확한 스캔
"고대 서적 여행 노트" 프로젝트에서 화산 엔진 멀티미디어 연구소는 40개 이상의 문화 유물을 디지털 복원했습니다. 문화재의 디지털 복원 과정에서 가장 먼저 직면하게 되는 어려움은 문화재를 보호해야 한다는 것과 수집 장비에 일정한 제한이 있다는 점입니다. 예를 들어 일반적으로 사용되는 고정밀 레이저 장비를 사용하여 문화재를 스캔할 수는 없습니다. 이로 인해비전 기반 접근 방식을 3D 재구성으로 채택했습니다. 그러나 전통적인 비전 기반 재구성 방법은 질감이 약한 물체를 처리할 수 없으며 복잡한 모양(예: 길고 좁은 슬리퍼, 편평한 오라클 뼈)을 가진 항목을 재구성하는 것도 어렵습니다. 이를 위해 3차원 물체를 표현하기 위해 Signed Distance Fields(SDF) 기술 솔루션을 사용하고, 위의 재구성 어려움을 극복하기 위해 딥 러닝 방법을 사용합니다. SDF는 공간의 각 지점에서 객체까지의 방향 거리를 나타냅니다. 2차원 SDF의 개략도는 다음과 같습니다. SDF의 개략도 SDF에 정확하게 맞도록 신경망을 어떻게 감독할 것인가는 연구가 필요한 문제입니다. 먼저 SfM(Structure from Motion) 알고리즘을 사용하여 캡처된 이미지의 카메라 자세를 정확하게 계산합니다. 카메라 자세에서는 SDF가 표현하는 공간정보를 미분 렌더링 방식으로 이미지에 렌더링하고, 렌더링된 이미지와 해당 관점에서 수집된 이미지를 비교하여 신경망을 지속적으로 최적화하여 SDF를 더 좋게 만듭니다. 각 컬렉션의 관점에서 렌더링 결과는 실제 캡처된 이미지와 최대한 일치합니다. 재구성의 정밀도를 더욱 향상시키기 위해 SDF를 최적화할 때 희소 재구성으로 얻은 3차원 점을 제약 조건으로 추가하여 개체의 세부적인 특징을 더 잘 복원할 수 있습니다. 화산엔진 멀티미디어 연구실에서는 완전한 재구성이라는 목적을 달성하기 위해 분할 알고리즘과 재구성 알고리즘도 결합해 물체의 바닥 영역을 효과적으로 재구성한다. 스캐닝 과정에서 물체를 특정 위치에 고정해야 하기 때문에 물체의 바닥면에서는 사진을 수집할 수 없습니다. 물체의 완전한 재구성은 물체의 바닥 재구성 문제를 해결하는 것입니다. 일반적인 방법은 서스펜션 방법 또는 다중 세그먼트 재구성과 후처리 접합입니다. 매달기 방법은 문화재에 대해 충분히 안전하지 않으며 접합 후 처리 과정이 길고 자동화할 수 없습니다. 이를 위해 화산 엔진 멀티미디어 연구실에서는 재구성 알고리즘에 자동화된 이미지 분할을 추가했습니다. 이를 통해 전방 및 후방 촬영에서 가져온 데이터를 통합하고 함께 재구성하여 완전한 재구성 결과를 직접 얻을 수 있습니다. 재구성 결과는 아래 그림과 같습니다. 완전 재구성 기술을 사용하지 않고 결과 모델링 완전 재구성 기술을 사용하여 결과 모델링 하이라이트는 객체 재구성에 있어 큰 과제입니다. 한편으로 하이라이트는 기능에 영향을 미칩니다. 포인트 매칭으로 인해 카메라 자세가 부정확하게 복구되고, 또 다른 하이라이트로 인해 서로 다른 시야각 간 관찰 결과의 일관성이 파괴되어 재구성에 간섭이 발생합니다. 이를 위해 화산 엔진 멀티미디어 연구실에서는 많은 수의 하이라이트를 효과적으로 제거할 수 있는 편광을 사용하여 하이라이트를 제거하는 일련의 방법을 요약했습니다 하이라이트 제거 결과를 비교하면 다음과 같습니다. 하이라이트 제거 전 하이라이트 제거 후 화산 엔진 멀티미디어 연구소의 방법으로 반사/굴절 속성도 시뮬레이션할 수 있습니다. 달성해야 할 다양한 목표 특별한 물질적 사물의 모델링 , 문화재 재구성 결과는 아래 그림에 나와 있습니다. 문화재 원본사진 문화재 복원 결과 4대 박물관에 소장된 문화재 중 일부는 종이, 대나무 전표 등 귀중한 문화재이기도 합니다. 이러한 문화재는 전시장에서 꺼내거나 수집하기도 어렵습니다. 이러한 상황에 대응하여 화산 엔진 멀티미디어 연구실에서는 유리 디스플레이 캐비닛으로 인해 발생하는 미광, 하이라이트 및 반사 문제를 제거할 수 있는 광학 편광판이 포함된 수집 장비를 자체 개발하여 보호 유리 쉘을 사용할 수 있습니다. 문화 유물의 고충실도 스캐닝 및 재구성을 수행합니다. 유리 진열장 속 유물 유물 재구성 결과 이외에도 화산엔진멀티미디어연구소의 아이템 재구성 기술에는 정확한 포즈 추정, 실제 질감 ( 확산반사, 정반사, 반투명 ) 및 미세한 표면 재구성과 같은 복잡한 재료의 복원은 귀중한 문화 유물을 실현하기 위한 "고서 기행기" 프로젝트에도 사용되었습니다. . 고도로 사실적인 1:1 복원과 디지털 자원화를 통해 관객은 박물관에 '몰입'하고 컬렉션을 사람들의 마음 속에 더욱 깊이 뿌리내릴 수 있습니다. 화산엔진 멀티미디어 연구실의 물체 재구성 기술은 문화 유물뿐만 아니라 일반 물체에도 적합합니다. 칼날과 같은 얇은 물체도 좋은 재구성 결과를 얻을 수 있습니다. 상단: 칼, 나무막대 등 소품, 하단: 전자상거래 품목 장면 재구성은 컴퓨터의 조합입니다. 비전 및 사진 측량 이는 해당 분야의 중요한 연구 주제이며 스마트 시티, 가상 현실, 디지털 내비게이션 및 디지털 유산 보호 분야에서도 중요한 응용 분야를 가지고 있습니다. 비전을 통한 3차원 재구성은 획득 효율이 높고, 획득 비용이 낮으며, 정확도의 상한이 높으며, 다양한 장면에 대한 적응성이 있다는 장점도 있지만, 다른 스캐닝 장비로 인한 장면의 불필요한 손상을 피할 수도 있습니다. 알고리즘 수준에서 많은 문제에 직면해 있습니다. 이와 관련하여 화산 엔진 멀티미디어 연구실은 AI 기술과 다시점 기하학의 기본 원리를 결합하여 강력하고 정확하며 완전한 고급 시각적 재구성 알고리즘 프레임워크를 구축합니다. 재구성 프로세스는 이미지 처리, 포인트 클라우드 최적화 및 메시 재구성 의 세 가지 주요 단계 로 구성됩니다. 화산엔진 멀티미디어 연구실에서는 첨단 인공지능 기술을 활용하여 노이즈 제거, 초해상도 , 특징 추출 및 매칭 등의 이미지 처리를 통해 기존 방식의 많은 한계를 극복했습니다. 그런 다음 SfM 알고리즘과 BA(번들 조정)를 사용하여 이미지에서 희소 기하학적 구조와 카메라 매개변수를 추출합니다. 동시에 팀은 고정밀, 다중 모드를 달성하기 위해 파노라마 카메라, 다중 카메라 그룹, RGBD 카메라, LiDAR, GPS/IMU 등 다중 센서 데이터 입력을 지원하는 자세 추정 알고리즘을 개발했습니다. , 적응형 희소 재구성. 대규모 데이터를 처리하기 위해 팀은 분산 클러스터의 병렬 재구성을 달성하기 위한 블록 재구성 및 맵 병합 전략을 개발하여 재구성 효율성을 크게 향상시켰습니다. 장면의 희소 재구성이 완료된 후 MVS(Multiple View Stereo) 기술을 통해 2차원 이미지 정보를 3차원 포인트 클라우드 정보로 변환합니다. 팀은 단안 카메라, 쌍안 카메라 및 다안 스테레오 비전을 기반으로 자체 개발한 깊이 추정 알고리즘으로 신경망을 사용하여 조밀한 깊이 추정을 수행하고 모든 시차 및 다양한 텍스처 환경에서 안정적이고 우수한 성능을 달성합니다. 포인트 클라우드 정보를 얻은 후 포인트 클라우드 노이즈 제거 및 완성을 수행하고 포인트 클라우드 등록을 통해 장면 기하학적 일관성을 달성합니다. 마지막으로, VoxelHash와 이미지 의미 정보를 기반으로 한 포인트 클라우드 융합 전략을 사용하여 노이즈를 추가로 필터링하고 더 부드럽고 일관성 있는 완전한 장면 포인트 클라우드를 생성합니다. 장면 포인트 클라우드를 얻은 후 메시 재구성을 수행합니다. 화산 엔진 멀티미디어 연구소는 보다 세련되고 완전한 고품질 그리드 모델을 얻기 위해 그리드 평활화, 노이즈 제거, 단순화 및 구멍 채우기를 달성하기 위한 다양한 그리드 최적화 알고리즘을 자체 개발했습니다. 고정밀 카메라 자세 추정과 영상 처리 중 영상 초해상도 등 영상 품질 최적화와 자체 개발한 매핑 알고리즘이 결합되어 해상도가 높고 이음새가 적은 고품질 텍스처 맵을 얻을 수 있습니다. 동시에 텍스처 리패킹 알고리즘은 텍스처 활용도를 높이고 스토리지 리소스 낭비를 줄이며 효과적인 텍스처 해상도를 향상시키기 위해 최적화되었습니다. 전통적인 이미지 등록 알고리즘 화산 엔진 비디오 클라우드 알고리즘 전통적인 모델링 알고리즘 Volcano 엔진 비디오 클라우드 알고리즘 모델링 결과 도시 장면 모델링 화산 엔진 비디오 클라우드 알고리즘 쑤저우 원통사 재건 결과 화산엔진 멀티미디어 연구실의 물체 재구성 기술과 장면 재구성 기술은 다양한 크기와 모양의 문화재를 동일한 비율과 높은 정밀도로 복원할 수 있습니다. 위에서 언급한 기술은 오프라인 문화 유물을 온라인으로 변환하고 PICO 및 Douyin에서 문화 유물의 가상 프레젠테이션을 실현할 수 있습니다. 전통적인 방문에서는 볼 수 없는 동시에 공간의 제약을 뛰어넘어 둔황석굴을 둘러볼 수 있습니다. 또한, 이 기술은 오프라인의 귀중한 문화재를 온라인의 영구 디지털 자원으로 전환하고, 문화재의 디지털 보호를 실현하며, 미래 세대가 문화재의 전모를 개인적으로 경험할 수 있게 해줍니다. 가상 둔황 석굴에서 웅장한 무용을 몰입감 있게 관람하고 현실 너머의 경험을 경험할 수 있도록 화산엔진 멀티미디어 연구실The 자체 개발한 라이트 필드 비디오 기술은 역동적인 캐릭터와 장면을 높은 충실도로 재구성하여 업계 최고 수준에 도달할 수 있습니다. 동적 3D 메쉬 데이터(Dynamic Mesh)는 역동적인 캐릭터와 장면을 표현할 수 있지만 고품질의 동적 3D 메쉬를 어떻게 재구성하고 새로 렌더링된 이미지를 사진처럼 사실적으로 만들 수 있는지가 문제입니다. 3D 장면 디자이너가 장면을 수동으로 재구성하면 더 나은 재구성 품질을 얻을 수 있지만 장면 질감에 대한 특정 요구 사항인 SFM/MVS와 같은 알고리즘을 통해 3D 장면을 자동으로 재구성하면 더 많은 인건비가 발생합니다. 재구성해야 하며 재구성 결과에는 부정확한 기하학적 세부 사항과 텍스처 왜곡이 포함될 수 있습니다. 신경방사선장 기술은 암시적 재구성을 위해 신경망을 사용하고 미분 가능한 렌더링 모델을 사용하여 기존 뷰에서 새로운 관점의 이미지를 렌더링하는 방법을 학습함으로써 사실적인 이미지 렌더링, 즉 NeRF(신경방사선장) 기술을 구현합니다. 미분 가능 렌더링 모델은 3차원 공간 모델과 텍스처를 이미지로 렌더링하는 과정을 모델링합니다. 미분 가능 특성을 통해 기존 원근 이미지 감독 하에 신경망을 통해 3차원 공간 기하학과 텍스처를 학습할 수 있습니다. 알려지지 않은 새로운 관점에서 학습된 3차원 공간 기하학을 다시 렌더링하여 새로운 관점의 이미지를 얻을 수 있습니다. 화산엔진 멀티미디어 연구실은 신경방사장 기술과 전통적인 메쉬 모델링 기술을 결합합니다. 구체적인 실습에서는 캐릭터의 대략적인 기하학적 윤곽선을 먼저 재구성하고 NeRF 기술을 개선하며 기하학적 윤곽선을 선험적으로 통합하여 훈련 지침을 추가하고 3차원 공간 기하학을 암묵적으로 학습하며 조밀하고 새로운 관점이 다시 렌더링됩니다. 신경 방사선 현장 훈련 과정에서 동적 캐릭터 장면에 대해 팀은 해시 코딩 기반의 계층적 표현을 사용하여 모델 훈련 속도를 향상시키고 스트리밍 훈련을 사용하여 이 장면에서 새로운 관점 생성 효과를 향상시키기 위해 몇 가지 최적화 전략을 사용했습니다. 장면의 프레임 간 일관성 등을 향상시킵니다. 마지막으로 영상 융합 기술을 이용해 배경 정보를 자동으로 학습해 전경 재조명을 구현해 전경 배우와 배경 장면을 자연스럽게 통합할 수 있다. 동시에 Volcano Engine Multimedia Laboratory의 라이트 필드 비디오 기술은 NeRF 편집을 실현하고 복잡하고 역동적인 대형 장면을 재구성 및 재현 할 수 있습니다. 볼케이노 엔진 멀티미디어 연구실의 라이트 필드 영상 기술은 밀도가 높은 라이트 필드 데이터를 생성하기 위해 희박한 다중 카메라 입력만 필요합니다. 이는 주로 딥 러닝을 기반으로 하는 새로운 관점 생성 기술을 사용합니다. 기존 비디오 데이터와 비교할 때 라이트 필드 비디오 데이터는 데이터 볼륨이 큰 특성을 가지고 있습니다. 팀은 멀티 뷰 집계 코딩 기술을 사용하여 라이트 필드 데이터를 압축하여 전송 및 저장 부담을 줄입니다. 대규모 라이브 방송 기술과 RTC 전송 기술이 결합되어 라이트 필드 영상의 주문형 및 라이브 방송이 가능합니다. 3D 기술의 지속적인 성숙으로 볼케이노엔진 멀티미디어 연구실의 3D 기술은 VR 분야, 자율주행, 영상 생방송, 게임 및 기타 시나리오뿐만 아니라 산업, 의료, 건설 및 가정용 가구, 항공우주 및 기타 분야에서도 계속해서 탐구할 것입니다. Volcano Engine은 다양한 산업 분야의 제품과 프로젝트에 객체 재구성 기술, 장면 재구성 기술 및 라이트 필드 비디오 기술을 광범위하게 적용하고 기업 고객에게 서비스를 제공하며 사용자에게 더 고화질, 더 상호 작용적이고 몰입도가 높은 혁신적인 경험을 제공하기를 희망합니다. Volcano Engine Multimedia Laboratory는 ByteDance 산하의 연구팀으로 멀티미디어 분야의 최첨단 기술을 탐구하고 국제 표준화 작업에 참여하는 데 전념하고 있으며 많은 혁신적인 알고리즘과 소프트웨어 및 하드웨어 솔루션이 다음과 같은 제품에 널리 사용되었습니다. Douyin 및 Xigua Video로 멀티미디어 사업을 하고 있으며 Volcano Engine의 기업 고객에게 기술 서비스를 제공합니다. 연구실 설립 이후 많은 논문이 최고의 국제학술대회와 대표저널에 선정되었으며, 여러 국제기술경연대회, 산업혁신상, 최우수논문상 등을 수상하였습니다. 2.2 자체 구축된 장면 재구성 알고리즘: 더 높은 효율성, 더 높은 정확성
2.3 자체 개발한 라이트 필드 영상 기술: 비용과 정확도의 균형 문제
3. 개요 및 전망
위 내용은 문화재를 '살아있게' 만드는 화산엔진 영상클라우드 3D 재구성 기술 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!