이 기사는 Lei Feng.com에서 복제되었습니다. 재인쇄가 필요한 경우 Lei Feng.com 공식 웹사이트로 이동하여 승인을 신청하세요.
지난 몇 년간 나의 연구는 주로 미크론 해상도부터 세계적 수준에 이르기까지 시각적 외관과 이해에 중점을 두었습니다. 연설을 시작하기 전에, 아주 흥미로운 예를 하나 보여드리겠습니다. 이 영화 속 주인공과 세계 사이의 시각적 인터페이스는 매우 흥미롭습니다.
이 사람이 현실 세계를 걸을 때 그의 시각적 인터페이스에 일련의 텍스트가 나타나는 것을 볼 수 있습니다. 주인공은 자동차 팬이므로 시각적 인터페이스를 통해 자동차에 대한 풍부한 정보를 확인할 수 있습니다.
사진 한 장만으로도 시각적 인터페이스를 통해 자동차에 대한 모든 정보를 알 수 있습니다. 이 기술을 발전시키기 위해서는 컴퓨터 비전 및 시각적 이해 분야의 연구가 필요합니다.
주인공은 계속 걸어가고, 이 모델들에 가까이 다가가면 그들이 매우 현실적으로 보이지만 실제 사람이 아니라는 것을 알게 될 것입니다. 그러한 기술을 달성하려면 현실적인 외관을 연구해야 합니다.
그런 다음 주인공은 쇼핑 창구로 걸어가서 창구에 있는 모든 제품을 보았습니다. 이번에는 그의 시각적 인터페이스가 그에게 내부의 제품에 대한 모든 정보를 보여주고 심지어 제품을 착용하는 효과까지 시뮬레이션합니다. 주인공은 실제로 제품을 만지지 않고도 제품을 경험할 수 있습니다.
제가 보여드린 영상의 효과를 얻으려면 제품의 모든 속성을 디지털화하여 인터랙티브하게 매치시키는 "역그래픽"이라는 기술이 필요합니다.
우리가 개발하고 있는 다양한 기술을 보여드리기 위해 이러한 예시를 보여드립니다. 제가 방금 언급한 것은 현재 증강 현실의 발전을 주도하고 있는 기술들입니다. 오늘은 시각 기술에 집중하겠습니다.
모델은 진짜인지 가짜인지 알 수 없을 정도로 실제처럼 보입니다. 이것이 컴퓨터 그래픽 분야의 현실적인 모습입니다. 이 분야에는 사진을 찍는다는 또 다른 방향이 있습니다. 물체 사진, 우리는 이 사진 속 물체의 모든 속성을 어떻게 이해합니까? 그러면 우리는 이 세계의 속성을 이해하기 위해 계속해서 발전할 수 있습니다.
오늘 제가 이야기할 세 가지 주요 내용은 다음과 같습니다.
물리 기반 그래픽부터 시작해 보겠습니다.
먼저 유명한 테스트를 소개하겠습니다. 바로 렌더링된 장면과 동일한 장면의 실제 사진을 비교하여 렌더링 소프트웨어의 정확성을 확인하도록 고안된 코넬 박스 테스트입니다. 제가 보여드리는 두 장의 사진은 하나는 인공적으로 렌더링된 것이고 다른 하나는 실제입니다. 실제로 왼쪽은 실제 장면이고 오른쪽은 가상 사진입니다.
수년 동안 사람들은 이 테스트가 진짜인지 가짜인지 감지할 수 없는 사진을 만들기 위해 열심히 노력해 왔습니다. 하지만 현실 세계는 코넬의 상자에 담긴 그림처럼 단순하지 않습니다. 이 그림에 나오는 직물, 가죽, 나뭇잎, 음식 등 현실 세계에는 다양한 종류의 재료가 있습니다. 사람들은 끊임없이 세상과 상호작용하며 자신이 보는 것이 진짜인지 판단합니다. 아래 왼쪽 모델의 사실적인 시각 효과를 시뮬레이션하려면 이러한 복잡한 재료를 어떻게 표현해야 하는지가 큰 과제입니다. 이는 제가 수년 동안 연구해 온 문제이기도 합니다.
그래서 천과 천의 느낌을 적절하게 포착하는 방법에 대해 이야기하겠습니다. 먼저, 이 두 사진을 보면 왼쪽이 벨벳, 오른쪽이 반짝이는 실크 같은 소재라는 것을 바로 알 수 있는 이유는 무엇일까요? 벨벳을 벨벳처럼 보이게 만드는 것은 무엇이며, 실크를 벨벳과 다르게 보이지만 실크처럼 보이게 만드는 것은 무엇입니까?
답은 구조입니다.
두 원단은 겉모습만 다른 것이 아니라 구조가 다르기 때문에 시각 효과도 다르다는 것이 본질입니다. 이 구조를 파악하면 시각적 본질을 포착할 수 있습니다.
원래 프로젝트에서 우리가 한 일은 이 물질의 마이크로 CT 스캔을 보는 것이었습니다.
벨벳의 마이크로 CT 스캔을 보면 벨벳이 모피 소재임을 알 수 있습니다.
실크는 구조가 전혀 다릅니다. 실크는 날실과 씨실이 매우 촘촘하게 얽혀서 특정한 패턴을 형성하는데, 이는 실크의 구조가 너무 촘촘해서 윤기나는 효과를 주기 때문입니다. .
이 시점에서 우리는 재료의 미세 구조를 파악하는 한 재료의 외관 모델을 기본적으로 파악할 수 있습니다. 재료가 매우 복잡하더라도 여전히 변하지 않습니다.
구조를 파악하면 색상 등 광학적 특성을 나타내는 정보를 파악할 수 있습니다. 이 정보는 완전한 모델을 제공하기에 충분하여 이 자료의 사실적인 시각 효과를 재현할 수 있었습니다.
사진과 같이 두 원단의 구조적 특성을 완벽히 파악하여 벨벳과 실크의 시각효과를 복원하는데 성공하였습니다.
저희는 이러한 모델을 실제로 홍보하고, 이 모델이 실제 어떤 용도로 활용될 수 있는지 고민하기 위해 많은 연구를 진행했습니다. 우리는 이제 이 도구가 산업 디자이너, 섬유 디자이너 등의 디지털 프로토타이핑을 더 쉽게 만들어 디자이너가 실제 직조 직물의 모양을 시뮬레이션할 수 있는 능력을 제공할 것이라고 믿습니다.
산업용 직기에서는 스풀에 실제 실을 사용하고 직조 패턴을 추가한 후 아래 오른쪽과 같은 직물을 생산하게 되는데, 그리고 우리가 원하는 현대적인 시각적 튜링 테스트 산업용 직기와 동일한 효과를 얻기 위해 CT 스캔과 사진을 조합하여 본질적으로 완전한 디지털 파이프라인을 만듭니다.
이 가상이면서도 사실적인 시각 효과를 통해 디자이너는 실제로 원단을 제조하지 않고도 중요한 결정을 내릴 수 있습니다.
우리는 실제로 재료 구조를 보다 직관적으로 표현하는 저차원 모델과 22개의 매개변수를 만들었습니다. 이 도구를 사용할 수 있다면 디자이너는 더 큰 힘을 얻을 수 있을 것입니다.
그리고 이 22개의 매개변수는 제가 이야기할 두 번째 주제인 역그래픽으로 이어질 것입니다.
두 번째 문제는 이러한 모델을 갖게 된 후 이러한 모델에 어떻게 적응해야 하는가입니다. 이는 컴퓨터 그래픽 연구에서도 중요한 주제이다.
빛과 물체 표면의 관계부터 시작해 보겠습니다.
빛이 금속 표면을 만나면 빛이 반사됩니다. 피부, 음식, 직물 등과 같은 다른 재료의 경우 빛이 표면에 닿으면 빛이 표면으로 들어가서 어느 정도 물체와 상호 작용합니다. 이를 표면하 산란이라고 합니다.
위 사진처럼 초밥이 맛있는지 판단하는 방법은 겉모습의 윤기와 신선도를 보고 판단하는 것입니다. 따라서 특정 개체의 시각적 효과를 시뮬레이션하려면 빛이 해당 개체의 표면에 닿을 때 어떤 일이 발생하는지 이해해야 합니다.
캡션: 엔드 투 엔드 파이프라인
이상적인 세계에서는 일종의 학습된 표현이 있으며, 사진을 찍은 후 사진 속 개체가 다음과 같다는 것을 인식할 수 있습니다. 모두 어떤 물질 특성과 물질 매개변수가 있는지, 그리고 서로 다른 산란과 관련된 세 가지 매개변수(빛이 매질에서 얼마나 멀리 이동하는지, 얼마나 분산되는지, 산란 시 물질의 알베도는 무엇인지 등)도 알 수 있습니다.
이제 우리는 빛이 물체 표면에 닿는 전체 물리적 과정을 시뮬레이션할 수 있는 매우 우수한 물리적 기반 렌더러를 보유하고 있으므로 이미 이러한 종류의 파이프라인을 생성할 수 있는 능력을 갖추고 있다고 생각합니다.
물리 기반 렌더러와 학습된 표현을 결합하여 이 엔드투엔드 파이프라인을 얻은 다음 출력 이미지를 입력 이미지와 일치시키고 손실을 최소화하면 재료 속성을 얻을 수 있습니다(예: 위의 그림 중앙에 있는 물질 π).
이를 효과적으로 수행하려면 학습과 물리학을 효과적으로 결합하고, 세계의 물리적 렌더링 프로세스를 뒤집어 놓고, 역 매개변수를 얻기 위해 열심히 노력해야 합니다.
위의 과정에서는 렌더링 엔진 R이 이 문제를 연구하고 있습니다.
영화의 한 장면처럼 제품의 시각적 효과를 복원하려면 차별화 가능한 렌더링 파이프라인이 필요합니다. 즉, 복원하려는 속성의 손실을 차별화할 수 있어야 합니다. 다음은 재료와 형상을 복구하는 예입니다. 체인 방법을 사용하여 표면 가장자리에서 간단히 샘플링하여 필요한 정보를 얻을 수 있습니다.
그러면 아래와 같이 객체의 시각 효과를 복원하는 프로세스를 생각해 낼 수 있습니다. 먼저 휴대폰을 사용하여 복원하려는 개체의 일련의 사진을 찍은 다음 사진을 초기화하고 재질과 모양을 최적화한 다음 미분 렌더링을 통해 다시 최적화할 수 있습니다. 마지막으로 개체는 사실적인 시뮬레이션을 제시할 수 있습니다. 효과는 증강 현실/가상 현실 및 기타 응용 프로그램에서 사용할 수 있습니다.
시각적 시뮬레이션에서 지하 산란은 매우 중요한 현상입니다. 아래 사진은 Cubes라는 여러 아티스트의 작품입니다. 실제로는 98가지 음식을 모아 만든 한 변의 길이가 2.5cm인 정사각형입니다. 98가지 음식 각각의 표면은 서로 다르고 복잡해 탐구에 대한 관심을 불러일으켰습니다.
식품의 표면은 매우 복잡하기 때문에 원료의 특성을 복원할 때 표면하 산란을 고려해야 합니다. 이 측면에 대한 구체적인 내용은 나중에 출판할 논문에서 제시할 것입니다. 완전 차등 렌더링 파이프라인을 개발했습니다. 우리가 이 파이프라인을 사용하여 복구하는 것은 지하 산란을 중심으로 한 물질 속성입니다. 마지막으로 두 과일의 서로 다른 재질과 모양을 복원하여 키위와 용과 큐브의 시각적 효과를 성공적으로 표현했습니다.
그림: 키위와 드래곤프루츠 큐브를 복원하는 과정
위 연구에서는 학습과 물리학을 결합하여 다음과 같은 3가지 중요한 사항을 요약했습니다.
아직도 기억나는 영화 속 주인공은 거리를 걸으며 창문에 있는 제품을 보더니 시각적 인터페이스가 그에게 모든 정보를 알려줬습니다. 그가 본 물건에 대해?
컴퓨터 비전의 대규모 연구 분야인 Fine-grained object recognition(Fine-grained object recognition)은 제품 인식, 부동산 등 다양한 산업 분야에서 사용되고 있습니다. 애플리케이션.
사진 참고: 세밀한 물체 인식이 제공하는 정확한 정보
이 그림에서 볼 수 있듯이 세밀한 물체 인식을 통해 이 사람이 x를 들고 있음을 알 수 있으며, 이 x는 여기서 x는 특정 브랜드의 핸드백을 의미합니다. 이러한 정확한 지식은 대부분의 일반 사람들이 이해할 수 없는 것입니다.
기본적으로 시각적 인식을 통해 전문가 수준의 정보를 제공할 수도 있고, 심지어 한 분야 이상의 전문가 수준의 정보도 제공할 수 있는데, 이 분야에 대한 연구가 매우 흥미로운 것 같아요.
이 사진은 캠프파이어 난로를 보여줍니다. 어쩌면 어떤 사람들은 시각만으로는 이 물체의 목적을 판단할 수 없지만, 세밀한 물체 인식은 그것이 캠프파이어 난로인지 알 수 있을 뿐만 아니라 또한 예술 작품의 이름, 구입할 수 있는 장소 및 작품을 디자인한 예술가에 대한 정보를 제공하십시오.
캡션: IKEA APP
이 사용 방법을 IKEA 증강현실 앱에 출시했습니다. 우리는 증강 현실 APP에 시각적 인식과 가상 렌더링을 통합했습니다. 그때부터 시각적 인터페이스에 대한 우리의 과거 아이디어는 점차 현실이 되기 시작했습니다.
캡션: Meta의 쇼핑 AI GrokNet의 인터페이스
위 사진의 연구는 실제로 Meta의 쇼핑 AI “GrokNet”의 일부입니다. GrokNet의 슬로건은 모든 이미지를 사람들이 쇼핑하도록 유도하는 것(shoppable)이며, 저와 연구팀의 목표는 모든 이미지를 이해할 수 있게 만드는 것입니다(understandable).
위에서 말씀드린 것은 모두 비교적 기초적인 연구이며, 지금 우리가 하고 있는 일은 사진, 영상, 심지어 위성 사진까지 전례 없는 규모의 시각 정보를 수집하는 것입니다. 우리 위성의 수는 지난 몇 년간 크게 늘어났습니다. 현재 약 1,500개의 위성이 매일 100테라바이트의 데이터를 업로드합니다. 위성 이미지를 이해할 수 있다면 전 세계의 발전 방향을 알 수 있습니다. 세상에서 무슨 일이 일어나고 있나요? 이것은 매우 흥미로운 연구 방향입니다.
캡션: 우리는 세계 규모의 그림을 이해할 수 있습니까?
세계적인 차원에서 그림을 이해할 수 있다면 그림에서 다음 질문에 답할 수 있습니다. 우리는 어떻게 살아야 하는가? 우리는 무엇을 입나요? 무엇을 먹을까요? 시간이 지남에 따라 우리의 행동은 어떻게 변하는가? 시간이 지남에 따라 지구는 어떻게 변했나요?
그래서 우리는 인류학자와 사회학자와 함께 이 문제를 연구하기 시작했습니다. 그들은 이러한 문제에 매우 매료되어 있지만 이를 연구할 강력한 도구가 없습니다. 우리와 함께 일한 인류학자 중 한 명은 전 세계의 의복이 어떻게 변했는지에 대해 매우 관심이 많았고, 우리는 이 질문이 많은 연관성을 가지고 있다는 것을 발견했습니다.
지구상의 다른 지역에 사는 사람들은 왜 옷을 다르게 입나요? 우리는 여러 가지 이유가 있다고 생각합니다:
그래서 우리는 이 문제를 조사하기 시작했고 전 세계 사람들의 약 8백만 장의 이미지 세트를 분석하기 시작했습니다. 우리는 사람들이 어떤 옷을 입고 있는지 식별하기 위해 12가지 속성을 포함하는 간단한 인식 알고리즘을 발명했습니다.
이 연구에서 우리는 무엇을 발견했습니까?
분석에서 특정 패턴을 볼 수 있습니다. 예를 들어 오른쪽 상단에 있는 사람들은 녹색 옷을 입는 경향이 있는 반면, 왼쪽 하단에 있는 사람들은 빨간색 옷을 입는 경향이 있습니다.
빅데이터 분석을 통해 우리는 일부 데이터가 우리의 사전 설정과 일치한다는 것을 발견했습니다. 예를 들어, 사람들은 겨울에 두꺼운 옷을 입는 것을 선택하고 여름에는 시원한 옷을 입는 것을 선택합니다. 그러나 어떤 면에서는 이러한 측면에서 이상한 데이터 현상이 있습니다. 아래 그림에서 볼 수 있듯이 지난 몇 년간 시카고에서는 사람들이 녹색 옷을 선택하는 정점에 이른 시점이 여러 번 있었습니다.
이 시점은 모두 매년 3월입니다. 조사 결과 이 시점은 시카고의 성 패트릭의 날인 것으로 밝혀졌습니다.
이 점에 있어서는 매우 중요한 지역 축제입니다. 어느 날 시카고 사람들은 녹색 옷을 선택합니다. 현지인이 아니라면 이 문화 행사에 대해 모를 수도 있습니다.
그림: 전 세계적으로 가치 있는 문화 활동을 위해 사람들은 다양한 색깔의 옷을 입게 됩니다.
사람들의 의복 변화를 빅데이터로 파악하여 지역 문화/정치 활동을 이해할 수 있습니다. 전 세계의 다양한 지역 문화를 이해합니다. 위의 내용은 우리가 세계적 관점에서 그림 정보의 의미를 이해하는 방법입니다.
원본 영상 링크: https://www.youtube.com/watch?v=kaQSc4iFaxc
위 내용은 Kavita Bala, 코넬 컴퓨팅 학교 학장: "메타버스"란 무엇입니까? 신의 눈은 AI로 탄생할 수도 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!