최근에는 CCF Computer Vision Committee의 비공개 세미나와 VALSE 오프라인 컨퍼런스 등 여러 고강도 학술 활동에 참여했습니다. 다른 학자들과 소통하면서 많은 아이디어가 떠올랐고, 이를 정리해서 나와 동료들이 참고할 수 있기를 바랍니다. 물론, 개인의 수준과 연구 범위의 제한으로 인해 논문에는 부정확한 내용이나 심지어 오류가 있을 수도 있습니다. 물론 중요한 연구 방향을 모두 다루는 것은 불가능합니다. 저는 관심 있는 학자들과 소통하여 이러한 관점을 구체화하고 미래 방향을 더 잘 탐구하기를 기대합니다.
이 글에서는 컴퓨터 비전 분야, 특히 시각적 인식(예: 인식) 분야의 어려움과 잠재적인 연구 방향을 분석하는 데 중점을 두겠습니다. 특정 알고리즘의 세부적인 부분을 개선하기보다는 현재 알고리즘(특히 사전 학습 + 딥러닝 기반 미세 조정 패러다임)의 한계와 병목 현상을 탐색하고, 이를 통해 어떤 문제가 중요한지 포함하여 예비 개발 결론을 도출하고 싶습니다. , 어떤 문제가 중요하지 않은지, 어떤 방향이 발전할 가치가 있는지, 어떤 방향이 비용 효율성이 덜한지 등.
시작하기 전에 먼저 다음과 같은 마인드맵을 그립니다. 적합한 진입점을 찾기 위해 컴퓨터 비전과 자연어 처리(인공지능의 가장 인기 있는 두 가지 연구 방향)의 차이점부터 시작하여 영상 신호의 세 가지 기본 속성인 정보 희소성, 도메인 간 다양성을 소개하겠습니다. , 무한한 세분성을 가지며 이를 여러 중요한 연구 방향과 일치시킵니다. 이러한 방식으로 우리는 각 연구 방향의 상태, 즉 어떤 문제가 해결되었고 어떤 중요한 문제가 해결되지 않았는지 더 잘 이해할 수 있으며 향후 개발 동향을 목표 방식으로 분석할 수 있습니다.
가이드: CV와 NLP의 차이점, CV의 세 가지 주요 과제 및 처리 방법
CV의 세 가지 기본 어려움과 해당 연구 방향
For 오랫동안 NLP가 CV 앞에 나섰습니다. 심층 신경망이 수동 방법을 능가하거나 사전 훈련된 대형 모델이 통합 추세를 보이기 시작하든 이러한 일은 NLP 분야에서 처음 발생했으며 곧 CV 분야로 옮겨졌습니다. 여기서 본질적인 이유는 NLP가 더 높은 출발점을 가지고 있다는 것입니다. 자연어의 기본 단위는 단어인 반면, 이미지의 기본 단위는 픽셀입니다. 전자는 자연스러운 의미 정보를 가지고 있지만 후자는 의미를 표현하지 못할 수 있습니다. 근본적으로 자연어는 인간이 지식을 저장하고 정보를 전달하기 위해 만든 전달체이므로 고효율, 높은 정보 밀도의 특성을 가져야 하지만, 이미지는 인간이 다양한 센서를 통해 포착한 광학 신호이므로 이를 객관적으로 반영할 수 있다. 실제 상황이지만 따라서 강력한 의미를 갖지 못하고 정보 밀도가 매우 낮을 수 있습니다. 다른 관점에서 보면 이미지 공간은 텍스트 공간보다 훨씬 크고 공간의 구조도 훨씬 더 복잡합니다. 이는 공간에서 많은 수의 샘플을 샘플링하고 이러한 데이터를 사용하여 전체 공간의 분포를 특성화하려는 경우 샘플링된 이미지 데이터가 샘플링된 텍스트 데이터보다 훨씬 더 큰 크기라는 것을 의미합니다. 그건 그렇고, 이는 자연어 사전 학습 모델이 시각적 사전 학습 모델보다 나은 근본적인 이유이기도 합니다. 이에 대해서는 나중에 언급하겠습니다.
위의 분석을 바탕으로 CV와 NLP의 차이, 즉 의미적 희소성을 통해 CV의 첫 번째 기본 난이도를 소개했습니다. 다른 두 가지 어려움인 도메인 간 차이와 무한한 세분성은 위에서 언급한 본질적인 차이점과 어느 정도 관련되어 있습니다. 서로 다른 영역(즉, 낮과 밤, 맑은 날과 비오는 날 등과 같은 다른 분포)을 샘플링할 때 샘플링 결과(즉, 이미지 픽셀)가 강한 상관 관계가 있는 것은 이미지를 샘플링할 때 의미론이 고려되지 않기 때문입니다. 도메인 특성으로 인해 도메인 간의 차이가 발생합니다. 동시에 이미지의 기본 의미 단위는 정의하기 어렵고(텍스트는 정의하기가 쉽지만) 이미지가 표현하는 정보는 풍부하고 다양하기 때문에 인간은 이미지로부터 거의 무한정 미세한 의미 정보를 얻을 수 있습니다. 현재의 CV 분야를 훨씬 넘어서는 이 평가 지표로 정의되는 능력은 무한한 세분성입니다. 무한한 세분성(infinite granularity)과 관련하여 나는 이 문제를 구체적으로 논의하는 기사를 쓴 적이 있습니다. https://zhuanlan.zhihu.com/p/376145664
위의 세 가지 기본적 어려움을 기준으로 최근 몇 년간 업계의 연구 방향을 요약하면 다음과 같습니다.
-
의미적 희소성: 해결책은 효율적인 계산 모델(신경망)과 시각적 사전 훈련을 구축하는 것입니다. 여기서 주요 논리는 데이터의 정보 밀도를 높이려면 데이터의 비균일 분포(정보 이론)를 가정하고 모델링해야 한다는 것입니다(즉, 데이터의 사전 분포를 학습해야 합니다). 현재 가장 효율적인 모델링 방법에는 두 가지 유형이 있습니다. 하나는 신경망 아키텍처 설계를 사용하여 데이터 독립적인 사전 분포를 캡처하는 것입니다. 예를 들어 컨볼루션 모듈은 이미지 데이터의 로컬 사전 분포에 해당하고 변환기 모듈은 다음과 같습니다. 이미지 데이터 주의) 하나는 대규모 데이터에 대한 사전 학습을 통해 데이터 관련 사전 분포를 캡처하는 것입니다. 이 두 가지 연구방향은 시각인식 분야에서도 가장 기본이면서 가장 관심을 두는 분야이기도 하다.
-
도메인 간 가변성: 솔루션은 데이터 효율적인 미세 조정 알고리즘입니다. 위의 분석에 따르면 네트워크 크기가 클수록, 사전 훈련 데이터 세트가 클수록 계산 모델에 저장된 사전 정보가 더 강해집니다. 그러나 사전 훈련 도메인과 목표 도메인 사이의 데이터 분포에 큰 차이가 있는 경우 이러한 강력한 사전 설정은 단점을 가져올 것입니다. 왜냐하면 정보 이론이 우리에게 다음과 같이 말해주기 때문입니다. 다른 부분(사전 학습 영역에 포함되지 않은 부분, 즉 사전 학습 과정에서 중요하지 않다고 간주되는 부분)의 정보 밀도를 확실히 줄입니다. 실제로 대상 도메인은 관련되지 않은 부분에 부분적으로 또는 전체적으로 속할 가능성이 높으며, 이로 인해 사전 훈련된 모델의 직접적인 전달이 좋지 않습니다(즉, 과적합). 이때 대상 도메인에 대한 미세 조정을 통해 새로운 데이터 분포에 적응하는 것이 필요합니다. 목표 도메인의 데이터 양이 사전 훈련 도메인의 데이터 양보다 훨씬 작은 경우가 많다는 점을 고려할 때 데이터 효율성은 필수적인 가정입니다. 또한, 실용적인 관점에서 모델은 변화하는 영역에 적응할 수 있어야 하므로 평생학습은 필수입니다.
-
무한 세분성: 솔루션은 개방형 도메인 인식 알고리즘입니다. 무한한 세분성은 개방형 도메인 기능을 포함하며 더 높은 추구 목표입니다. 이 방향에 대한 연구는 아직 예비 단계입니다. 특히 업계에서 일반적으로 받아들여지는 오픈 도메인 인식 데이터 세트와 평가 지표가 없기 때문입니다. 여기서 가장 중요한 문제 중 하나는 개방형 도메인 기능을 시각적 인식에 도입하는 방법입니다. 좋은 소식은 크로스 모달 사전 훈련 방법(특히 2021년 CLIP)의 등장으로 자연어가 오픈 도메인 인식의 견인차가 되는 데 점점 더 가까워지고 있다는 것입니다. 이것이 다음 세대의 주류 방향이 될 것이라고 믿습니다. 2-3년. 그러나 오픈 도메인 인식을 추구하면서 등장한 다양한 제로샷 인식 작업에는 동의하지 않습니다. 제로샷 자체는 잘못된 제안이라고 생각합니다. 제로샷 식별 방법은 세상에 존재하지도 않고 그럴 필요도 없습니다. 기존 제로샷 작업은 모두 서로 다른 방법을 사용하여 정보를 알고리즘에 유출하고, 유출 방법도 매우 다양하여 서로 다른 방법 간의 공정한 비교가 어렵습니다. 이러한 방향에서 나는 시각적 인식의 무한한 세분성을 더욱 드러내고 탐구하기 위해 주문형 시각적 인식이라는 방법을 제안합니다.
여기에는 추가 설명이 필요합니다. 데이터 공간 크기와 구조적 복잡성의 차이로 인해 적어도 아직까지 CV 분야에서는 사전 훈련된 모델을 통해 도메인 간 차이 문제를 직접 해결할 수 없지만 NLP 분야는 이 지점에 가깝습니다. 따라서 우리는 NLP 학자들이 프롬프트 기반 방법을 사용하여 수십 또는 수백 개의 다운스트림 작업을 통합하는 것을 보았지만 CV 분야에서는 동일한 일이 발생하지 않았습니다. 또한 NLP에서 제안하는 스케일링 법칙의 핵심은 더 큰 모델을 사용하여 사전 훈련 데이터 세트에 과적합하는 것입니다. 즉, NLP의 경우 과적합은 더 이상 문제가 되지 않습니다. 작은 프롬프트와 결합된 사전 훈련 데이터 세트가 전체 의미 공간의 분포를 나타내기에 충분하기 때문입니다. 하지만 CV 분야에서는 이것이 이루어지지 않았기 때문에 도메인 마이그레이션도 고려해야 하며, 도메인 마이그레이션의 핵심은 과적합을 피하는 것입니다. 즉, 향후 2~3년 동안 CV와 NLP의 연구 초점은 매우 달라질 것입니다. 따라서 어떤 방향의 사고 방식을 다른 방향으로 복사하는 것은 매우 위험합니다.
다음은 각 연구 방향에 대한 간략한 분석입니다
방향 1a: 신경망 아키텍처 설계
AlexNet은 2012년 CV 분야에서 심층 신경망의 기반을 마련했습니다. . 다음 10년(현재까지) 동안 신경망 아키텍처 설계는 수동 설계에서 자동 설계로, 다시 수동 설계(더 복잡한 컴퓨팅 모듈 도입)로의 과정을 거쳤습니다.
- 2012-2017년, 더 깊은 컨벌루션 신경망을 수동으로 구축하고 일반적인 최적화 기술을 탐구했습니다. 키워드: ReLU, 드롭아웃, 3x3 컨볼루션, BN, 연결 건너뛰기 등 이 단계에서 Convolution 연산은 가장 기본적인 단위로, 이미지 특징의 지역성 우선순위에 해당합니다.
- 2017-2020년에는 더 복잡한 신경망을 자동으로 구축합니다. 그 중 NAS(Network Architecture Search)가 한동안 인기를 끌다가 마침내 기본 도구로 자리 잡았습니다. 주어진 검색 공간에서 자동 설계는 약간 더 나은 결과를 얻을 수 있으며 다양한 계산 비용에 빠르게 적응할 수 있습니다.
- 2020년부터 신경망의 장거리 모델링 기능을 보완하기 위해 어텐션 메커니즘을 사용하여 NLP에서 시작된 변환기 모듈이 CV에 도입되었습니다. 오늘날 대부분의 시각적 작업에 대한 최적의 결과는 변환기가 포함된 아키텍처의 도움으로 달성됩니다.
이 방향의 미래에 대해 내 판단은 다음과 같습니다.
- 시각 인식 작업이 크게 변하지 않는다면 자동 설계나 더 복잡한 컴퓨팅 모듈 추가도 불가능할 것입니다. CV를 새로운 차원으로 끌어올릴 수 있습니다. 시각적 인식 작업에서 가능한 변화는 크게 입력과 출력의 두 부분으로 나눌 수 있습니다. 이벤트 카메라와 같은 입력 부분의 가능한 변경은 정적 또는 순차적 시각적 신호의 일반적인 처리 상태를 변경하고 출력 부분의 가능한 변경은 일종의 프레임워크(방향)를 발생시킬 수 있습니다. 3에서 논의될 예정임), 시각적 인식이 독립적인 작업에서 통합된 작업으로 이동하여 시각적 프롬프트에 더 적합한 네트워크 아키텍처를 생성할 수 있습니다.
- 컨벌루션과 변환기 중 하나를 선택해야 한다면 변환기의 잠재력이 더 큽니다. 특히 가장 일반적이고 중요한 두 가지 모달인 텍스트와 이미지 등 다양한 데이터 형식을 통합할 수 있기 때문입니다.
- 해석성은 매우 중요한 연구 방향이지만, 저는 개인적으로 심층 신경망의 해석성에 대해 비관적입니다. NLP의 성공은 해석 가능성이 아니라 대규모 말뭉치를 과적합하는 데 달려 있습니다. 이는 실제 AI에게는 좋은 신호가 아닐 수도 있습니다.
방향 1b: 시각적 사전 훈련
오늘날 CV 분야에서 뜨거운 방향으로 사전 훈련 방법은 높은 기대를 갖고 있습니다. 딥러닝 시대의 시각적 사전 훈련은 지도, 비지도, 교차 모달의 세 가지 범주로 나눌 수 있습니다.
- 지도 사전 훈련의 발전은 상대적으로 빠릅니다. 분명한. 이미지 수준의 분류 데이터는 가장 구하기 쉽기 때문에 딥러닝이 등장하기 훨씬 전부터 미래 딥러닝의 기반을 마련할 이미지넷 데이터 세트가 있었고, 오늘날에도 여전히 사용되고 있습니다. 총 ImageNet 데이터 세트는 1,500만 개를 초과하며 다른 비분류 데이터 세트를 능가하지 않습니다. 따라서 이는 여전히 지도 사전 학습에서 가장 일반적으로 사용되는 데이터입니다. 또 다른 이유는 이미지 수준 분류 데이터가 편향을 덜 유발하여 다운스트림 마이그레이션에 더 유리하다는 것입니다. 편향을 더 줄이는 것은 감독되지 않은 사전 훈련입니다.
- 감독되지 않은 사전 교육은 비뚤어진 개발 과정을 경험했습니다. 2014년부터 패치 위치 관계를 기반으로 판단, 이미지 회전 등 기하학을 기반으로 한 1세대 비지도 사전 학습 방법이 등장했으며 생성 방법도 지속적으로 개발되고 있습니다. , 여기서는 설명하지 않습니다). 이때, 비지도 사전 훈련 방법은 감독 사전 훈련 방법보다 여전히 상당히 약합니다. 2019년에는 기술 개선 이후 대조 학습 방법이 처음으로 다운스트림 작업에서 지도 사전 학습 방법을 능가할 가능성을 보여주었습니다. 이는 진정으로 CV 세계의 초점이 되었습니다. 2021년부터 시각적 변환기의 등장으로 특수한 유형의 생성 작업인 MIM이 등장했으며 이는 점차 지배적인 방법이 되었습니다.
- 순수한 감독 및 비지도 사전 훈련 외에도 교차 모드 사전 훈련이라는 방법도 있습니다. 약한 쌍을 이루는 이미지와 텍스트를 학습 자료로 사용하여 한편으로는 이미지 감독 신호로 인한 편향을 피하고, 다른 한편으로는 비지도 방식보다 약한 의미를 더 잘 학습할 수 있습니다. 또한, Transformer의 지원으로 시각적 언어와 자연어의 통합이 더욱 자연스럽고 합리적입니다.
위 리뷰를 바탕으로 다음과 같은 판단을 내립니다.
- 실용적인 적용 관점에서 보면 다양한 사전 훈련 작업을 결합해야 합니다. 즉, 레이블이 지정된 소량의 데이터(검출 및 분할과 같은 더욱 강력한 레이블), 이미지-텍스트 쌍으로 구성된 중간 양의 데이터, 레이블이 없는 대량의 이미지 데이터를 포함하는 혼합 데이터 세트를 수집해야 합니다. 모든 레이블 및 이러한 혼합 데이터에서 사전 훈련 방법을 중앙에서 설계합니다.
- CV 분야에서 unsupervised pre-training은 비전의 본질을 가장 잘 반영하는 연구 방향입니다. 비록 교차 모달 사전 훈련이 전체 방향에 큰 영향을 미쳤음에도 불구하고, 감독되지 않은 사전 훈련은 여전히 매우 중요하고 지속되어야 한다고 생각합니다. 시각적 사전 훈련의 개념은 자연어 사전 훈련의 영향을 크게 받지만 둘의 성격이 다르기 때문에 일반화할 수 없다는 점을 지적해야 한다. 특히, 자연어 자체는 인간이 만든 데이터이기 때문에 모든 단어와 문자는 인간이 쓴 것이며 자연스럽게 의미론적 의미를 갖기 때문에 엄밀히 말하면 NLP 사전 훈련 작업은 실제적인 비지도 사전 훈련으로 간주될 수 없습니다. 기껏해야 약하게 감독되는 사전 훈련입니다. 하지만 시각은 다릅니다. 이미지 신호는 객관적으로 존재하며 인간이 처리하지 않은 원시 데이터입니다. 그 안에 있는 감독되지 않은 사전 훈련 작업은 더 어려울 것입니다. 간단히 말해서, 교차 모달 사전 훈련이 엔지니어링의 시각적 알고리즘을 발전시키고 더 나은 인식 결과를 얻을 수 있다고 하더라도 비전의 본질적인 문제는 여전히 비전 자체로 해결되어야 합니다.
- 현재 순수 시각적 비지도 사전 훈련의 본질은 저하로부터 학습하는 것입니다. 여기서 저하란 이미지 신호에서 일부 기존 정보를 제거하는 것을 의미하며, 이 정보를 복원하기 위해 알고리즘이 필요합니다. 기하학적 방법은 기하학적 분포 정보(예: 패치의 상대적 위치)를 제거합니다. 대비 방법은 이미지를 제거합니다(다른 뷰를 추출하여). ) MIM과 같은 생성 방법은 이미지의 로컬 정보를 제거합니다. 이러한 열화 기반 방법은 열화 강도와 의미 일관성 간의 충돌이라는 극복할 수 없는 병목 현상을 안고 있습니다. 지도된 신호가 없기 때문에 시각적 표현 학습은 전적으로 저하에 의존하므로 저하가 충분히 강해야 하며 저하 전후의 이미지가 의미상 일관적이라는 보장이 없으므로 조건이 좋지 않습니다. 사전 훈련 목표. 예를 들어, 비교 학습에서 이미지에서 추출된 두 뷰가 관계가 없는 경우, MIM 작업이 이미지에서 주요 정보(예: 얼굴)를 제거하면 해당 특징을 더 가깝게 만드는 것은 비합리적입니다. . 합리적인. 이러한 작업을 강제로 완료하면 특정 편견이 도입되고 모델의 일반화 능력이 약화됩니다. 미래에는 성능 저하가 필요하지 않은 학습 작업이 있어야 하며, 저는 개인적으로 압축을 통한 학습이 실현 가능한 경로라고 믿습니다.
방향 2: 모델 미세 조정 및 평생 학습
기본적으로 모델 미세 조정은 수많은 다양한 설정을 개발했습니다. 서로 다른 설정을 통합하려는 경우 사전 훈련 데이터 세트 Dpre(보이지 않음), 목표 훈련 세트 Dtrain 및 목표 테스트 세트 Dtest(보이지 않고 예측 불가능)라는 세 가지 데이터 세트를 고려하는 것으로 생각할 수 있습니다. 세 가지의 관계에 대한 가정에 따라 더 인기 있는 설정을 다음과 같이 요약할 수 있습니다.
- 전이 학습: Dpre 또는 Dtrain과 Dtest의 데이터 분포가 매우 다르다고 가정합니다.
- 약한 지도 학습: Dtrain이 불완전한 주석 정보만 제공한다고 가정합니다. 학습: Dtrain의 데이터 중 일부에만 주석이 달렸다고 가정합니다.
- 학습 시 Dtrain에 주석이 잘못 달릴 수 있다고 가정합니다.
- Dtrain이 주석을 달 수 있다고 가정합니다. 라벨링 효율성을 높이기 위해 대화식으로 주석을 달 수 있습니다(가장 어려운 샘플 선택).
- 지속적인 학습: 새로운 Dtrain이 계속해서 등장하므로 학습 과정에서 Dpre에서 학습한 내용을 잊어버릴 수 있습니다.
- ...
- 일반적으로 모델 미세 조정 방법의 개발 및 장르를 분석하는 통일된 프레임워크를 찾는 것은 어렵습니다. 엔지니어링 및 실무 관점에서 모델 미세 조정의 핵심은 도메인 간의 차이 크기에 대한 사전 판단에 있습니다. Dpre와 Dtrain의 차이가 매우 클 수 있다고 생각되면 사전 훈련된 네트워크에서 대상 네트워크로 전송되는 가중치의 비율을 줄이거나 이 차이에 적응할 특수 헤드를 추가해야 합니다. Dtrain과 Dtest의 차이가 매우 클 수 있으므로 과적합을 방지하기 위해 미세 조정 과정에서 더 강력한 정규화를 추가하거나 차이를 최대한 상쇄하기 위해 테스트 과정에서 일부 온라인 통계를 도입해야 합니다. 위에서 언급한 다양한 설정에 대해서는 각각에 대한 많은 양의 연구 작업이 있으며 이는 매우 목표가 정해져 있으므로 여기서는 자세히 논의하지 않겠습니다.
이 방향에는 두 가지 중요한 문제가 있다고 생각합니다.
고립 환경에서 평생 학습으로의 통일. 학계부터 산업계까지 '일회성 전달 모델'이라는 생각을 버리고 전달 콘텐츠를 모델 중심의 도구 체인으로 이해하고 데이터 거버넌스, 모델 유지 관리, 모델 배포 등 다양한 기능을 갖추고 있어야 합니다. 업계 측면에서 모델이나 시스템 세트는 전체 프로젝트 수명 주기 동안 완벽하게 관리되어야 합니다. 사용자 요구 사항은 변경 가능하고 예측할 수 없다는 점을 고려해야 합니다. 오늘은 카메라가 변경될 수 있고, 내일은 감지할 새로운 대상 유형이 있을 수 있습니다. 모든 문제를 자율적으로 해결하기 위해 AI를 추구하는 것은 아니지만, AI를 이해하지 못하는 사람들도 이 프로세스를 따르고, 원하는 요구 사항을 추가하고, 일반적으로 직면하는 문제를 해결할 수 있도록 AI 알고리즘에는 표준화된 운영 프로세스가 있어야 합니다. AI가 실제로 이를 대중에게 알리고 실질적인 문제를 해결할 수 있는 방법은 무엇일까요? 학계에서는 가능한 한 빨리 실제 시나리오에 부합하는 평생학습 환경을 정의하고, 이에 상응하는 벤치마크를 설정하며, 이러한 방향의 연구를 추진할 필요가 있습니다.
- 도메인 간에 명백한 차이가 있는 경우 빅데이터와 소규모 샘플 간의 충돌을 해결합니다. 이것이 CV와 NLP의 또 다른 차이점입니다. NLP는 기본적으로 사전 훈련과 다운스트림 작업 간의 도메인 간 차이를 고려할 필요가 없습니다. 왜냐하면 문법 구조는 일반 단어와 정확히 동일하지만 CV는 업스트림과 다운스트림을 가정해야 하기 때문입니다. 데이터 분포가 크게 다르기 때문에 업스트림 모델이 미세 조정되지 않으면 다운스트림 데이터에서 기본 기능을 추출할 수 없습니다(ReLU와 같은 단위로 직접 필터링됨). 따라서 작은 데이터를 사용해 큰 모델을 미세 조정하는 것은 NLP 분야에서는 큰 문제가 아니지만(현재 주류는 프롬프트만 미세 조정하는 것임) CV 분야에서는 큰 문제입니다. 여기서는 시각적으로 친숙한 프롬프트를 디자인하는 것이 좋은 방향일 수 있지만, 현재의 연구는 아직 핵심 이슈에 도달하지 못했습니다.
- 방향 3: 무한히 세분화된 시각적 인식 작업
무한적으로 세분화된 시각적 인식(및 유사한 개념)에 대한 관련 연구는 많지 않습니다. 그러므로 나는 이 문제를 나만의 방식으로 설명할 것이다. 올해 VALSE 보고서에서는 기존 방식과 우리의 제안에 대해 자세히 설명했습니다. 아래에 텍스트 설명을 드리겠습니다. 자세한 설명은 제가 VALSE에 작성한 특별 기사나 보고서를 참조하세요. https://zhuanlan.zhihu.com/p/546510418https://zhuanlan. zhihu.com/p/555377882
우선 무한히 세밀한 시각적 인식의 의미를 설명하고 싶습니다. 간단히 말해서 이미지에는 매우 풍부한 의미 정보가 포함되어 있지만 명확한 기본 의미 단위가 없습니다. 인간은 의지가 있는 한 이미지에서 점점 더 세분화된 의미 정보를 식별할 수 있지만(아래 그림 참조), 이 정보는 제한적이고 표준화된 주석을 통과하기 어렵습니다(충분한 주석 비용을 지출하더라도). 알고리즘 학습을 위해 의미적으로 완전한 데이터 세트를 형성합니다.
ADE20K와 같이 세밀하게 주석이 달린 데이터세트라도 인간이 인식할 수 있는 의미론적 콘텐츠가 많이 부족합니다.
무한히 세분화된 시각적 인식이 오픈 도메인 시각적인 것보다 더 효율적이라고 믿습니다. 인식은 어렵고 더 본질적인 목표입니다. 기존 인식 방식을 조사하여 이를 분류 기반 방식과 언어 기반 방식의 두 가지 범주로 나누고, 이들이 무한한 Fine-graining을 달성할 수 없는 이유에 대해 논의합니다.
- 분류 기반 방법: 여기에는 전통적인 의미의 분류, 감지, 분할 및 기타 방법이 포함됩니다. 기본 기능은 각 기본 의미 단위(이미지, 상자, 마스크, 키포인트 등)를 할당하는 것입니다. 이미지 카테고리 라벨. 이 방법의 치명적인 결점은 인식의 세분성이 증가하면 인식의 확실성이 필연적으로 감소한다는 점, 즉 세분성과 확실성이 충돌한다는 점이다. 예를 들어, ImageNet에는 "가구"와 "전기 제품"이라는 두 가지 주요 범주가 있습니다. 분명히 "의자"는 "가구"에 속하고 "TV"는 "가전 제품"에 속하지만 "안마 의자"는 "에 속합니다. 가구' 또는 '가전제품'은 판단하기 어렵습니다. 이는 의미 입도의 증가로 인한 확실성 감소입니다. 사진에 해상도가 매우 낮은 "사람"이 있고, 이 "사람"의 "머리"나 심지어 "눈"까지 강제로 라벨이 지정되면 주석 작성자의 판단이 다를 수 있지만 이때는 한두 픽셀이더라도 편차는 IoU와 같은 지표에도 큰 영향을 미칩니다. 이는 공간 세분성의 증가로 인한 확실성 감소입니다.
- 언어 기반 방법: 여기에는 CLIP이 주도하는 시각적 프롬프트 클래스 방법과 장기적인 시각적 접지 문제 등이 포함됩니다. 기본 특징은 언어를 사용하여 의미 정보를 참조하는 것입니다. 이미지를 확인하고 식별하세요. 언어의 도입은 실제로 인식의 유연성을 향상시키고 자연스러운 개방형 도메인 속성을 가져옵니다. 그러나 언어 자체는 참조 능력이 제한되어 있으며(수백 명이 있는 장면에서 특정 개인을 참조한다고 상상해 보십시오) 무한히 세밀한 시각적 인식 요구를 충족할 수 없습니다. 결국, 시각 인식 분야에서는 언어가 시각을 보조하는 역할을 해야 하는데, 기존 시각 프롬프트 방식은 다소 부담스럽게 느껴진다.
위 설문 조사에 따르면 현재의 시각적 인식 방법으로는 무한 세밀화 목표를 달성할 수 없으며 무한 세밀화로 가는 과정에서 극복할 수 없는 어려움에 직면하게 될 것입니다. 그러므로 우리는 사람들이 이러한 어려움을 어떻게 해결하는지 분석하고 싶습니다. 우선, 인간은 대부분의 경우 명시적으로 분류 작업을 수행할 필요가 없습니다. 위의 예로 돌아가면, 쇼핑몰이 "가구"에 "안마 의자"를 배치했는지 여부에 관계없이 사람은 무언가를 사기 위해 쇼핑몰에 갑니다. 간단한 안내를 통해 '안마의자'가 있는 곳을 인간이 빠르게 찾을 수 있다. 둘째, 인간은 이미지 속 사물을 지칭하기 위해 언어를 사용하는 데 국한되지 않고 보다 유연한 방법(손으로 사물을 가리키는 등)을 사용하여 참조를 완성하고 보다 자세한 분석을 수행할 수 있습니다.
이러한 분석을 결합하여 무한한 세분화 목표를 달성하려면 다음 세 가지 조건을 충족해야 합니다.
- 개방성: 오픈 도메인 인식은 무한한 세분화된 인식의 하위 목표입니다. 현재 언어를 도입하는 것은 개방성을 달성하는 가장 좋은 솔루션 중 하나입니다.
- 특이성: 언어를 소개할 때 언어에 얽매이지 말고 시각적으로 친숙한 참조 체계(예: 인식 작업)를 디자인해야 합니다.
- 가변 세분성: 항상 가장 미세한 세분성을 인식해야 하는 것은 아니지만, 인식 세분성은 필요에 따라 유연하게 변경될 수 있습니다.
이 세 가지 조건에 따라 주문형 시각 인식 작업을 설계했습니다. 전통적인 의미의 통합 시각적 인식과 달리 주문형 시각적 인식은 요청을 주석, 학습 및 평가의 단위로 사용합니다. 현재 시스템은 인스턴스에서 의미론으로의 분할과 의미론에서 인스턴스로 분할을 실현하는 두 가지 유형의 요청을 지원합니다. 따라서 이 두 가지를 결합하면 어느 정도의 정밀도로 이미지 분할을 달성할 수 있습니다. 주문형 시각적 인식의 또 다른 이점은 여러 요청을 완료한 후 중지해도 주석의 정확성에 영향을 미치지 않는다는 것입니다(많은 양의 정보가 주석이 달리지 않더라도). 이는 개방형 도메인의 확장성(예: 추가 새로운 의미 카테고리)에는 큰 이점이 있습니다. 구체적인 내용은 주문형 시각인식 관련 글(위 링크 참조)을 참고해주세요.
통일된 비주얼 아이덴티티와 온디맨드 비주얼 아이덴티티의 비교
이 글을 마친 후에도 온디맨드 비주얼 아이덴티티가 다른 방향에 미치는 영향에 대해 여전히 고민하고 있습니다. 여기에는 두 가지 관점이 제공됩니다.
- 주문형 시각적 인식 요청은 본질적으로 시각적으로 친숙한 프롬프트입니다. 이는 시각적 모델을 조사하는 목적을 달성할 수 있을 뿐만 아니라 순수한 언어 프롬프트로 인한 참조의 모호성을 피할 수도 있습니다. 더 많은 유형의 요청이 도입될수록 이 시스템은 더욱 성숙해질 것으로 예상됩니다.
- 주문형 시각적 인식은 다양한 시각적 작업을 공식적으로 통합할 수 있는 가능성을 제공합니다. 예를 들어 분류, 탐지, 세분화와 같은 작업은 이 프레임워크에서 통합됩니다. 이는 시각적 사전 훈련에 영감을 줄 수 있습니다. 현재 시각적 사전 훈련과 다운스트림 미세 조정 사이의 경계는 명확하지 않습니다. 사전 훈련된 모델이 다양한 작업에 적합한지 아니면 특정 작업 개선에 초점을 맞춰야 하는지는 아직 명확하지 않습니다. 그러나 공식적으로 통일된 인정 과제가 등장한다면 이 논쟁은 더 이상 관련이 없을 수 있습니다. 그런데, 다운스트림 작업의 공식적인 통일도 NLP 분야가 누리는 주요 이점입니다.
위의 지시에서 벗어나
저는 CV 분야의 문제를 크게 인식, 생성, 상호 작용의 세 가지 범주로 나누는데, 인식은 그 중 가장 단순한 문제일 뿐입니다. 이 세 가지 하위 분야에 대해 간략하게 분석하면 다음과 같습니다.
- 인정 분야에서는 전통적인 인식 지표가 확실히 시대에 뒤떨어져 있으므로 업데이트된 평가 지표가 필요합니다. 현재 시각적 인식에 자연어를 도입하는 것은 명백하고 돌이킬 수 없는 추세이지만 업계에서는 작업 수준에서 더 많은 혁신이 필요합니다.
- 세대는 인식보다 발전된 능력입니다. 인간은 다양한 일반적인 사물을 쉽게 인식할 수 있지만 사실적인 사물을 그리는 사람은 거의 없습니다. 통계 학습의 언어에서 이는 생성 모델이 결합 분포 p(x,y)를 모델링해야 하는 반면 판별 모델은 조건부 분포 p(y|x)만 모델링하면 되기 때문입니다. 전자는 후자를 파생할 수 있습니다. 후자에서 파생될 수는 없지만 전자는 후자에서 파생될 수 없습니다. 업계의 발전으로 볼 때, 이미지 생성 품질은 지속적으로 향상되고 있지만 생성된 콘텐츠(명백하게 비현실적인 콘텐츠를 생성하지 않음)의 안정성과 제어 가능성 및 제어 가능성은 여전히 개선되어야 합니다. 동시에 생성된 콘텐츠는 인식 알고리즘을 지원하는 데 여전히 상대적으로 약하며, 사람들이 가상 데이터와 합성 데이터를 완전히 활용하여 실제 데이터 교육에 필적하는 결과를 얻기가 어렵습니다. 이 두 가지 문제에 대해 우리의 관점은 기존 지표를 대체하기 위해 더 좋고 더 본질적인 평가 지표를 설계해야 한다는 것입니다(생성 작업은 FID, IS 등을 대체하고, 생성 작업과 식별 작업은 결합하여 정의해야 함). 통합평가지수).
- 1978년 컴퓨터 비전의 선구자인 David Marr는 비전의 주요 기능이 환경의 3차원 모델을 구축하고 상호 작용을 통해 지식을 배우는 것이라고 상상했습니다. 인식과 생성에 비해 상호작용은 인간의 학습에 가깝지만 업계에서는 상대적으로 연구가 적은 편이다. 인터랙션 연구에 있어 가장 큰 어려움은 실제 인터랙션 환경을 구축하는 데 있다. 정확히 말하면 현재의 시각적 데이터 세트 구축 방식은 환경을 희박하게 샘플링하는 방식이지만, 인터랙션은 지속적인 샘플링이 필요하다. 분명히 비전의 본질적인 문제를 해결하기 위해서는 상호작용이 핵심이다. 업계에서는 관련 연구(예: 구체화된 지능)가 많이 있었지만 아직까지 보편적인 작업 중심 학습 목표가 나타나지 않았습니다. 우리는 컴퓨터 비전의 선구자인 David Marr가 제시한 아이디어를 다시 한 번 반복합니다. 비전의 주요 기능은 환경의 3차원 모델을 구축하고 상호 작용을 통해 지식을 배우는 것입니다. 다른 AI 방향을 포함한 컴퓨터 비전이 진정으로 실용화되려면 이러한 방향으로 발전해야 합니다.
간단히 말하면, 다양한 하위 분야에서 통계 학습(특히 딥 러닝)에만 의존하여 강력한 피팅 역량을 달성하려는 시도는 한계에 도달했습니다. 앞으로의 발전은 이력서에 대한 보다 본질적인 이해를 바탕으로 이루어져야 하며, 다양한 업무에 대해 보다 합리적인 평가지표를 확립하는 것이 우리가 취해야 할 첫 번째 단계입니다.
결론
몇 차례의 집중적인 학술교류를 거치면서 적어도 시각적 인식(인식)에 있어서는 흥미롭고 가치 있는 연구 질문이 점점 줄어들고 있으며, 그 문턱은 바로 업계의 혼란을 확실히 느낄 수 있습니다. 점점 더 높아지고 있습니다. 이것이 계속된다면 가까운 장래에 CV 연구가 NLP의 길을 시작하고 점차적으로 두 가지 범주로 나눌 가능성이 있습니다.
한 범주는 사전 훈련을 위해 엄청난 양의 컴퓨팅 리소스를 사용하고 지속적으로 새로 고칩니다. SOTA는 헛된 것입니다. 수업은 혁신을 강요하기 위해 끊임없이 참신하지만 의미 없는 설정을 디자인합니다. 이것은 분명히 CV 분야에서는 좋지 않습니다. 이런 일을 피하기 위해서는 비전의 본질을 끊임없이 탐구하고 보다 가치 있는 평가 지표를 만드는 것 외에도 업계에서도 관용을 높여야 하며, 특히 비주류 방향에 대한 관용을 높여야 합니다. 연구의 동질성에 대해 불평하지 마십시오. 동시에 연구의 동질성에 대해 불평하는 동시에 SOTA에 도달하지 못한 제출물은 골치 아픈 일입니다. 현재의 병목 현상은 모두가 직면한 과제입니다. AI의 발전이 정체된다면 누구도 면역될 수 없습니다. 끝까지 시청해주셔서 감사합니다. 친절한 토론을 환영합니다.
작성자 진술
모든 내용은 작가 자신의 견해만을 대변하며, 2차 재판에는 진술이 동반되어야 합니다. 감사해요!
위 내용은 Huawei의 젊은 천재 Xie Lingxi: 시각 인식 분야의 발전에 대한 개인적인 견해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!