자기 지도 학습이 정말 AGI를 향한 핵심 단계인가요?
Meta의 AI 수석과학자 Yann LeCun은 “현시점에서 취해야 할 구체적인 조치”를 언급하며 장기적인 목표를 잊지 않았습니다. 그는 인터뷰에서 "우리는 동물이나 인간처럼 학습하는 지능형 기계를 만들고 싶다"고 말했다. 최근 몇 년 동안 메타는 AI 시스템의 자기 지도 학습(SSL)에 관한 일련의 논문을 발표했다. LeCun은 SSL이 AI 시스템의 필수 전제 조건이라고 굳게 믿습니다. SSL은 AI 시스템이 합리성, 상식, 기술과 지식을 한 환경에서 다른 환경으로 이전하는 능력과 같은 인간과 유사한 기능을 얻기 위한 세계 모델을 구축하는 데 도움이 될 수 있습니다.
새로운 논문에서는 MAE(Masked Autoencoder)라는 자체 감독 시스템이 매우 단편적이고 불완전한 데이터에서 이미지, 비디오, 심지어 오디오까지 재구성하는 방법을 학습할 수 있는 방법을 보여줍니다. MAE는 새로운 아이디어는 아니지만 Meta는 이 작업을 새로운 영역으로 확장했습니다.
LeCun은 정지 이미지, 비디오, 오디오 시퀀스 등 누락된 데이터를 예측하는 방법을 연구함으로써 MAE 시스템이 세계의 모델을 구축하고 있다고 말했습니다. 그는 "영상에서 앞으로 무슨 일이 일어날지 예측할 수 있다면 세상이 3차원이라는 점, 일부 물체는 무생물이어서 스스로 움직이지 않는다는 점, 다른 물체는 살아 있어 예측하기 어렵다는 점을 이해해야 한다"고 말했다. , 생명체의 복잡한 행동을 예측할 때까지." AI 시스템이 세상에 대한 정확한 모델을 갖게 되면 이 모델을 사용하여 행동을 계획할 수 있습니다.
르쿤은 "지능의 본질은 예측하는 법을 배우는 것"이라고 말했습니다. 그는 Meta의 MAE 시스템이 일반 인공 지능에 가깝다고 주장하지는 않았지만 일반 인공 지능을 향한 중요한 단계라고 믿습니다.
하지만 메타 연구자들이 일반 인공지능을 향한 올바른 길을 가고 있다는 데 모두가 동의하는 것은 아닙니다. 요슈아 벤지오(Yoshua Bengio)는 AI의 큰 아이디어에 관해 르쿤과 우호적인 토론을 벌이기도 합니다. IEEE Spectrum에 보낸 이메일에서 Bengio는 목표의 몇 가지 차이점과 유사점을 설명했습니다.
Bengio는 다음과 같이 썼습니다. "저는 현재의 방법(자가 감독 여부에 관계없이)이 인공 지능 수준과 인간 지능 수준 사이의 격차를 해소하는 데 충분하지 않다고 생각합니다." 기술이 인간 수준의 인공 지능에 더 가까워지도록 진심으로 홍보합니다.
Bengio는 “세상에 대해 추론하는 능력이 지능의 핵심 요소”라는 LeCun의 견해에 동의합니다. 그러나 그의 팀은 예측할 수 있는 모델이 아니라 자연어로 세상을 예측할 수 있는 모델에 중점을 둡니다. 지식을 형태로 표현하는 모델. 그는 이러한 모델을 통해 이러한 지식 조각을 결합하여 새로운 문제를 해결하고, 반사실적 시뮬레이션을 수행하거나, 가능한 미래를 연구할 수 있다고 언급했습니다. Bengio 팀은 엔드투엔드 학습을 담당하는 LeCun이 선호하는 것보다 더 모듈화된 새로운 신경망 프레임워크를 개발했습니다.
인기 있는 Transformer
물론, 비전 작업에 Transformer를 성공적으로 사용한 첫 번째 팀은 Meta가 아닙니다. Meta AI의 연구원인 Ross Girshick은 Google의 ViT(Visual Transformer) 연구가 Meta 팀에 영감을 주었다고 말했습니다. "ViT 아키텍처의 채택은 실험 중에 직면했던 몇 가지 장애물을 제거하는 데 도움이 되었습니다."
Girshick은 Meta의 첫 번째 MAE 시스템 논문의 저자 중 한 명입니다. 이 논문의 저자 중 한 명은 He Kaiming입니다. 그들은 입력 이미지의 무작위 블록을 마스크하고 누락된 픽셀을 재구성하는 매우 간단한 방법에 대해 논의합니다.
이 모델의 훈련은 BERT 및 기타 Transformer 기반 언어 모델과 유사합니다. 연구원들은 거대한 텍스트 데이터베이스를 보여줄 것이지만 일부 단어가 누락되었거나 "마스크 처리되어 있습니다". 모델은 누락된 단어를 스스로 예측해야 하며, 모델이 작업을 확인하고 매개변수를 업데이트할 수 있도록 마스킹된 단어가 공개됩니다. 이 과정이 계속 반복됩니다. 시각적으로 유사한 작업을 수행하기 위해 팀은 이미지를 패치로 나눈 다음 일부 패치를 마스킹하고 MAE 시스템에 이미지에서 누락된 부분을 예측하도록 요청했다고 Girshick은 설명했습니다.
팀의 획기적인 성과 중 하나는 대부분의 이미지를 마스킹하면 최상의 결과를 얻을 수 있다는 사실을 깨달은 것입니다. 이는 단어의 15%만 마스킹할 수 있는 언어 변환기와의 주요 차이점입니다. Girshick은 "언어는 매우 조밀하고 효율적인 의사소통 시스템이며 각 기호는 많은 의미를 담고 있습니다."라고 Girshick은 말했습니다. "그러나 자연 세계의 신호인 이미지는 중복성을 제거하기 위해 만들어지지 않았습니다. JPG 이미지를 만들 때 내용을 잘 압축하세요."
Meta AI의 연구원들은 최상의 결과를 얻기 위해 얼마나 많은 이미지를 마스크해야 하는지 실험했습니다.
Girshick은 이미지에 있는 패치의 75% 이상을 마스킹함으로써 학습하기에는 작업을 너무 사소하게 만드는 이미지의 중복성을 제거했다고 설명했습니다. 두 부분으로 구성된 MAE 시스템은 먼저 인코더를 사용하여 훈련 데이터 세트의 픽셀 간의 관계를 학습한 다음 디코더가 마스크된 이미지에서 원본 이미지를 재구성하기 위해 최선을 다합니다. 이 훈련 계획이 완료된 후에 분류 및 객체 감지와 같은 비전 작업에 맞게 인코더를 미세 조정할 수도 있습니다.
Girshick은 "궁극적으로 흥미로운 점은 다운스트림 작업에서 이 모델의 결과를 볼 수 있다는 것입니다."라고 말했습니다. 그는 인코더를 사용하여 객체 인식과 같은 작업을 완료할 때 "우리가 보는 이득은 매우 상당합니다"라고 지적했습니다. , 모델을 계속 늘리면 성능이 향상될 수 있으며, 이는 SSL이 "수동 주석 없이도 대량의 데이터를 사용할 수 있는 잠재력을 갖고 있기 때문에" 미래 모델의 잠재적인 방향입니다.
필터링되지 않은 대규모 데이터 세트에서 배우기 위해 최선을 다하는 것은 SSL 결과를 개선하기 위한 Meta의 전략일 수 있지만 점점 더 논란이 되고 있는 접근 방식이기도 합니다. Timnit Gebru과 같은 AI 윤리 연구자들은 대규모 언어 모델이 학습하는 선별되지 않은 데이터 세트에 내재된 편견이 때로는 비참한 결과를 초래할 수 있다는 점에 주목했습니다.
비디오 MAE 시스템에서 마스크는 각 비디오 프레임의 95%를 가립니다. 프레임 간의 유사성은 비디오 신호가 정적 이미지보다 중복성이 더 많다는 것을 의미하기 때문입니다. 메타 연구원인 Christoph Feichtenhofer는 비디오의 경우 MAE 접근 방식의 가장 큰 장점은 비디오가 종종 계산 집약적이며 MAE는 각 프레임 콘텐츠의 최대 95%를 마스킹하여 계산 비용을 최대 95% 절감한다는 것입니다. .
이 실험에 사용된 영상 클립은 불과 몇 초 길이지만, Feichtenhofer는 더 긴 영상으로 인공 지능 시스템을 훈련시키는 것이 매우 활발한 연구 주제라고 말했습니다. 집의 비디오를 가지고 있고 한 시간 전에 열쇠를 어디에 두었는지 알려줄 수 있는 가상 비서가 있다고 상상해 보십시오.
보다 직접적으로 우리는 이미지와 비디오 시스템이 모두 Facebook과 Instagram의 콘텐츠 조정에 필요한 분류 작업에 유용하다고 상상할 수 있습니다. Feichtenhofer는 "무결성"이 가능한 응용 프로그램 중 하나라고 말했습니다. "우리는 제품 팀 커뮤니케이션, 하지만 이것은 매우 새로운 것이고 아직 구체적인 프로젝트가 없습니다.”
오디오 MAE 작업에 대해 Meta AI 팀은 연구 결과를 곧 arXiv에 게시할 것이라고 말했습니다. 그들은 마스킹 기술을 적용하는 영리한 방법을 찾았습니다. 그들은 사운드 파일을 신호의 주파수 스펙트럼을 시각적으로 표현하는 스펙트로그램으로 변환한 다음 훈련을 위해 이미지의 일부를 마스킹했습니다. 모델이 현재 몇 초 분량의 클립만 처리할 수 있지만 재구성된 오디오는 인상적입니다. 오디오 시스템 연구원인 Bernie Huang은 이 연구의 잠재적인 응용 분야에는 분류 작업, 패킷이 삭제될 때 손실된 오디오를 채워 VoIP(Voice over IP) 전송을 지원하거나 보다 효율적인 오디오 파일 방법을 찾는 것이 포함된다고 말했습니다.
Meta는 이러한 MAE 모델과 같은 오픈 소스 AI 연구를 수행해 왔으며 사전 훈련된 대규모 언어 모델도 인공 지능 커뮤니티에 제공합니다. 그러나 비평가들은 메타가 연구에 너무 개방적임에도 불구하고 핵심 비즈니스 알고리즘, 즉 뉴스피드, 추천, 광고 배치를 제어하는 알고리즘을 연구할 수 있도록 만들지 않았다고 지적합니다.
위 내용은 LeCun의 Meta AI는 자기 감독에 베팅합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!