지난 10년 동안 AI는 컴퓨터 비전, 음성 인식, 기계 번역, 로봇 공학, 의학, 컴퓨터 생물학, 단백질 접힘 예측 등의 분야에서 잇달아 획기적인 발전을 이루었으며 이러한 획기적인 발전의 이면에는 다음과 같은 것들이 있습니다. inseparable 딥 러닝을 켜세요. 그렇다면 딥러닝은 언제 어디서 탄생했으며, 언제 가장 두드러진 AI 방식이 되었는가?
최근 UC Berkeley 교수이자 딥 러닝 전문가인 Pieter Abbeel은 자신의 팟캐스트 "Robot Brains"에서 Geoffrey Hinton과 인터뷰를 진행했습니다.
2018년 튜링상을 수상한 힌튼은 '딥러닝 3대 거인' 중 한 명이자 인공지능 역사상 가장 중요한 학자 중 한 명으로 알려져 있습니다. 그의 논문은 50만 번 이상 인용됐다. 이는 그의 연구를 기반으로 한 연구 논문이 50만 개 이상이라는 뜻이다.
그는 대부분 비교적 모호한 상태에서 약 반세기 동안 딥 러닝 분야를 연구해 왔지만 2012년에 상황이 바뀌었습니다. 그 해 AlexNet이 ImageNet 대회에서 우승하면서 그는 딥 러닝을 입증했습니다. 이미지 인식에서 다른 컴퓨터 비전 방법보다 더 큰 장점이 있습니다. 이를 AI 분야 전체를 변화시키고 딥러닝의 물결을 촉발한 '이미지넷 순간'이라고 합니다.
이 대화에서 Hinton은 학계에서 Google Brain까지의 업무 경험, 심리학 공부 및 목수로 일한 경험, 시각화 기술 t-SNE 알고리즘의 역사에 대해 이야기하고 몇 가지 문제에 대해 이야기했습니다. 그의 요점은 다음과 같습니다.
AI Technology Review는 원래 의미를 바꾸지 않고 인터뷰를 편집하고 정리했습니다.
Abbeel: 무엇 신경망은요? 왜 우리가 그것에 관심을 가져야 합니까?
힌튼: 우리의 뇌는 다음과 같이 작동합니다.
뉴런이라고 불리는 작은 처리 요소가 많이 있습니다. 가끔씩 뉴런은 "핑" 소리를냅니다. 다른 뉴런의 신호를 듣습니다. 다른 뉴런에서 "핑"을 들을 때마다 자신이 받는 일부 입력 저장소에 가중치를 추가하고, 가중치가 특정 입력에 도달하면 핑도 보냅니다.
그래서 뇌가 어떻게 작동하는지 알고 싶다면 뉴런이 이러한 가중치를 어떻게 조정하는지 알아야 합니다. 체중 조절에는 몇 가지 절차가 있는데, 이를 알아낼 수 있다면 뇌가 어떻게 작동하는지 이해할 수 있을 것입니다. 내 생각에 우리는 앞으로 5년 안에 이 프로그램을 해독할 것입니다.
제 생각에는 기존의 모든 인공지능은 높은 수준의 뇌가 하는 일과는 전혀 다른 것에 기반을 두고 있습니다. 동일한 경향이 있을 것입니다. 매개변수가 많고 수십억 개의 매개변수가 있고 이러한 뉴런 사이의 가중치가 많은 수의 훈련 예제를 기반으로 매개변수를 조정한다고 가정하면 놀라운 일이 일어날 것입니다. 뇌가 그러하듯 딥러닝도 그렇습니다. 문제는 조정하려는 매개변수의 기울기를 어떻게 얻을 수 있느냐는 것입니다. 따라서 달성하려는 목표를 향상시키기 위해 조정하려는 측정항목과 매개변수에 대해 생각해야 합니다.
하지만 현재 나의 믿음은 역전파, 즉 현재 딥 러닝이 작동하는 방식이 뇌가 수행하는 방식과 완전히 다르며, 뇌는 다른 방식으로 기울기를 얻는다는 것입니다.
Abbeel: 신경망 훈련을 위한 역전파에 관한 논문을 쓰셨는데, 이것이 오늘날 모든 사람이 하는 모든 일의 원동력이 되었는데, 이제 우리가 뭔가 다른 일을 해야 할지 알아봐야 할 때라고 말씀하시는 건가요? 뇌와 비슷해지려고 노력해야 할까요? 역전파가 뇌가 하는 일보다 더 나을 수 있다고 생각하시나요?
Hinton: Rumelhart, Williams와 저는 가장 많이 인용되는 역전파(아래)에 관한 논문을 썼습니다.
논문 주소: http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf
역전파는 잘 알려져 있습니다. 우리가 실제로 한 것은 역전파를 발명한 것이 아니라 이를 재정의한 것이 흥미로운 표현을 학습할 수 있다는 것을 보여준 것입니다. 우리는 단어 임베딩과 같은 흥미로운 표현을 학습할 수 있다고 제안하므로 역전파가 우리 뇌에 있는 것보다 훨씬 더 효율적일 수 있다고 생각합니다. 많은 정보를 소수의 연결에 짜넣는데 그 소수의 연결은 고작 수십억에 불과합니다. 그래서 뇌의 문제는 연결이 매우 저렴하고, 수조 개의 연결이 있으며, 경험이 매우 비싸다는 것입니다. Yu는 작은 경험에 많은 매개변수를 적용합니다.
그리고 우리가 사용하는 신경망은 기본적으로 그 반대입니다. 그들은 많은 경험을 갖고 있으며 입력 및 출력 정보를 매개변수와 연관시키려고 노력합니다. 내 생각에는 역전파가 뇌에서 사용하는 방법보다 더 효율적이라고 생각하지만, 많지 않은 데이터에서 많은 구조를 추상화하는 데는 그리 능숙하지 않습니다.
Abbeel: 이와 관련하여 더 나은 성능을 얻을 수 있는 가능한 방법에 대한 가설이 있습니까?
Hinton: 오랫동안 저는 비지도 목적 함수가 필요하다고 생각했습니다. 주로 지각 학습을 의미합니다. 세상을 관찰하여 모델을 학습할 수 있다면 원시 데이터 대신 이 모델을 기반으로 조치를 취할 수 있어 정확도가 더 높습니다.
저는 뇌가 국소적인 작은 목적 함수를 많이 사용한다고 믿습니다. 훈련을 통해 목적 함수를 최적화하는 엔드투엔드 시스템 체인이 아닙니다.
예를 들어, 이미지의 작은 패치를 보고 일부 표현을 추출하려고 하면 해당 작은 패치에서 얻은 표현과 근처에 있는 다른 패치의 표현에서 얻은 컨텍스트를 결합할 수 있습니다. 이미지에 무엇이 있는지 예측합니다.
도메인에 익숙해지면 컨텍스트와 로컬에서 추출된 기능을 통한 이러한 예측이 일반적으로 일치합니다. 일관성이 없더라도 많은 것을 배울 수 있습니다.
뇌는 그런 지역적 불일치로부터 많은 것을 배울 수 있다고 생각합니다. 큰 이미지와 이미지의 많은 작은 로컬 패치는 많은 피드백, 즉 이미지의 로컬 추출 및 컨텍스트 예측의 일관성을 의미하는 것처럼 보일 수 있습니다. 상황별 예측을 통해 이러한 정렬을 통해 더 풍부한 피드백을 얻을 수 있습니다. 그렇게 하기는 어렵지만 지금은 그 방향으로 나아가고 있는 것 같아요.
Abbeel: SimCLR 작업에 대한 당신의 생각은 무엇이며, 일반적인 학습과 어떻게 다른가요? 최근 MAE(Masked Autoencoders)에 대해 어떻게 생각하시나요? 방금 설명한 내용과 어떤 관련이 있나요?
Hinton: 내가 얻은 관련 증거는 이 목적 함수가 좋다는 것을 보여줍니다.
저는 개인적으로 이 논문을 쓰지 않았지만 오래 전에 Sue Becker와 함께 이미지의 두 가지 다른 패치에서 일관된 표현을 얻는 것에 대해 생각하는 논문을 썼습니다. 동일한 이미지의 두 패치 표현 간의 일치를 달성함으로써 자기 지도 학습이라는 아이디어의 유래가 아닐까 생각합니다.
Abbeel: 엔드투엔드 학습을 지원하기 위해 엔드투엔드 학습 역전파를 사용하여 언급하신 방법에 대해 이야기해 보겠습니다. 당신이 말하는 것은 뇌에 가까운 방식으로 학습하는 것(더 적은 데이터에서 학습하고 더 많은 데이터를 추출하는 것)이 뇌가 작동하는 방식을 이해하는 데 진전을 이루는 열쇠가 될 것이라는 것입니다. 오늘날 많은 사람들은 사람의 노력이 덜 필요하기 때문에 레이블이 지정되지 않은 데이터에서 효율적으로 학습하는 문제를 해결하기 위해 노력하고 있지만 여전히 역전파와 동일한 메커니즘을 사용합니다.
Hinton: MAE에서 제가 마음에 들지 않는 점은 입력 패치가 있고 여러 레이어의 표현을 거치며 네트워크 출력에서 누락된 입력 패치를 재구성하려고 한다는 것입니다.
뇌에는 이런 수준의 표현이 있다고 생각하는데 각 계층은 아래 수준의 내용을 재구성하려고 합니다. 너무 많은 레이어를 통과하고 돌아오는 것이 아니라 레이어가 너무 많고 각 레이어가 다음 레이어에서 무언가를 다시 만들려고 노력하는 것입니다. 이것은 나에게 더 두뇌처럼 보이지만 질문은: 역전파를 사용하지 않고 이것을 할 수 있습니까?
분명히 여러 레이어를 통해 출력의 누락된 부분을 재구성하면 정보를 얻기 위해 모든 레이어를 거쳐야 하며 역전파는 이미 모든 시뮬레이터에 내장되어 있지만 뇌의 경우는 그렇지 않습니다. .
Abbeel: 이러한 로컬 목표를 처리할 때 두뇌에 세 가지 선택이 있다고 상상해 보세요. 첫째, 우리가 최적화하려는 로컬 목표는 무엇입니까? 둘째, 이를 최적화하기 위해 어떤 알고리즘이 사용됩니까? 셋째, 학습을 위해 뉴런을 서로 연결하는 아키텍처는 무엇입니까? 세 가지 문제 모두 아직까지는 그다지 좋은 성과를 거두지 못하고 있는 것 같습니다. 어떻게 생각하나요?
Hinton: 인지 학습에 관심이 있다면 매우 분명합니다.
당신은 구조적으로 지역적으로 연결된 서면 주제 맵의 계층 구조인 시각적 주제 맵을 원합니다. 이를 위해 반전자 지도의 특정 위치에 있는 무언가가 해당 시신경 지도에 의해 결정된다고 가정하면 많은 학점 할당 문제를 해결할 수 있습니다. 시스템을 파헤치는 대신 로컬 상호 작용을 사용하여 픽셀이 수행하는 작업을 파악하세요.
현재 신경망이 하는 일은 모든 지역에서 동일한 기능이 사용된다고 가정할 때 컨볼루션 신경망의 경우에도 마찬가지이며 변환기의 경우에도 마찬가지입니다. 뇌는 가중치를 공유하고 모든 곳에서 정확히 동일한 계산을 수행해야 하기 때문에 반드시 이를 수행할 수는 없습니다. 체중분배라는 목표를 달성할 수 있는 방법이 있는데, 그것이 뇌에서 더 효과적인 역할을 할 수 있는 컨볼루션(Convolution)이라고 생각합니다.
상황별 예측을 통한 로컬 추출에 동의하려면 로컬 예측을 수행하는 여러 열이 있고 근처 열을 보고 상황별 예측을 얻는다고 상상해 보세요. 상황을 지역 예측의 교사로 생각할 수도 있고 그 반대의 경우도 마찬가지입니다. 상황에 맞는 정보가 로컬 추출기로 증류되는 것으로 생각하십시오. 여기서 나오는 것은 상호 추출입니다. 둘 다 다른 사람에게 교육 신호를 제공합니다. 즉, 한 곳에서 추출해야 할 내용에 대한 지식이 다른 곳으로 전송된다는 의미입니다. ㅋㅋㅋ 지식을 한 곳에서 다른 곳으로 정제하려면 동일한 표현이 필요하며, 이는 실제 가중치 공유보다 더 큰 이점이 있습니다.
분명히 생물학적 관점에서 볼 때 한 가지 장점은 세부 아키텍처가 다른 위치에서 동일할 필요가 없다는 것이고 또 다른 장점은 프런트 엔드 처리가 동일할 필요가 없다는 것입니다.
망막을 예로 들어 보겠습니다. 망막의 각 부분은 서로 다른 크기의 지각 영역을 가지고 있습니다. 컨볼루션 네트워크는 여러 다른 해상도를 무시하고 각 해상도에 대해 컨볼루션을 수행하지만 서로 다른 프런트 엔드를 처리할 수는 없습니다. 그리고 한 위치에서 다른 위치로 추출하는 경우 광학 어레이의 다른 위치에서 동일한 기능의 표현을 얻으려면 이때 광학 어레이에 대해 다른 위치에서도 다른 전처리를 사용할 수 있습니다. 프런트엔드 처리가 다르더라도 전체 기능을 나타내는 Knowledge를 추출할 수 있습니다.
따라서 추출은 실제 디스플레이 무게보다 효율성이 떨어지지만 더 유연하고 신경학적으로 더 신뢰할 수 있습니다. 이는 제가 1년 전에 언급한 중요한 점이기도 합니다. 효율성을 높이려면 가중치 공유와 같은 트릭이 있어야 하지만 인접한 항목이 일치하도록 하려는 경우 로컬 추출이 작동한다는 것입니다.
Abbeel: 뇌는 다르게 작동하므로 체중 분담에 대해 계속해서 다른 방식으로 생각해야 할까요, 아니면 체중 분담을 계속해서는 안 될까요?
Hinton: 컨볼루션 넷에서 컨볼루션을 계속하고, 변환기에서 가중치를 공유하고, 가중치를 공유하여 지식을 공유해야 한다고 생각합니다. 뇌는 가중치를 공유하는 것이 아니라 입력에서 출력까지 기능을 공유하고 추출을 사용하여 지식을 전달함으로써 지식을 공유합니다.
Abbeel: 현재 널리 논의되고 있는 또 다른 주제가 있습니다. 뉴런은 현재의 신경망과 매우 다릅니다. GPU의 인공 뉴런과는 매우 다릅니다. 이 문제에 대한 귀하의 생각이 궁금합니다. 이것은 단지 공학적 차이인가요, 아니면 더 잘 이해하려면 더 많은 지식이 필요한가요?
Hinton: 단순한 엔지니어링 차이가 아닙니다. 하드웨어가 왜 그렇게 뛰어난지 이해하면 하드웨어가 뇌의 위치 정보 태그 단위인 망막에 민감하다는 것도 이해할 수 있습니다. 예를 들어, 망막은 스파이크 뉴런을 사용하지 않으며 처리를 위해 스파이크되지 않는 뉴런이 많이 있습니다. 대뇌 피질이 작동하는 이유를 이해하면 이것이 생물학적으로 올바른 일이라는 것을 알 수 있습니다. 나는 그것이 학습 알고리즘이 급상승하는 뉴런 네트워크의 기울기를 얻는 방법 에 달려 있다고 생각하지만 아직 아무도 실제로 알지 못합니다.
뉴런 스파이크에 관해서는 종종 두 가지 뚜렷한 결정이 있습니다. 언제 스파이크할 것인가, 그리고 스파이크할 것인가? 이것은 개별적인 의사결정입니다. 시스템을 최적화하기 위해 다양한 대체 기능이 고안되었습니다.
2000년에 앤디 브라운과 저는 스파이킹 볼츠만 머신을 배우려는 논문을 냈습니다. 스파이킹 코드에 적합한 학습 알고리즘이 있으면 좋을 것 같습니다. 이것이 스파이킹 뉴런 하드웨어의 개발을 방해하는 것이라고 생각합니다. 이유.
많은 사람들이 이런 방식으로 더 에너지 효율적인 하드웨어를 만들 수 있다는 것을 깨달았고 거대한 시스템도 구축되었지만 실제로 부족한 것은 훌륭한 학습 결과입니다. 그래서 저는 좋은 학습 알고리즘을 얻을 때까지 스파이크 뉴런을 사용하여 실제로 작업을 수행할 수 없을 것이라고 생각합니다.
표준 인공 뉴런을 사용할 때 다음과 같이 질문해 보십시오. 입력의 두 값이 동일한지 여부를 알 수 있습니까? 할 수 없습니다. 그러나 스파이킹 뉴런을 사용하면 두 개의 스파이크가 동시에 도착하여 발사할 때 소리가 나지만 서로 다른 시간에 도착하면 소리가 나지 않는 시스템을 설정하기가 쉽습니다. 따라서 피크타임을 이용하는 것이 일관성을 측정하는 좋은 방법인 것으로 보인다.
생물학적 시스템과 마찬가지로 방향과 소리를 볼 수 있는 이유는 두 귀에 도달하는 신호의 지연에서 비롯됩니다. 한 발을 예로 들면 빛은 약 1나노초입니다. 소리는 약 1밀리초입니다. 하지만 물건을 여러분 옆으로 몇 인치 이동시키면 두 귀에 대한 시간 지연의 차이, 두 귀에 대한 경로 길이는 1인치의 일부에 불과합니다. 두 귀의 시간은 1000분의 1초에 불과합니다. 따라서 우리는 사운드에서 스테레오를 얻기 위해 30밀리초에 민감합니다. 우리는 두 개의 축색 돌기와 스파이크가 서로 다른 방향으로 이동하도록 하여 하나는 한쪽 귀에서, 다른 하나는 다른 귀에서 나오도록 함으로써 이를 수행합니다. 스파이크가 동시에 도착하면 신호를 보내는 세포가 있습니다.
출퇴근 시간은 매우 민감한 일에 사용될 수 있기 때문에 정확한 타이밍을 사용하지 않으면 놀랄 것입니다. 스파이크타임을 활용해 자기주도학습 등의 측면에서 일관성을 찾아낼 수 있다면, 즉 입과 코의 정보를 추출해 입에서 얼굴 전체를 예측할 수 있다면 오랫동안 생각해왔다. 입과 코가 얼굴을 올바르게 형성한다면 이러한 예측은 일관될 것입니다. 이러한 예측이 일관성이 있는지 확인하기 위해 스파이크 시간을 사용하면 좋겠지만, 뉴런과 같은 네트워크를 훈련하기 위한 좋은 알고리즘을 모르거나 갖고 있지 않기 때문에 그렇게 하기가 어렵습니다.
Abbeel: 방금 망막이 스파이크 뉴런을 모두 사용하지 않는다고 말씀하셨나요? 뇌에는 두 가지 유형의 뉴런이 있습니다. 일부는 인공 뉴런과 비슷하고 일부는 스파이크 뉴런입니다.
힌튼: 망막이 인공 뉴런에 더 가까운지는 잘 모르겠지만 신피질에는 스파이크 뉴런이 있는 것은 확실합니다. 이는 주요 의사소통 방식으로 한 매개변수 셀에서 다른 매개변수 셀로 스파이크를 보내는 것입니다.
좋은 주장이 있습니다. 우리가 사용하는 일반적인 신경망에 비해 뇌에는 많은 매개변수가 있지만 데이터는 많지 않습니다. 이 상태에서는 강력한 정규화가 사용되지 않는 한 과적합이 가능합니다. 좋은 정규화 기술은 신경망을 사용할 때마다 수많은 단위를 무시하므로 아마도 뉴런이 스파이크를 보낸다는 사실도 무시한다는 것입니다. 그들이 실제로 전달하는 것은 기본 포아송 비율입니다. 우리는 그것이 전이적이라고 가정합니다. 이 과정에는 비용이 발생하며 펄스를 무작위로 보내고 프로세스 중에 뉴런에 입력된 정보에 따라 속도가 변경됩니다. 원하는 경우 한 소변에서 다른 소변으로 속도의 실제 값을 보낼 수 있습니다. 많은 정규화를 수행하려면 실제 값의 비율에 약간의 노이즈를 추가할 수 있습니다. 노이즈를 늘리는 한 가지 방법은 많은 노이즈를 추가하는 펄스를 사용하는 것입니다.
대부분의 뉴런이 아무 것도 관여하지 않는 시간대를 보면 스파이크를 대표적인 기본 개별 비율로 생각할 수 있습니다. 시끄럽기 때문에 정말 안 좋은 것 같아요. 그러나 정규화를 이해하고 나면 매우 좋은 생각입니다.
저는 여전히 이 아이디어의 팬이지만 실제로는 스파이크 타이밍을 전혀 사용하지 않습니다. 그것은 좋은 정규화를 위해 매우 시끄러운 개별 속도 표현을 사용하며 둘 사이를 전환하는 중입니다. 몇 년 동안 나는 신경망이 결정적이라고 생각했습니다. 우리는 결정론적 신경망을 갖게 될 것입니다. 이는 앞으로 몇 년이 걸릴 것입니다. 5년 주기인 것 같아요. 최고의 무작위성도 매우 중요합니다. 모든 것을 변화시킵니다. 따라서 볼츠만 기계는 본질적으로 확률론적이며 이는 그들에게 중요합니다. 그러나 두 시나리오 중 하나에만 전적으로 전념하는 것이 아니라 두 시나리오 모두에 개방적인 태도를 취하는 것이 중요합니다.
이제 스파이킹 뉴런에 대해 방금 말한 내용의 중요성에 대해 더 많이 생각하고 스파이킹 뉴런 네트워크를 효과적으로 훈련하는 방법을 알아내는 것이 중요합니다.
Abbeel: 이제 훈련 부분에 대해 걱정하지 않는다고 하면(더 효율적으로 보인다는 점을 고려하여) 사람들은 순수 추론 칩을 배포하고 싶어하지 않을까요? 즉, 효율적인 사전 훈련을 별도로 수행한 다음 이를 뉴런 칩을 스파이크하여 매우 낮은 전력 추론 기능을 제공합니까?
Hinton: 많은 사람들이 이것을 생각해 왔고, 매우 합리적이며, 추론을 위해 신경망을 사용하는 것이 진화의 길에서 효과적일 수 있으며, 모두가 그렇게 하고 있으며, 또한 더 효과적으로 입증되었습니다. , 여러 회사에서 이러한 대형 스파이크 시스템을 생산했습니다.
이러한 작업을 수행하고 나면 피크 기간 동안 사용 가능한 에너지를 더 많이 활용하는 방법을 배우는 방식으로 추론하는 데 점점 더 관심을 갖게 될 것입니다. 따라서 저에너지 하드웨어가 아닌 하드웨어를 에뮬레이션하지 않고 보조 장치를 사용하여 학습하는 시스템을 상상할 수 있지만 이를 저에너지 하드웨어로 문제없이 전송할 수 있습니다.
Abbeel: AlexNet이란 무엇인가요? 어떻게 생겼습니까? 제한된 볼츠만 기계를 연구하는 것부터 뇌가 어떻게 작동하는지 이해하려는 노력까지 어떤 경로를 밟았나요?
Hinton: 갑자기 당신은 좀 더 전통적인 신경망 접근 방식이 효과가 있다는 것을 입증했을 수도 있습니다.
2005년경, 나는 전압이 제한된 여러 기계를 사용하여 특징 탐지기를 사전 훈련할 수 있다는 아이디어에 매료되었습니다. 그러면 충분한 데이터를 바탕으로 배경화면을 더 쉽게 작동시킬 수 있습니다. 나중에 Faith Ali와 그녀의 이미지 인식 팀에는 충분한 데이터가 있었기 때문에 사전 훈련이 곧 돌아올 예정이었지만 사전 훈련은 더 이상 필요하지 않았습니다.
GPT-3에는 사전 훈련이 있고 사전 훈련도 좋은 생각이지만 사전 훈련이 가능하다는 사실을 알게 되면 George처럼 배경 작업이 더 좋아지고 말하기에 많은 도움이 될 것입니다. John과 Abdul Rahman Muhammad는 2009년에 그렇게 했습니다. 그 후 우리 그룹의 대학원생인 Alex는 동일한 아이디어를 비전에 적용하기 시작했으며 ImageNet 데이터가 있으면 사전 교육이 필요하지 않다는 것을 금방 발견했습니다.
어느 날 Ilya가 연구실에 와서 이렇게 말했습니다. "이제 음성 인식 기능이 생겼습니다. 이 기능이 정말 유용합니다. 다른 누구보다 먼저 ImageNet을 만들어야 합니다. Janella도 연구실에 와서 이 아이디어를 표현했습니다." , 그의 학생들과 박사후 연구원들도 "와, 그런데 다른 일로 바쁘다"고 말했다. 사실 그는 그 일을 누군가에게 맡길 방법이 없었다. 나중에 그는 Alex에게 데이터 전처리를 통해 실험을 완료하도록 설득했고, 데이터는 그가 필요한 대로 전처리되었습니다.
이건 그냥 배경이에요. 나는 많은 연구자들이 이것을 알고 있다고 말하고 싶지만 Alex의 결과가 Ilya의 이전 ImageNet 이미지 인식 경쟁 작업에 비해 오류율이 절반이라는 것을 모든 사람이 아는 것은 아닙니다. 이것이 바로 모든 사람들이 손으로 디자인한 방식에서 컴퓨터 비전으로 전환하고 직접 프로그래밍을 시도하는 이유입니다.
Abbeel: 경력에 큰 변화를 가져온 순간은 언제였나요? 학계에서 Google로 이적한 것이 귀하에게 어떤 영향을 미쳤나요? 왜 이런 변화가 일어났는가?
힌튼: 저는 키워야 할 장애가 있는 아들이 있어서 돈이 많이 필요한데, 한 가지 방법은 가르치는 것입니다. 2012년에는 신경망에 관한 강의를 했습니다. 하지만 그들의 소프트웨어는 그다지 좋지 않기 때문에 수행하기가 매우 까다롭습니다. 일주일에 한 장씩 교육용 비디오를 제공해야 하는데, 이를 보고 싶어하는 사람들이 엄청나게 많을 것입니다. 가끔 요슈아 벤지오는 수업이 끝난 다음 날 "왜 (수업에서) 그렇게 말했어요?"라고 묻곤 했습니다.
제가 원래 토론토 대학과 합의한 바는 이 강좌를 통해 돈이 조금이라도 벌면 대학에 가고 싶다는 것이었습니다. 그 돈은 교수님들과 나누어서 어떻게 배분할지 구체적으로 밝히지 않았지만 사람들은 50% 정도 될 거라 생각했고 저는 별 문제가 없었습니다. 하지만 제가 가르치기 시작한 후, 교장은 저나 다른 누구와도 상의하지 않고 일방적으로 결정을 내렸습니다. 만약 자금이 강좌 플랫폼에서 나온다면 대학이 모든 돈을 가져갈 것이고 교수들은 아무것도 얻지 못할 것입니다. 학교에 영상 준비를 도와달라고 부탁했더니 영상 만드신 분들이 오셔서 '영상 만드는데 비용이 얼마나 드는지 아세요?
이 때문에 학교에서 정말 화가 나서 교수 외에 다른 직업을 고민하기 시작했습니다. 그 때 갑자기 여러 회사에서 관심이 쏠렸고, 대규모 보조금을 주거나 스타트업에 자금을 지원해 우리를 채용하고 싶어 했습니다. 일반적으로 저는 연구를 통해 추가 돈을 벌고 싶지 않다고 대답했습니다. 하지만 학교에서 제 돈을 사기로 당한 경험으로 인해 돈을 벌 수 있는 다른 방법을 찾고 싶었습니다.
Abbeel: 당시 경매는 어땠나요?
Hinton: NIPS 컨퍼런스에서였고 Terry는 카지노에서 작은 활동을 조직했습니다. 호텔 지하의 연기 자욱한 방, 위층에는 도박을 하는 사람들이 있어 마치 영화를 찍는 듯한 느낌이 들었습니다. 우리는 우리의 가치가 얼마나 되는지 전혀 모릅니다. 변호사에게 상담했더니 전문 협상가를 고용하거나 그냥 경매에 가도 된다고 하더군요.
제가 아는 한 이렇게 소규모로 경매를 진행한 것은 처음입니다. 우리는 Gmail을 통해 경매를 진행하며 사람들은 이메일의 타임스탬프와 함께 입찰을 이메일로 보내야 합니다. 가격은 계속해서 올랐습니다. 처음에는 50만 달러, 그 다음에는 100만 달러였습니다. 그것은 매우 흥미로웠고 우리는 우리가 생각했던 것보다 훨씬 더 가치가 있다는 것을 알게 되었습니다.
돌이켜보면 더 많이 얻을 수도 있었을 텐데, 이미 천문학적이라고 생각했던 양을 봤습니다. 우리 둘 다 Google에서 일하고 싶었기 때문에 경매를 중단하고 Google에 합류하기로 결정했습니다.
Abbeel: 제가 아는 한, 당신은 오늘도 여전히 Google에 계십니다.
Hinton: 저는 아직도 Google에서 일하고 있습니다. 9년이 지났습니다. 내가 Google을 좋아하는 주된 이유는 핵심 팀이 정말 훌륭하기 때문입니다.
저는 Jeff Dean과 정말 잘 지냅니다. 그는 매우 똑똑하고 저는 매우 솔직합니다. 그는 내가 하고 싶은 일, 즉 기초 연구를 정확히 하기를 원했습니다. 그는 내가 해야 할 일은 완전히 새로운 알고리즘을 생각해 내는 것이라고 생각했고, 그것이 내가 하고 싶었던 일이었고 그것이 잘 맞았습니다. 나는 음성 인식을 1% 향상시키기 위해 대규모 팀을 관리하는 데 능숙하지 않습니다. 하지만 저는 이 분야에 다시 혁명을 일으키고 싶습니다.
Abbeel: 당신은 토론토 대학에서 컴퓨터 과학 교수였지만 컴퓨터 과학 학위를 받은 적은 없고 심리학 학위를 받았으며 목수로 일했습니다. 어떻게 심리학을 공부하다가 목수가 되어 인공지능 분야에 입문하게 됐나요?
Hinton: 캠브리지에서의 마지막 해에는 정말 힘든 시간을 보냈습니다. 나는 시험을 마치고 학교를 자퇴하고 목수가 되었는데, 무엇보다 나는 그것을 가장 좋아했습니다. 고등학교 때 수업을 다 듣고 밤에도 집에 있으면서 목수 일을 할 수 있어서 목수가 되어 6개월 정도 일을 했어요.
하지만 목수로 먹고 살 수는 없어요. 목수와 장식가로 일하며 리모델링을 하면서 돈을 벌었고, 목공 일을 즐겼습니다. 나는 진짜 목수를 만나고 나서야 목공 작업에 전혀 희망이 없다는 것을 깨달았습니다. 그는 톱으로 나무 조각을 완전히 정사각형으로자를 수 있습니다. 그에 비해 나는 너무 절실해서 인공지능으로 돌아가기로 결심했다.
Abbeel: 제가 아는 한, 당신의 박사학위는 University of Edinburgh에서 이루어졌습니다.
Hinton:네, 저는 신경망 분야 박사 과정을 공부하기 위해 그곳에 가서 유명한 교수인 Christopher Longa Higgins 구조에 대해 연구를 했고 거의 노벨상을 받을 뻔했습니다. 그는 신경망과 홀로그램과의 관계에 매우 관심이 많았고, 제가 에든버러에 도착한 날쯤 그는 신경망에 대한 관심을 잃었고 Winograd의 논문을 읽고 신경망이 잘못된 사고 방식이라고 생각한 후 마음을 완전히 바꾸었습니다. 비록 그 사람은 내가 하는 일에 전적으로 반대했지만, 내가 하는 일을 막지는 않았습니다.
Abbeel: 1970년대 초, 다른 사람들이 Minsky와 Papert가 제안한 신경망이 넌센스라고 말했을 때, 왜 이런 짓을 했나요?
Hinton: 사실 제가 그 그룹에서 한 첫 번째 강연은 신경망을 사용하여 진정한 재귀를 수행하는 방법에 관한 것이었습니다. 지금으로부터 49년 전인 1973년에 한 연설이다. 제가 찾은 프로젝트 중 하나는 모양을 그릴 수 있는 신경망을 원하고 모양을 여러 부분으로 나눌 때 동일한 신경 하드웨어로 모양의 한 부분을 그려서 전체 모양을 그리는 것이 가능하다는 것이었습니다. 그림을 그리려면 신경중추가 전체 모양을 저장하고, 전체 모양에서의 위치뿐만 아니라 전체 모양의 방향과 위치도 기억해야 합니다.
하지만 지금은 마음이 바뀌었습니다. 동일한 뉴런을 사용하여 모양의 일부를 그리려면 전체 모양이 무엇인지, 그 모양에서 얼마나 멀리 갔는지 기억해야 합니다. 이 서브루틴을 마치면 해당 위치로 다시 이동할 수 있습니다. 이 모양 부분의 문제는 신경망이 그것을 어떻게 기억하느냐는 것입니다. 분명히 뉴런을 복사하는 것만으로는 충분하지 않기 때문에 시스템이 항상 작동하고 적응하도록 하여 신경망이 빠르게 기억할 수 있게 했습니다. 무거움과 무게감. 그래서 저는 진정한 재귀를 수행하는 신경망을 갖고 있으며, 1973년의 고급 호출과 마찬가지로 동일한 뉴런과 가중치를 재사용하여 재귀 호출을 수행합니다.
제가 프레젠테이션을 잘 못해서 사람들이 내 프레젠테이션을 이해하지 못하는 것 같지만, 대회에서 왜 재귀를 하느냐고 묻기도 합니다. 그들이 이해하지 못하는 것은 재귀와 같은 작업을 수행하는 신경망이 없으면 우리는 모든 것을 결코 설명할 수 없다는 것입니다. 이제 이것은 다시 흥미로운 문제가 됩니다. 이 아이디어가 진정한 골동품이 됩니다. 50세가 되면 연구보고서를 쓰겠습니다.
Abbeel: 당신이 다른 사람들과 마찬가지로 박사 과정 학생이거나 방금 박사 학위를 졸업한 경우, 거의 모든 사람들이 당신이 하고 있는 일이 시간 낭비라고 말하지만 당신은 그렇지 않다고 확신합니다. .당신의 믿음의 근원은 어디입니까?
Hinton: 제 생각엔 학교 공부가 큰 부분을 차지하는 것 같아요. 아버지는 저를 좋은 과학 교육을 제공하는 값비싼 사립학교에 보냈고 저는 7살 때부터 그곳에 다녔습니다. 기독교 학교였고 다른 아이들은 다 하나님을 믿었지만 집에서는 다 헛소리라고 배웠고 제 생각에는 그랬어요 그래서 다른 사람들이 다 틀린 것에 익숙해졌습니다.
이것이 중요하다고 생각합니다. 과학에 대한 믿음을 갖고, 모두가 헛소리라고 하더라도 명백히 사실인 것을 기꺼이 연구해야 합니다. 모든 사람이 그렇게 생각하는 것은 아닙니다. 1970년대 초 AI에 종사하는 거의 모든 사람들은 내가 하고 있던 일이 말도 안 되는 일이라고 생각했습니다. 하지만 조금 더 거슬러 올라가면 50년대 , 폰 노이만과 튜링은 둘 다 신경망을 믿었고, 튜링은 특히 신경망의 강화 훈련을 믿었습니다. 만약 그들이 일찍 죽지 않았다면 인공지능의 전체 역사는 매우 달라졌을 것이라고 나는 아직도 믿는다. 왜냐하면 그들은 전 분야를 지배할 만큼 강력한 지능을 가진 사람들이었고, 뇌가 어떻게 작동하는지에도 관심이 많았기 때문이다.
Abbeel: 이제 딥러닝은 매우 효과적입니다. 이것이 우리에게 필요한 전부인가요, 아니면 다른 것이 더 필요한가요? 당신은 딥 러닝이 모든 것을 할 수 있다고 말한 적이 있습니다(아마 인용하지는 않겠습니다).
Hinton: 이 말의 진정한 의미는 확률적 기울기를 사용하여 여러 매개변수를 전송하면 딥 러닝에서 기울기를 얻는 방식이 역전파가 아닐 수도 있고, 얻는 기울기가 최종 성능이 아닐 수도 있다는 것입니다. 오히려 그것은 이러한 국소 목적 함수입니다. 나는 그것이 바로 뇌가 작동하는 방식이라고 생각하며 그것이 모든 것을 설명한다고 생각합니다.
또 하나 말씀드리고 싶은 점은 현재 우리가 갖고 있는 컴퓨터는 계좌에 얼마만큼의 돈이 있는지 기억할 수 있기 때문에 은행 업무에 매우 도움이 된다는 것입니다. 은행에 가서 물어보면 대략 얼마인지만 알려준다. 저희는 그렇게 정확할 수 없고 대략적인 답변만 드릴 수 있기 때문에 명확한 답변을 드릴 수 없습니다. 우리는 컴퓨터가 은행 업무를 수행하거나 우주 왕복선을 조종할 때 그런 일이 발생하는 것을 원하지 않습니다. 우리는 컴퓨터가 정확한 답을 얻기를 정말로 원합니다. 사람들은 컴퓨팅이 어떻게 진화할 것인지, 우리의 컴퓨터와 지식이 영원할 것이라는 결정을 우리가 내린 것을 충분히 이해하지 못하는 것 같습니다.
기존 컴퓨터에는 컴퓨터 프로그램이나 가중치가 많은 신경망(다른 유형의 프로그램)이 있습니다. 그러나 하드웨어가 고장난 경우 다른 하드웨어에서 동일한 프로그램을 실행할 수 있습니다. 이것이 지식을 불멸로 만든다. 생존을 위해 특정 하드웨어에 의존하지 않습니다. 불멸의 비용은 엄청납니다. 왜냐하면 서로 다른 하드웨어 비트가 정확히 동일한 작업을 수행해야 함을 의미하기 때문입니다. 이는 모든 오류 수정이 완료된 후 분명히 영점 수정입니다. 즉, 바람직하게는 디지털 또는 기본적으로 디지털을 의미하며, 숫자를 함께 곱하는 것과 같은 작업을 수행해야 합니다. 이는 하드웨어 대상이 아닌 작업을 매우 신중하게 만드는 데 많은 에너지가 필요합니다. 프로그램이나 신경망을 불멸의 상태로 만들려고 하면 매우 값비싼 계산 및 제조 프로세스를 사용하게 됩니다.
우리가 불멸을 기꺼이 포기한다면 그 대가로 우리가 얻게 될 것은 매우 낮은 에너지 컴퓨팅과 매우 저렴한 제조입니다. 그러므로 우리가 해야 할 일은 컴퓨터를 만드는 것이 아니라 컴퓨터를 진화시키는 것입니다. 비유를 하자면, 화분에 심은 식물을 화분에서 꺼내면 화분 모양과 똑같은 뿌리 덩어리가 생기므로 화분에 심은 식물은 모두 같은 모양의 뿌리를 갖게 됩니다. , 그리고 뿌리 시스템의 세부 사항은 모두 다르지만 모두 동일한 일을 하고, 토양에서 영양분을 추출하며 기능은 동일합니다.
이것이 실제 뇌의 모습입니다. 이것이 제가 불멸의 컴퓨터라고 부르는 것입니다. 이 컴퓨터는 만들어지는 것이 아니라 길러지는 것입니다. 프로그래밍할 수 없고 학습해야 하며 학습 알고리즘이 내장되어 있어야 합니다. 그들은 아날로그를 사용하여 대부분의 계산을 수행합니다. 왜냐하면 아날로그는 전압을 취하여 저항을 곱하고 이를 전하로 바꾸고 전하를 더하는 것과 같은 작업을 수행하는 데 적합하기 때문입니다. 칩이 이미 수행하고 있습니다. 문제는 다음에 무엇을 할 것인지, 이 칩에서 어떻게 배울 것인지입니다. 현재 사람들은 역전파 또는 다양한 버전의 복싱 머신을 제안했습니다. 다른 것이 필요하다고 생각하지만 가까운 미래에 우리는 만드는 비용이 저렴하고 필요한 모든 지식을 배워야 하는 불멸의 컴퓨터를 보게 될 것입니다. 에너지가 매우 낮습니다. 불멸의 컴퓨터가 죽으면 그들의 지식도 함께 죽습니다. 가중치는 하드웨어에만 적용되므로 가중치를 보는 것은 쓸모가 없습니다. 따라서 당신이 해야 할 일은 이 지식을 다른 컴퓨터로 추출하는 것입니다.
Abbeel: 오늘날 헤드라인을 장식하는 신경망은 모두 매우 큽니다. 어떤 의미에서는 대규모 언어 모델의 규모가 뇌의 규모에 가까워지고 있다는 점은 매우 인상적입니다. 이 모델들에 대해 어떻게 생각하시나요? 거기에서 어떤 한계가 보입니까? 반면에, 예를 들어 개미는 분명히 인간보다 훨씬 작은 뇌를 가지고 있지만, 공평하게 말하면 우리가 인공적으로 개발한 시각 운동 시스템은 아직 개미나 벌 수준에 미치지 못합니다. 그렇다면 최근 언어 모델의 주요 발전에 대해 어떻게 생각하시나요?
Hinton: 벌의 뇌는 여러분에게 작게 보일 수 있지만 벌에는 약 백만 개의 뉴런이 있고 벌은 GPT-3에 더 가깝다고 생각합니다. 하지만 벌의 뇌는 실제로는 거대한 신경망입니다.
내 요점은 큰 매개변수가 있는 시스템이 있고 이러한 매개변수가 합리적인 목적 함수에서 경사하강법을 사용하여 조정되면 GPT-3처럼 좋은 성능을 얻을 수 있다는 것입니다. 제가 이미 언급한 Google의 모델입니다. 그것은 그들이 우리와 같은 일을 할 수 있는지에 대한 질문을 다루지 않습니다. 내 생각에 우리는 신경망에서 하는 재귀와 같은 일을 더 많이 하고 있다고 생각합니다.
저는 작년에 GLOM에 대한 논문에서 신경망에서 부분 구멍 계층을 만드는 방법에 대해 이러한 문제를 자세히 설명하려고 했습니다. 구조가 있어야 합니다. 기호 계산이 부분적 구조와 전체 구조를 갖는다는 뜻이라면 우리가 하는 일은 기호 계산입니다. 이것은 일반적으로 사람들이 하드 기호 컴퓨팅이라고 부르는 것이 아닙니다. 즉, 기호를 사용하고 기호에 대해 작동하는 규칙은 다루고 있는 기호 문자열의 형식에만 의존한다는 의미입니다. 유일한 속성은 다음과 같습니다. 이는 다른 기호와 동일하거나 다르며, 무언가에 대한 포인터로 사용될 수도 있습니다.
논문 주소: https://arxiv.org/pdf/2102.12627.pdf
신경망은 이것과 많이 다르기 때문에 우리가 하는 일은 그렇게 어렵지는 않다고 생각합니다. 기호 처리를 수행하지만 우리는 확실히 홀 계층 구조를 수행합니다. 하지만 우리는 거대한 신경망에서 이 작업을 수행하고 있으며 GPT-3가 실제로 그 내용을 어느 정도 이해하고 있는지는 확실하지 않습니다. 나는 이것이 매우 분명하다고 생각합니다. 이전의 챗봇 프로그램 Eliza가 무슨 말을 하는지 전혀 모르고 기호 문자열을 재배열했던 것과는 다릅니다. 이렇게 믿는 이유는 예를 들어 "빨간 모자를 쓴 햄스터 사진을 주세요"라고 영어로 말하면 빨간 모자를 쓴 햄스터의 그림이 그려지는데, 이런 매칭을 한 적이 없기 때문이다. , 그래서 그림을 주기 전에 영문자와 그림의 관계를 이해해야 합니다. 신경망 회의론자, 신경망 거부론자에게 "그것이 이해한다는 것을 어떻게 증명합니까?"라고 묻는다면 그들은 받아들일 것이라고 생각합니다. 그림을 그려달라고 하면 그 그림을 그린다고 이해합니다.
Abbeel: Google의 PaLM 모델은 최근 농담의 메커니즘을 어떻게 효과적으로 설명할 수 있는지 보여주었습니다. 이것은 언어에 대한 매우 깊은 이해처럼 보입니다.
Hinton: 아니요, 트레이닝에서 단어를 재배열한 것 뿐입니다. 나는 "농담이 무엇인지 이해하지 못한다면 어떻게 농담에 대한 해석을 생성할 수 있는가?"라는 생각에 동의하지 않습니다. 우리의 이해와는 완전히 다른 이해입니다. 적대적인 이미지는 객체가 질감으로 식별될 수 있다는 것을 알려주고, 다른 객체 인스턴스로 일반화된다는 점에서는 아마도 맞을 것입니다.
하지만 이것은 우리와는 완전히 다른 접근 방식입니다. 저는 곤충과 꽃을 예로 드는 것을 좋아합니다. 곤충은 자외선을 볼 수 있습니다. 우리에게는 똑같이 보이는 두 꽃이 곤충에게는 전혀 다르게 보일 수도 있습니다. 그러면 이제 우리 눈에는 꽃이 똑같아 보인다고 해서 그 벌레가 착각했다고 말할 수 있을까요? 이 꽃은 곤충과 함께 진화했으며, 자외선은 꽃을 피우는 곤충에게 신호를 보냅니다. 분명히 곤충이 옳습니다. 우리는 차이점을 보지 못합니다. 이는 적대적인 예에 대한 또 다른 사고 방식입니다. 그렇다면 문제는 곤충의 경우 누가 옳은가 하는 것입니다. 두 꽃이 우리에게 동일하게 보인다고 해서 실제로는 동일하다는 의미는 아닙니다. 이 경우 두 꽃이 매우 다르다는 곤충의 주장이 옳을 수도 있습니다.
Abbeel: 현재 이미지 인식을 위한 신경망을 사용하면 우리가 신경망을 만들고 그것이 우리를 위해 뭔가를 해주기를 원하기 때문에 단순히 "글쎄요, 그게 옳습니다. 예"라고 인정하고 싶지 않다고 주장할 수도 있습니다. , 우리가 틀렸어." 내 말은, 자동차와 보행자를 인식해야 한다는 거죠.
Hinton: 네. 누가 옳고 그른지 생각하는 것만큼 간단하지 않다는 점을 말씀드리고 싶습니다. GLOM에 대한 내 논문의 초점 중 하나는 보다 인간과 유사한 인식 시스템을 구축하는 것입니다. 그래서 그들은 특이한 실수보다는 우리와 같은 실수를 저지를 가능성이 더 높습니다. 예를 들어, 자율주행차가 있는데 일반 인간 운전자라면 누구나 저지르는 실수를 저질렀다면 정말 어리석은 실수를 저지르는 것보다 더 용인될 것 같습니다.
Abbeel: 제가 아는 한, 수면도 당신이 고려하고 있는 것입니다. 그것에 대해 더 자세히 이야기해주실 수 있나요?
Hinton: 사람들에게 잠을 주지 않으면 정말 이상해집니다. 마치 누군가를 3일 동안 기분 좋게 유지하면 환각을 시작하는 것처럼 말입니다. 일주일 정도 지속되면 그들은 미쳐서 회복하지 못할 것입니다.
질문은, 왜일까요? 수면의 계산 기능은 무엇입니까? 잠을 못 자서 완전히 미치게 만든다면, 아마도 생각해 보아야 할 매우 중요한 문제가 있을 것입니다. 현재 이론은 수면이 기억을 통합하거나 해마에서 대뇌 피질로 다운로드하는 데 사용된다는 것인데, 캠퍼스에 있을 때 법정을 먼저 통과하는 것과 같기 때문에 조금 이상합니다. 오래 전, 1980년대 초, Terrence Sejnowski와 저는 Boltzmann Machines이라는 이론을 가지고 있었는데, 이는 부분적으로 Francis Crick이 Hopfield Nets에 대해 생각할 때 얻은 통찰력에 기초를 두었고 Sleep의 논문에 대한 논문도 있었습니다. , 그의 요점은 네트워크에 임의의 항목을 제공하고 임의의 항목에 안주하지 않도록 할 수 있다는 것입니다.
문서 주소: https://www.cs.toronto.edu/~hinton/absps/cogscibm.pdf
Hopfield Net에서는 기억하고 싶은 내용을 제공할 수 있습니다. 무언가를 살아보면 무게가 바뀔 것입니다. 따라서 이 벡터의 에너지는 더 낮습니다. 임의의 벡터를 제공하고 에너지를 더 높게 만들면 효과가 더 좋아질 것이며 이는 볼츠만 머신으로 이어지는데 이것이 우리가 달성하는 방법입니다. 무작위가 아닌 다른 것을 제공하면 모델 자체의 마르코프 체인에 의해 생성된 것을 얻게 됩니다. 이러한 가능성을 줄이고 데이터의 무작위성을 높이는 것은 실제로 최대 우도 학습의 한 형태입니다.
우리는 이것이 바로 수면의 전부라고 생각합니다. 수면은 학습의 부정적인 단계입니다. 대조 학습 과정에서 동일한 이미지의 두 패치에 대해 유사하게 동작하도록 시도하고, 서로 다른 이미지의 두 패치에 대해 매우 다르게 동작하도록 시도합니다. 일단 다르다면 더 다르게 만드는 것이 아니라, 더 이상 너무 비슷하지 않게 만드는 것이 대조 학습의 원리입니다. 이제 Boltzmann 기계를 사용하면 긍정적인 사례와 부정적인 사례를 분리할 수 없습니다. 긍정적인 예와 부정적인 예를 교차시켜야 합니다. 그렇지 않으면 모든 것이 잘못됩니다. 나는 긍정적인 예를 많이 하고 부정적인 예를 많이 하기 위해 그것들을 교차시키지 않으려고 노력했습니다. 이것은 어렵습니다.
대조 학습에서는 긍정적인 단계와 부정적인 단계를 구분할 수 있습니다. 따라서 양수 쌍의 예를 많이 할 수 있고 음수 쌍의 예도 많이 할 수 있습니다. 따라서 서로 다른 시점에 긍정적인 단계와 부정적인 단계를 분리하고 긍정적인 업데이트를 여러 번 수행한 다음 부정적인 업데이트를 여러 번 수행할 수 있다면 비교 학습이 더 합리적이 됩니다. 상대적으로 잘 할 수 있는 표준 대조 학습이라도 추진력을 많이 써야 하는 등의 일이 있습니다. 그래서 제 생각에는 수면의 기능은 망각이나 부정적인 예를 들 가능성이 가장 높기 때문에 꿈을 기억하지 못하는 것입니다. 잠에서 깨어나면 빠른 무게에 담긴 내용을 기억하게 될 것입니다. 빠른 무게는 임시 저장 공간이기 때문입니다. 하지만 잠에서 깨어나면 꿈의 마지막 순간만 기억하게 되는데, 이는 다른 어떤 수면 이론보다 더 믿을만한 수면 이론이라고 생각합니다. 이 순간의 기억을 제거하면 그 이유가 설명되고 전체 시스템이 붕괴될 것이다. 당신은 치명적인 실수를 하고, 환각을 일으키고, 온갖 이상한 일을 하게 될 것입니다.
부정적인 예의 필요성에 대해 조금 더 말씀드리겠습니다. 신경망이 있는 경우 표현이나 상황별 예측과 로컬 예측 간의 일관성과 관련하여 일부 내부 목적 함수를 최적화하려고 합니다. 이러한 일관성이 실제 데이터의 속성이 되기를 원하며 신경망 내부의 문제는 입력에서 모든 종류의 상관 관계를 얻을 수 있다는 것입니다. 제가 뉴런이고 입력에 온갖 종류의 상관 관계가 있다고 가정해 보겠습니다. 이러한 상관 관계는 실제 데이터와는 아무런 관련이 없으며 네트워크의 배선과 네트워크에 존재하는 방식에 의해 발생합니다. 두 뉴런이 모두 동일한 픽셀을 보고 있다면 서로 관련이 있는 것입니다. 하지만 이는 데이터에 대해 아무 것도 알려주지 않으므로 문제는 네트워크 연결이 아닌 실제 데이터에 대한 구조를 추출하는 방법을 배우는 방법입니다. 이를 수행하는 방법은 긍정적인 예를 제공하고 부정적인 예가 아닌 긍정적인 예에서 구조를 찾는 것입니다. 왜냐하면 부정적인 예는 정확히 동일한 라인을 통과하기 때문입니다. 구조가 부정적인 예에는 없지만 긍정적인 예에는 있는 경우 구조는 부정적인 예와 긍정적인 예의 차이에 관한 것이지 연결 방법이 아닙니다. 따라서 사람들이 이것에 대해 많이 생각하지 않더라도 강력한 학습 알고리즘이 있다면 그들이 신경망 자체의 가중치와 연결을 배우지 못하게 하는 것이 더 좋습니다.
Abbeel: '선생님 모델을 이기는 학생 모델'이라는 개념도 언급하셨는데요. 무슨 뜻이에요?
Hinton: MNIST는 훈련 데이터를 잘못된 레이블로 대체하고 20%의 정확률과 80%의 오류율을 갖는 데이터 세트를 얻을 수 있습니다. 문제는 이 데이터 세트에서 배울 수 있느냐는 것입니다. 학습의 효과는 무엇입니까? 대답은 95% 정확도로 학습할 수 있다는 것입니다.
교사 모델의 오류율이 80%이고 학생 모델의 정확도가 95%이므로 학생이 교사보다 훨씬 낫다고 가정합니다. 이러한 학습 예제를 한 번에 묶기 때문에 유사한 이미지가 있는 여러 학습 예제의 오류를 평균화할 수 없습니다. 손상된 사례가 있는 경우 몇 개의 훈련 사례가 필요한지 묻는다면 이미지 데이터 세트가 작기 때문에 흥미롭습니다. 라벨이 잘못 지정된 이미지 100만개를 원하십니까, 아니면 올바르게 라벨이 지정된 이미지 10,000개를 원하십니까? 중요한 것은 라벨과 정확성 사이의 상호 정보의 양입니다. 레이블이 올바르게 손상되면 90%의 경우 레이블과 정확성 사이에 상호 정보가 없습니다. 80%가 손상되면 상호 정보가 아주 적습니다.
귀하께서 최근 시뮬레이션 작업을 통해 불완전한 레이블로 실제 데이터에 레이블을 지정하신 것을 확인했습니다. 그런 다음 학생들은 이러한 레이블을 통해 학습하고 학생들은 교사보다 더 잘 배웁니다. 사람들은 혼란스러워합니다. 학생이 어떻게 교사보다 나을 수 있습니까? 그러나 신경망에서는 이를 쉽게 달성할 수 있습니다. 훈련 데이터가 충분하다면 교사가 신뢰할 수 없더라도 학생은 교사보다 더 나은 결과를 얻을 수 있습니다. 나는 몇 년 전에 Melody Y. Guan과 함께 의료 데이터를 사용한 논문을 썼습니다. 논문의 첫 번째 부분에서는 이에 대해 설명하고 있으며, 우리의 경험에 따르면 할당된 라벨과 정확성 간의 상호 정보가 중요하다는 것입니다.
논문 주소: https://www.cs.toronto.edu/~hinton/absps/WhoSaidWhat.pdf
Abbeel: 방금 언급하신 작업과 최근 매우 인기 있는 일부 작업과 관련하여 교사는 일반적으로 시끄러운 라벨을 제공하지만 모든 시끄러운 라벨이 사용되는 것은 아닙니다. 좀 더 자신감 있는 교사를 바라보자는 주장이 있습니다.
Hinton: 여기에 좋은 접근 방식이 있습니다. 믿을 만한 이유가 있는 것만 살펴보는 것이 도움이 될 수 있습니다. MNIST에서 Melody는 라벨이 20% 정확하면 학생은 95% 정확하다는 그래프를 그렸습니다. 하지만 약 15%로 떨어지면 갑자기 위상 변화가 생기고 이 시점에서 여러분이 할 수 있는 일은 운을 시험해 보는 것뿐입니다. 왜냐하면 학생은 어쨌든 그것을 얻을 것이기 때문입니다. 그리고 교사가 이러한 라벨을 말할 때 학생은 어느 정도는 어떤 예가 맞고 어떤 예가 틀린지 알아야 합니다. 라벨이 잘못 붙은 라벨의 잘못된 성격은 학생들이 라벨과 입력 사이의 관계를 알게 되면 명백해집니다. 따라서 실수로 무작위로 활성화해도 문제가 되지 않지만 학생들이 이해할 수 있을 만큼 좋게 만들어야 하는 단계적 전환이 있습니다. 이것은 또한 우리 학생들이 우리보다 똑똑한 이유를 설명합니다.
Abbeel: 신경망을 학습할 때, 특히 모델을 구축할 때 그것이 무엇인지, 무엇을 학습하는지 이해해야 합니다. 일반적으로 사람들은 학습 과정에서 무슨 일이 일어나고 있는지 시각화하려고 합니다. 당신은 가장 인기 있는 시각화 기술 중 하나인 t-SNE(t-Distribution Stochastic Neighbor Embedding)을 발명했습니다. 그 뒤에 숨겨진 이야기는 무엇입니까?
논문 주소: http://www.cs.toronto.edu/~hinton/absps/tsne.pdf
Hinton: 고차원 데이터가 있는 경우, 2D 또는 3D 지도를 그려 보면 처음 두 개의 주성분을 가져와서 처음 두 개의 주성분만 그릴 수 있습니다. 그러나 주요 구성 요소는 먼 거리를 정확하게 맞추는 것과 관련이 있습니다. 따라서 두 가지가 매우 다른 경우 주성분은 두 가지 차원에서 매우 다른 것에 대해 매우 걱정할 것입니다. 큰 차이의 제곱에서 작동하므로 작은 차이에는 전혀 신경 쓰지 않으므로 고차원 유사성을 잘 보존하지 않습니다. 그러나 우리가 관심을 갖는 것은 정반대인 경우가 많습니다. 얻은 데이터에 대해 우리가 관심을 갖는 것은 무엇과 매우 유사한 것이며, 작은 거리라면 먼 거리가 조금 잘못된 것인지는 신경 쓰지 않습니다. 거리가 맞습니다. 나는 오래 전에 이런 생각을 갖고 있었습니다. 거리를 쌍별 확률로 변환하면 어떻게 될까요?
t-SNE에는 다양한 버전이 있습니다. 예를 들어 거리가 작은 쌍은 확률이 높고, 거리가 큰 쌍은 확률이 낮습니다. 거리를 확률로 변환하는데, 거리가 작을수록 큰 확률에 해당하고, 데이터 점 주위에 가우스 분포를 놓은 다음, 표준화되지 않은 확률인 이 가우시안 분포 아래의 다른 데이터 점들의 밀도를 계산한 다음 정규화합니다. 그것 하나의 변형. 그런 다음 이러한 점은 이러한 확률을 유지하기 위해 2차원에 배치됩니다. 따라서 두 점이 멀리 떨어져 있어도 상관이 없습니다. 쌍별 확률은 매우 낮으며 두 점의 상대적 위치는 고려하지 않습니다. 이것은 확률론적 이웃 임베딩(stochastic neighbor embedding)이라고 불리는 매우 아름다운 지도를 생성합니다. 우리는 가우스 분포를 넣고 매우 간단한 도함수를 갖는 가우스 분포 아래의 밀도를 기반으로 이웃을 무작위로 선택하는 것을 생각했습니다.
우리가 얻는 지도는 사물을 뭉치는 경향이 있는데, 이는 고차원 데이터를 저차원 데이터로 변환할 때 근본적인 문제입니다. 이는 고차원 공간과 저차원 공간의 특성에 의해 발생합니다. 고차원 공간에서는 하나의 데이터 포인트가 다른 많은 포인트와 가까울 수 있지만, 저차원 공간에서는 이러한 포인트가 서로 너무 가깝지 않습니다. 모두 이 데이터 포인트에 가까우면 서로 가까워야 합니다. 따라서 고차원에서 저차원으로 임베딩하는 데 문제가 있습니다. 제가 t-SNE를 작업할 때 확률을 "중간 통화"로 사용하는 하이브리드 모델을 만드는 아이디어가 있었습니다.
우리는 아이디어를 성공적으로 구현했지만 결코 잘 구현하지는 못했습니다. 나는 사람들이 이 아이디어를 활용하지 않는다는 사실에 실망했고, 가우스 분포와 균일 분포를 혼합한 더 간단한 버전을 만들었는데, 이것이 더 잘 작동했습니다.
아이디어는 다음과 같습니다. 하나의 맵에서는 모든 쌍이 동일할 가능성이 있으며, 이는 다른 맵에서 먼 거리에 걸쳐 작은 배경 확률의 배경 확률을 제공합니다. 기여 확률은 이 맵에서 거리의 제곱에 비례하지만 이는 이 맵에서 원하는 경우 상당히 멀리 떨어져 있을 수 있음을 의미합니다. 왜냐하면 어느 정도의 확률이 필요하다는 사실이 균등화되기 때문입니다. 실제로 이 버전은 균일한 매우 넓은 가우스 분포인 가우스 분포 혼합을 사용하는 특별한 경우입니다. 가우스 함수의 전체 계층 구조를 사용하면 어떻게 될까요? 많은 가우스 함수는 t-분포라고 불리는 다양한 폭을 가지며, 이는 t-SNE를 발생시킵니다. t-SNE는 사물에 대한 다중 규모 정보를 제공할 수 있다는 훌륭한 특성을 갖고 있으며, 거리가 멀어지면 전체 구조와 미세 구조 모두에서 다양한 수준의 구조를 얻을 수 있습니다.
이 모든 작업에 사용된 목적 함수 는 상대 밀도의 가우스였으며, 출판 과정이 어려웠을 때 Alberto Pacinero와 제가 했던 이전 작업에서 나온 것입니다. 거절된 리뷰 1개 회의에서: "Hinton은 7년 동안 이 아이디어를 연구해 왔지만 아무도 관심을 갖지 않았습니다." 이 댓글이 실제로 말해주는 것은 제가 매우 혁신적인 일을 하고 있다는 것입니다. 실제로는 대조 방법을 사용하는 NCE라는 함수가 포함되어 있고 t-SNE는 실제로 이 함수의 버전입니다. 그런데 t-SNE는 지도를 만들기 위한 것이고, 그러다가 하이브리드 버전을 만들려고 했는데, 처음에는 작동하지 않더니 결국 우연의 일치를 얻었고, 이것이 제가 사용하고 싶었던 t-분포였습니다.
위 내용은 Geoffrey Hinton과의 최근 인터뷰: 5년 안에 우리는 뇌의 작동을 깨뜨릴 것이지만 역전파를 통해서는 그렇지 않을 것입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!