역전파 기술은 딥러닝의 핵심으로 시각, 음성, 자연어 처리, 게임, 생물학적 예측 등 다양한 분야에서 AI의 성공을 이끌고 있습니다. 역전파의 작동 메커니즘은 예측 오차의 신경망 연결 가중치에 대한 기울기를 역으로 계산하고, 각 계층의 가중치를 미세 조정하여 예측 오차를 줄이는 것입니다. 역전파는 매우 효율적이고 현재 인공지능 성공의 핵심이지만, 상당수의 연구자들은 역전파의 학습 방법이 뇌가 작동하는 방식과 일치하지 않는다고 생각합니다.
딥 러닝 기술의 발전으로 모든 사람들은 라벨 데이터 및 컴퓨팅 성능에 대한 과도한 의존, 일련의 적대적인 보안 문제, 특정 작업에만 사용할 수 있는 등 역전파의 몇 가지 단점을 점차 인식하고 있습니다. , 그리고 이는 대형 모델 개발에 대한 우려를 불러일으키기도 했습니다.
예를 들어 역전파의 저자이자 딥러닝의 선구자인 Hinton은 “실질적인 발전을 이루려면 역전파를 버리고 처음부터 시작해야 합니다[2]”, “ 나의 현재 믿음은 역전파, 즉 현재의 딥러닝이 작동하는 방식이 뇌가 수행하는 방식과 완전히 다르다는 것입니다. [3]", "나는 뇌가 많은 국소적인 작은 목적 함수를 사용한다고 믿습니다. . 훈련을 통해 목적 함수를 최적화하는 엔드투엔드 시스템 체인이 아닙니다[3]".
튜링상 수상자이기도 한 르쿤은 "현재의 딥러닝 모델은 미래 지능형 시스템의 필수적인 부분이 될 수 있지만 꼭 필요한 부분이 부족한 것 같다. 필요하다고 생각하지만 충분하지 않다"고 말했다. [ 4]". 그의 오랜 라이벌인 뉴욕대학교 게리 마커스(Gary Marcus) 교수는 이전에도 같은 말을 했었다. “만약 우리가 일반적인 인공지능을 달성하려면 딥러닝이 다른 기술로 보완되어야 한다[4]”.
어떻게 처음부터 시작해야 할까요? 인공지능 기술의 발전은 의심할 여지 없이 뇌의 영감을 이해하는 것과 뗄 수 없습니다. 우리는 여전히 뇌의 작동 메커니즘을 완전히 이해하지 못하지만 핵심은 외부 정보를 기반으로 뉴런 간의 연결 가중치를 조정하는 방법이지만, 여전히 뇌에 대한 예비적인 이해를 얻을 수 있으며 이는 새로운 모델을 설계하는 데 영감을 줄 수 있습니다. .
우선, 뇌의 학습 과정은 헵의 법칙과 불가분의 관계에 있습니다. 즉, 동시에 활성화되는 뉴런 간의 연결 가중치가 강화된다는 것이 신경과학의 가장 중요한 법칙이라고 할 수 있습니다. 수많은 생물학적 실험을 통해 검증된 규칙입니다.
두 번째로, 뇌에서의 학습은 주로 비지도 학습을 기반으로 하며, 이는 소수의 샘플에서 풍부한 로컬 표현과 표현 간의 연관성을 얻을 수 있으며 피드백 신호도 학습 과정에서 중요한 역할을 합니다. 또한 뇌는 일반적인 작업을 지원하는 학습 시스템이므로 뇌가 학습하는 기능은 특정 작업과 상대적으로 반대되어야 합니다. 내용 사이의 연결.
최근 산동대학교 연구원인 Zhou Hongchao는 arXiv에 "Activation Learning by Local Competitions"라는 글을 제출하여 activation learning(활성화 학습)이라는 뇌에서 영감을 받은 AI 모델을 제안했습니다. 그 핵심은 네트워크 출력 활성화 강도가 입력의 상대적 확률을 반영할 수 있도록 다층 신경망을 구축하는 것입니다.
이 모델은 역전파 방법을 완전히 포기하지만 기본적인 Hebbian 규칙(뇌에 더 가까운 방법)을 개선하는 것부터 시작하여 새로운 신경망 훈련 및 추론 방법 세트를 확립하는 데 상당한 성과를 거둘 수 있습니다. 소규모 샘플 학습 실험에서 역전파보다 성능이 뛰어나며 이미지 생성 모델로도 사용할 수 있습니다. 이 연구는 생물학적으로 영감을 받은 학습 방법의 잠재력이 훨씬 과소평가될 수 있음을 시사합니다.
문서 링크: https://arxiv.org/pdf/2209.13400.pdf
헤비안 학습은 헤비안이 출현하기 전부터 항상 그랬습니다. 역전파 신경망 학습 연구의 핵심 방향은 학습 시스템에 대한 일련의 연구에 영감을 주었지만 궁극적으로 널리 사용되는 방법은 아닙니다.
한 가지 가능한 이유는 사람들이 헤비언 규칙의 일부 메커니즘, 특히 뉴런 간의 경쟁 메커니즘을 완전히 이해하지 못하기 때문이며, 경쟁은 신경망 특성 학습 및 가중치 조정 과정에서 매우 중요한 역할을 합니다.
각 뉴런이 활성화를 위해 경쟁하기 위해 최선을 다하는 동시에 서로 다른 뉴런이 나타내는 특성을 최대한 다르게 만들기 위한 일종의 억제가 있다면 신경망은 다음과 같은 경향을 보일 것이라는 것이 직관적으로 이해됩니다. 가장 유용한 정보를 다음 단계로 전달하는 것(사회경제학과 비슷합니까? 대규모 사회 집단의 각 개인이 소득을 극대화하고 집단의 규모가 충분히 크면 특정 규칙에 따라 전체 집단의 총 소득이 최대가 되는 경향이 있습니다) 이때 개인마다 다른 행동을 보인다.)
실제로 뇌에는 억제성 뉴런이 많이 있으며, 뉴런 간의 경쟁과 억제는 뇌 학습 과정에서 중요한 역할을 합니다. 역전파(인지과학 분야 최고상은 루멜하트 상)의 첫 번째 저자인 루멜하트는 이 아이디어의 발기인이다. 그는 역전파(1985)를 제안함과 동시에 경쟁 학습이라는 방법도 제안했다. 모델[5]의 핵심은 각 계층의 뉴런을 여러 클러스터로 나누는 것입니다. 각 클러스터에서 가장 강한 뉴런만 활성화되고(승자 독식이라고 함) Hebbian 규칙을 통해 훈련됩니다. 그러나 이에 비해 역전파는 실제 응용 분야에서 더 나은 네트워크 훈련 효율성을 보여 주었으며 이후 대부분의 AI 연구자들의 관심을 끌면서 딥 러닝의 출현과 성공을 촉진했습니다.
그러나 2019년에 Krotov와 Hopfield(예, Hopfield 네트워크 제안자)는 승자 독식 규칙이 Hebbian 학습과 결합됨을 보여주었습니다. 역전파와 비슷한 성능을 얻을 수 있습니다[6]. 그러나 하나의 뉴런만 활성화되도록 하는 승자독식의 법칙은 신경망의 학습 및 표현 능력을 어느 정도 제한하기도 합니다.
본 연구의 연구자는 경쟁 메커니즘을 헤비안 학습 규칙에 직접 도입하여 간결한 로컬 학습 규칙을 얻었습니다:
여기서는 뉴런 i가 그 위 계층에 있는 뉴런 j의 입력이라고 가정합니다. 는 뉴런 i와 뉴런 j 사이의 연결 가중치, 는 특정 훈련 샘플에서 이 가중치의 조정량입니다. , 은 뉴런 i의 출력이고 뉴런 j에 대한 입력입니다. 은 뉴런 j의 총 가중 입력(또는 뉴런 j의 출력), 은 더 작은 학습률, 뉴런 j와 동일한 계층에 있는 모든 뉴런이 순회됩니다. 만 고려한다면 가장 독창적인 헤비안 규칙이다. 여기서 핵심은 동일한 레이어의 출력 피드백 항목을 도입하는 것입니다. 이는 두 가지 역할을 합니다. 첫 번째는 모든 가중치가 무한히 증가하지 않도록 하고 학습 프로세스가 수렴되도록 하는 것입니다. 두 번째는 특성 표현을 개선하기 위해 뉴런 j와 다른 뉴런 간의 경쟁을 도입하는 것입니다.
위의 로컬 학습 규칙에 대해 수학적 분석을 수행하면(학습률이 충분히 작고 학습 단계 수가 충분하다고 가정) 몇 가지 흥미로운 결론을 얻을 수 있습니다.
(1) 각 레이어의 이 주어지면 입력 을 을 통해 재구성하여 재구성 오류를 최대한 작게 만들 수 있습니다. 이러한 계층별 재구성 기능은 적대적 공격에 대한 모델의 보안을 향상시키고 일부 객체 이미지에 적대적 노이즈가 추가되어 다른 객체로 인식되는 것을 방지할 수 있습니다.
(2) 로컬 학습 규칙을 기반으로 한 각 레이어 특징 추출은 주성분 분석(PCA)과 어느 정도 유사합니다. 재구성 손실은 동일하지만 PCA와 다른 점은 로컬 학습 규칙을 통해 얻는다는 점입니다. . 개별 구성요소는 직교할 필요가 없습니다. 주성분 분석은 각 레이어의 주요 정보를 추출하는 것이기 때문에 이는 매우 합리적인 일이지만, 주성분에 해당하는 뉴런이 실패할 경우 전체 네트워크의 성능에 영향을 미치게 되며, 로컬 학습 규칙이 이 문제를 강력하게 해결합니다. .성적인 문제.
(3) 각 계층의 연결 가중치 제곱의 합은 해당 계층의 뉴런 수를 초과하지 않는 경향이 있어 네트워크 학습 프로세스의 수렴이 보장됩니다.
(4) 각 레이어의 출력 강도(출력 제곱의 합)는 레이어의 입력 강도(입력의 제곱의 합)보다 높지 않은 경향이 있으며 대략적인 일반적인 입력의 경우 , 출력 강도는 일반적으로 더 높으므로 입력 확률은 출력 강도로 근사화될 수 있습니다. 이러한 결론은 활성화 학습 모델을 제안하는데 있어 매우 중요한 포인트이다.
위의 로컬 학습 규칙을 기반으로 다층 신경망을 계층별로 상향식으로 훈련하여 자동 비지도 특징 추출을 달성할 수 있습니다. 훈련된 네트워크는 인식, 번역 등 다양한 지도 학습 작업에 대한 사전 훈련 모델로 사용되어 학습 작업의 정확성을 향상시킬 수 있습니다. 여기의 다양한 지도 학습 작업은 여전히 역전파 모델 교육을 기반으로 하며 비지도 사전 교육 모델은 미세 조정되었습니다.
하지만 더 흥미로운 점은 위의 로컬 학습 규칙을 기반으로 역전파를 전혀 사용하지 않는 새로운 AI 모델을 구축할 수 있다는 것입니다. 활성화 학습(Activation Learning)의 핵심은 로컬 비지도 학습을 통해 가능합니다. 전체 네트워크의 출력 강도(출력의 제곱합)를 사용하여 입력 샘플의 상대 확률을 추정합니다. 즉, 입력 샘플이 자주 표시될수록 출력 강도는 일반적으로 더 강해집니다.
활성화 학습에서는 정규화 후 입력 샘플이 다층 신경망에 공급됩니다. 각 레이어에는 로컬 학습 규칙을 통해 훈련할 수 있는 선형 변환이 포함되어 있습니다. 각 레이어의 비선형 활성화 함수는 입력 강도(제곱합)와 출력 강도가 변하지 않도록 보장해야 합니다. 예를 들어 절대값 함수 를 활성화 함수로 사용할 수 있으므로 출력 강도는 다음과 같습니다. 네트워크는 활성화 함수를 통과할 때 변경되지 않습니다. 전체 네트워크의 최종 출력 강도는 입력 샘플의 상대적 확률을 반영할 수 있습니다.
로컬 학습 규칙에 비선형 활성화 함수가 추가되면, 즉 이 뉴런 j의 출력을 나타내는 경우 활성화 함수는 입력 및 출력 강도가 일정할 필요가 없으며 기타 RELU와 같은 비선형 함수를 활성화 함수로 사용할 수 있습니다. 활성화 학습의 추론 과정은 입력의 알려진 부분을 기반으로 누락된 부분을 추론하여 네트워크의 최종 출력 강도가 최대가 되도록 하는 것입니다.
예를 들어 활성화 학습 네트워크는 데이터와 레이블(예: 원-핫 인코딩)을 동시에 입력으로 사용할 수 있습니다. 이러한 훈련된 네트워크의 경우 데이터와 올바른 레이블 입력이 주어지면 출력 활성화 강도는 일반적으로 이 데이터와 잘못된 레이블의 출력 활성화 강도보다 높습니다.
이러한 활성화 학습 모델은 판별 모델과 생성 모델로 모두 사용될 수 있습니다. 판별 모델로 사용하면 주어진 데이터에서 누락된 범주를 추론하고, 생성 모델로 사용하면 특정 양의 누락 데이터와 결합된 주어진 범주에서 추론합니다. 또한, 잘못 인식된 샘플에 대해 더 높은 전역 학습률을 부여하는 등의 인식 피드백 정보를 도입하면 판별 모델의 학습 효과를 향상시킬 수 있다는 실험 결과가 나왔습니다.
MNIST 데이터 세트(흑백 손으로 쓴 숫자 이미지)에 대한 실험에서는 훈련 샘플이 충분할 경우 역전파의 정확도가 활성화 학습의 정확도보다 높은 것으로 나타났습니다. . 예를 들어 비슷한 복잡도의 신경망을 기반으로 한 60,000개의 훈련 샘플의 경우 역전파는 약 1.62%의 오류율을 달성할 수 있는 반면, 활성화 학습은 약 3.37%의 오류율만 달성할 수 있습니다(인식에서 피드백을 받은 경우). 결과를 도입하여 학습 활성화를 위해 오류율을 2.28%까지 줄일 수 있습니다.
하지만 훈련 샘플 수가 줄어들수록 활성화 학습이 더 좋은 성능을 보일 수 있습니다. 예를 들어, 6,000개의 훈련 샘플의 경우 활성화 학습의 오류율은 이미 역전파의 오류율보다 낮습니다. 600개의 훈련 샘플의 경우 역전파의 인식 오류율은 25.5%에 달합니다. 그러나 활성화 학습의 오류율은 오류율이 9.74%에 불과하며, 이는 비지도 사전 학습 모델을 결합한 방법(오류율은 약 20.3%)에 비해 상당히 낮습니다.
몇 개의 샘플을 사용하여 활성화 학습의 성능을 탐색하려면 샘플 수를 몇 개의 샘플로 계속 줄여보세요. 이때 활성화 학습은 여전히 특정 인식 능력을 보여줍니다.
각 카테고리에 2개의 샘플이 있으면 인식 정확도는 60.2%에 도달하고, 각 카테고리에 10개의 샘플이 있으면 인식 정확도는 85.0%에 도달할 수 있습니다. 주목할만한 현상은 각 카테고리에 최소 2개의 샘플이 있을 때 전체 훈련 과정에서 테스트 정확도가 감소하지 않는다는 것입니다. 이는 역전파를 기반으로 한 많은 모델과 다른 점으로 보면 활성화 학습이 더 나은 일반화 능력을 가질 수 있음을 반영합니다.
훈련된 활성화 학습 네트워크가 주어지면 인식할 이미지에 특정 간섭을 추가해 보세요. 아래 그림과 같이 이미지 픽셀의 일정 비율을 덮거나 임의의 선을 추가합니다. 이러한 교란된 그림은 훈련 과정에서 모델에 의해 발견되지 않았지만 활성화 학습은 여전히 특정 인식 능력을 보여줍니다. 예를 들어 이미지의 1/3이 가려졌을 때(아래 부분) 활성화 학습을 통해 약 7.5% 정도의 인식 오류율을 달성할 수 있다.
동일하게 훈련된 활성화 학습 네트워크를 이미지 생성에도 사용할 수 있습니다. 카테고리가 주어지면 전체 네트워크의 출력 활성화 강도가 최대가 되도록 경사하강법이나 반복을 통해 국소적으로 최적으로 생성된 이미지를 얻을 수 있습니다. 이미지 생성 과정에서 임의의 노이즈를 기반으로 일부 뉴런의 출력을 제어함으로써 생성된 이미지의 무작위성을 향상시킬 수 있습니다. 아래 그림은 활성화 학습 네트워크를 기반으로 무작위로 생성된 그림입니다.
뇌의 시각 인식 층에서 뉴런은 제한된 수용 영역을 가지고 있습니다. 즉, 뉴런은 특정 공간 범위 내의 다른 뉴런으로부터만 입력을 받을 수 있습니다. 이는 수많은 시각적 작업에 널리 사용되는 CNN(Convolutional Neural Network)의 제안에 영감을 주었습니다. 컨볼루션 계층의 작동 메커니즘은 인간의 시각 시스템과 여전히 매우 다릅니다. 중요한 차이점은 컨볼루션 계층이 매개변수를 공유한다는 것입니다. 즉, 가중치 매개변수는 모든 2차원 위치에서 동일하지만 상상하기는 어렵습니다. 인간의 시각 시스템 시각 시스템에는 이러한 매개변수 공유가 있을 것입니다. 다음 실험에서는 CIFAR-10 데이터 세트(다채로운 10가지 개체 사진 범주)를 기반으로 활성화 학습에 대한 로컬 연결의 영향을 연구합니다.
여기에서 실험한 신경망은 두 개의 레이어로 구성됩니다. 첫 번째 레이어는 로컬 연결 레이어입니다. 컨볼루션 커널 크기가 9인 컨볼루션 레이어와 동일한 연결 구조를 가지지만 각 위치에는 자체 Weight 매개변수가 있습니다. ; 두 번째 레이어는 완전 연결 레이어이며 각 레이어의 노드 수는 , 입력 이미지의 크기와 일치합니다.
실험에 따르면 지역 연결이 학습 과정을 더욱 안정적으로 만들고 학습 성과를 어느 정도 향상시킬 수 있습니다. 이 2계층 신경망을 기반으로 인식 결과의 피드백을 결합하면 활성화 학습을 통해 CIFAR-10에서 41.59%의 오류율을 달성할 수 있습니다.
크로토프(Krotov)와 홉필드(Hopfield)는 생체모방 모델에 대한 이전 벤치마크를 수립했는데 오류율이 49.25%라고 보고했습니다. 그들은 2,000개의 노드를 포함하는 첫 번째 레이어가 생물학적으로 영감을 받은 방법을 통해 비지도 학습되고, 두 번째 출력 레이어가 역전파를 통해 감독되는 2층 신경망을 사용했습니다. 비교를 위해, 동일한 네트워크가 역전파를 통해 완전히 훈련되면 44.74%의 오류율을 달성할 수 있는 반면, 활성화 학습은 역전파를 전혀 사용하지 않고 더 나은 결과를 얻습니다. Random Cropping을 포함한 데이터 증대를 사용하고 첫 번째 레이어의 노드 수를 로 늘리면 활성화 학습의 인식 오류율을 37.52%로 줄일 수 있습니다.
왜 대부분의 딥러닝 모델은 특정 작업에만 적용되나요? 한 가지 이유는 샘플을 인위적으로 데이터와 레이블로 나누고 데이터를 모델의 입력으로 사용하고 레이블을 출력 감독 정보로 사용하기 때문입니다. 이로 인해 모델은 예측에 더 유용한 기능만 유지하려는 경향이 커집니다. 일부는 무시하면서 다른 작업에 유용한 기능입니다. 활성화 학습은 눈에 보이는 모든 정보를 입력으로 받아 훈련 샘플의 확률과 통계적 분포, 각 부분 간의 상관관계를 학습할 수 있으며, 이 정보는 관련된 모든 학습 작업에 사용될 수 있으므로 일반적인 작업의 모델로 간주할 수 있습니다. .
사실, 우리가 물체를 보고 다른 사람들이 그것이 무엇인지 말해 줄 때, 뇌가 확실히 소리 신호를 출력 레이블로 사용하고 시각적 신호를 적어도 입력으로 사용할 것이라고 정의하기는 어렵습니다. 이 학습은 양방향이어야 합니다. 즉, 우리가 이 물체를 볼 때 그것이 무엇인지 생각하고, 그것이 무엇인지 주어지면 이 물체가 어떻게 생겼는지 생각할 것입니다.
활성화 학습은 다중 모드 학습에도 사용할 수 있습니다. 예를 들어, 주어진 훈련 샘플에 그림과 텍스트 양식이 포함되어 있으면 그림과 텍스트 사이의 연관성을 설정할 수 있으며, 주어진 훈련 샘플에 텍스트와 사운드 양식이 포함되어 있으면 텍스트와 사운드 간의 연관성을 설정할 수 있습니다. 활성화 학습은 연관 기억 모델이 되어 다양한 유형의 관련 콘텐츠 간의 연관성을 설정하고 전파를 통해 관련 콘텐츠를 쿼리하거나 활성화할 수 있는 잠재력을 가지고 있습니다. 일반적으로 이러한 연관 기억 능력은 인간 지능에 매우 중요한 역할을 한다고 믿어집니다. 그러나 로컬 입력 데이터 학습 문제와 치명적인 망각 문제는 여전히 여기서 해결되어야 합니다.
활성화 학습에 대한 연구는 새로운 AI 모델이라는 것 외에도 다른 가치를 가지고 있습니다. 예를 들어, 광 신경망, 멤리스터 신경망 등의 물리적 구현을 기반으로 하는 신경망 시스템의 온칩 트레이닝(on-chip training)을 보다 쉽게 지원할 수 있으며, 이로 인해 전체 시스템의 컴퓨팅 정확도가 저하되는 것을 방지할 수 있습니다. 기본적인 물리적 구성 요소 또는 프로그래밍 소음의 정확성. 또한 로컬 훈련 규칙에 대한 특정 생물학적 설명이 있는지 여부와 같이 뇌의 작동 메커니즘을 더 잘 이해하도록 영감을 주기 위해 생물학적 실험과 결합될 수도 있습니다. Zhou Hongchao 연구원은 "나는 대부분의 복잡한 시스템이 단순한 수학적 규칙에 의해 지배되고 뇌는 정말 훌륭한 시스템이라고 믿습니다. 궁극적으로 우리의 목표는 더 똑똑한 기계를 설계하는 것입니다."라고 말했습니다.
위 내용은 뇌에서 영감을 받은 AI 모델: 활성화 학습, 도전적인 역전파의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!