>기술 주변기기 >일체 포함 >Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

王林
王林앞으로
2023-04-19 15:37:591230검색

"가소성 손실"은 심층 신경망의 가장 일반적으로 비판받는 단점 중 하나이며, 이는 딥 러닝 기반 AI 시스템이 학습을 계속할 수 없다고 간주되는 이유 중 하나이기도 합니다.

인간의 뇌에서 '가소성'이란 새로운 뉴런을 생성하는 능력과 뉴런 사이의 새로운 연결을 의미하며, 이는 지속적인 학습의 중요한 기반입니다. 나이가 들수록 뇌의 가소성은 우리가 배운 것을 통합하는 대신 점차 감소합니다. 신경망도 비슷합니다.

생생한 예는 2020년에 시작하는 훈련이 입증되었다는 것입니다. 처음에 학습한 것을 버리고 전체 데이터 세트에 대해 일회성 학습 방식으로 훈련해야만 비교가 가능하다는 좋은 학습 효과가 있습니다.

심층 강화 학습(DRL)에서 AI 시스템은 이전에 신경망에서 학습한 모든 콘텐츠를 "잊고" 콘텐츠의 일부만 재생 버퍼에 저장한 다음 처음부터 다시 시작해야 하는 경우가 많습니다. 지속적인 학습을 달성합니다. 이러한 네트워크 재설정 방식은 딥러닝이 학습을 계속할 수 없다는 점을 증명하는 것이기도 합니다.

그렇다면 어떻게 학습 시스템을 유연하게 유지할 수 있을까요?

최근 강화학습의 아버지인 Richard Sutton은 CoLLAS 2022 컨퍼런스에서 "Maintaining Plasticity in Deep Continual Learning"이라는 주제로 연설을 하면서 이 문제를 해결할 수 있다고 믿는 답을 제시했습니다. 연속 역전파 알고리즘( 지속적인 역전파).

Richard Sutton은 먼저 데이터 세트 관점에서 가소성 손실의 존재를 증명한 후, 신경망 내에서 가소성 손실의 원인을 분석하고, 최종적으로 가소성 손실을 해결하는 방법으로 연속 역전파 알고리즘을 제안했습니다. : 재초기화 1 효용성이 낮은 소수의 뉴런, 이러한 다양성의 지속적인 주입은 심층 네트워크의 가소성을 무기한 유지할 수 있습니다.

다음은 AI Technology Review에서 원래 의미를 바꾸지 않고 편집한 연설문 전문입니다.

1 가소성 손실의 실제 존재

딥러닝이 실제로 지속적인 학습의 문제를 해결할 수 있을까요?

대답은 '아니요'입니다. 주로 다음 세 가지 사항에 대한 것입니다.

  1. "해결 불가능"은 심층이 아닌 선형 네트워크처럼 학습 속도가 결국 매우 느려짐을 의미합니다.
  2. 학습 전문적인 표준화 방법은 일회성 학습에만 효과적이며 지속적인 학습에 어긋납니다.
  3. 리플레이 캐싱 자체는 딥러닝이 불가능함을 인정하는 극단적인 방법입니다.

따라서 우리는 이 새로운 학습 모델에 적합한 더 나은 알고리즘을 찾고 일회성 학습의 한계를 없애야 합니다.

먼저, 회귀 예측을 달성하기 위해 분류 작업에 ImageNet 및 MNIST 데이터 세트를 사용하고, 연속 학습 효과를 직접 테스트하며, 지도 학습에서 가소성 손실의 존재를 증명합니다.

ImageNet 데이터세트 테스트

ImageNet은 명사 태그가 붙은 수백만 개의 이미지가 포함된 데이터세트입니다. 1000개의 카테고리와 카테고리당 700개 이상의 이미지가 있으며 카테고리 학습 및 카테고리 예측에 널리 사용됩니다.

아래는 32*32 크기로 다운샘플링된 상어 사진입니다. 이 실험의 목적은 딥러닝 실습에서 최소한의 변화를 찾는 것입니다. 각 카테고리의 700개 이미지를 600개의 훈련 샘플과 100개의 테스트 샘플로 나눈 다음 1000개의 카테고리를 두 그룹으로 나누어 길이가 500인 이진 분류 작업 시퀀스를 생성했습니다. 모든 데이터 세트는 무작위로 순서를 어지럽혔습니다. 각 작업에 대한 훈련을 마친 후 테스트 샘플에 대한 모델의 정확도를 평가하고 독립적으로 30회 실행한 후 다음 이진 분류 작업에 들어가기 전에 평균을 구합니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

500개의 분류 작업은 동일한 네트워크를 공유합니다. 복잡성의 영향을 제거하기 위해 작업 전환 후 헤드 네트워크가 재설정됩니다. 우리는 표준 네트워크, 즉 3개의 컨볼루션 레이어 + 3개의 완전 연결 레이어를 사용하지만, 하나의 작업에 두 개의 카테고리만 사용되기 때문에 ImageNet 데이터세트의 경우 출력 레이어가 상대적으로 작을 수 있습니다. 각 작업에 대해 모든 100개 예제는 배치로 사용되며 총 12개의 배치와 250개의 학습 에포크가 포함됩니다. 첫 번째 작업을 시작하기 전에 Kaiming 분포를 사용하여 가중치를 초기화하는 초기화는 한 번만 수행됩니다. 교차 엔트로피 손실은 운동량 기반 확률적 경사하강법을 사용하고, ReLU 활성화 함수를 사용한다.

이것은 두 가지 질문으로 이어집니다.

1. 작업 순서에서 성능이 어떻게 발전할까요?

2. 어떤 작업의 성과가 더 좋아질까요? 초기 첫 번째 미션이 더 나은가요? 아니면 이전 작업의 경험이 후속 작업에 도움이 될까요?

아래 그림에 답이 나와 있습니다. 지속 학습의 성능은 종합적으로 학습 단계 크기와 역전파에 따라 결정됩니다.

이진 분류 문제이므로 확률은 50%이며, 음영 처리된 부분은 표준편차를 나타내며 이 차이는 크지 않습니다. 선형 벤치마크는 선형 레이어를 사용하여 픽셀 값을 직접 처리하는데, 이는 딥러닝 방법만큼 효과적이지 않습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

예시: 작은 학습률(α=0.001)을 사용하면 정확도가 높아지고 처음 5개 작업에서는 성능이 점차 향상되지만 장기적으로는 감소 추세를 보입니다.

그런 다음 작업 수를 2000개로 늘렸고 학습률이 지속적인 학습 효과에 미치는 영향을 추가로 분석했습니다. 평균적으로 정확도는 50개 작업마다 계산되었습니다. 결과는 아래와 같습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

첫 번째 작업에서 α=0.01인 빨간색 곡선의 정확도는 약 89%입니다. 작업 수가 50개를 초과하면 작업 수가 더 많아질수록 정확도가 감소합니다. 점차적으로 누락되어 최종 정확도는 선형 기준선보다 낮습니다. α=0.001이면 학습 속도가 느려지고 가소성도 급격하게 감소하며 정확도는 선형 네트워크보다 약간 높을 뿐입니다.

따라서 좋은 하이퍼파라미터의 경우 작업 간 가소성이 저하되고 신경망의 한 레이어만 사용하는 것보다 정확도가 낮아지게 됩니다. 빨간색 곡선이 보여주는 것은 거의 "치명적인 가소성 손실"입니다.

훈련 결과는 반복 횟수, 단계 수, 네트워크 크기와 같은 매개변수에 따라 달라집니다. 그림의 각 곡선에 대한 훈련 시간은 다중 프로세서에서 24시간이며, 다음과 같은 경우에는 실용적이지 않을 수 있습니다. 다음으로 테스트를 위해 MNIST 데이터 세트를 선택합니다.

MNIST 데이터 세트 테스트

MNIST 데이터 세트에는 총 60,000개의 손글씨 숫자 이미지가 포함되어 있으며 0부터 9까지 10개 카테고리가 있으며 28*28 회색조 이미지입니다.

Goodfellow et al.은 순서를 섞거나 픽셀을 무작위로 배열하여 새로운 테스트 작업을 생성한 적이 있습니다. 생성된 배열 이미지의 예입니다. 각 작업마다 6000개의 이미지가 무작위로 표시됩니다. 여기에는 작업 내용이 추가되지 않으며 네트워크 가중치는 첫 번째 작업 전에 한 번만 초기화됩니다. 훈련을 위해 온라인 교차 엔트로피 손실을 사용할 수 있으며, 연속 학습의 효과를 측정하기 위해 정확도 지수를 계속 사용할 수 있습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

신경망 구조는 4개의 완전히 연결된 레이어로 구성되어 있으며 처음 3개 레이어의 뉴런 수는 2000개, 마지막 레이어의 뉴런 수는 10개입니다. MNIST 데이터 세트의 이미지는 중앙에 맞춰져 있고 크기가 조정되어 있으므로 컨볼루션 작업이 수행되지 않습니다. 모든 분류 작업은 모멘텀 없이 확률적 경사 하강법을 사용하여 동일한 네트워크를 공유하며 기타 설정은 ImageNet 데이터 세트에서 테스트한 것과 동일합니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

참고: 가운데 그림은 작업 순서에서 30번의 독립적 실행 후의 평균 결과입니다. 각 작업에는 6000개의 샘플이 있으므로 처음에 무작위 추측의 정확도는 학습 후 10%입니다. 이미지 배열 규칙에 따라 예측 정확도는 점차 증가하지만 작업을 전환한 후에는 정확도가 10%로 떨어지므로 전체적인 추세는 지속적으로 변동합니다. 오른쪽 그림은 각 작업에 대한 모델의 학습 효과를 보여줍니다. 초기 정확도는 0입니다. 시간이 지남에 따라 효과가 점차 좋아집니다. 10번째 작업의 정확도는 첫 번째 작업보다 낫지만 100번째 작업에서는 정확도가 떨어지고 800번째 작업의 정확도는 첫 번째 작업보다 훨씬 낮습니다.

전체 과정을 이해하려면 볼록 부분의 정확도를 중점적으로 분석한 후 평균을 내서 중간 이미지의 파란색 곡선을 얻어야 합니다. 처음에는 정확도가 점차 증가하다가 100번째 작업까지 수준이 유지되는 것을 분명히 볼 수 있습니다. 그렇다면 800번째 작업에서 정확도가 급격히 떨어지는 이유는 무엇일까요?

다음으로 학습 효과를 더 자세히 관찰하기 위해 더 많은 작업 순서에 대해 서로 다른 단계 값을 시도했습니다. 결과는 다음과 같습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

빨간색 곡선은 이전 실험과 동일한 단계 값을 사용합니다. 실제로 정확도는 꾸준히 감소하고 있으며 소성 손실도 상대적으로 큽니다.

동시에 학습률이 높을수록 가소성이 더 빨리 감소합니다. 모든 단계 크기 값에 대해 엄청난 가소성 손실이 있습니다. 또한, 은닉층의 뉴런 개수도 정확도에 영향을 미칠 것입니다. 갈색 곡선의 뉴런 개수는 신경망의 향상된 피팅 능력으로 인해 이때 정확도가 매우 느리게 떨어지게 됩니다. 여전히 가소성 손실이 있지만 네트워크 크기가 클수록 정확도는 더 감소합니다. 크기가 작을수록 가소성은 더 빨리 감소합니다.

그렇다면 신경망 내부에서는 왜 가소성 손실이 발생하는 걸까요?

아래 사진에 그 이유가 설명되어 있습니다. 지나치게 높은 비율의 "죽은" 뉴런, 과도한 뉴런 중량, 뉴런 다양성의 손실이 모두 가소성 손실의 원인임을 알 수 있습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

차트 참고: 가로 축은 여전히 ​​작업 번호를 나타냅니다. 첫 번째 그림의 세로 축은 "죽은" 뉴런의 비율을 나타냅니다. 0 뉴런은 더 이상 네트워크 가소성을 예측하지 않습니다. 두 번째 그래프의 세로축은 무게를 나타냅니다. 세 번째 그래프의 세로축은 남아있는 은닉 뉴런 수의 유효 수준을 나타냅니다.

2 기존 방법의 한계

역전파 이외의 기존 딥러닝 방법이 가소성 유지에 도움이 되는지 분석합니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

결과에 따르면 L2 정규화 방법은 가소성 손실을 줄이고 그 과정에서 가중치를 0으로 줄여 동적으로 조정하고 가소성을 유지할 수 있음을 보여줍니다.

수축 및 섭동 방법은 L2 정규화와 유사합니다. 동시에 모든 가중치에 랜덤 노이즈를 추가하여 다양성을 높이고 기본적으로 가소성 손실이 없습니다.

다른 온라인 표준화 방법도 시도했지만 처음에는 결과가 비교적 좋았지만 학습이 계속되면서 가소성 손실이 심각했습니다. Dropout 방법의 성능은 더욱 나쁩니다. 우리는 재훈련을 위해 뉴런의 일부를 무작위로 0으로 설정했으며 가소성 손실이 급격히 증가하는 것을 발견했습니다.

다양한 방법도 신경망의 내부 구조에 영향을 미칩니다. 정규화 방법을 사용하면 "죽은" 뉴런의 비율이 증가합니다. 왜냐하면 가중치를 0으로 줄이는 과정에서 가중치가 0으로 유지되면 출력이 0이 되고 뉴런이 "죽게" 되기 때문입니다. 수축과 교란은 가중치에 무작위 노이즈를 추가하므로 "죽은" 뉴런이 너무 많지 않습니다. 정규화 방법에도 "죽은" 뉴런이 많아 잘못된 방향으로 가고 있는 것 같은데 Dropout도 비슷합니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

작업 수에 따라 가중치가 변경되는 결과가 더 합리적입니다. 정규화를 사용하면 매우 작은 가중치를 얻을 수 있습니다. 정규화를 기준으로 축소 및 섭동으로 인해 가중치 감소가 상대적으로 약해집니다. 무게가 더 커집니다. 그러나 L2 정규화, 수축 및 교란의 경우 숨겨진 뉴런 수의 유효 수준이 상대적으로 낮아 다양성 유지 성능이 좋지 않아 문제가 됩니다.

SCR(Slowly Changing Regression Problem)

우리의 모든 아이디어와 알고리즘은 지속적인 학습에 초점을 맞춘 새롭고 이상적인 문제인 Slowly Changing Regression Problem실험에서 파생되었습니다.

이 실험에서 우리의 목적은 무작위 가중치를 갖는 단일 레이어 신경망으로 형성된 목적 함수를 달성하는 것이며, 은닉층 뉴런은 100개의 선형 임계값 뉴런입니다.

우리는 분류를 하지 않고 숫자만 생성하므로 이는 회귀 문제입니다. 10,000개의 훈련 단계마다 반전할 입력의 마지막 15비트 중 1비트를 선택하므로 이는 천천히 변화하는 목적 함수입니다.

저희 솔루션은 단 하나의 숨겨진 뉴런 레이어가 있는 동일한 네트워크 구조를 사용하면서 활성화 함수가 미분 가능하도록 보장하는 것입니다. 단, 5개의 숨겨진 뉴런을 갖게 됩니다. 에이전트의 탐색 범위가 대화형 환경보다 훨씬 작기 때문에 대략적인 처리만 수행할 수 있습니다. 목적 함수가 변경됨에 따라 대략적인 값을 변경해 보면 더 쉽게 수행할 수 있습니다. 몇 가지 체계적인 실험.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

범례: 입력은 21비트 임의의 이진수이고, 첫 번째 비트는 값이 1인 입력 상수 편차이고, 중간 5비트는 독립적이고 동일하게 분포된 난수이고, 나머지는 15비트가 천천히 변경됩니다. 상수, 출력은 실수입니다. 가중치는 0으로 무작위화되며 +1 또는 -1로 무작위로 선택할 수 있습니다.

우리는 학습 효과에 대한 단계 값과 활성화 함수의 영향을 추가로 연구했습니다. 예를 들어, 여기에서는 tanh, sigmoid 및 relu 활성화 함수가 사용됩니다:

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

및 활성화 함수 형식. 모든 알고리즘에 적합합니다. 학습 효과의 영향:

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

스텝 크기와 활성화 함수가 동시에 변경될 때 Adam 역전파의 영향도 체계적으로 분석했습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

마지막으로 다른 기능을 활성화한 후 Adam 메커니즘을 기반으로 하는 여러 알고리즘 간에 오류가 변경됩니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

위의 실험 결과는 딥 러닝 방법이 더 이상 지속적인 학습에 적합하지 않음을 만났을 때 나타납니다. 새로운 문제, 학습 과정이 매우 느려지고 깊이의 이점이 반영되지 않습니다. 딥러닝의 표준화된 방법은 일회성 학습에만 적합합니다. 딥러닝 방법을 지속적인 학습에도 사용할 수 있도록 개선해야 합니다.

3 연속 역전파

콘볼루션 역전파 알고리즘 자체가 좋은 연속 학습 알고리즘이 될까요?

우리는 그렇지 않다고 생각합니다.

콘볼루션 역전파 알고리즘에는 주로 작은 임의 가중치를 사용한 초기화와 각 시간 단계의 경사 하강이라는 두 가지 측면이 포함됩니다. 가중치를 초기화하기 위해 처음에는 작은 난수를 생성하지만 다시 반복하지는 않습니다. 이상적으로는 언제든지 유사한 계산을 수행할 수 있는 학습 알고리즘이 필요할 수 있습니다.

그렇다면 컨벌루션 역전파 알고리즘을 어떻게 지속적으로 학습하게 만들까요?

가장 간단한 방법은 선택적으로 다시 초기화하는 것입니다. 예를 들어 여러 작업을 수행한 후입니다. 그러나 동시에 전체 네트워크를 다시 초기화하는 것은 연속 학습에서 합리적이지 않을 수 있습니다. 왜냐하면 이는 신경망이 학습한 모든 것을 잊어버린다는 것을 의미하기 때문입니다. 따라서 일부 "죽은" 뉴런을 다시 초기화하거나 효용성에 따라 신경망을 정렬하고 효용성이 낮은 뉴런을 다시 초기화하는 등 신경망의 일부를 선택적으로 초기화하는 것이 좋습니다.

무작위로 선택된 초기화 아이디어는 Mahmood와 Sutton이 2012년에 제안한 생성 및 테스트 방법과 관련이 있습니다. 단지 일부 뉴런을 생성하고 그 실용성을 테스트하면 연속 역전파 알고리즘이 이 둘 사이의 연결을 구축합니다. 개념. 생성 및 테스트 방법에는 하나의 숨겨진 레이어와 하나의 출력 뉴런만 사용하는 몇 가지 제한 사항이 있으므로 일부 딥러닝 방법으로 최적화할 수 있는 다층 네트워크로 확장합니다.

먼저 네트워크를 단일 출력 대신 여러 레이어로 설정하는 것을 고려합니다. 이전 연구에서는 가중치가 하나만 있기 때문에 이 유틸리티는 가중치 수준의 개념일 뿐입니다. 그러나 가장 간단한 일반화는 가중치 합산 수준에서 유틸리티를 고려하는 것입니다.

또 다른 아이디어는 출력 가중치 대신 기능의 활동을 고려하여 가중치 합계에 평균 기능 활성화 함수를 곱하여 다양한 비율을 할당하는 것입니다. 우리는 계속해서 학습하고 빠르게 실행할 수 있는 알고리즘을 설계하기를 희망합니다. 또한 효용을 계산할 때 기능의 가소성을 고려합니다. 마지막으로 특성의 평균 기여도가 출력 편향으로 이전되어 특성 삭제의 영향이 줄어듭니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

향후 개선을 위한 두 가지 주요 방향이 있습니다: (1) 유용성을 전체적으로 측정하고, 입력 가중치에만 국한되지 않고 표현된 전체 기능에 대한 뉴런의 영향을 측정해야 합니다. (2) 현재는 초기화를 위해 초기 분포에서만 샘플링하고 성능을 향상할 수 있는 초기화 방법도 모색해야 합니다.

그렇다면 연속 역전파는 가소성을 유지하는 데 얼마나 효과적일까요?

실험 결과에 따르면 온라인으로 정렬된 MNIST 데이터 세트를 사용하여 훈련된 연속 역전파가

가소성을 완전히 유지하는 것으로 나타났습니다. 아래 그림의 파란색 곡선이 이 결과를 보여줍니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

캡션: 오른쪽 그림은 연속 학습에 대한 다양한 대체율의 영향을 보여줍니다. 예를 들어, 1e-6의 대체율은 각 시간 단계에서 1/1000000 표현을 대체한다는 의미입니다. 즉, 2000개의 특징이 있다고 가정하면 500단계마다 각 레이어에서 하나의 뉴런이 교체됩니다. 이 업데이트 속도는 매우 느리기 때문에 대체율은 하이퍼파라미터에 그다지 민감하지 않으며 학습 효과에 큰 영향을 미치지 않습니다.

다음으로, 지속적인 역전파가 신경망의 내부 구조에 미치는 영향을 연구해야 합니다.

연속 역전파에는 "죽은" 뉴런이 거의 없습니다. 유틸리티는 평균 기능 활성화를 고려하기 때문에 뉴런이 "죽는" 경우 즉시 교체됩니다. 그리고 뉴런을 계속 교체하기 때문에 가중치 크기가 더 작은 새로운 뉴런을 얻게 됩니다. 뉴런은 무작위로 초기화되므로 그에 따라 더 풍부한 표현과 다양성을 유지합니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

따라서 지속적인 역전파는 MNIST 데이터세트의 가소성 부족으로 인해 발생하는 모든 문제를 해결합니다.

그렇다면 연속 역전파를 더 깊은 컨벌루션 신경망으로 확장할 수 있을까요?

답은 '예'입니다! ImageNet 데이터세트에서 연속 역전파는 가소성을 완전히 보존했으며 모델의 최종 정확도는 약 89%였습니다. 실제로 초기 훈련 단계에서는 이러한 알고리즘의 성능이 동일합니다. 앞서 언급했듯이 대체율은 매우 느리게 변하며 작업 수가 충분히 클 때만 근사치가 더 좋습니다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

여기서는 강화 학습의 실험 결과를 보여주기 위해 "미끄러운 개미" 문제를 예로 들어 보겠습니다.

"Slippery Ant" 문제는 비고정 강화 문제의 확장이며 기본적으로 PyBullet 환경과 유사하지만 지면과 에이전트 사이의 마찰이 천만 단계마다 변경된다는 점만 다릅니다. 우리는 선택적으로 초기화할 수 있는 연속 역전파를 기반으로 하는 PPO 알고리즘의 연속 학습 버전을 구현했습니다. PPO 알고리즘과 연속형 PPO 알고리즘의 비교 결과는 다음과 같다.

Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.

예: PPO 알고리즘은 처음에는 잘 수행되지만 훈련이 진행됨에 따라 성능이 계속 저하되며 L2 알고리즘과 축소 및 섭동 알고리즘을 도입한 후에는 이러한 현상이 완화됩니다. 연속 PPO 알고리즘은 대부분의 가소성을 유지하면서 비교적 잘 수행되었습니다.

흥미롭게도 PPO 알고리즘으로 훈련한 에이전트는 걷기만 힘들지만 PPO 알고리즘으로 지속적으로 훈련한 에이전트는 매우 멀리 달릴 수 있습니다.

4 결론

딥 러닝 네트워크는 지속적인 학습에 사용될 경우 완전히 실패할 수 있다는 점에서 주로 일회성 학습에 최적화되어 있습니다. 정규화 및 DropOut과 같은 딥러닝 방법은 지속적인 학습에 도움이 되지 않을 수 있지만 이를 기반으로 지속적 역전파와 같은 몇 가지 작은 개선을 수행하는 것은 매우 효과적일 수 있습니다.

연속 역전파는 뉴런의 유용성에 따라 네트워크 특징을 정렬합니다. 특히 순환 신경망의 경우 정렬 방법이 더 많이 개선될 수 있습니다.

강화 학습 알고리즘은 정책 반복이라는 아이디어를 활용합니다. 지속적인 학습 문제가 존재하더라도 딥 러닝 네트워크의 가소성을 유지하면 RL 및 모델 기반 RL에 대한 엄청난 새로운 가능성이 열립니다.

위 내용은 Richard Sutton은 컨벌루션 역전파가 뒤쳐졌으며 AI 혁신에는 새로운 아이디어, 즉 지속적인 역전파가 필요하다고 솔직하게 말했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제