>기술 주변기기 >일체 포함 >초보자에게 적합한 딥러닝에 대한 10,000단어 리뷰

초보자에게 적합한 딥러닝에 대한 10,000단어 리뷰

WBOY
WBOY앞으로
2023-04-14 12:37:031048검색

​논문: 딥 러닝의 최근 발전: 개요

초보자에게 적합한 딥러닝에 대한 10,000단어 리뷰

논문 주소: https://arxiv.org/pdf/1807.08169v1.pdf

요약: 딥 러닝은 기계 학습과 인공지능 연구의 최신 동향 중 하나. 이는 오늘날 가장 인기 있는 과학 연구 동향 중 하나이기도 합니다. 딥러닝 방법은 컴퓨터 비전과 머신러닝에 혁명적인 발전을 가져왔습니다. 최첨단 머신러닝은 물론 기존의 딥러닝 기술까지 능가하는 새로운 딥러닝 기술이 끊임없이 탄생하고 있습니다. 최근 몇 년 동안 전 세계적으로 이 분야에서 많은 획기적인 발전이 이루어졌습니다. 딥러닝의 급속한 발전으로 인해 특히 새로운 연구자에게는 그 진행 상황을 따라가기가 어렵습니다. 이 글에서는 최근 몇 년간 딥러닝의 발전에 대해 간략하게 논의하겠습니다.

1. 소개

"딥 러닝"(DL)이라는 용어는 1986년에 기계 학습(ML)에 처음 소개되었고 이후 2000년에 인공 신경망(ANN)에 사용되었습니다. 딥 러닝 방법은 여러 수준의 추상화를 통해 데이터 특징을 학습하기 위한 여러 계층으로 구성됩니다. DL 방법을 사용하면 컴퓨터는 비교적 간단한 개념을 통해 복잡한 개념을 학습할 수 있습니다. 인공 신경망(ANN)의 경우 딥 러닝(DL)(계층적 학습이라고도 함)은 네트워크의 집계 활성화를 변환하기 위해 여러 계산 단계에 걸쳐 정확한 크레딧 할당을 의미합니다. 복잡한 기능을 학습하기 위해 심층 아키텍처는 여러 수준의 추상화, 즉 많은 숨겨진 레이어가 있는 ANN과 같은 비선형 작업에서 사용됩니다. 정확한 단어로 요약하자면, 딥 러닝은 지도 또는 비지도 특징 학습, 표현, 분류 및 패턴 인식을 위해 여러 수준의 비선형 정보 처리 및 추상화를 사용하는 기계 학습의 하위 분야입니다.

딥 러닝 또는 표현 학습은 머신 러닝의 한 분야 또는 하위 분야입니다. 대부분의 사람들은 현대적인 딥 러닝 방법이 2006년부터 개발되었다고 믿습니다. 이 글은 최신 딥러닝 기술에 대한 리뷰로, 이 분야에 입문하려는 연구자에게 주로 추천됩니다. 이 기사에는 DL의 기본 아이디어, 주요 방법, 최신 개발 및 응용 프로그램이 포함되어 있습니다.

리뷰 논문은 특히 특정 분야의 새로운 연구자에게 매우 유익합니다. 가까운 미래에 큰 가치를 지닌 연구 분야 및 관련 응용 분야의 경우 최신 진행 상황을 실시간으로 추적하는 것이 일반적으로 어렵습니다. 오늘날 과학 연구는 지식과 교육이 그 어느 때보다 공유하고 얻기가 더 쉽기 때문에 매력적인 직업입니다. 기술 연구 동향에 대한 유일한 일반적인 가정은 모든 측면에서 많은 개선이 있을 것이라는 것입니다. 몇 년 전의 한 분야에 대한 개요는 이제 최신이 아닐 수 있습니다.

최근 딥 러닝의 인기와 홍보를 고려하여 딥 러닝과 신경망(NN)에 대한 간략한 개요와 최근 몇 년간의 주요 진행 상황 및 주요 혁신을 제공합니다. 이 글이 이 분야의 많은 초보 연구자들이 최근 딥러닝 연구와 기술을 포괄적으로 이해하고, 올바른 방향으로 시작하는 데 도움이 되기를 바랍니다. 동시에 우리는 이 작업을 통해 이 시대의 최고 DL 및 ANN 연구자인 Geoffrey Hinton(Hinton), Juergen Schmidhuber(Schmidhuber), Yann LeCun(LeCun), Yoshua Bengio(Bengio) 외 다수의 연구자에게 경의를 표하고 싶습니다. 현대 인공지능(AI)을 연구한 연구 학자들입니다. 또한 DL 및 ML 연구에서 현재 최고의 발전을 추적하기 위해 그들의 작업을 추적하는 것도 중요합니다.

본 논문에서는 먼저 과거 연구 논문을 간략하게 설명하고 딥러닝 모델과 방법에 대해 연구합니다. 그런 다음 이 분야의 최근 발전에 대해 설명하기 시작합니다. 딥 러닝(DL) 방법, 딥 아키텍처(즉, 심층 신경망(DNN)), 심층 생성 모델(DGM)에 대해 논의하고 이어서 중요한 정규화 및 최적화 방법을 논의합니다. 또한 두 개의 짧은 섹션을 사용하여 오픈 소스 DL 프레임워크와 중요한 DL 애플리케이션을 요약합니다. 우리는 마지막 두 장인 토론과 결론에서 딥러닝의 현재 상태와 미래에 대해 논의합니다.

2. 관련 연구

지난 몇 년간 딥러닝에 관한 리뷰 논문이 많이 나왔습니다. 그들은 DL 방법, 방법론, 응용 프로그램 및 향후 연구 방향을 좋은 방식으로 설명합니다. 여기서는 딥러닝에 관한 우수한 리뷰 논문을 간략하게 소개합니다.

Young et al.(2017)은 주로 자연어 처리(NLP)를 위한 DL 모델 및 아키텍처에 대해 논의합니다. 그들은 다양한 NLP 도메인에서 DL 애플리케이션을 제시하고 DL 모델을 비교하며 가능한 미래 추세에 대해 논의합니다.

Zhang et al.(2017)은 프런트엔드 및 백엔드 음성 인식 시스템을 위한 현재 최고의 딥 러닝 기술에 대해 논의합니다.

Zhu et al.(2017)은 DL 원격 감지 기술의 최근 진행 상황을 검토했습니다. 또한 오픈 소스 DL 프레임워크와 딥 러닝의 기타 기술적 세부 사항에 대해서도 논의합니다.

Wang et al.(2017)은 딥 러닝 모델의 진화를 연대순으로 설명합니다. 이 짧은 기사에서는 모델과 딥러닝 연구의 획기적인 발전을 간략하게 소개합니다. 이 기사에서는 진화적 접근 방식을 사용하여 딥 러닝의 기원을 이해하고 신경망의 최적화 및 향후 연구에 대해 설명합니다.

Goodfellow et al.(2016)은 딥 네트워크와 생성 모델에 대해 자세히 논의하고 머신러닝(ML)에 대한 기본 지식과 딥 아키텍처의 장단점을 바탕으로 최근 몇 년간의 DL 연구 및 응용을 요약했습니다.

LeCun et al.(2015)은 CNN(컨볼루션 신경망) 및 RNN(순환 신경망)의 딥 러닝(DL) 모델에 대한 개요를 제공했습니다. 표현 학습 관점에서 DL을 설명하고 DL 기술의 작동 방식, 다양한 애플리케이션에서 성공적으로 사용되는 방법, 비지도 학습(UL)을 기반으로 미래를 예측하는 방법을 학습할 수 있는 방법을 보여줍니다. 그들은 또한 참고문헌에서 DL의 주요 발전을 지적합니다.

Schmidhuber(2015)는 CNN, RNN 및 심층 강화 학습(RL)의 딥 러닝에 대한 개요를 제공했습니다. 그는 시퀀스 처리를 위한 RNN을 강조하면서 기본 DL과 NN의 한계와 개선 팁을 지적합니다.

Nielsen(2015)은 코드와 예제를 통해 신경망의 세부 사항을 설명합니다. 그는 또한 심층 신경망과 딥러닝에 대해서도 어느 정도 논의합니다.

Schmidhuber(2014)는 시계열 기반 신경망의 역사와 발전, 머신러닝 방법을 사용한 분류, 신경망에서의 딥러닝 활용에 대해 논의합니다.

Deng 및 Yu(2014)는 딥 러닝 범주 및 기술은 물론 여러 영역에서의 DL 적용을 설명합니다.

Bengio(2013)는 표현 학습 관점(예: 지도 및 비지도 네트워크, 최적화 및 훈련 모델)에서 DL 알고리즘에 대한 간략한 개요를 제공합니다. 그는 대규모 모델 및 데이터에 대한 알고리즘 확장, 최적화 어려움 감소, 효율적인 확장 방법 설계 등과 같은 딥 러닝의 다양한 과제에 중점을 두고 있습니다.

Bengio et al(2013)은 표현 및 기능 학습, 즉 딥 러닝에 대해 논의했습니다. 그들은 응용 프로그램, 기술 및 과제의 관점에서 다양한 접근 방식과 모델을 탐구합니다.

Deng(2011)은 정보 처리 및 관련 분야의 관점에서 심층 구조 학습과 그 아키텍처에 대한 개요를 제공합니다.

Arel et al(2010)은 최근 몇 년간 DL 기술에 대한 간략한 개요를 제공합니다.

Bengio(2009)는 심층 아키텍처, 즉 인공 지능을 위한 신경망 및 생성 모델에 대해 논의합니다.

딥 러닝(DL)에 관한 모든 최근 논문은 다양한 관점에서 딥 러닝의 초점을 논의합니다. 이는 DL 연구자에게 매우 필요합니다. 그러나 DL은 현재 호황을 누리고 있는 분야입니다. 최근 DL 개요 문서 이후 많은 새로운 기술과 아키텍처가 제안되었습니다. 또한, 이전 논문들은 이를 다양한 관점에서 연구해왔습니다. 우리 논문은 주로 해당 분야에 처음 입문하는 학습자와 초보자를 대상으로 합니다. 이를 위해 우리는 새로운 연구자와 이 분야에 관심이 있는 모든 사람에게 딥러닝의 기초와 명확한 개념을 제공하기 위해 노력할 것입니다.

3. 최신 진행상황

이 섹션에서는 딥러닝에서 가장 일반적으로 사용되는 형태인 머신러닝과 인공신경망(ANN)에서 최근 파생된 주요 딥러닝(DL) 방법에 대해 논의합니다.

3.1 심층 아키텍처의 진화

인공 신경망(ANN)은 다른 심층 모델을 도입하면서 큰 발전을 이루었습니다. 1세대 인공신경망은 제한된 단순 계산만 수행할 수 있는 단순 퍼셉트론 신경층으로 구성되었습니다. 2세대에서는 역전파를 사용하여 오류율에 따라 뉴런의 가중치를 업데이트합니다. 그러다가 SVM(Support Vector Machines)이 전면에 등장하여 한동안 ANN을 따라잡았습니다. 역전파의 한계를 극복하기 위해 제한된 볼츠만 머신(RBM)이 제안되어 학습을 더 쉽게 만들었습니다. 이때 FNN(Feedforward Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 등 다른 기술과 신경망도 등장했고, 심층 신념 네트워크(Deep Belief Network), 오토인코더(Autoencoder) 등도 등장했습니다. 그 이후로 ANN은 다양한 목적을 위해 다양한 측면에서 개선되고 설계되었습니다.

Schmidhuber(2014), Bengio(2009), Deng and Yu(2014), Goodfellow et al.(2016), Wang et al.(2017) 심층 신경망(DNN) 및 심층 신경망의 역사 학습(DL))에서는 자세한 개요를 제공합니다. 대부분의 경우 심층 아키텍처는 간단한 아키텍처의 다층 비선형 반복이므로 입력에서 매우 복잡한 기능을 얻을 수 있습니다.

4. 딥 러닝 방법

심층 신경망은 지도 학습에서 큰 성공을 거두었습니다. 또한 딥 러닝 모델은 비지도 학습, 하이브리드 학습, 강화 학습에서 매우 성공적이었습니다.

4.1 심층 지도 학습

지도 학습은 데이터 라벨링, 분류자 분류 또는 수치 예측에 적용됩니다. LeCun et al.(2015)은 지도 학습 방법과 심층 구조 형성에 대한 간소화된 설명을 제공합니다. Deng과 Yu(2014)는 딥 스택 네트워크(DSN) 및 그 변형과 같은 지도 및 하이브리드 학습을 위한 많은 딥 네트워크를 언급하고 설명했습니다. Schmidthuber(2014)의 연구는 초기 신경망부터 최근 성공을 거둔 CNN(회선 신경망), RNN(회귀 신경망), LSTM(장단기 기억) 및 그 개선 사항에 이르기까지 모든 신경망을 다루고 있습니다.

4.2 심층 비지도 학습

입력 데이터에 레이블이 지정되지 않은 경우 비지도 학습 방법을 적용하여 데이터에서 특징을 추출하고 분류하거나 레이블을 지정할 수 있습니다. LeCun et al.(2015)은 딥러닝에서 비지도 학습의 미래를 예측합니다. Schmidthuber(2014)는 또한 비지도 학습을 위한 신경망을 설명합니다. Deng과 Yu(2014)는 비지도 학습을 위한 딥 아키텍처를 간략하게 소개하고 딥 오토인코더에 대해 자세히 설명했습니다.

4.3 심층 강화 학습

강화 학습은 보상 및 처벌 시스템을 사용하여 학습 모델의 다음 단계를 예측합니다. 이는 주로 게임과 로봇에서 일반적인 의사결정 문제를 해결하는 데 사용됩니다. Schmidthuber(2014)는 강화 학습(RL)의 딥 러닝 발전과 RL에서의 심층 피드포워드 신경망(FNN) 및 순환 신경망(RNN)의 적용에 대해 설명합니다. Li(2017)는 심층 강화 학습(DRL)과 그 아키텍처(예: Deep Q-Network, DQN) 및 다양한 분야에서의 적용에 대해 논의합니다.

Mnih et al.(2016)은 비동기 경사하강법을 사용하여 DNN 최적화를 위한 DRL 프레임워크를 제안했습니다.

van Hasselt et al.(2015)은 심층 신경망(DNN)을 사용하여 DRL 아키텍처를 제안했습니다.

5. 심층 신경망

이 섹션에서는 심층 신경망(DNN)과 최근 개선 사항 및 혁신에 대해 간략하게 설명합니다. 신경망은 인간의 두뇌와 유사하게 기능합니다. 그들은 주로 뉴런과 연결로 구성됩니다. 심층 신경망이라고 하면 입력에서 특징을 추출하고 복잡한 함수를 계산하는 데 사용할 수 있는 숨겨진 레이어가 상당히 많다고 가정할 수 있습니다. Bengio(2009)는 CNN(Convolutional Neural Network), AE(Autoencoder) 등과 같은 심층 구조의 신경망과 그 변형에 대해 설명합니다. Deng과 Yu(2014)는 AE 및 그 변형과 같은 일부 신경망 아키텍처에 대한 자세한 소개를 제공합니다. Goodfellow et al.(2016)은 심층 피드포워드 네트워크, 컨볼루션 네트워크, 순환 네트워크 및 그 개선 사항을 소개하고 기술적으로 설명했습니다. Schmidhuber(2014)는 초기 신경망부터 최근 성공적인 기술까지 신경망의 전체 역사를 언급합니다.

5.1 심층 오토인코더

오토인코더(AE)는 출력이 입력인 신경망(NN)입니다. AE는 원시 입력을 가져와 압축된 표현으로 인코딩한 다음 디코딩하여 입력을 재구성합니다. Deep AE에서는 낮은 은닉층이 인코딩에 사용되고, 높은 은닉층이 디코딩에 사용되고, 오류 역전파가 훈련에 사용됩니다.

5.1.1 변형 자동 인코더

변형 자동 인코더(VAE)는 디코더로 간주될 수 있습니다. VAE는 표준 신경망을 기반으로 구축되었으며 확률적 경사하강법을 통해 훈련될 수 있습니다(Doersch, 2016).

5.1.2 다계층 노이즈 제거 자동 인코더

초기 오토 인코더(AE)에서는 인코딩 계층의 차원이 입력 계층보다 작습니다(좁습니다). SDAE(다층 잡음 제거 자동 인코더)에서 인코딩 계층은 입력 계층보다 넓습니다(Deng 및 Yu, 2014).

5.1.3 변환 자동 인코더

Deep Autoencoder(DAE)는 변형이 가능합니다. 즉, 다층 비선형 처리에서 추출된 특징을 학습자의 요구에 따라 변형할 수 있습니다. 변환 자동 인코더(TAE)는 입력 벡터와 대상 출력 벡터를 모두 사용하여 변환 불변 속성을 적용하여 코드를 원하는 방향으로 안내할 수 있습니다(Deng 및 Yu, 2014).

5.2 Deep Convolutional Neural Network

네 가지 기본 아이디어가 CNN(Convolutional Neural Network)을 구성합니다. 즉, 로컬 연결, 가중치 공유, 풀링 및 다중 레이어 사용입니다. CNN의 첫 번째 부분은 컨볼루션 레이어와 풀링 레이어로 구성되고, 뒷부분은 주로 완전 연결 레이어로 구성됩니다. 컨벌루션 레이어는 기능의 로컬 연결을 감지하고 풀링 레이어는 유사한 기능을 하나로 병합합니다. CNN은 컨볼루션 계층에서 행렬 곱셈 대신 컨볼루션을 사용합니다.

Krizhevsky et al.(2012)은 딥 러닝(DL)의 주요 혁신인 AlexNet이라고도 알려진 심층 컨볼루션 신경망(CNN) 아키텍처를 제안했습니다. 네트워크는 5개의 컨벌루션 레이어와 3개의 완전 연결 레이어로 구성됩니다. 이 아키텍처는 컨볼루션 작업에 GPU(그래픽 처리 장치)를 사용하고, 활성화 함수로 ReLU(Rectified Linear Function)를 사용하며, 과적합을 줄이기 위해 Dropout을 사용합니다.

Iandola et al.(2016)은 "SqueezeNet"이라는 작은 CNN 아키텍처를 제안했습니다.

Szegedy et al.(2014)은 Inception이라는 심층 CNN 아키텍처를 제안했습니다. Dai et al.(2017)은 Inception-ResNet에 대한 개선을 제안했습니다.

Redmon et al.(2015)은 균일하고 실시간 객체 감지를 위해 YOLO(You Only Look Once)라는 CNN 아키텍처를 제안했습니다.

Zeiler와 Fergus(2013)는 CNN 내 활성화를 시각화하는 방법을 제안했습니다.

Gehring et al.(2017)은 시퀀스 간 학습을 위한 CNN 아키텍처를 제안했습니다.

Bansal et al.(2017)은 픽셀을 사용하여 표현하는 PixelNet을 제안했습니다.

Goodfellow et al.(2016)은 CNN의 기본 아키텍처와 아이디어를 설명합니다. Gu et al.(2015)은 CNN의 최근 발전, CNN의 다양한 변형, CNN 아키텍처, 정규화 방법 및 기능, 다양한 분야의 응용에 대한 좋은 개요를 제공합니다.

5.2.1 딥 맥스 풀링 컨벌루션 신경망

MPCNN(Max Pooling Convolutional Neural Network)은 주로 디지털 이미지 처리 분야에서 Convolution 및 Max Pooling을 기반으로 작동합니다. MPCNN은 일반적으로 입력 레이어 외에 3개의 레이어로 구성됩니다. 컨벌루션 레이어는 입력 이미지를 가져와 특징 맵을 생성한 다음 비선형 활성화 함수를 적용합니다. 최대 풀링 계층은 이미지를 다운샘플링하고 하위 영역의 최대값을 유지합니다. 완전 연결 레이어는 선형 곱셈을 수행합니다. Deep MPCNN에서는 입력 레이어 다음에 컨볼루션과 하이브리드 풀링이 주기적으로 사용되고 그 다음에는 완전 연결 레이어가 사용됩니다.

5.2.2 매우 깊은 컨볼루션 신경망

Simonyan과 Zisserman(2014)은 VGG Net이라고도 알려진 매우 깊은 컨볼루션 신경망(VDCNN) 아키텍처를 제안했습니다. VGG Net은 깊이가 16~19층인 매우 작은 컨벌루션 필터를 사용합니다. Conneau et al.(2016)은 작은 컨볼루션과 풀링을 사용하여 텍스트 분류를 위한 또 다른 VDCNN 아키텍처를 제안했습니다. 그들은 이 VDCNN 아키텍처가 텍스트 처리에 최초로 사용되었으며 문자 수준에서 작동한다고 주장합니다. 아키텍처는 29개의 컨벌루션 레이어로 구성됩니다.

5.3 네트워크 속 네트워크

Lin et al.(2013)은 NIN(Network In Network)을 제안했습니다. NIN은 기존 CNN(컨볼루션 신경망)의 컨볼루션 계층을 복잡한 구조의 미세 신경망으로 대체합니다. 완전히 연결된 레이어 대신 MLPConv(다층 퍼셉트론) 처리 미세 신경망과 전역 평균 풀링 레이어를 사용합니다. Deep NIN 아키텍처는 NIN 구조의 여러 중첩으로 구성될 수 있습니다.

5.4 지역 기반 합성곱 신경망

Girshick et al.(2014)은 인식을 위해 지역을 사용하는 지역 기반 합성곱 신경망(R-CNN)을 제안했습니다. R-CNN은 영역을 사용하여 객체를 지역화하고 분할합니다. 아키텍처는 후보 영역 모음을 정의하는 클래스 독립적 영역 제안, 영역에서 특징을 추출하는 대규모 CNN(컨볼루션 신경망), 클래스별 선형 지원 벡터 머신(SVM) 세트의 세 가지 모듈로 구성됩니다.

5.4.1 Fast R-CNN

Girshick(2015)은 빠른 지역 기반 컨벌루션 네트워크(Fast R-CNN)를 제안했습니다. 이 방법은 R-CNN 아키텍처를 활용하여 결과를 빠르게 생성합니다. Fast R-CNN은 컨벌루션 레이어, 풀링 레이어, 영역 제안 레이어, 일련의 완전 연결 레이어로 구성됩니다.

5.4.2 Faster R-CNN

Ren 등(2015)은 지역 제안 네트워크 네트워크(RPN)를 사용하는 더 빠른 지역 기반 컨볼루셔널 신경망(Faster R-CNN)을 제안했습니다. 실시간 객체 감지. RPN은 정확하고 효율적으로 지역 제안을 생성할 수 있는 완전 컨볼루셔널 네트워크입니다(Ren et al., 2015).

5.4.3 Mask R-CNN

Kaiming et al.(2017)은 지역 기반 마스크 컨벌루션 네트워크(Mask R-CNN) 인스턴스 객체 분할을 제안했습니다. Mask R-CNN은 R-CNN의 아키텍처를 확장하고 대상 마스크를 예측하기 위해 추가 분기를 사용합니다.

5.4.4 Multi-Expert R-CNN

Lee et al(2017)은 Fast R-CNN 아키텍처를 활용하여 지역 기반 다중 전문가 컨볼루션 신경망(ME R-CNN)을 제안했습니다. . ME R-CNN은 선택적이고 철저한 검색을 통해 관심 영역(RoI)을 생성합니다. 또한 단일 RoI별 네트워크 대신 RoI별 다중 전문가 네트워크를 사용합니다. 각 전문가는 Fast R-CNN의 완전히 연결된 레이어를 갖춘 동일한 아키텍처입니다.

5.5 심층 잔여 네트워크

He et al.(2015)이 제안한 잔여 네트워크(ResNet)는 152개의 레이어로 구성됩니다. ResNet은 오류가 적고 잔여 학습을 통해 학습하기 쉽습니다. Deeper ResNet은 더 나은 성능을 달성할 수 있습니다. 딥러닝 분야에서 ResNet은 중요한 발전으로 간주됩니다.

5.5.1 Resnet in Resnet

Targ et al.(2016)은 Resnet in Resnet(RiR)에서 ResNet과 표준 CNN(Convolutional Neural Network)을 결합하여 심층 2스트림 아키텍처로 제안했습니다. .

5.5.2 ResNeXt

Xie 외(2016)는 ResNeXt 아키텍처를 제안했습니다. ResNext는 ResNet을 활용하여 분할-변환-병합 전략을 재사용합니다.

5.6 캡슐 네트워크

Sabour et al.(2017)은 두 개의 컨벌루션 레이어와 하나의 완전 연결 레이어를 포함하는 아키텍처인 캡슐 네트워크(CapsNet)를 제안했습니다. CapsNet은 일반적으로 끝에 캡슐 레이어가 있는 여러 개의 컨벌루션 레이어를 포함합니다. CapsNet은 컨볼루션 신경망의 한계를 기반으로 한다고 알려져 딥러닝 분야의 최신 혁신 중 하나로 간주됩니다. 뉴런 대신 캡슐층을 사용합니다. 활성화된 하위 캡슐은 예측을 하고, 여러 예측에 동의하면 상위 캡슐이 활성화됩니다. 이러한 캡슐 계층 내에서는 프로토콜 라우팅 메커니즘이 사용됩니다. Hinton은 나중에 EM(기대 최대화) 알고리즘을 사용하여 CapsNet을 개선한 EM 라우팅을 제안했습니다.

5.7 순환 신경망

반복 신경망(RNN)은 음성, 텍스트 및 생성된 시퀀스와 같은 시퀀스 입력에 더 적합합니다. 시간이 지나면서 반복되는 숨겨진 유닛은 동일한 가중치를 갖는 매우 깊은 피드포워드 네트워크로 생각할 수 있습니다. RNN은 경사도 소멸 및 차원 폭발 문제로 인해 훈련하기가 어려웠습니다. 이 문제를 해결하기 위해 이후 많은 사람들이 개선안을 제안했습니다.

Goodfellow et al.(2016)은 순환 및 순환 신경망과 아키텍처는 물론 관련 게이팅 및 메모리 네트워크에 대한 자세한 분석을 제공합니다.

Karpathy et al.(2015)은 문자 수준 언어 모델을 사용하여 예측을 분석 및 시각화하고 훈련 역학, RNN의 오류 유형 및 변형(예: LSTM) 등을 특성화합니다.

J'ozefowicz et al(2016)은 RNN 모델과 언어 모델의 한계를 탐구합니다.

5.7.1 RNN-EM

Peng과 Yao(2015)는 RNN의 메모리 능력을 향상시키기 위해 외부 메모리(RNN-EM) 사용을 제안했습니다. 그들은 다른 RNN보다 더 나은 언어 이해 분야에서 최첨단 성능을 달성한다고 주장합니다.

5.7.2 GF-RNN

Chung et al.(2015)은 글로벌 게이팅 단위로 여러 순환 레이어를 오버레이하여 확장된 GF-RNN(Gated Feedback Recurrent Neural Network)을 제안했습니다. RNN.

5.7.3 CRF-RNN

Zheng et al.(2015)은 CNN(컨벌루션 신경망)과 조건부 무작위 필드를 결합한 순환 신경망(CRF-RNN)으로 조건부 무작위 필드를 제안했습니다( CRF)는 확률적 그래픽 모델링을 위해 결합되었습니다.

5.7.4 Quasi-RNN

Bradbury et al(2016)은 시간 단계에 따른 신경 시퀀스 모델링 및 병렬 적용을 위한 QRNN(Quasi-RNN)을 제안했습니다.

5.8 메모리 네트워크

Weston et al.(2014)은 질문 답변 메모리 네트워크(QA)를 제안했습니다. 메모리 네트워크는 메모리, 입력 기능 매핑, 일반화, 출력 기능 매핑 및 응답으로 구성됩니다.

5.8.1 동적 메모리 네트워크

Kumar et al(2015)은 QA 작업을 위해 DMN(동적 메모리 네트워크)을 제안했습니다. DMN에는 입력, 질문, 일화 기억, 출력의 네 가지 모듈이 있습니다.

5.9 증강 신경망

Olah와 Carter(2016)는 신경망 튜링 머신(NTM), 주의 인터페이스, 신경 인코더 및 적응형 계산 시간과 같은 증강 순환 신경망과 주의력을 잘 보여줍니다. 신경망은 표준 신경망 아키텍처뿐만 아니라 로지스틱 기능과 같은 추가 속성을 사용하여 향상되는 경우가 많습니다.

5.9.1 Neural Turing Machine

Graves 등(2014)은 신경망 컨트롤러와 메모리 뱅크로 구성된 NTM(Neural Turing Machine) 아키텍처를 제안했습니다. NTM은 일반적으로 RNN을 외부 메모리 뱅크와 결합합니다.

5.9.2 신경 GPU

Kaiser와 Sutskever(2015)는 NTM의 병렬 문제를 해결하기 위해 신경 GPU를 제안했습니다.

5.9.3 신경 랜덤 액세스 머신

Kurach et al(2015)은 외부 가변 크기 랜덤 액세스 메모리를 사용하는 신경 랜덤 액세스 머신을 제안했습니다.

5.9.4 신경 프로그래머

Neelakantan 외(2015)는 산술 및 논리 기능을 갖춘 향상된 신경 네트워크인 신경 프로그래머를 제안했습니다.

5.9.5 Neural Programmer-Interpreter

Reed와 de Freitas(2015)는 학습 가능한 NPI(Neural Programmer-Interpreter)를 제안했습니다. NPI에는 주기적 커널, 프로그램 메모리 및 도메인별 인코더가 포함되어 있습니다.

5.10 장단기 기억 네트워크

Hochreiter와 Schmidhuber(1997)는 순환 신경망(RNN)의 오류 역류 문제를 극복하기 위해 장단기 기억(LSTM)을 제안했습니다. LSTM은 순환 네트워크와 그래디언트 기반 학습 알고리즘으로 그래디언트 흐름을 가능하게 하는 자체 루프 생성 경로를 도입합니다.

Greff et al.(2017)은 음성 인식, 필기 인식 및 다성 음악 모델링을 위해 각각 표준 LSTM 및 8가지 LSTM 변형에 대한 대규모 분석을 수행했습니다. 그들은 LSTM의 8가지 변형이 큰 개선을 보이지 않은 반면, 표준 LSTM만 좋은 성능을 보였다고 주장했습니다.

Shi et al.(2016b)은 특징 맵 학습 표현을 위한 LSTM 단위 스택인 DLSTM(Deep Long Short-Term Memory Network)을 제안했습니다.

5.10.1 배치 정규화 LSTM

Cooijmans et al.(2016)은 순환 신경망의 숨겨진 상태에 배치 정규화 LSTM을 사용하는 BN-LSTM을 제안했습니다. 정규화되었습니다.

5.10.2 Pixel RNN

van den Oord et al.(2016b)은 12개의 2차원 LSTM 레이어로 구성된 Pixel-RNN(Pixel Recurrent Neural Network)을 제안했습니다.

5.10.3 양방향 LSTM

W¨ollmer et al.(2010)은 상황에 맞는 키워드 탐지를 위해 동적 베이지안 네트워크(DBN)와 함께 양방향 LSTM(BLSTM)의 순환 네트워크를 제안했습니다.

5.10.4 Variational Bi-LSTM

Shabanian et al(2017)은 Bi-LSTM 아키텍처의 변형인 Variational Bi-LSTM(Variational Bi-LSTM)을 제안했습니다. Variational Bi-LSTM은 VAE(Variational Autoencoder)를 사용하여 LSTM 간의 정보 교환 채널을 생성하여 더 나은 표현을 학습합니다.

5.11 Google Neural Machine Translation

Wu et al.(2016)은 다음과 같이 인코더 네트워크, 디코더 네트워크 및 Attention 네트워크를 결합한 Google Neural Machine Translation(GNMT)이라는 자동 번역 시스템을 제안했습니다. 일반적인 시퀀스 간 학습 프레임워크입니다.

5.12 Fader Network

Lample et al.(2017)은 속성 값을 변경하여 실제적인 입력 이미지 변화를 생성하는 새로운 인코더-디코더 아키텍처인 Fader Network를 제안했습니다.

5.13 하이퍼 네트워크

Ha et al.(2016)이 제안한 하이퍼 네트워크는 정적 하이퍼네트워크 컨볼루션 네트워크 및 순환 네트워크를 위한 동적 하이퍼네트워크와 같은 다른 신경 네트워크에 대한 가중치를 생성합니다.

Deutsch(2018) 하이퍼네트워크를 사용하여 신경망 생성.

5.14 Highway Networks

Srivastava et al.(2015)은 게이트 단위를 사용하여 관리 정보를 학습하는 Highway Networks를 제안했습니다. 여러 수준에 걸친 정보의 흐름을 정보고속도로라고 합니다.

5.14.1 Recurrent Highway Networks

Zilly et al.(2017)은 LSTM(장단기 기억) 아키텍처를 확장한 RHN(Recurrent Highway Networks)을 제안했습니다. RHN은 주기적인 전환에서 고속도로 레이어를 사용합니다.

5.15 Highway LSTM RNN

Zhang et al.(2016)은 방향 연결을 통해 인접 레이어의 메모리 셀 간 폐쇄 기능을 확장하는 HLSTM(Highway Long Short-Term Memory) RNN을 제안했습니다. (즉, 고속도로).

5.16 Long-Term Recurrent CNN

Donahue et al.(2014)은 입력에 CNN을 사용한 다음 재귀 시퀀스 모델링 및 생성에 LSTM을 사용하는 LRCN(Long-Term Recurrent Convolutional Network)을 제안했습니다. 예측의.

5.17 Deep Neural SVM

Zhang et al.(2015)은 SVM(Support Vector Machine)을 DNN(Deep Neural Network) 카테고리의 최상위 수준으로 사용하는 Deep Neural SVM(DNSVM)을 제안했습니다.

5.18 컨볼루션 잔여 메모리 네트워크

Moniz와 Pal(2016)은 메모리 메커니즘을 컨볼루션 신경망(CNN)에 통합하기 위해 컨볼루션 잔여 메모리 네트워크를 제안했습니다. 이는 장기 단기 기억 메커니즘을 사용하여 컨벌루션 잔차 네트워크를 향상시킵니다.

5.19 프랙탈 네트워크

Larsson et al.(2016)은 잔여 네트워크의 대안으로 프랙탈 네트워크인 FractalNet을 제안했습니다. 그들은 잔여 학습 없이 초심층 신경망을 훈련할 수 있다고 주장합니다. 프랙탈은 간단한 확장 규칙에 의해 생성된 반복 아키텍처입니다.

5.20 WaveNet

van den Oord 외(2016)는 원시 오디오 생성을 위한 심층 신경망인 WaveNet을 제안했습니다. WaveNet은 출력을 위한 다수의 컨벌루션 레이어와 소프트맥스 배포 레이어로 구성됩니다.

Rethage et al.(2017)은 음성 잡음 제거를 위한 WaveNet 모델을 제안했습니다.

5.21 포인터 네트워크

Vinyals et al.(2017)은 "포인터"라는 소프트맥스 확률 분포를 사용하여 변수 사전을 표현하는 문제를 해결하기 위해 포인터 네트워크(Ptr-Nets)를 제안했습니다.

6. 심층 생성 모델

이 섹션에서는 심층 신경망과 유사한 다중 추상화 및 표현 계층을 사용하는 다른 심층 아키텍처(심층 생성 모델, DGM)에 대해 간략하게 설명합니다. . Bengio(2009)는 볼츠만 머신(BM), 제한된 볼츠만 머신(RBM) 및 그 변형과 같은 심층 아키텍처를 설명합니다.

Goodfellow et al.(2016)은 제한적 및 제한되지 않은 볼츠만 기계 및 그 변형, 심층 볼츠만 기계, 심층 신념 네트워크(DBN), 지향성 생성 네트워크 및 무작위 네트워크 생성 등과 같은 심층 생성 모델을 자세히 설명합니다.

Maaløe et al.(2016)은 보조 변수를 사용하여 심층 생성 모델을 확장한 보조 심층 생성 모델을 제안했습니다. 보조 변수는 무작위 레이어를 사용하여 변형 분포를 생성하고 연결을 건너뜁니다.

Rezende et al.(2016)은 심층 생성 모델의 단일 샷 일반화를 개발했습니다.

6.1 볼츠만 머신

볼츠만 머신은 학습에 최대 우도 원리를 사용하여 임의의 확률 분포를 학습하는 연결주의적 방법입니다.

6.2 제한된 볼츠만 기계

제한된 볼츠만 기계(RBM)는 무작위 숨겨진 단위 레이어, 즉 잠재 변수와 관찰 가능한 변수의 한 레이어를 포함하는 특별한 유형의 마르코프 랜덤 필드입니다.

Hinton과 Salakhutdinov(2011)는 제한된 볼츠만 머신(RBM)을 사용하여 문서 처리를 위한 심층 생성 모델을 제안했습니다.

6.3 Deep Belief Networks

Deep Belief Networks(DBN)은 여러 계층의 잠재 이진 또는 실제 변수가 있는 생성 모델입니다.

Ranzato et al.(2011)은 DBN(Deep Belief Network)을 사용하여 이미지 인식을 위한 심층 생성 모델을 구축했습니다.

6.4 Deep Lambertian Network

Tang et al.(2012)은 잠재적 변수가 알베도, 표면 법선 및 조명인 다단계 생성 모델인 Deep Lambertian Networks(DLN)를 제안했습니다. DLNis는 Lambertian 반사율과 Gaussian 제한된 볼츠만 기계 및 심층 신념 네트워크의 조합입니다.

6.5 Generative Adversarial Networks

Goodfellow et al.(2014)은 적대적 프로세스를 통해 생성 모델을 평가하기 위해 GAN(Adversarial Nets) 생성을 제안했습니다. GAN 아키텍처는 적에 대한 생성 모델(예: 학습 모델 또는 데이터 분포의 차별적 모델)로 구성됩니다. Mao et al.(2016), Kim et al.(2017)은 GAN에 대한 추가 개선을 제안했습니다.

Salimans et al.(2016)은 GAN 훈련을 위한 여러 가지 방법을 제안했습니다.

6.5.1 Laplacian Generative Adversarial Network

Denton et al.(2015)은 GAN(Generative Adversarial Network) 방법을 사용하여 LAPGAN(Laplacian Generative Adversarial Network)이라는 심층 생성 모델(DGM)을 제안했습니다. 이 모델은 또한 Laplacian 피라미드 프레임워크에서 컨벌루션 네트워크를 사용합니다.

6.6 Recurrent Support Vector Machine

Shi et al.(2016a)은 RNN(Recurrent Neural Network)을 사용하여 입력 시퀀스에서 특징을 추출하는 RSVM(Recurrent Support Vector Machine)과 표준 지원 벡터 머신(Standard Support Vector Machine)을 제안했습니다. (SVM). 시퀀스 수준의 표적 식별을 위한 것입니다.

7. 훈련 및 최적화 기술

이 섹션에서는 심층 신경망(DNN)을 정규화하고 최적화하기 위한 몇 가지 주요 기술을 간략하게 설명합니다.

7.1 Dropout

Srivastava et al.(2014)은 신경망의 과적합을 방지하기 위해 Dropout을 제안했습니다. 드롭아웃(Dropout)은 은닉 유닛에 노이즈를 추가하는 신경망 모델 평균 정규화 방법입니다. 훈련하는 동안 신경망에서 무작위로 단위와 연결을 그립니다. 드롭아웃은 RBM(Srivastava et al., 2014)과 같은 그래픽 모델이나 모든 유형의 신경망에서 사용할 수 있습니다. Dropout에 대해 최근 제안된 개선 사항은 RNN(Recurrent Neural Networks)을 위한 Fraternal Dropout입니다.

7.2 Maxout

Goodfellow et al.(2013)은 Dropout의 새로운 활성화 기능인 Maxout을 제안했습니다. Maxout의 출력은 입력 세트의 최대값이며 이는 Dropout의 모델 평균화에 유용합니다.

7.3 Zoneout

Krueger et al(2016)은 순환 신경망(RNN)을 위한 정규화 방법인 Zoneout을 제안했습니다. Zoneout은 Dropout과 유사하게 훈련 중에 노이즈를 무작위로 사용하지만 숨겨진 유닛을 버리는 대신 유지합니다.

7.4 Deep Residual Learning

He et al.(2015)은 훈련 오류가 적은 ResNet이라는 Deep Residual Learning 프레임워크를 제안했습니다.

7.5 배치 정규화

Ioffe와 Szegedy(2015)는 내부 공변량 이동을 줄여 심층 신경망 훈련을 가속화하는 방법으로 배치 정규화를 제안했습니다. Ioffe(2017)는 이전 방법을 확장한 배치 정규화를 제안했습니다.

7.6 Distillation

Hinton et al.(2015)은 고도로 정규화된 모델(예: 신경망) 모음의 지식을 압축된 작은 모델로 변환하는 방법을 제안했습니다.

7.7 레이어 정규화

Ba et al.(2016)은 특히 배치 정규화의 한계를 해결하는 RNN용 심층 신경망의 가속화 훈련을 위해 레이어 정규화를 제안했습니다.

8. 딥 러닝 프레임워크

딥 러닝에 사용할 수 있는 오픈 소스 라이브러리와 프레임워크가 많이 있습니다. 대부분은 Python 프로그래밍 언어용으로 제작되었습니다. Theano, Tensorflow, PyTorch, PyBrain, Caffe, Blocks and Fuel, CuDNN, Honk, ChainerCV, PyLearn2, Chainer, torch 등

9. 딥러닝의 응용

이 섹션에서는 딥러닝 분야에서 최근 뛰어난 응용 사례에 대해 간략하게 논의하겠습니다. 딥러닝(DL)이 시작된 이래로 DL 방법은 지도학습, 비지도학습, 준지도학습, 강화학습 등 다양한 분야에서 널리 사용되고 있습니다. 분류 및 탐지 작업을 시작으로 DL 애플리케이션은 모든 도메인으로 빠르게 확장되고 있습니다.

예:

이미지 분류 및 인식

비디오 분류

시퀀스 생성

결함 분류

텍스트, 음성, 이미지 및 비디오 처리

텍스트 분류

음성 처리

음성 인식 그리고 구어 이해

...

이미지 색상화

이미지 Q&A

질감 있고 스타일화된 이미지 생성

시각적 및 텍스트적 Q&A

시각적 식별 및 설명

객체 인식

문서 처리

캐릭터 액션 합성 및 편집

노래 합성

신원 인식 ...

대화 에이전트

유전자 변이 호출

암 탐지

X-Ray CT 재구성

발작 예측

하드웨어 가속

로봇

그리고 더 많은 것들이 있습니다.

Deng 및 Yu(2014)는 음성 처리, 정보 검색, 객체 인식, 컴퓨터 비전, 다중 모드, 다중 작업 학습 및 기타 분야에서 DL 응용 프로그램의 자세한 목록을 제공합니다.

오늘날 심층 강화 학습(DRL)을 사용하여 게임을 마스터하는 것이 화제가 되었습니다. 때때로 AI 로봇은 단 몇 시간의 훈련으로 시작하여 전략 및 기타 게임에서 인간 세계 챔피언과 체스 그랜드 마스터를 이길 수 있는 DNN 및 DRL을 사용하여 만들어집니다. 예를 들어 바둑의 알파고(AlphaGo)와 알파고 제로(AlphaGo Zero)가 있다.

10. 토론

딥러닝은 여러 분야에서 큰 성공을 거두었지만 아직 갈 길이 멉니다. 아직 개선할 부분이 많습니다. 제한 사항에 대해서는 꽤 많은 예가 있습니다. 예: Nguyen et al.은 심층 신경망(DNN)이 이미지를 인식할 때 쉽게 속임을 보여주었습니다. Yosinski 등이 제안한 학습된 특징 전달성과 같은 다른 문제가 있습니다. Huang 등은 신경망 공격 방어를 위한 아키텍처를 제안했으며 이러한 공격을 방어하려면 향후 작업이 필요하다고 주장했습니다. Zhang et al.은 딥러닝 모델을 이해하기 위한 실험적 프레임워크를 제안했습니다. 그들은 딥러닝을 이해하려면 재고와 일반화가 필요하다고 믿었습니다.

Marcus는 2018년 딥 러닝(DL)의 역할, 한계 및 특성에 대한 중요한 리뷰를 제공합니다. 그는 더 많은 데이터가 필요하고, 용량이 제한적이며, 계층을 처리할 수 없고, 개방형 추론을 수행할 수 없으며, 완전히 투명할 수 없고, 사전 지식과 통합할 수 없으며, 원인과 결과를 구별할 수 없는 DL 방법의 한계를 강력히 지적했습니다. 그는 또한 DL이 안정적인 환경을 가정하고 대략적인 방식으로 구현되며 엔지니어링하기 어렵고 과장될 위험이 있다고 언급했습니다. Marcus는 DL을 재개념화하고 비지도 학습, 기호 조작 및 하이브리드 모델에서 가능성을 찾고, 인지 과학 및 심리학에서 통찰력을 얻고, 더 과감한 도전에 나서야 한다고 믿습니다.

11. 결론

딥러닝(DL)이 그 어느 때보다 빠르게 세상을 발전시키고 있지만, 여전히 연구할 만한 측면이 많습니다. 우리는 여전히 딥 러닝, 즉 기계를 어떻게 인간보다 더 똑똑하게 만들거나 인간에 더 가깝거나 더 똑똑하게 만들 수 있는지, 인간처럼 학습할 수 있는지 완전히 이해하지 못합니다. DL은 모든 것에 기술을 적용하면서 많은 문제를 해결해 왔습니다. 그러나 인간은 여전히 ​​굶주림과 식량 위기, 암 및 기타 치명적인 질병으로 죽어가는 사람들과 같은 많은 문제에 직면해 있습니다. 딥러닝과 인공지능이 가장 어려운 과학적 연구를 수행해 인간 삶의 질 향상에 더욱 헌신하길 바랍니다. 마지막으로, 우리 세상이 더 나은 곳이 되기를 바랍니다.

위 내용은 초보자에게 적합한 딥러닝에 대한 10,000단어 리뷰의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제