완전 연결된 피드포워드 신경망이라고도 알려진 다층 퍼셉트론(MLP)은 오늘날 딥 러닝 모델의 기본 구성 요소입니다. MLP는 비선형 함수를 근사화하기 위한 기계 학습의 기본 방법이기 때문에 MLP의 중요성은 아무리 강조해도 지나치지 않습니다.
그러나 최근 MIT와 다른 기관의 연구자들은 매우 유망한 대체 방법인 KAN을 제안했습니다. 이 방법은 정확성과 해석 가능성 측면에서 MLP보다 성능이 뛰어납니다. 또한 매우 적은 수의 매개변수로 훨씬 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어납니다. 예를 들어 저자는 KAN을 사용하여 매듭 이론의 수학적 법칙을 재발견하고 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다.
미세조정 내용은 다음과 같습니다. 이러한 놀라운 연구 결과로 인해 KAN은 빠르게 인기를 얻었고 많은 사람들이 KAN을 연구하게 되었습니다. 곧 일부 사람들은 의문을 제기했습니다. 그 중 'KAN은 MLP일 뿐이다'라는 제목의 Colab 문서가 화제의 대상이 되었습니다.
위 문서의 작성자는 ReLU 앞에 반복과 교대를 추가하면 KAN을 MLP로 작성할 수 있다고 명시했습니다.
짧은 예를 통해 저자는 동일한 수의 매개변수와 약간 비선형 구조를 사용하여 KAN 네트워크를 일반 MLP로 다시 작성하는 방법을 보여줍니다.
기억해야 할 것은 KAN이 가장자리에 활성화 기능을 가지고 있다는 것입니다. 그들은 B-스플라인을 사용합니다. 표시된 예에서 저자는 단순화를 위해 조각별 선형 함수만 사용합니다. 이는 네트워크의 모델링 기능을 변경하지 않습니다.
다음은 조각별 선형 함수의 예입니다.
def f(x):if x
저자는 여러 ReLU 및 선형 함수를 사용하여 이 함수를 쉽게 다시 작성할 수 있다고 말했습니다. 때로는 ReLU의 입력을 이동해야 하는 경우도 있습니다.
plt.plot(X, -2*X + torch.relu(X)*1.5 + torch.relu(X-1)*2.5)plt.grid()
실제 질문은 KAN 레이어를 일반적인 MLP 레이어로 다시 작성하는 방법입니다. n개의 입력 뉴런, m개의 출력 뉴런이 있고 조각별 함수에 k개의 조각이 있다고 가정합니다. 이를 위해서는 n*m*k 매개변수가 필요합니다(모서리당 k개의 매개변수, n*m 모서리가 있음).
이제 KAN 에지를 고려해보세요. 이렇게 하려면 입력을 k 번 복사해야 하며 각 복사본은 상수에 의해 이동된 다음 ReLU 및 선형 레이어(첫 번째 레이어 제외)를 통해 실행되어야 합니다. 그래픽으로 보면 다음과 같습니다(C는 상수이고 W는 가중치).
이제 각 모서리에 대해 이 프로세스를 반복할 수 있습니다. 그러나 한 가지 주목해야 할 점은 조각별 선형 함수 그리드가 모든 곳에서 동일하다면 중간 ReLU 출력을 공유하고 여기에 가중치를 혼합할 수 있다는 것입니다.
Pytorch에서는 다음과 같이 번역됩니다.
k = 3 # Grid sizeinp_size = 5out_size = 7batch_size = 10X = torch.randn(batch_size, inp_size) # Our inputlinear = nn.Linear(inp_size*k, out_size)# Weightsrepeated = X.unsqueeze(1).repeat(1,k,1)shifts = torch.linspace(-1, 1, k).reshape(1,k,1)shifted = repeated + shiftsintermediate = torch.cat([shifted[:,:1,:], torch.relu(shifted[:,1:,:])], dim=1).flatten(1)outputs = linear(intermediate)
이제 레이어는 다음과 같습니다.
세 레이어를 차례로 고려하세요.
입력 확장을 무시하고 다음과 같이 재정렬할 수 있습니다.
다음 레이어는 기본적으로 MLP라고 부를 수 있습니다. 선형 레이어를 더 크게 만들고, 확장 및 이동을 제거하고, 더 나은 모델링 기능을 얻을 수도 있습니다(비록 매개변수 비용은 더 높지만).
이 예를 통해 저자는 KAN이 일종의 MLP임을 보여줍니다. 이 진술은 모든 사람이 두 가지 유형의 방법을 다시 생각하게 만들었습니다.
실제로 KAN은 MLP와의 관계가 불분명한 것 외에도 여러 측면에서 의문을 제기해 왔습니다.
요약하면, 연구자들의 논의는 주로 다음과 같은 점에 집중되었습니다.
첫째, KAN의 주요 기여는 확장 속도, 정확성 등이 아닌 해석 가능성에 있습니다.
논문의 저자는 다음과 같이 말했습니다.
그 중에서 실제 문제를 해결하기 위한 모델에 대한 네트워크의 해석 가능성의 중요성은 자명합니다.
하지만 문제는 다음과 같습니다. "내 생각에 그들의 주장은 단지 학습한다는 것입니다. KAN이 동등한 NN보다 훨씬 적은 매개변수를 가지고 있다면 전자가 의미가 있습니다. KAN이 많은 것을 가질 수 없다면 어떻게 될까요? 동등한 NN보다 매개변수가 적습니까?
이 진술은 여전히 의심 스럽습니다. 논문에서 KAN의 저자들은 KAN의 200개 매개변수만을 사용하여 30만 매개변수의 MLP를 사용하여 DeepMind의 수학적 정리 연구를 재현할 수 있었다고 밝혔습니다. 결과를 본 후, Georgia Tech 부교수 Humphrey Shi의 학생 2명이 DeepMind의 실험을 재검토한 결과 단 122개의 매개변수만으로 DeepMind의 MLP가 KAN의 81.6% 정확도와 일치할 수 있음을 발견했습니다. 게다가 그들은 DeepMind 코드를 크게 변경하지 않았습니다. 이 결과를 얻기 위해 그들은 네트워크 크기를 줄이고, 무작위 시드를 사용하고, 훈련 시간을 늘렸습니다.
이에 대해 논문 작성자도 긍정적인 반응을 보였습니다.
둘째, KAN과 MLP는 근본적으로 방법이 다르지 않습니다.
"네, 그건 분명히 똑같습니다. KAN에서는 활성화를 먼저 한 다음 선형 조합을 수행하는 반면, MLP에서는 선형 조합을 먼저 수행한 다음 활성화를 수행합니다. 증폭시키세요. 기본적으로는 똑같습니다. 제가 아는 한, KAN을 사용하는 주된 이유는 해석 가능성과 상징적 회귀입니다. "연구원들은 방법에 대한 의문 외에도 이 논문의 평가 반환을 요구했습니다. 이유:
“사람들이 생각하는 것 같습니다. KAN 논문을 딥 러닝의 기본 단위에 대한 큰 변화로 생각하는 것을 멈추고, 모든 에지에서 학습하기 위한 좋은 논문으로 생각해야 합니다. 비선형 함수의 해석 가능성이 이 논문의 주요 기여입니다. .”
셋째, 일부 연구자들은 KAN의 아이디어가 새로운 것이 아니라고 말했습니다.
"사람들은 1980년대에 이것을 연구하고 있었습니다. 해커 뉴스 토론에서 이 문제를 논의한 이탈리아 논문이 언급되었습니다. 따라서 이것은 전혀 새로운 것이 아닙니다. 40년 후, 이것은 다시 돌아오거나 거부된 것입니다.
하지만 KAN 논문의 저자들도 이 문제를 얼버무리지 않았음을 알 수 있습니다.
“이 아이디어는 새로운 것이 아니지만 저자가 그것을 부끄러워하는 것 같지는 않습니다. 그는 모든 것을 멋지게 포장하고 장난감 데이터에 대한 멋진 실험을 했습니다. "
동시에 10여 년 전 Ian Goodfellow와 Yoshua Bengio의 논문 MaxOut(https://arxiv.org/pdf/1302.4389)도 언급되었습니다. 일부 연구자들은 두 가지가 "약간의 차이는 있지만, 생각이 좀 비슷해요.”
저자: 원래 연구 목표는 그야말로 해석 가능성이었습니다
열띤 토론 끝에 저자 중 한 명인 Sachin Vaidya가 나왔습니다.
이 논문의 저자 중 한 사람으로서 몇 마디 말씀드리고 싶습니다. KAN이 받고 있는 관심은 놀랍습니다. 이 토론은 신기술을 한계까지 밀어붙이고 무엇이 효과가 있고 무엇이 효과가 없는지 알아내는 데 꼭 필요한 것입니다.
동기 부여에 대한 배경 지식을 공유해야겠다고 생각했습니다. KAN을 구현하기 위한 우리의 주요 아이디어는 물리학자들이 자연법칙에 대해 발견한 통찰력을 "학습"할 수 있는 해석 가능한 AI 모델을 찾는 것에서 비롯됩니다. 따라서 다른 사람들이 깨달은 것처럼 전통적인 블랙박스 모델은 과학의 근본적인 발견에 중요한 통찰력을 제공할 수 없기 때문에 우리는 이 목표에 전적으로 집중하고 있습니다. 그런 다음 물리학 및 수학과 관련된 예를 통해 KAN이 해석 가능성 측면에서 기존 방법보다 훨씬 뛰어난 성능을 보여줍니다. 우리는 KAN의 유용성이 초기 동기를 훨씬 넘어 확장되기를 바랍니다.
GitHub 홈페이지에서 논문 저자 중 한 명인 Liu Ziming도 이 연구에 대한 평가에 다음과 같이 답변했습니다.
최근 제가 받은 가장 일반적인 질문은 KAN이 차세대가 될 것인가 하는 것입니다. LLM의. 이에 대해서는 명확한 판단이 없습니다.
KAN은 높은 정확성과 해석 가능성을 중시하는 애플리케이션을 위해 설계되었습니다. 우리는 LLM의 해석 가능성에 관심을 갖고 있지만 해석 가능성은 LLM과 과학에 있어 매우 다른 의미를 가질 수 있습니다. LLM의 높은 정확도에 관심이 있습니까? 스케일링 법칙은 그렇게 암시하는 것처럼 보이지만 아마도 매우 정확하지는 않을 것입니다. 게다가 정확성은 LLM과 과학에 있어 다른 의미를 가질 수도 있습니다.
KAN을 비판하는 사람들을 환영합니다. 진실을 테스트하는 유일한 기준은 실천입니다. 실제로 시도해보고 성공 또는 실패로 입증될 때까지 우리가 미리 알지 못하는 것들이 많이 있습니다. KAN이 성공하는 모습을 보고 싶지만 KAN의 실패도 궁금합니다.
KAN과 MLP는 각각 어떤 경우에는 장점이 있고 어떤 경우에는 한계가 있습니다. 나는 두 가지를 모두 포괄하는 이론적 틀에 관심이 있고 어쩌면 새로운 대안을 제시할 수도 있습니다(물리학자들은 통일 이론을 좋아합니다. 죄송합니다).
KAN 논문의 첫 번째 저자는 Liu Ziming입니다. 그는 물리학자이자 기계 학습 연구원이며 현재 Max Tegmark 산하의 MIT와 IAIFI에서 3년차 박사 과정을 밟고 있습니다. 그의 연구 관심분야는 인공지능과 물리학의 교차점이다.
위 내용은 폭발 후 반전? '하룻밤 만에 MLP 죽였다' KAN : 사실 나도 MLP다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!