지난해 12월, CMU와 프린스턴의 두 연구원이 Mamba 아키텍처를 출시해 AI 커뮤니티를 단번에 충격에 빠뜨렸습니다!
그 결과, '트랜스포머의 패권 전복'이 기대되는 이 논문이 오늘 공개되어 거절 의혹을 받고 있다고요? !
오늘 아침, 코넬 대학교의 사샤 러쉬(Sasha Rush) 부교수는 기초 작업이 될 것으로 예상되는 이 논문이 ICLR 2024에서 거부될 것 같다는 사실을 처음 발견했습니다.
이라며 "솔직히 이해가 안 된다. 거절당하면 무슨 기회가 있겠는가"라고 말했다.
OpenReview에서 볼 수 있듯이 4명의 리뷰어가 부여한 점수는 3, 6, 8, 8입니다.
이 점수가 논문이 거부되지는 않더라도 3점이라는 낮은 점수도 터무니없습니다.
CMU와 Princeton University의 두 연구원이 발표한 이 논문은 새로운 아키텍처 Mamba를 제안합니다.
이 SSM 아키텍처는 언어 모델링의 Transformer와 유사하며 선형적으로 확장할 수 있으면서도 추론 처리량이 5배 더 높습니다!
논문 주소 : https://arxiv.org/pdf/2312.00752.pdf
논문이 나오자마자 AI 커뮤니티에 직접적인 충격을 안겼다는 말이 많았습니다. 그 뒤집힌 트랜스포머가 드디어 탄생했다.
이제 Mamba의 논문이 거절될 수도 있는데, 이는 많은 사람들이 이해할 수 없는 일입니다.
튜링의 거인 르쿤도 비슷한 '불의'를 겪었다며 이 토론에 참여했습니다.
"그때 인용이 가장 많았던 것 같아요. 제가 Arxiv에 제출한 논문만 1880번 이상 인용됐지만 받아들여지지 않았어요."
LeCun은 CNN(컨볼루션 신경망)을 사용한 광학 문자 인식 및 컴퓨터 비전 분야의 연구로 유명하며, 이로 인해 2019년 Turing Award를 수상했습니다.
그러나 2015년에 발표된 그의 논문 "Deep Convolutional Network Based on Graph Structure Data"는 학회에서 한 번도 채택되지 않았습니다.
논문 주소: https://arxiv.org/pdf/1506.05163.pdf
딥 러닝 AI 연구자인 Sebastian Raschka는 그럼에도 불구하고 Mamba가 AI 커뮤니티에 지대한 영향을 끼쳤다고 말했습니다. .
최근에는 MoE-Mamba, Vision Mamba 등 Mamba 아키텍처에서 파생된 연구가 크게 이루어지고 있습니다.
흥미롭게도 Mamba가 낮은 점수를 받았다는 소식을 전한 Sasha Rush도 오늘 이러한 연구를 바탕으로 새로운 논문인 MambaByte를 발표했습니다. ㅋㅋㅋ
일부 네티즌들은 맘바 논문이 arXiv를 점령하기 시작할 것이라고 말했습니다.
"예를 들어 토큰 없는 선택적 상태 공간 모델인 MambaByte를 제안하는 이 논문을 봤습니다. 기본적으로 Mamba SSM을 적용하여 원본 토큰에서 직접 학습합니다." Mamba Papers도 오늘 이 연구를 전달했습니다.
이런 인기 있는 논문은 낮은 점수를 받았습니다. 피어 리뷰어들이 마케팅에 별로 관심을 두지 않는 것 같다고 하더군요.
맘바 논문에 3점을 준 이유
맘바 논문에 낮은 점수를 준 이유는 무엇인가요?
리뷰에서 그가 제기한 질문은 두 부분으로 나누어져 있습니다. 하나는 모델 설계에 대한 질문이고, 다른 하나는 실험에 대한 질문입니다.
모델 디자인
- Mamba의 디자인 동기는 Transformer 기반 모델의 효율성을 높이면서 루프 모델의 단점을 해결하는 것입니다. 이 방향에는 S4-대각선[1], SGConv[2], MEGA[3], SPADE[4] 및 많은 효율적인 Transformer 모델(예: [5]) 등 많은 연구가 있습니다. 이러한 모델은 모두 선형에 가까운 복잡성을 달성하므로 저자는 모델 성능 및 효율성 측면에서 Mamba를 이러한 작업과 비교해야 합니다. 모델 성능에 관해서는 몇 가지 간단한 실험(예: Wikitext-103의 언어 모델링)으로 충분합니다. - 많은 어텐션 기반 Transformer 모델은 길이 일반화 능력을 보여줍니다. 즉, 모델은 더 짧은 시퀀스 길이에서 훈련된 다음 더 긴 시퀀스 길이에서 테스트될 수 있습니다. 몇 가지 예로는 상대 위치 인코딩(T5)과 Alibi[6]가 있습니다. SSM은 일반적으로 연속형이므로 Mamba에는 이러한 길이 일반화 기능이 있습니까?
Experiment
- 저자는 더 강력한 기준으로 비교해야 합니다. 저자는 H3가 모델 아키텍처의 동기로 사용되었음을 인정합니다. 그러나 실험적으로 H3와 비교하지는 않았습니다. [7]의 표 4에서 볼 수 있듯이 Pile 데이터 세트에서 H3의 ppl은 각각 8.8(125M), 7.1(355M) 및 6.0(1.3B)으로 Mamba보다 훨씬 좋습니다. 저자는 H3과의 비교를 보여줘야 합니다. - 사전 훈련된 모델의 경우 저자는 제로샷 추론 결과만 보여줍니다. 이 설정은 매우 제한적이며 결과는 Mamba의 효율성을 제대로 입증하지 못합니다. 입력 시퀀스가 자연스럽게 매우 길어지는 문서 요약과 같은 긴 시퀀스에 대한 더 많은 실험을 저자에게 권장합니다(예: arXiv 데이터 세트의 평균 시퀀스 길이가 8k보다 큼).
- 저자는 자신의 주요 공헌 중 하나가 긴 시퀀스 모델링이라고 주장합니다. 저자는 기본적으로 긴 서열 이해를 위한 표준 벤치마크인 LRA(Long Range Arena)에 대한 더 많은 기준선과 비교해야 합니다.
- 메모리 벤치마크가 없습니다. 섹션 4.5의 제목은 "속도 및 메모리 벤치마크"이지만 속도 비교만 다룹니다. 또한 작성자는 그림 8의 왼쪽에 모델 레이어, 모델 크기, 컨볼루션 세부 사항 등과 같은 보다 자세한 설정을 제공해야 합니다. 시퀀스 길이가 매우 길 때 FlashAttention이 가장 느린 이유에 대해 저자가 직관적인 설명을 제공할 수 있습니까(왼쪽 그림 8)?
리뷰어의 의심에 대해 저자도 숙제를 하러 돌아가서 반박할 실험 데이터를 생각해 냈습니다.
예를 들어, 모델 설계에 관한 첫 번째 질문에 대해 저자는 팀이 소규모 벤치마크보다는 대규모 사전 학습의 복잡성에 초점을 맞출 계획이라고 밝혔습니다.
그럼에도 불구하고 Mamba는 WikiText-103에서 제안된 모든 모델과 그 이상을 훨씬 능가하며, 이는 언어에 대한 일반적인 결과에서 기대할 수 있는 것입니다.
먼저 하이에나 종이와 똑같은 환경에서 Mamba를 비교했습니다[폴리, 표 4.3]. 보고된 데이터 외에도 우리는 자체적으로 강력한 Transformer 기준을 조정했습니다.
그런 다음 모델을 Mamba로 변경했습니다. 이는 Transformer에 비해 1.7ppl, 원래 기준 Transformer에 비해 2.3ppl이 향상되었습니다. 대부분의 딥 시퀀스 모델(FlashAttention 포함)의 경우 메모리 사용량은 활성화 텐서의 크기에 불과합니다. 실제로 Mamba는 메모리 효율성이 매우 높습니다. A100 80GB GPU에서 125M 모델의 교육 메모리 요구 사항을 추가로 측정했습니다. 각 배치는 길이가 2048인 시퀀스로 구성됩니다. 우리는 이를 우리가 알고 있는 가장 메모리 효율적인 Transformer 구현(torch.compile을 사용하는 커널 융합 및 FlashAttention-2)과 비교했습니다.
자세한 반박 내용은 https://openreview.net/forum?id=AL1fq05o7H
를 확인해주세요. 일반적으로 리뷰어의 댓글은 저자에 의해 해결되었습니다. 그러나 이러한 반박은. 리뷰어들은 모두 무시했습니다.
누군가가 이 리뷰어의 의견에서 "요점"을 발견했습니다. 어쩌면 그는 rnn이 무엇인지 이해하지 못하는 것일 수도 있습니다.
전체 과정을 지켜본 네티즌들은 그 과정이 너무 고통스러워서 읽기 힘들 정도였다고 말했지만, 심사위원들은 전혀 흔들리지 않고 재평가도 하지 않았습니다.
신뢰도 5로 평가하고 저자의 근거가 충분한 반박을 무시하세요. 이런 리뷰어는 너무 짜증납니다.
다른 세 명의 리뷰어는 6, 8, 8의 높은 점수를 주었습니다.
6점을 획득한 리뷰어는 "모델은 훈련 중에 여전히 Transformer와 같은 보조 메모리가 필요하다"는 점을 약점으로 지적했습니다.
8점을 받은 평론가는 이 기사의 약점은 단지 "일부 관련 저작에 대한 인용 부족"이라고 말했습니다.
8점을 준 또 다른 리뷰어는 "실증적인 부분이 매우 철저하고 결과가 좋다"며 논문을 칭찬했습니다.
약점조차 발견되지 않았습니다.
이렇게 광범위하게 분류되는 경우에는 설명이 있어야 합니다. 하지만 아직 메타 리뷰어 코멘트가 없습니다.
댓글에 누군가가 영혼고문에 대해 질문했는데 이렇게 낮은 점수가 3점인가요? ?
분명히 이 논문은 매우 낮은 매개변수로 더 나은 결과를 얻었고, GitHub 코드도 명확하고 누구나 테스트할 수 있어서 대중들 사이에서 호평을 받았기 때문에 모두가 어이없다고 느낍니다.
어떤 사람들은 단순히 WTF라고 외쳤습니다. Mamba 아키텍처가 LLM의 패턴을 변경할 수 없더라도 긴 시퀀스에서 다용도로 사용할 수 있는 신뢰할 수 있는 모델입니다. 이 점수를 받았다는 것은 오늘날의 학계가 쇠퇴했다는 뜻인가?
다행히도 이것은 다른 리뷰어들이 높은 점수를 줬고 아직 최종 결정이 내려지지 않은 4개의 댓글 중 하나에 불과하다고 감동적으로 말했습니다.
어떤 사람들은 리뷰어가 너무 피곤해서 판단력을 잃었을 것이라고 추측합니다.
또 다른 이유는 State Space 모델과 같은 새로운 연구 방향이 Transformer 분야에서 큰 성과를 낸 일부 평론가와 전문가를 위협할 수 있다는 점입니다. 상황은 매우 복잡합니다.
어떤 사람들은 Mamba가 3점을 받은 것이 업계에서 단순한 농담이라고 말합니다.
그들은 세밀한 벤치마크를 비교하는 데 중점을 두고 있지만 이 논문에서 정말 흥미로운 부분은 엔지니어링과 효율성입니다. 매우 좁은 분야의 하위 집합에 대한 오래된 벤치마크임에도 불구하고 우리가 SOTA에만 관심을 갖고 있기 때문에 연구가 죽어가고 있습니다.
"이론이 충분하지 않고 프로젝트가 너무 많습니다."
현재 이 "미스터리"는 아직 밝혀지지 않았으며 AI 커뮤니티 전체가 결과를 기다리고 있습니다.
위 내용은 트랜스포머의 획기적인 작업이 반대되었고, ICLR 리뷰는 의문을 제기했습니다! 대중은 블랙박스 조작을 비난하고, 르쿤도 비슷한 경험을 폭로했다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!