트랜스포머의 획기적인 작업이 반대되었고, ICLR 리뷰는 의문을 제기했습니다! 대중은 블랙박스 조작을 비난하고, 르쿤도 비슷한 경험을 폭로했다
지난해 12월, CMU와 프린스턴의 두 연구원이 Mamba 아키텍처를 출시해 AI 커뮤니티를 단번에 충격에 빠뜨렸습니다!
그 결과, '트랜스포머의 패권 전복'이 기대되는 이 논문이 오늘 공개되어 거절 의혹을 받고 있다고요? !
오늘 아침, 코넬 대학교의 사샤 러쉬(Sasha Rush) 부교수는 기초 작업이 될 것으로 예상되는 이 논문이 ICLR 2024에서 거부될 것 같다는 사실을 처음 발견했습니다.
이라며 "솔직히 이해가 안 된다. 거절당하면 무슨 기회가 있겠는가"라고 말했다.
OpenReview에서 볼 수 있듯이 4명의 리뷰어가 부여한 점수는 3, 6, 8, 8입니다.
이 점수가 논문이 거부되지는 않더라도 3점이라는 낮은 점수도 터무니없습니다.
Niu Wen은 3점을 얻었고, LeCun은 심지어 소리를 지르기까지 했습니다.
CMU와 Princeton University의 두 연구원이 발표한 이 논문은 새로운 아키텍처 Mamba를 제안합니다.
이 SSM 아키텍처는 언어 모델링의 Transformer와 유사하며 선형적으로 확장할 수 있으면서도 추론 처리량이 5배 더 높습니다!
논문 주소 : https://arxiv.org/pdf/2312.00752.pdf
논문이 나오자마자 AI 커뮤니티에 직접적인 충격을 안겼다는 말이 많았습니다. 그 뒤집힌 트랜스포머가 드디어 탄생했다.
이제 Mamba의 논문이 거절될 수도 있는데, 이는 많은 사람들이 이해할 수 없는 일입니다.
튜링의 거인 르쿤도 비슷한 '불의'를 겪었다며 이 토론에 참여했습니다.
"그때 인용이 가장 많았던 것 같아요. 제가 Arxiv에 제출한 논문만 1880번 이상 인용됐지만 받아들여지지 않았어요."
LeCun은 CNN(컨볼루션 신경망)을 사용한 광학 문자 인식 및 컴퓨터 비전 분야의 연구로 유명하며, 이로 인해 2019년 Turing Award를 수상했습니다.
그러나 2015년에 발표된 그의 논문 "Deep Convolutional Network Based on Graph Structure Data"는 학회에서 한 번도 채택되지 않았습니다.
논문 주소: https://arxiv.org/pdf/1506.05163.pdf
딥 러닝 AI 연구자인 Sebastian Raschka는 그럼에도 불구하고 Mamba가 AI 커뮤니티에 지대한 영향을 끼쳤다고 말했습니다. .
최근에는 MoE-Mamba, Vision Mamba 등 Mamba 아키텍처에서 파생된 연구가 크게 이루어지고 있습니다.
흥미롭게도 Mamba가 낮은 점수를 받았다는 소식을 전한 Sasha Rush도 오늘 이러한 연구를 바탕으로 새로운 논문인 MambaByte를 발표했습니다. ㅋㅋㅋ
일부 네티즌들은 맘바 논문이 arXiv를 점령하기 시작할 것이라고 말했습니다.
"예를 들어 토큰 없는 선택적 상태 공간 모델인 MambaByte를 제안하는 이 논문을 봤습니다. 기본적으로 Mamba SSM을 적용하여 원본 토큰에서 직접 학습합니다." Mamba Papers도 오늘 이 연구를 전달했습니다.
이런 인기 있는 논문은 낮은 점수를 받았습니다. 피어 리뷰어들이 마케팅에 별로 관심을 두지 않는 것 같다고 하더군요.
맘바 논문에 3점을 준 이유
맘바 논문에 낮은 점수를 준 이유는 무엇인가요?
리뷰에 3점을 준 리뷰어의 신뢰도는 5로, 이 점수에 대해 매우 확신하고 있음을 알 수 있습니다.
리뷰에서 그가 제기한 질문은 두 부분으로 나누어져 있습니다. 하나는 모델 설계에 대한 질문이고, 다른 하나는 실험에 대한 질문입니다.
- Mamba의 디자인 동기는 Transformer 기반 모델의 효율성을 높이면서 루프 모델의 단점을 해결하는 것입니다. 이 방향에는 S4-대각선[1], SGConv[2], MEGA[3], SPADE[4] 및 많은 효율적인 Transformer 모델(예: [5]) 등 많은 연구가 있습니다. 이러한 모델은 모두 선형에 가까운 복잡성을 달성하므로 저자는 모델 성능 및 효율성 측면에서 Mamba를 이러한 작업과 비교해야 합니다. 모델 성능에 관해서는 몇 가지 간단한 실험(예: Wikitext-103의 언어 모델링)으로 충분합니다. - 많은 어텐션 기반 Transformer 모델은 길이 일반화 능력을 보여줍니다. 즉, 모델은 더 짧은 시퀀스 길이에서 훈련된 다음 더 긴 시퀀스 길이에서 테스트될 수 있습니다. 몇 가지 예로는 상대 위치 인코딩(T5)과 Alibi[6]가 있습니다. SSM은 일반적으로 연속형이므로 Mamba에는 이러한 길이 일반화 기능이 있습니까?
Experiment
- 저자는 더 강력한 기준으로 비교해야 합니다. 저자는 H3가 모델 아키텍처의 동기로 사용되었음을 인정합니다. 그러나 실험적으로 H3와 비교하지는 않았습니다. [7]의 표 4에서 볼 수 있듯이 Pile 데이터 세트에서 H3의 ppl은 각각 8.8(125M), 7.1(355M) 및 6.0(1.3B)으로 Mamba보다 훨씬 좋습니다. 저자는 H3과의 비교를 보여줘야 합니다. - 사전 훈련된 모델의 경우 저자는 제로샷 추론 결과만 보여줍니다. 이 설정은 매우 제한적이며 결과는 Mamba의 효율성을 제대로 입증하지 못합니다. 입력 시퀀스가 자연스럽게 매우 길어지는 문서 요약과 같은 긴 시퀀스에 대한 더 많은 실험을 저자에게 권장합니다(예: arXiv 데이터 세트의 평균 시퀀스 길이가 8k보다 큼).
- 저자는 자신의 주요 공헌 중 하나가 긴 시퀀스 모델링이라고 주장합니다. 저자는 기본적으로 긴 서열 이해를 위한 표준 벤치마크인 LRA(Long Range Arena)에 대한 더 많은 기준선과 비교해야 합니다.
- 메모리 벤치마크가 없습니다. 섹션 4.5의 제목은 "속도 및 메모리 벤치마크"이지만 속도 비교만 다룹니다. 또한 작성자는 그림 8의 왼쪽에 모델 레이어, 모델 크기, 컨볼루션 세부 사항 등과 같은 보다 자세한 설정을 제공해야 합니다. 시퀀스 길이가 매우 길 때 FlashAttention이 가장 느린 이유에 대해 저자가 직관적인 설명을 제공할 수 있습니까(왼쪽 그림 8)?
리뷰어의 의심에 대해 저자도 숙제를 하러 돌아가서 반박할 실험 데이터를 생각해 냈습니다.
예를 들어, 모델 설계에 관한 첫 번째 질문에 대해 저자는 팀이 소규모 벤치마크보다는 대규모 사전 학습의 복잡성에 초점을 맞출 계획이라고 밝혔습니다.
그럼에도 불구하고 Mamba는 WikiText-103에서 제안된 모든 모델과 그 이상을 훨씬 능가하며, 이는 언어에 대한 일반적인 결과에서 기대할 수 있는 것입니다.
먼저 하이에나 종이와 똑같은 환경에서 Mamba를 비교했습니다[폴리, 표 4.3]. 보고된 데이터 외에도 우리는 자체적으로 강력한 Transformer 기준을 조정했습니다.
그런 다음 모델을 Mamba로 변경했습니다. 이는 Transformer에 비해 1.7ppl, 원래 기준 Transformer에 비해 2.3ppl이 향상되었습니다. 대부분의 딥 시퀀스 모델(FlashAttention 포함)의 경우 메모리 사용량은 활성화 텐서의 크기에 불과합니다. 실제로 Mamba는 메모리 효율성이 매우 높습니다. A100 80GB GPU에서 125M 모델의 교육 메모리 요구 사항을 추가로 측정했습니다. 각 배치는 길이가 2048인 시퀀스로 구성됩니다. 우리는 이를 우리가 알고 있는 가장 메모리 효율적인 Transformer 구현(torch.compile을 사용하는 커널 융합 및 FlashAttention-2)과 비교했습니다.
자세한 반박 내용은 https://openreview.net/forum?id=AL1fq05o7H
를 확인해주세요. 일반적으로 리뷰어의 댓글은 저자에 의해 해결되었습니다. 그러나 이러한 반박은. 리뷰어들은 모두 무시했습니다.
누군가가 이 리뷰어의 의견에서 "요점"을 발견했습니다. 어쩌면 그는 rnn이 무엇인지 이해하지 못하는 것일 수도 있습니다.
전체 과정을 지켜본 네티즌들은 그 과정이 너무 고통스러워서 읽기 힘들 정도였다고 말했지만, 심사위원들은 전혀 흔들리지 않고 재평가도 하지 않았습니다.
신뢰도 5로 평가하고 저자의 근거가 충분한 반박을 무시하세요. 이런 리뷰어는 너무 짜증납니다.
다른 세 명의 리뷰어는 6, 8, 8의 높은 점수를 주었습니다.
6점을 획득한 리뷰어는 "모델은 훈련 중에 여전히 Transformer와 같은 보조 메모리가 필요하다"는 점을 약점으로 지적했습니다.
8점을 받은 평론가는 이 기사의 약점은 단지 "일부 관련 저작에 대한 인용 부족"이라고 말했습니다.
8점을 준 또 다른 리뷰어는 "실증적인 부분이 매우 철저하고 결과가 좋다"며 논문을 칭찬했습니다.
약점조차 발견되지 않았습니다.
이렇게 광범위하게 분류되는 경우에는 설명이 있어야 합니다. 하지만 아직 메타 리뷰어 코멘트가 없습니다.
네티즌들은 "학계도 쇠퇴했어요!"라고 외쳤습니다.
댓글에 누군가가 영혼고문에 대해 질문했는데 이렇게 낮은 점수가 3점인가요? ?
분명히 이 논문은 매우 낮은 매개변수로 더 나은 결과를 얻었고, GitHub 코드도 명확하고 누구나 테스트할 수 있어서 대중들 사이에서 호평을 받았기 때문에 모두가 어이없다고 느낍니다.
어떤 사람들은 단순히 WTF라고 외쳤습니다. Mamba 아키텍처가 LLM의 패턴을 변경할 수 없더라도 긴 시퀀스에서 다용도로 사용할 수 있는 신뢰할 수 있는 모델입니다. 이 점수를 받았다는 것은 오늘날의 학계가 쇠퇴했다는 뜻인가?
다행히도 이것은 다른 리뷰어들이 높은 점수를 줬고 아직 최종 결정이 내려지지 않은 4개의 댓글 중 하나에 불과하다고 감동적으로 말했습니다.
어떤 사람들은 리뷰어가 너무 피곤해서 판단력을 잃었을 것이라고 추측합니다.
또 다른 이유는 State Space 모델과 같은 새로운 연구 방향이 Transformer 분야에서 큰 성과를 낸 일부 평론가와 전문가를 위협할 수 있다는 점입니다. 상황은 매우 복잡합니다.
어떤 사람들은 Mamba가 3점을 받은 것이 업계에서 단순한 농담이라고 말합니다.
그들은 세밀한 벤치마크를 비교하는 데 중점을 두고 있지만 이 논문에서 정말 흥미로운 부분은 엔지니어링과 효율성입니다. 매우 좁은 분야의 하위 집합에 대한 오래된 벤치마크임에도 불구하고 우리가 SOTA에만 관심을 갖고 있기 때문에 연구가 죽어가고 있습니다.
"이론이 충분하지 않고 프로젝트가 너무 많습니다."
현재 이 "미스터리"는 아직 밝혀지지 않았으며 AI 커뮤니티 전체가 결과를 기다리고 있습니다.
위 내용은 트랜스포머의 획기적인 작업이 반대되었고, ICLR 리뷰는 의문을 제기했습니다! 대중은 블랙박스 조작을 비난하고, 르쿤도 비슷한 경험을 폭로했다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기
