1월 24일, Shanghai Yanxinshuzhi Artificial Intelligence Technology Co., Ltd.는 Attention 메커니즘이 없는 대규모 일반 자연어 모델인 Yan 모델을 출시했습니다. Yancore Digital Intelligence 기자 회견에 따르면 Yan 모델은 Transformer 아키텍처를 대체하기 위해 자체 개발한 새로운 "Yan 아키텍처"를 사용하며 Transformer와 비교하여 Yan 아키텍처는 메모리 용량이 3배 증가하고 속도가 7배 증가했습니다. 5배 향상된 추론 처리량을 달성합니다. Yancore Digital Intelligence의 CEO인 Liu Fanping은 대규모로 유명한 Transformer의 높은 컴퓨팅 성능과 높은 비용이 실제 응용 분야에서 많은 중소기업의 의욕을 꺾었다고 믿습니다. 내부 아키텍처의 복잡성으로 인해 의사 결정 과정을 설명하기가 어렵습니다. 긴 시퀀스를 처리하는 데 따른 어려움과 통제할 수 없는 환각 문제로 인해 특정 핵심 분야 및 특수 시나리오에서 대규모 모델을 광범위하게 적용하는 것도 제한됩니다. 클라우드 컴퓨팅과 엣지 컴퓨팅이 대중화되면서 고성능, 저에너지 소비를 갖춘 대규모 AI 모델에 대한 업계 수요가 늘어나고 있습니다.
"전 세계적으로 많은 뛰어난 연구자들이 Transformer 아키텍처에 대한 과도한 의존을 근본적으로 해결하고 Transformer를 대체할 수 있는 더 나은 방법을 찾기 위해 노력해 왔습니다. 심지어 Transformer 논문의 저자 중 한 명인 Llion Jones도 'Transformer 이후의 가능성'을 탐구하고 있습니다. 진화 원리에 기반한 자연에서 영감을 받은 지능형 방법을 사용하여 다양한 각도에서 AI 프레임워크를 재정의하려고 시도합니다."
기자회견에서 Core Digital은 동일한 리소스 조건 하에서 훈련 효율성과 추론 처리량이 향상된다고 밝혔습니다. Yan 아키텍처 모델은 Transformer 아키텍처에 비해 각각 7배, 5배, 메모리 용량은 3배 향상되었습니다. Yan 아키텍처의 설계는 추론 중에 Yan 모델의 공간 복잡도를 일정하게 만듭니다. 따라서 Yan 모델은 Transformer가 직면한 긴 시퀀스 문제에 대해서도 잘 작동합니다. 비교 데이터에 따르면 단일 4090 24G 그래픽 카드에서 모델 출력 토큰의 길이가 2600을 초과하면 Transformer 모델은 비디오 메모리 부족으로 어려움을 겪는 반면 Yan 모델의 비디오 메모리 사용량은 항상 약 14G에서 안정적입니다. 이론적으로 무한 길이 추론이 가능합니다.
위 내용은 Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!