Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시-일체 포함-php.cn

집

기술 주변기기

일체 포함

Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 26, 2024 am 08:24 AM

시작하기

1월 24일, Shanghai Yanxinshuzhi Artificial Intelligence Technology Co., Ltd.는 Attention 메커니즘이 없는 대규모 일반 자연어 모델인 Yan 모델을 출시했습니다. Yancore Digital Intelligence 기자 회견에 따르면 Yan 모델은 Transformer 아키텍처를 대체하기 위해 자체 개발한 새로운 "Yan 아키텍처"를 사용하며 Transformer와 비교하여 Yan 아키텍처는 메모리 용량이 3배 증가하고 속도가 7배 증가했습니다. 5배 향상된 추론 처리량을 달성합니다. Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시 Yancore Digital Intelligence의 CEO인 Liu Fanping은 대규모로 유명한 Transformer의 높은 컴퓨팅 성능과 높은 비용이 실제 응용 분야에서 많은 중소기업의 의욕을 꺾었다고 믿습니다. 내부 아키텍처의 복잡성으로 인해 의사 결정 과정을 설명하기가 어렵습니다. 긴 시퀀스를 처리하는 데 따른 어려움과 통제할 수 없는 환각 문제로 인해 특정 핵심 분야 및 특수 시나리오에서 대규모 모델을 광범위하게 적용하는 것도 제한됩니다. 클라우드 컴퓨팅과 엣지 컴퓨팅이 대중화되면서 고성능, 저에너지 소비를 갖춘 대규모 AI 모델에 대한 업계 수요가 늘어나고 있습니다.
"전 세계적으로 많은 뛰어난 연구자들이 Transformer 아키텍처에 대한 과도한 의존을 근본적으로 해결하고 Transformer를 대체할 수 있는 더 나은 방법을 찾기 위해 노력해 왔습니다. 심지어 Transformer 논문의 저자 중 한 명인 Llion Jones도 'Transformer 이후의 가능성'을 탐구하고 있습니다. 진화 원리에 기반한 자연에서 영감을 받은 지능형 방법을 사용하여 다양한 각도에서 AI 프레임워크를 재정의하려고 시도합니다."
기자회견에서 Core Digital은 동일한 리소스 조건 하에서 훈련 효율성과 추론 처리량이 향상된다고 밝혔습니다. Yan 아키텍처 모델은 Transformer 아키텍처에 비해 각각 7배, 5배, 메모리 용량은 3배 향상되었습니다. Yan 아키텍처의 설계는 추론 중에 Yan 모델의 공간 복잡도를 일정하게 만듭니다. 따라서 Yan 모델은 Transformer가 직면한 긴 시퀀스 문제에 대해서도 잘 작동합니다. 비교 데이터에 따르면 단일 4090 24G 그래픽 카드에서 모델 출력 토큰의 길이가 2600을 초과하면 Transformer 모델은 비디오 메모리 부족으로 어려움을 겪는 반면 Yan 모델의 비디오 메모리 사용량은 항상 약 14G에서 안정적입니다. 이론적으로 무한 길이 추론이 가능합니다.

Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시

또한 연구팀은 모델 내부 구조의 복잡성을 줄이기 위해 선형 계산 방법과 결합된 합리적인 상관 특성 함수 및 메모리 연산자를 개척했습니다. 새로운 아키텍처의 Yan 모델은 과거 자연어 처리의 '해석할 수 없는 블랙박스'를 열고 의사결정 프로세스의 투명성과 설명 가능성을 완전히 탐색하여 고위험 분야에서 대형 모델의 광범위한 사용을 촉진할 것입니다. 의료, 금융, 법률 등이다.

Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시

Liu Fanping은 Yan 모델이 민영화된 배포 애플리케이션을 100% 지원하고 클리핑이나 압축 없이 주류 소비자급 CPU와 같은 최종 장치에서 손실 없이 실행될 수 있어 GPU에서 실행되는 다른 모델과 동일한 효과를 얻을 수 있다고 말했습니다. 기자회견에서 Yan은 오프라인 후 노트북에서 실행되는 실시간 클립을 보여줬고 Liu Fanping은 오프라인 엔드사이드 배포가 향후 Core Intelligence의 중요한 상용화 방향이 될 것이라고 말했습니다.

위 내용은 Yancore Digital, 오프라인 장치 측 배포를 지원하는 대규모 Non-Attention 메커니즘 모델 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사