>  기사  >  기술 주변기기  >  Ant Bailing 대형 모델의 최신 진행 상황: 이미 기본 다중 모드 기능을 갖추고 있습니다.

Ant Bailing 대형 모델의 최신 진행 상황: 이미 기본 다중 모드 기능을 갖추고 있습니다.

王林
王林원래의
2024-07-10 15:06:57443검색

7월 5일, 2024년 세계 인공지능 컨퍼런스의 "신뢰할 수 있는 대형 모델이 산업 혁신과 개발에 도움이 됩니다" 포럼에서 Ant Group은 자체 개발한 Bailing 모델의 최신 개발 진행 상황을 발표했습니다. " '듣기', '말하기', '그림 그리기'라는 기본 다중 모드 기능을 통해 오디오, 비디오, 사진, 텍스트 등 다중 모드 데이터를 직접 이해하고 훈련할 수 있습니다. 기본 다중 방식은 AGI를 구현하는 유일한 방법으로 간주되며, 중국에서는 소수의 대형 모델 제조업체만이 이 기능을 달성했습니다. 기자는 컨퍼런스 시연을 통해 대형 모델이 인간처럼 인식하고 상호 작용할 수 있도록 하여 지능형 신체 경험의 업그레이드를 지원하는 Bailing의 다중 모드 기능이 'Alipay 지능형 보조자'에 적용되었음을 확인했습니다. 앞으로는 Alipay에서 더욱 지능적인 에이전트 업그레이드를 지원하세요.

Ant Bailing 대형 모델의 최신 진행 상황: 이미 기본 다중 모드 기능을 갖추고 있습니다.

1 (Ant Group 부사장 Xu Peng이 Bailing Large Model의 기본 다중 모드 기능을 소개했습니다.)
  1. Bailing Large Model의 다중 모드 기능은 중국 그래픽에서 GPT-4o 수준에 도달했습니다. 및 텍스트 이해 MMBench-CN 평가 세트는 정보 통신 기술 아카데미의 다중 모드 보안 기능 평가에서 우수 수준(최고 수준)에 도달했으며 대규모 애플리케이션을 지원할 수 있는 능력을 갖추고 있으며 시리즈를 지원할 수 있습니다. AIGC, 그래픽 대화, 비디오 이해, 디지털 휴먼 등 다운스트림 작업을 수행합니다.
  2. 멀티모달 대형 모델 기술은 AI가 인간 세계의 복잡한 정보를 더 잘 이해할 수 있게 하고, 적용 시 AI가 인간 상호 작용 습관과 더욱 일치하도록 만들 수 있습니다. 지능형 고객 서비스, 자율주행 등 다양한 분야에서 큰 잠재력을 보여주었습니다. 운전 및 의료 진단에 활용 가능성.
  3. Ant Group은 다양한 응용 시나리오를 보유하고 있으며 Bailing 대형 모델의 다중 모드 기능은 생활 서비스, 검색 추천, 대화형 엔터테인먼트 및 기타 시나리오에도 적용되었습니다.
  4. 생활 서비스 측면에서 Ant Group은 다중 모드 모델을 사용하여 ACT 기술을 구현하여 에이전트가 특정 계획 및 실행 기능을 가질 수 있도록 합니다. 예를 들어 사용자의 음성 사양을 기반으로 스타벅스 애플릿에서 커피 한 잔을 직접 주문합니다. , 이 기능은 현재 Alipay에서 사용할 수 있습니다. 지능형 도우미가 온라인 상태입니다.
  5. 의료 분야에서는 멀티모달 기능을 통해 사용자가 복잡한 작업을 수행할 수 있으며, 100개 이상의 복잡한 의료 테스트 보고서를 식별하고 해석할 수 있으며, 모발 건강 및 탈모를 감지하여 치료에 도움을 줄 수도 있습니다.

    Ant Bailing 대형 모델의 최신 진행 상황: 이미 기본 다중 모드 기능을 갖추고 있습니다.

    (Ant 전시장에서 현장에서 Alipay 지능형 비서를 사용하여 커피 주문을 경험한 관객)

런칭 현장에서 Ant Group의 Xu Peng 부사장은 새로 업그레이드된 멀티 모드보다 더 많은 응용 시나리오를 시연했습니다. 기술은 다음을 달성할 수 있습니다.

  1. 통과 자연스러운 형태의 영상 대화에서 AI 도우미는 사용자의 옷을 식별하고 데이트에 어울리는 제안을 제공할 수 있습니다.
  2. 사용자의 다양한 의도에 따라 다양한 재료로 다양한 레시피 조합을 만듭니다.
  3. 사용자가 설명하는 신체적 증상에 따라 여러 의약품 중에서 잠재적으로 적합한 의약품을 선택하고 사용자가 참고할 수 있도록 복용 방법을 읽어보세요.

Bailing의 대형 모델의 다중 모드 기능을 기반으로 Ant Group은 업계에서 대규모 애플리케이션 착륙 사례를 탐색해 왔습니다.

포럼에 동시에 공개된 '알리페이 멀티모달 의료모델'은 이러한 탐구의 실천이다. Alipay의 다중 모드 의료 모델에는 보고서, 이미지, 의약품 및 기타 다중 모드 정보를 포함하여 수백억 개의 중국어 및 영어 그래픽과 텍스트, 수천억 개의 의료 텍스트 코퍼스 및 수천만 개의 고급 정보가 추가된 것으로 이해됩니다. , 전문적인 의학 지식을 보유하고 있으며 중국 의학 LLM 평가 목록인 프롬프트CBLUE에서 A 목록 1위, B 목록 2위를 차지했습니다.

Bailing 대형 모델의 다중 모드 기능을 기반으로 Ant Group과 우한 대학교가 공동 개발한 원격 감지 모델인 SkySense도 포럼에서 오픈 소스 계획을 발표했습니다. SkySense는 현재 가장 큰 매개변수 규모, 가장 포괄적인 작업 범위 및 가장 높은 인식 정확도를 갖춘 다중 모드 원격 감지 기본 모델입니다.

"단일 텍스트 의미 이해부터 다중 모드 기능까지, 이는 인공 지능 기술의 핵심 반복이며, 다중 모드 기술로 생성된 '보고, 듣고, 쓰고, 그리기'의 응용 시나리오는 AI 성능을 더욱 향상시킬 것입니다. 현실적으로 인간에게 더 가까워지기 위해 Ant는 기본 다중 양식 기술의 연구 개발에 계속 투자할 것입니다.”라고 Xu Peng은 말했습니다.

위 내용은 Ant Bailing 대형 모델의 최신 진행 상황: 이미 기본 다중 모드 기능을 갖추고 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.