>  기사  >  기술 주변기기  >  Alibaba Cloud의 새로운 대형 모델이 출시되었습니다! AI 아티팩트 'Tongyi Listening' 공개 베타 출시: 긴 동영상을 1초 안에 요약할 수 있고 자동으로 메모하고 자막을 뒤집을 수도 있음 |

Alibaba Cloud의 새로운 대형 모델이 출시되었습니다! AI 아티팩트 'Tongyi Listening' 공개 베타 출시: 긴 동영상을 1초 안에 요약할 수 있고 자동으로 메모하고 자막을 뒤집을 수도 있음 |

王林
王林앞으로
2023-06-03 17:23:111230검색

대형 모델 기능에 액세스할 수 있는 그룹 모임을 위한 또 다른 실용적인 도구가 이제 무료 공개 베타로 공개됩니다!

그 뒤에 있는 큰 모델은 Alibaba의 Tongyi Qianwen입니다. 그룹회의 마법의 도구라고 불리는 이유 -

보세요, 스테이션 B에서 학생들에게 큰 모형 논문을 집중적으로 읽도록 지도하고 있는 Li Mu 선생님입니다.

안타깝게도 이 순간 사장님께서 벽돌을 빨리 옮기라고 재촉하셨습니다. 나는 조용히 헤드폰을 벗고 "Tongyi Listening"이라는 플러그인을 클릭한 다음 페이지를 전환할 수밖에 없었습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

무엇을 추측할까요? 나는 "그룹 회의"에 참석하지 않았지만 Tingwu는 그룹 회의 내용을 완벽하게 녹음하도록 도와주었습니다.

한 번의 클릭으로 핵심 단어, 전체 텍스트 요약 및 학습 포인트를 요약하는 데 도움이 되었습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

대형 모델 기능에 방금 연결한 이 "일반 의미 듣기"는 간단히 말하면 오디오 및 비디오 콘텐츠에 중점을 둔 업무 학습 AI 도우미의 대형 모델 버전입니다.

이전 녹음 전사 도구와 달리 녹음 및 비디오를 텍스트로 변환할 수 있을 뿐만 아니라 한 번의 클릭으로 전체 텍스트를 요약할 수 있으며, 다양한 화자의 의견도 요약할 수 있습니다:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

실시간 자막 번역으로도 사용할 수 있습니다:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

뿐만 아니라 그룹 회의를 개최하는 데 유용할 뿐만 아니라 정기적인 회의에도 유용합니다. 많은 녹음, 밤샘, 다양한 해외 회의를 처리해야 하는 큐비트의 경우 일상 업무를 위한 정말 새로운 유물입니다.

신속하게 심층 테스트를 진행했습니다.

통이 듣기 실기 테스트

오디오 내용을 정리하고 분석하는데 있어서 가장 기본적이고 중요한 것은 표기의 정확성입니다.

1라운드에서는 먼저 약 10분 분량의 중국어 동영상을 업로드하여 유사한 도구와 비교하여 Tingwu가 정확도 측면에서 어떻게 수행되는지 확인합니다.

기본적으로 AI는 이런 중간 길이의 오디오와 비디오를 매우 빠르게 처리하며, 2분 이내에 전사가 가능합니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

먼저 Tingwu의 퍼포먼스를 살펴보겠습니다:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

약 200 단어로 구성된 이 단락에서 Tingwu는 두 가지 실수만 했습니다: 강함 → 벽, 둘 다 좋음 → 딱 맞습니다. 원자핵, 전하, 반발력과 같은 물리적 용어는 들으면 이해할 수 있습니다.

동일한 영상을 이용해 Feishu Miaoji에서도 테스트해봤습니다. 기본적인 문제는 크지 않지만 듣기에 비해 페이슈는 두 가지 실수를 더 했다. '원자' 중 하나를 '정원'으로 썼고, '반발'을 '힘'으로 읽었다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

흥미로운 점은 Feishu도 Hengwu가 저지른 실수를 하나씩 재현했다는 것입니다. 이 냄비는 큐빗(수동 개 머리)으로 말을 삼키고 말하는 어떤 업 마스터가 짊어져야 할 것 같습니다.

iFlytek은 이 말을 듣고 처음 두 참가자가 인식하지 못한 "딱 맞는" 것을 구별할 수 있었습니다. 그러나 iFlytek은 기본적으로 모든 "벽"을 "강함"으로 번역했고 "강한 설탕 알갱이"의 마법 같은 조합이 나타났습니다. 또한, 참가자 3명 중 아이플라이텍만이 '전자기력'을 '전자력'으로 오해한 것으로 나타났다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

일반적으로 이러한 AI 도구에 대한 중국어 인식은 어렵지 않습니다. 그렇다면 그들은 영어 자료 앞에서 어떻게 행동할 것인가?

Musk의 과거 OpenAI와의 분쟁에 대한 최신 인터뷰를 업로드했습니다.

먼저 Tingwu가 제공한 결과를 살펴보겠습니다. 머스크의 답변 중 Huar는 기본적으로 Larry Page의 이름을 제외한 모든 사람을 정확하게 식별했습니다.

Tingwu는 영어 음역 결과를 중국어로 직접 번역하고 이중 언어 비교도 표시할 수 있다는 점을 언급할 가치가 있습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

Feishu Miaoji는 성공적으로 Larry Page의 이름을 인식했습니다. 그러나 Listening과 마찬가지로 Musk의 전반적인 말하기 속도와 "stay at his house" 대신 "say this house"와 같은 일부 구어체 표현으로 인해 약간의 오류가 있었습니다. ".

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

아이플라이텍은 이를 듣고 이름과 발음 세부사항을 잘 처리했습니다. 그러나 "long into the evening"을 "longing to the evening"으로 착각하는 등 머스크의 구어체 표현에 오해를 받는 경우도 있습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

기본적인 음성 인식 능력 측면에서 AI 도구는 극도로 높은 효율성에도 불구하고 이미 매우 높은 정확도에 도달한 것 같습니다.

그다음에는 난이도를 2라운드로 올려서 1시간 정도 분량의 영상을 요약하는 능력을 테스트하겠습니다.

테스트 영상은 중국 AIGC의 새로운 기회를 주제로 한 40분간의 원탁 토론입니다. 원탁토론에는 총 5명이 참여했다.

듣는 측면에서는 전사 완료부터 AI까지 키워드 추출과 전문 요약 제공까지 총 5분도 채 걸리지 않았습니다.

결과는 장아줌마님:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

키워드가 주어졌을 뿐만 아니라 원탁 토론의 내용도 잘 요약되었고, 영상의 핵심 포인트도 잘 나누어졌습니다.

인간 편집자들이 발췌한 주제 포인트를 비교해보면 위기의 기운이 느껴지네요...

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

여러 게스트의 연설에 대해 Listening에서는 해당 연설의 요약을 제공할 수 있다는 점을 언급할 가치가 있습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

페이슈 먀오지에게도 같은 질문이 던져졌습니다. 현재 콘텐츠 요약 측면에서 Feishu Miaoji는 키워드만 제공할 수 있습니다.


阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

회의 시간은 기록된 텍스트에 수동으로 표시해야 합니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

iFlytek은 파일 내용을 분석할 수 있지만 신청서를 작성하고 줄을 서서 기다려야 하는 Spark 인지 대형 모델을 기반으로 한 제품을 내부적으로 테스트하고 있다고 들었습니다. (내부 테스트 자격을 갖춘 친구들의 경험 공유를 환영합니다~)

기본 iFlytek에는 현재 유사한 요약 기능이 없습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

이번 테스트는 다음과 같습니다.

그러나 이번 실제 테스트에서 Tongyi Tingwu의 가장 놀라운 점은 실제로 "작은" 디자인입니다:

Chrome 플러그인 기능.

영어 비디오를 시청하든, 라이브 방송을 시청하든, 수업 중 회의에 참석하든, 듣기 플러그인을 클릭하면 오디오 및 비디오의 실시간 전사 및 번역이 가능합니다.

처음에 표시된 것처럼 짧은 대기 시간, 빠른 번역 및 이중 언어 비교 기능을 통해 실시간 자막으로 사용할 수 있으며 동시에 한 번의 클릭으로 녹음 및 복사된 텍스트를 저장하여 나중에 사용할 수 있습니다.

엄마는 더 이상 내가 영어 영상 자료를 읽지 못할까 봐 걱정하지 않아도 됩니다.

게다가 과감한 아이디어가 있는데...

그룹 회의를 할 때 듣기를 켜두시면 더 이상 갑자기 강사에게 확인을 받을 걱정이 없습니다.

현재 Tingwu는 Alibaba Cloud Disk와 연결되어 있습니다. 클라우드 디스크에 저장된 오디오 및 비디오 콘텐츠를 한 번의 클릭으로 전사할 수 있으며, 온라인에서 클라우드 디스크 비디오를 재생할 때 자막이 자동으로 표시될 수 있습니다. AI 처리된 오디오, 비디오 파일은 향후 기업용 버전에서 내부적으로 빠르게 공유될 수 있다.


阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

또한 헝우 관계자는 앞으로도 영상에서 PPT 스크린샷을 직접 추출하고, 오디오 및 영상 콘텐츠에 대해 AI에게 직접 질문하는 등 새로운 대형 모델 기능을 계속해서 추가할 예정이라고 밝혔습니다...

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅


阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

이제 공개 베타 혜택을 누구나 이용할 수 있다는 것이 핵심입니다. 매일 로그인하면 자동으로 2시간의 녹취 시간을 얻을 수 있습니다. 주요 플랫폼 커뮤니티에서도 대량의 20시간 분량의 암호 코드 복사가 제공되며, 기간은 누적될 수 있으며 유효 기간은 1년입니다.

부지런한 양모 장인으로서 100시간 이상의 자유시간(수동 개머리)을 절약하는 것은 꿈이 아닙니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

뒤에 있는 기술: 대형 언어 모델 + 음성 SOTA

사실 공개 베타 이전에 Tongyi Listening은 Alibaba 내에서 세심하게 다듬어졌습니다.

지난해 말 일부 Qubit 독자들은 Listening Internal 베타 체험 카드를 획득했습니다. 당시 버전에는 이미 오프라인 음성/영상 전사 및 실시간 전사 기능이 포함되어 있었습니다.

이 오픈 베타에서 Tingwu는 주로 Tongyi Qianwen 대형 모델의 요약 및 대화 기능에 액세스합니다. 보다 구체적으로, 이 작업은 Tongyi Qianwen 대규모 모델을 기반으로 하며 추론, 조정 및 대화형 질문 답변에 연구팀의 연구 결과를 통합합니다.

이러한 아티팩트를 통해 우선 핵심 정보를 어떻게 정확하게 추출하느냐가 업무 효율성을 높이는 열쇠입니다. 이를 위해서는 대형 모델의 추론 능력이 필요합니다.

알리바바 AI 팀은 2022년에 대규모 언어 모델을 기반으로 한 지식 탐지 및 추론 활용 프레임워크인 Proton(Probing Turning from Large Language Models)을 제안했습니다. 관련 논문은 KDD2022, SIGIR2023 등 주요 국제 학회에 게재될 예정입니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

이 프레임워크의 핵심 아이디어는 대형 모델의 내부 지식을 감지하고 사고 체인을 지식 흐름 및 활용을 위한 전달자로 사용하는 것입니다.

Proton은 Commonsense QA2.0, Physical Commonsense Reasoning PIQA 및 Numerical Commonsense Reasoning Numbersense의 세 가지 주요 목록에서 1위를 차지했습니다.

TabFact(사실 검증) 목록에서 Proton은 지식 분해와 신뢰할 수 있는 사고 체인 기술로 최초로 초인적인 결과를 달성했습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

둘째, 요약 내용과 형식이 사용자의 기대에 부응하도록 하기 위해 Listening에서는 정렬 측면에서도 인간의 피드백을 기반으로 한 효율적인 정렬 방법인 ELHF를 사용합니다.

이 방법은 정렬을 달성하기 위해 소수의 고품질 수동 피드백 샘플만 필요합니다. 모델 효과의 주관적 평가에서 ELHF는 모델의 승률을 20% 높일 수 있습니다.

또한 Wu의 R&D 팀은 대규모 중국어 문서 대화 데이터 세트인 Doc2Bot도 출시했습니다. 모델의 질문 답변 기능을 향상시키기 위한 팀의 Re3G 방법이 ICASSP 2023에서 선택되었습니다. 이 방법은 Retrieve(검색), Rerank(재순위), Refine(미세 조정) 및 생성의 4단계를 통해 사용자 질문에 대한 모델의 응답을 향상시킬 수 있습니다. (세대) Doc2Dial 및 Multi Doc2Dial의 두 가지 주요 문서 대화 목록에서 이해, 지식 검색 및 응답 생성 기능이 1위를 차지했습니다.

Tingwu는 대형 모델 역량 외에도 Alibaba 음성 기술의 대가이기도 합니다.

Alibaba Damo Academy의 음성 인식 모델인 Paraformer는 산업 응용 수준에서 처음으로 종단 간 인식 효과와 효율성의 균형 문제를 해결합니다.

추론 효율성을 10배 향상시킬 뿐만 아니라 기존 모델과 비교하여 처음 출시되었을 때 많은 권위 있는 데이터 세트의 기록을 깨고 음성 인식 SOTA의 정확성을 새롭게 했습니다. 전문적인 제3자 전체 네트워크 공용 클라우드 중국어 음성 인식 평가 SpeechIO TIOBE 화이트 박스 테스트에서 Paraformer-large는 여전히 가장 높은 정확도를 지닌 중국 음성 인식 모델입니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

Paraformer는 인코더, 예측기, 샘플러, 디코더 및 손실 함수의 5개 부분으로 구성된 단일 라운드 비자기회귀 모델입니다.

Paraformer는 혁신적인 예측기 설계를 통해 대상 단어 수와 해당 음향 잠재 변수를 정확하게 예측합니다.

또한 연구원들은 기계 번역 분야에서 브라우징 언어 모델(GLM)이라는 아이디어를 도입하고, GLM을 기반으로 한 샘플러를 설계했으며, 모델의 상황별 의미론 모델링을 강화했습니다.

동시에 Paraformer는 풍부한 시나리오를 다루는 초대형 산업 데이터 세트에 대해 수만 시간의 교육을 사용하여 인식 정확도를 더욱 향상시켰습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

DAMO Academy의 CAM++ 화자 인식 기본 모델을 사용하면 다인 토론에서 화자를 정확하게 식별할 수 있습니다. 이 모델은 조밀한 연결을 기반으로 하는 지연 네트워크 D-TDNN을 사용합니다. 각 계층의 입력은 모든 이전 계층의 출력에서 ​​연결됩니다. 지연 네트워크의 이러한 계층적 기능 다중화 및 1차원 컨볼루션은 계산 효율성을 크게 향상시킬 수 있습니다. 네트워크.

업계의 주류 중국어 및 영어 테스트 세트인 VoxCeleb과 CN-Celeb에서 CAM++가 최고의 정확도를 갱신했습니다.

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

대형 모델 공개로 사용자 혜택

중국 과학 기술 정보 연구소의 보고에 따르면 불완전한 통계에 따르면 중국에서 79개의 대형 모델이 출시되었습니다.

이러한 대규모 모델 개발 추세 속에서 AI 애플리케이션 진화 속도는 다시 한번 질주 단계에 돌입했습니다.

사용자의 관점에서 볼 때 환영받는 상황이 점차 형성되고 있습니다.

대형 모델의 "조정" 아래 다양한 AI 기술이 애플리케이션 측면에서 번성하기 시작하여 도구가 점점 더 효율적이고 스마트해집니다.

슬래시를 사용하여 작업 계획을 자동으로 작성할 수 있는 스마트 문서부터 요소를 빠르게 요약하는 데 도움이 되는 오디오 및 비디오 녹화 및 분석 도구, 생성적 대형 모델, AGI의 불꽃이 점점 더 많은 사람들을 매료시키고 있습니다. AI의 마법.


동시에 기술 기업에게는 의심의 여지 없이 새로운 도전과 기회가 나타났습니다.

모든 제품이 대형 모델의 폭풍에 휩싸이게 되고 기술 혁신이 피할 수 없는 핵심 이슈가 된 것이 과제입니다.

기존 시장 구조는 새로운 킬러 애플리케이션을 위해 다시 작성할 수 있는 기회의 순간에 도달했습니다. 누가 주도권을 잡을 수 있는지는 누가 기술적으로 더 준비되어 있고 누구의 기술이 더 빠르게 발전하는지에 달려 있습니다.

무슨 일이 있어도 기술 개발은 궁극적으로 사용자에게 이익이 됩니다.

위 내용은 Alibaba Cloud의 새로운 대형 모델이 출시되었습니다! AI 아티팩트 'Tongyi Listening' 공개 베타 출시: 긴 동영상을 1초 안에 요약할 수 있고 자동으로 메모하고 자막을 뒤집을 수도 있음 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제