음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요-일체 포함-php.cn

집

기술 주변기기

일체 포함

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

王林

Jun 03, 2023 pm 02:05 PM

모델

대형 언어 모델(LLM)은 모든 업계에서 사용자 기대치를 변화시키고 있습니다. 그러나 오디오 파일은 대규모 언어 모델에 문제가 되기 때문에 인간의 음성을 중심으로 생성 AI 제품을 구축하는 것은 여전히 어렵습니다.

오디오 파일에 LLM을 적용할 때 주요 과제는 LLM이 컨텍스트 창에 의해 제한된다는 것입니다. 오디오 파일을 LLM에 공급하려면 먼저 텍스트로 변환해야 합니다. 오디오 파일이 길수록 LLM의 컨텍스트 창 제한을 우회하는 엔지니어링 과제가 커집니다. 하지만 업무 시나리오에서는 몇 시간 동안의 회의 녹음에서 핵심 콘텐츠를 추출하고, 인터뷰에서 특정 질문에 대한 답을 찾는 등 매우 긴 음성 파일을 처리하는 데 LLM이 필요한 경우가 많습니다...

최근 음성인식 AI 기업 AssemblyAI가 LeMUR라는 새로운 모델을 출시했습니다. ChatGPT가 수십 페이지의 PDF 텍스트를 처리하는 것처럼 LeMUR은 최대 10시간의 녹음 내용을 복사하고 처리한 다음 사용자가 연설의 핵심 내용을 요약하고 사용자가 입력한 질문에 답할 수 있도록 도와줍니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

시험 주소: https://www.assembliesai.com/playground/v2/source

LeMUR은 인식된 음성을 이해하기 위해 대규모 언어 모델을 활용하고 있습니다. Recognized Speech)는 전사된 음성에 강력한 LLM을 적용하는 새로운 프레임워크입니다. 단 한 줄의 코드(AssemblyAI의 Python SDK를 통해)로 LeMUR은 최대 10시간 분량의 오디오 콘텐츠를 신속하게 처리하여 약 150,000개의 토큰으로 효과적으로 변환할 수 있습니다. 이에 비해 기성품인 바닐라 LLM은 컨텍스트 창의 제약 내에서 최대 8K, 즉 약 45분 분량의 텍스트로 변환된 오디오만 수용할 수 있습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

기록된 오디오 파일에 LLM을 적용하는 복잡성을 줄이기 위해 LeMUR의 파이프라인에는 주로 지능형 분할, 빠른 벡터 데이터베이스 및 여러 추론 단계(예: 사고 체인 프롬프트 및 자체 평가)가 포함됩니다. 그림 1: LeMUR의 아키텍처를 사용하면 사용자는 단일 API 호출을 통해 긴 및/또는 여러 오디오 전사 파일을 LLM으로 보낼 수 있습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요 앞으로 LeMUR는 고객 서비스 및 기타 분야에서 널리 사용될 것으로 예상됩니다.

LeMUR은 불과 몇 년 전만 해도 불가능하다고 생각했던 놀라운 새로운 가능성을 열어줍니다. 최선의 조치를 결정하고 판매, 약속 또는 통화 목적과 같은 통화 결과를 식별하는 등 귀중한 통찰력을 손쉽게 추출할 수 있다는 것은 정말 놀라운 일입니다. ——통화 추적 및 분석 서비스 기술 회사인 CallRail의 최고 제품 책임자인 Ryan Johnson

LeMUR는 어떤 가능성을 열어 줍니까?

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

여러 오디오 텍스트에 LLM 적용

LeMUR을 사용하면 사용자는 한 번에 여러 오디오 파일에 대한 LLM 처리 피드백은 물론 최대 10시간의 음성 전사 결과 및 변환된 텍스트 길이를 얻을 수 있습니다. 토큰 최대 150K. ㅋㅋㅋ

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

보충 컨텍스트

추론 중에 LLM이 활용할 수 있는 추가 컨텍스트 정보를 추가하여 출력 생성 시 개인화되고 보다 정확한 결과를 제공할 수 있습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

모듈식, 빠른 통합

LeMUR은 항상 처리 가능한 JSON 형식으로 구조화된 데이터를 반환합니다. 사용자는 LeMUR의 출력 형식을 추가로 사용자 정의하여 LLM에서 제공한 응답이 다음 비즈니스 로직(예: 응답을 부울 값으로 변환)에서 예상되는 형식인지 확인할 수 있습니다. 이 프로세스에서 사용자는 더 이상 LLM의 출력을 처리하기 위해 특정 코드를 작성할 필요가 없습니다.

시험 결과

AssemblyAI에서 제공한 테스트 링크에 따르면 Machine Heart는 LeMUR를 테스트했습니다.

LeMUR의 인터페이스는 오디오 및 비디오 파일 업로드 또는 웹 링크 붙여넣기라는 두 가지 파일 입력 방법을 지원합니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

LeMUR의 성능을 테스트하기 위해 Hinton의 최근 인터뷰 데이터를 입력으로 사용했습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

업로드 후에는 먼저 음성을 텍스트로 변환해야 하기 때문에 잠시 기다리라는 메시지가 표시됩니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

녹화 후 인터페이스는 다음과 같습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

페이지 오른쪽에서 LeMUR에게 인터뷰를 요약하거나 질문에 답하도록 요청할 수 있습니다. LeMUR은 기본적으로 작업을 쉽게 완료할 수 있습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

처리할 음성이 음성 또는 고객 서비스 응답인 경우 LeMUR에 개선 제안을 요청할 수도 있습니다.

음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요

하지만 LeMUR은 아직 중국어를 지원하지 않는 것 같습니다. 관심 있는 독자들은 시도해 볼 수 있습니다.

위 내용은 음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는