대형 언어 모델(LLM)은 모든 업계에서 사용자 기대치를 변화시키고 있습니다. 그러나 오디오 파일은 대규모 언어 모델에 문제가 되기 때문에 인간의 음성을 중심으로 생성 AI 제품을 구축하는 것은 여전히 어렵습니다.
오디오 파일에 LLM을 적용할 때 주요 과제는 LLM이 컨텍스트 창에 의해 제한된다는 것입니다. 오디오 파일을 LLM에 공급하려면 먼저 텍스트로 변환해야 합니다. 오디오 파일이 길수록 LLM의 컨텍스트 창 제한을 우회하는 엔지니어링 과제가 커집니다. 하지만 업무 시나리오에서는 몇 시간 동안의 회의 녹음에서 핵심 콘텐츠를 추출하고, 인터뷰에서 특정 질문에 대한 답을 찾는 등 매우 긴 음성 파일을 처리하는 데 LLM이 필요한 경우가 많습니다...
최근 음성인식 AI 기업 AssemblyAI가 LeMUR라는 새로운 모델을 출시했습니다. ChatGPT가 수십 페이지의 PDF 텍스트를 처리하는 것처럼 LeMUR은 최대 10시간의 녹음 내용을 복사하고 처리한 다음 사용자가 연설의 핵심 내용을 요약하고 사용자가 입력한 질문에 답할 수 있도록 도와줍니다.
시험 주소: https://www.assembliesai.com/playground/v2/source
LeMUR은 인식된 음성을 이해하기 위해 대규모 언어 모델을 활용하고 있습니다. Recognized Speech)는 전사된 음성에 강력한 LLM을 적용하는 새로운 프레임워크입니다. 단 한 줄의 코드(AssemblyAI의 Python SDK를 통해)로 LeMUR은 최대 10시간 분량의 오디오 콘텐츠를 신속하게 처리하여 약 150,000개의 토큰으로 효과적으로 변환할 수 있습니다. 이에 비해 기성품인 바닐라 LLM은 컨텍스트 창의 제약 내에서 최대 8K, 즉 약 45분 분량의 텍스트로 변환된 오디오만 수용할 수 있습니다.
기록된 오디오 파일에 LLM을 적용하는 복잡성을 줄이기 위해 LeMUR의 파이프라인에는 주로 지능형 분할, 빠른 벡터 데이터베이스 및 여러 추론 단계(예: 사고 체인 프롬프트 및 자체 평가)가 포함됩니다. 그림 1: LeMUR의 아키텍처를 사용하면 사용자는 단일 API 호출을 통해 긴 및/또는 여러 오디오 전사 파일을 LLM으로 보낼 수 있습니다.
앞으로 LeMUR는 고객 서비스 및 기타 분야에서 널리 사용될 것으로 예상됩니다.
LeMUR은 불과 몇 년 전만 해도 불가능하다고 생각했던 놀라운 새로운 가능성을 열어줍니다. 최선의 조치를 결정하고 판매, 약속 또는 통화 목적과 같은 통화 결과를 식별하는 등 귀중한 통찰력을 손쉽게 추출할 수 있다는 것은 정말 놀라운 일입니다. ——통화 추적 및 분석 서비스 기술 회사인 CallRail의 최고 제품 책임자인 Ryan Johnson
LeMUR는 어떤 가능성을 열어 줍니까? 여러 오디오 텍스트에 LLM 적용LeMUR을 사용하면 사용자는 한 번에 여러 오디오 파일에 대한 LLM 처리 피드백은 물론 최대 10시간의 음성 전사 결과 및 변환된 텍스트 길이를 얻을 수 있습니다. 토큰 최대 150K. ㅋㅋㅋ
보충 컨텍스트
추론 중에 LLM이 활용할 수 있는 추가 컨텍스트 정보를 추가하여 출력 생성 시 개인화되고 보다 정확한 결과를 제공할 수 있습니다.
모듈식, 빠른 통합
LeMUR은 항상 처리 가능한 JSON 형식으로 구조화된 데이터를 반환합니다. 사용자는 LeMUR의 출력 형식을 추가로 사용자 정의하여 LLM에서 제공한 응답이 다음 비즈니스 로직(예: 응답을 부울 값으로 변환)에서 예상되는 형식인지 확인할 수 있습니다. 이 프로세스에서 사용자는 더 이상 LLM의 출력을 처리하기 위해 특정 코드를 작성할 필요가 없습니다.
AssemblyAI에서 제공한 테스트 링크에 따르면 Machine Heart는 LeMUR를 테스트했습니다.
LeMUR의 인터페이스는 오디오 및 비디오 파일 업로드 또는 웹 링크 붙여넣기라는 두 가지 파일 입력 방법을 지원합니다.
LeMUR의 성능을 테스트하기 위해 Hinton의 최근 인터뷰 데이터를 입력으로 사용했습니다.
업로드 후에는 먼저 음성을 텍스트로 변환해야 하기 때문에 잠시 기다리라는 메시지가 표시됩니다.
녹화 후 인터페이스는 다음과 같습니다.
페이지 오른쪽에서 LeMUR에게 인터뷰를 요약하거나 질문에 답하도록 요청할 수 있습니다. LeMUR은 기본적으로 작업을 쉽게 완료할 수 있습니다.
처리할 음성이 음성 또는 고객 서비스 응답인 경우 LeMUR에 개선 제안을 요청할 수도 있습니다.
하지만 LeMUR은 아직 중국어를 지원하지 않는 것 같습니다. 관심 있는 독자들은 시도해 볼 수 있습니다.
위 내용은 음성을 이해할 수 있는 ChatGPT가 여기 있습니다: 10시간 동안 녹음하고 원하는 것은 무엇이든 물어보세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!