>기술 주변기기 >일체 포함 >Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

WBOY
WBOY앞으로
2023-04-10 19:31:021174검색

2019년 Google은 Pixel 휴대폰용 Android 시스템에서 녹음 소프트웨어 Recorder를 출시했습니다. 이 녹음 소프트웨어는 iOS에서 음성 메모와 호환되고 오디오 파일의 녹음, 관리 및 편집을 지원합니다. 그 이후로 Google은 음성 인식, 오디오 이벤트 감지, 자동 제목 생성, 스마트 브라우징을 포함하여 수많은 기계 학습 기반 기능을 Recorder에 연속적으로 추가했습니다.

그러나 녹음 파일이 길고 스피커가 여러 개 포함된 경우 일부 녹음기 사용자는 사용 중에 불편함을 느낄 수 있습니다. 음성 인식을 통해 얻은 텍스트만으로는 누가 각 문장을 말했는지 확인할 수 없기 때문입니다. 올해 Made By Google 컨퍼런스에서 Google은 Recorder 앱의 자동 화자 주석 기능을 발표했습니다. 이 기능은 음성 인식 텍스트에 익명의 화자 태그(예: "화자 1" 또는 "화자 2")를 실시간으로 추가합니다. 이 기능은 녹음된 텍스트의 가독성과 실용성을 크게 향상시킵니다. 이 기능 뒤에 있는 기술을 화자 분할이라고 합니다. Google은 2022년 ICASSP 컨퍼런스에서 Turn-to-Diarize라는 성문 분할 및 클러스터링 시스템을 처음 선보였습니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

왼쪽 사진: 스피커 주석이 꺼진 상태에서 텍스트를 녹음합니다. 오른쪽: 화자 주석이 켜진 녹음 텍스트입니다.

시스템 아키텍처

Google의 Turn-to-Diarize 시스템에는 고도로 최적화된 여러 모델과 알고리즘이 포함되어 있어 컴퓨팅 리소스가 거의 없는 모바일 장치에서 몇 시간 동안 오디오를 처리할 수 있습니다. . 시스템은 크게 화자 ID 전환을 감지하는 화자 전환 감지 모델, 각 화자의 음성 특성을 추출하는 성문 인코더 모델, 화자 주석을 효율적으로 완성할 수 있는 다단계 시스템의 세 가지 구성 요소로 구성됩니다. 모든 구성 요소는 전적으로 사용자의 장치에서 실행되며 서버 연결에 의존하지 않습니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Turn-to-Diarize 시스템의 아키텍처 다이어그램.

스피커 변환 감지

시스템의 첫 번째 구성 요소는 T-T(Transformer Transducer) 기반 스피커 변환 감지 모델입니다. 이 모델은 음향 특징 시퀀스를 특수 문자 가 포함된 텍스트 시퀀스로 변환할 수 있습니다. 특수 문자 는 화자 전환 이벤트를 나타냅니다. Google이 이전에 발표한 논문에서는 특정 화자의 신원을 나타내기 위해 또는 와 같은 특수 문자를 사용했습니다. 최신 시스템에서는 캐릭터가 특정 아이덴티티에 국한되지 않기 때문에 활용 범위도 더욱 넓어졌습니다.

대부분의 응용 프로그램에서 성문 분할 및 클러스터링 시스템의 출력은 일반적으로 사용자에게 직접 표시되지 않지만 음성 인식 모델의 출력과 결합됩니다. 음성 인식 모델은 훈련 과정에서 단어 오류율에 최적화되었기 때문에 화자 전환 감지 모델은 단어 오류율에 더 관대하지만 특수 문자의 정확성에 더 많은 주의를 기울입니다. 이를 바탕으로 Google은 더 작은 모델만으로도 스피커 전환 이벤트를 정확하게 감지할 수 있는 새로운 문자 기반 손실 기능을 제안했습니다.

성문 특징 추출

화자 변환 이벤트에 따라 오디오 신호가 분할된 후, 성문 인코더 모델, 즉 d-벡터를 통해 각 화자 세그먼트의 성문 정보가 포함된 임베딩 코드를 추출합니다. Google이 발표한 이전 논문에서는 성문 임베딩 코드가 일반적으로 고정 길이 오디오에서 추출되었습니다. 대조적으로, 이 새로운 시스템에는 많은 개선이 이루어졌습니다. 첫째, 새로운 시스템은 여러 화자 정보가 포함된 세그먼트에서 성문 임베딩 코드를 추출하지 않으므로 임베딩 코드의 전반적인 품질이 향상됩니다. 둘째, 각 성문 임베딩 코드에 해당하는 음성 조각은 상대적으로 길기 때문에 화자에 해당하는 성문 정보를 더 많이 포함하고 있습니다. 마지막으로, 이 방법으로 얻은 최종 성문 삽입 코드 시퀀스는 길이가 더 짧아서 후속 클러스터링 알고리즘의 계산 비용이 더 저렴해집니다.

다단계 클러스터링

성문 분할 및 클러스터링의 마지막 단계는 이전 단계에서 얻은 성문 삽입 코드 시퀀스를 클러스터링하는 것입니다. 사용자가 Recorder 앱을 사용하여 생성하는 녹음은 단 몇 초에서 최대 18시간까지 가능하므로 클러스터링 알고리즘의 주요 과제는 다양한 길이의 성문 삽입 시퀀스를 처리할 수 있다는 것입니다.

이를 위해 Google의 다단계 클러스터링 전략은 여러 가지 클러스터링 알고리즘의 장점을 교묘하게 결합합니다. 더 짧은 시퀀스의 경우 전략은 AHC(집계 계층적 클러스터링)를 사용합니다. 중간 길이의 시퀀스에 대해 이 방법은 스펙트럼 클러스터링을 사용하고 고유값의 최대 마진 방법을 활용하여 화자 수를 정확하게 추정합니다. 더 긴 시퀀스의 경우 이 방법은 먼저 집계된 계층적 클러스터링을 사용하여 시퀀스를 전처리한 다음 스펙트럼 클러스터링을 호출하여 클러스터링 단계의 계산 비용을 줄입니다. 전체 스트리밍 처리 과정에서 이전 클러스터링 결과를 동적으로 캐싱하고 재사용함으로써 각 클러스터링 알고리즘 호출의 시간 복잡도와 공간 복잡도의 상한을 상수로 설정할 수 있습니다.

다단계 클러스터링 전략은 장치 측 애플리케이션의 핵심 최적화입니다. 왜냐하면 기기 측면에서는 일반적으로 CPU, 메모리, 배터리와 같은 리소스가 부족하기 때문입니다. 이 전략은 몇 시간 동안 오디오를 처리한 후에도 저전력 상태에서 계속 작동할 수 있습니다. 이 전략의 지속적인 복잡성의 상한은 일반적으로 특정 장치 모델에 따라 조정되어 정확도와 성능 간의 균형을 이룰 수 있습니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

다단계 클러스터링 전략의 개략도.

실시간 수정 및 사용자 주석

Turn-to-Diarize는 실시간 스트리밍 처리 시스템이므로 모델이 더 많은 오디오를 처리하면 예측된 화자 라벨도 더욱 정확해집니다. 이를 위해 Recorder 애플리케이션은 사용자의 녹음 프로세스 중에 이전에 예측된 화자 레이블을 지속적으로 수정하여 사용자가 현재 화면에서 보는 화자 레이블이 항상 더 정확한 레이블이 되도록 합니다.

동시에 녹음기 애플리케이션의 사용자 인터페이스를 통해 사용자는 각 녹음에서 스피커 라벨의 이름을 바꿀 수 있습니다. 예를 들어 "Speaker 2"의 이름을 "Car Dealer"로 바꾸면 사용자가 더 쉽게 읽고 메모리.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Recorder를 사용하면 가독성을 높이기 위해 스피커 태그의 이름을 바꿀 수 있습니다.

일의 미래

Google은 최신 Pixel 휴대폰에 자체 개발한 칩인 Google Tensor를 출시했습니다. 현재 성문 분할 및 클러스터링 시스템은 주로 Google Tensor의 CPU 모듈에서 실행됩니다. 앞으로 Google은 Google Tensor의 TPU 모듈에서 성문 분할 및 클러스터링 시스템을 실행하여 에너지 소비를 더욱 줄일 계획입니다. 또한 Google은 다국어 성문 인코더 및 음성 인식 모델을 통해 이 기능을 영어 외에 다른 언어로도 확장할 수 있기를 희망하고 있습니다.

위 내용은 Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제