11월 16일 뉴스에서 Google은 최근 동영상에 대한 질문에 답변하고 새로운 기록을 세울 수 있는 소형 인공 지능 모델인 Mirasol을 소개하는 보도 자료를 발표했습니다.
현재 AI 모델이 다양한 데이터 스트림을 처리하는 것은 어렵습니다. AI가 비디오를 이해하도록 하려면 비디오, 오디오, 텍스트 등 다양한 양식의 정보를 통합해야 하므로 난이도가 크게 높아집니다.
Google과 Google Deepmind의 연구원들은 다중 모드 이해를 긴 비디오 영역으로 확장하는 새로운 방법을 제안했습니다.
Mirasol AI 모델을 통해 팀은 두 가지 주요 과제를 해결하기 위해 노력했습니다.
비디오와 오디오를 높은 샘플링 주파수로 동기화해야 하지만 제목과 비디오 설명을 비동기적으로 처리해야 합니다. - 비디오 및 오디오는 많은 양의 데이터를 생성하므로 모델 용량에 부담을 줄 수 있습니다.
-
Mirasol에서 Google은 결합기 및 자동 회귀 변환기 모델을 채택했습니다.
이 모델 구성 요소는 시간 동기화된 비디오 및 오디오 신호를 처리한 다음 비디오를 독립 세그먼트로 분할합니다.
변환기는 각 조각을 처리하고 간의 연결을 학습합니다. 그런 다음 각 조각은 다른 변환기를 사용하여 상황별 텍스트를 처리하고 두 구성 요소는 해당 입력에 대한 정보를 교환합니다.
Combiner라는 새로운 변환 모듈은 각 조각에서 공통 표현을 추출하고 차원 축소를 통해 데이터를 압축할 수 있습니다. 각 클립에는 4~64개의 프레임이 포함되어 있으며 모델에는 현재 30억 개의 매개변수가 있으며 128~512프레임의 비디오를 처리할 수 있습니다
테스트에서 Mirasol3B는 훨씬 더 큰 볼륨으로 비디오 문제 분석에서 새로운 벤치마크에 도달했습니다. 크기가 작아 긴 동영상을 처리할 수 있습니다. 메모리가 포함된 결합기 변형을 사용하여 팀은 필요한 컴퓨팅 성능을 18% 더 줄일 수 있었습니다
이 사이트는 여기에
공식 Mirasol Press 버전을 첨부합니다. release , 관심 있는 사용자는 자세히 읽을 수 있습니다.
위 내용은 Google, Mirasol 출시: 30억 개의 매개변수로 다중 모드 이해를 긴 동영상으로 확장의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!