최근에는 업무에서 '화상회의'가 차지하는 비중이 점차 높아지고 있으며, 제조사들도 회의에서 서로 다른 언어를 사용하는 사람들 간의 의사소통을 원활하게 하기 위해 실시간 자막 등 다양한 기술을 개발해왔습니다.
그런데 또 다른 고충이 있는데, "스키야키"라는 음식, "공원에 갔다" 등 상대방에게 낯설고 말로 표현하기 어려운 명사가 언급된다면. 지난주 휴가" ", "도쿄는 일본의 관동 지방에 위치하고 있습니다"라고 말하면서 상대방에게 아름다운 풍경을 말로 설명하는 것은 어렵고 그것을 보여주기 위해서는 지도가 필요하다는 등의 문제가 있습니다. 말만 사용하면 상대방을 더욱 혼란스럽게 만들 수 있습니다.
최근 Google은 인간-컴퓨터 상호 작용 ACM CHI(Conference on Human Factors in Computing Systems)에 관한 최고 컨퍼런스에서 시각적 캡션 시스템을 선보였습니다. 복잡하거나 익숙하지 않은 개념에 대한 상대방의 이해를 높이기 위해 대화의 맥락에서 이미지를 검색합니다.
논문 링크: https://research.google/pubs/pub52074/
코드 링크: https://github.com/google/archat
시각적 캡션 시스템은 공개 어휘 대화에서 관련 시각적 요소를 적극적으로 추천할 수 있는 미세 조정된 대규모 언어 모델을 기반으로 하며 오픈 소스 프로젝트 ARChat에 통합되었습니다.
사용자 설문조사에서 연구원들은 실험실 내 26명과 실험실 외부 참가자 10명을 초대하여 시스템을 평가했으며, 사용자 중 80% 이상이 기본적으로 비디오 캡션이 유용하고 의미 있는 시각적 정보를 제공할 수 있다고 동의했습니다. 다양한 시나리오에서 권장 사항을 제시하고 커뮤니케이션 경험을 개선합니다.
개발에 앞서 연구원들은 먼저 소프트웨어 엔지니어, 연구원, UX 디자이너, 시각 예술가, 학생 및 기술 및 비기술적 배경을 가진 기타 실무자를 포함하여 10명의 내부 참가자를 초대하여 구체적인 요구 사항과 기대 사항을 논의했습니다. 실시간 시각적 개선 서비스를 위한 것입니다.
두 번의 회의를 거쳐 기존의 텍스트-투-이미지 시스템을 기반으로 주로 8차원(D1~D8로 표시)을 포함하여 예상되는 프로토타입 시스템의 기본 설계가 확립되었습니다.
D1: 타이밍, 시각적 강화 시스템이 대화와 동기식 또는 비동기식으로 표시될 수 있습니다.
D2: 음성 내용을 표현하고 이해하는 데 사용할 수 있는 주제
D3: 시각적으로 사용할 수 있는 다양한 시각적 콘텐츠와 시각적 유형 및 시각적 소스
D4: 규모, 시각적 향상은 회의 규모에 따라 달라질 수 있습니다.
D5: 공간, 화상 회의가 같은 장소에 있든 한 장소에 있든 상관없습니다. 원격 설정
D6: 개인 정보 보호, 이러한 요인은 시각적 요소를 비공개로 표시할지, 참가자 간에 공유할지, 모든 사람에게 공개할지 여부에도 영향을 미칩니다.
D7: 초기 상태, 참가자는 또한 원하는 다양한 방법을 식별했습니다. ,대화를 수행할 때 시스템과 상호 작용합니다. 예를 들어 다양한 수준의 "이니셔티브", 즉 시스템이 채팅에 개입할 때 사용자가 자율적으로 결정할 수 있습니다. D8: 상호 작용, 참가자는 음성이나 제스처를 사용하는 등 다양한 상호 작용 방법을 구상했습니다. 입력용
동적 시각 효과를 사용하여 언어 의사소통의 디자인 공간 향상
사전 피드백을 바탕으로 연구원들은 의미상 관련된 시각적 콘텐츠, 유형 및 소스의 동기화된 시각 효과를 생성하는 데 중점을 두도록 비디오 캡션 시스템을 설계했습니다.
탐색 회의의 아이디어 대부분은 일대일 원격 대화에 중점을 두는 반면, 비디오 캡션은 일대다(예: 청중에게 프레젠테이션) 및 다대다 시나리오(예: 청중에게 프레젠테이션)에도 사용할 수 있습니다( 여러 사람) 논의하기 위해 회의) 배포.
그 외에도 대화를 가장 잘 보완하는 시각적 요소는 토론의 맥락에 크게 좌우되므로 목적에 맞게 제작된 훈련 세트가 필요합니다.
연구원들은 일상 대화, 강의, 여행 가이드 등 다양한 상황별 시나리오를 다루며 언어, 시각적 내용, 유형, 출처를 포함하여 1595개의 쿼드러플을 수집했습니다.
예를 들어, 사용자가 "웃는 얼굴"의 시각적 콘텐츠, "이모지"의 시각적 콘텐츠 및 "시각 소스"에 해당하는 "I would love to see it!"이라고 말합니다. 공개 검색용.
"그녀가 우리 멕시코 여행에 대해 말했나요?"는 시각적 콘텐츠인 "멕시코 여행 사진", 시각적 유형은 "사진", 시각적 출처는 "개인 앨범"에 해당합니다.
데이터 세트 VC 1.5K는 현재 오픈 소스입니다.
데이터 링크: https://github.com/google/archat/tree/main/dataset
어떤 시각적 요소가 대화를 보완할 수 있는지 예측하려면, 연구원들은 VC1.5K 데이터세트를 사용하여 대규모 언어 모델을 기반으로 한 시각적 의도 예측 모델을 훈련했습니다.
훈련 단계에서 각 시각적 의도는 "
이 형식을 기반으로 시스템은 개방형 어휘 대화와 시각적 콘텐츠, 시각적 소스 및 시각적 유형의 상황별 예측을 처리할 수 있습니다.
이 접근 방식은 키워드 기반 접근 방식보다 실제로 더 좋습니다. 후자는 사용자가 "에이미 숙모가 이번 토요일에 여기에 올 것입니다"라고 말할 수 있는 개방형 어휘 예를 처리할 수 없기 때문입니다. '방문', 키워드가 일치하지 않으며 관련 영상 유형이나 영상 소스를 추천할 수 없습니다.
연구원들은 VC1.5K 데이터 세트에서 1276개(80%) 샘플을 사용하여 대규모 언어 모델을 미세 조정하고 나머지 319개(20%) 샘플을 테스트 데이터로 사용했으며 토큰 정확도 메트릭을 사용하여 미세 조정된 모델의 성능, 즉 모델이 정확하게 예측한 샘플 내 토큰의 정확한 비율입니다.
최종 모델은 97%의 훈련 토큰 정확도와 87%의 검증 토큰 정확도를 달성할 수 있습니다.
훈련된 시각적 자막 모델의 실용성을 평가하기 위해 연구팀은 89명의 참가자를 초대하여 846개의 작업을 수행하고 효과를 평가하도록 요청했으며, 1명은 매우 반대하고 7명은 매우 동의합니다.
실험 결과, 대부분의 참가자는 대화에서 시각적 효과를 보는 것을 선호하는 것으로 나타났으며(Q1), 83%가 5-다소 동의함 이상으로 평가했습니다.
또한 참가자들은 표시된 시각적 요소가 유용하고 유익하다고 느꼈으며(2분기), 82%가 5점 이상의 평점과 고품질(3분기)을 부여했으며, 82%는 5점 이상의 평점을 받았습니다. ; 원래 연설과 관련됨(Q4, 84%).
참여자들은 또한 해당 대화의 맥락에서 예측된 시각적 유형(Q5, 87%)과 시각적 소스(Q6, 86%)가 정확하다는 것을 발견했습니다.
연구 참가자들은 시각적 예측 모델의 기술적 평가 결과를 평가했습니다.
이 미세 조정된 시각적 의도 예측 모델을 기반으로 연구원들은 ARChat 플랫폼에서 시각적 캡션을 개발했습니다. Google Meet과 같은 화상 회의 플랫폼의 카메라 스트림에 새로운 대화형 위젯을 직접 추가하세요.
시스템 워크플로에서 비디오 캡션은 자동으로 사용자의 음성을 캡처하고, 마지막 문장을 검색하고, 100밀리초마다 시각적 의도 예측 모델에 데이터를 입력하고, 관련 시각 효과를 검색한 다음 권장 시각 효과를 제공할 수 있습니다.
Visual Captions의 시스템 워크플로
Visual Captions는 영상 추천 시 세 가지 수준의 선택적 주도권을 제공합니다.
자동 표시(높은 주도성): 시스템이 자율적으로 검색하고 표시합니다. 사용자 상호 작용 없이 모든 회의 참가자에게 공개적으로 시각적 정보를 제공합니다.
자동 추천(중간 이니셔티브): 추천 비주얼은 비공개 스크롤 보기에 표시되며, 이 모드에서는 사용자가 비주얼을 클릭하여 공개적으로 표시합니다. 시스템은 비주얼을 적극적으로 추천하지만 사용자가 결정합니다. 보여줄 것과 보여줄 것.
주문형 제안(낮은 주도성): 시스템은 사용자가 스페이스바를 누른 후에만 시각 효과를 권장합니다.
연구원들은 통제된 실험실 연구(n = 26)와 테스트 단계 배포 연구(n = 10)에서 시각적 캡션 시스템을 평가했습니다. 참가자들은 실시간 시각적 요소가 익숙하지 않은 개념을 설명하고 언어적 모호성을 해결하며 라이브를 촉진하는 데 도움이 된다는 것을 발견했습니다. 대화를 더욱 매력적으로 만들어 보세요.
VC가 없는 경우와 세 가지 다른 이니셔티브가 있는 VC를 포함하여 참가자의 작업 부하 지수 및 Likert 규모 등급
참여자는 사이트 시스템 선호도에 대한 상호 작용의 차이도 보고했습니다. 즉, 서로 다른 수준을 사용합니다. 다양한 회의 시나리오에서의 VC 이니셔티브
위 내용은 이제 당황스러운 '화상회의'에 대해 걱정하지 마세요! Google CHI는 새로운 아티팩트 시각적 캡션을 출시합니다. 사진을 자막 도우미로 활용하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!