이제 당황스러운 '화상회의'에 대해 걱정하지 마세요! Google CHI는 새로운 아티팩트 시각적 캡션을 출시합니다. 사진을 자막 도우미로 활용하세요
최근에는 업무에서 '화상회의'가 차지하는 비중이 점차 높아지고 있으며, 제조사들도 회의에서 서로 다른 언어를 사용하는 사람들 간의 의사소통을 원활하게 하기 위해 실시간 자막 등 다양한 기술을 개발해왔습니다.
그런데 또 다른 고충이 있는데, "스키야키"라는 음식, "공원에 갔다" 등 상대방에게 낯설고 말로 표현하기 어려운 명사가 언급된다면. 지난주 휴가" ", "도쿄는 일본의 관동 지방에 위치하고 있습니다"라고 말하면서 상대방에게 아름다운 풍경을 말로 설명하는 것은 어렵고 그것을 보여주기 위해서는 지도가 필요하다는 등의 문제가 있습니다. 말만 사용하면 상대방을 더욱 혼란스럽게 만들 수 있습니다.
최근 Google은 인간-컴퓨터 상호 작용 ACM CHI(Conference on Human Factors in Computing Systems)에 관한 최고 컨퍼런스에서 시각적 캡션 시스템을 선보였습니다. 복잡하거나 익숙하지 않은 개념에 대한 상대방의 이해를 높이기 위해 대화의 맥락에서 이미지를 검색합니다.
논문 링크: https://research.google/pubs/pub52074/
코드 링크: https://github.com/google/archat
시각적 캡션 시스템은 공개 어휘 대화에서 관련 시각적 요소를 적극적으로 추천할 수 있는 미세 조정된 대규모 언어 모델을 기반으로 하며 오픈 소스 프로젝트 ARChat에 통합되었습니다.
사용자 설문조사에서 연구원들은 실험실 내 26명과 실험실 외부 참가자 10명을 초대하여 시스템을 평가했으며, 사용자 중 80% 이상이 기본적으로 비디오 캡션이 유용하고 의미 있는 시각적 정보를 제공할 수 있다고 동의했습니다. 다양한 시나리오에서 권장 사항을 제시하고 커뮤니케이션 경험을 개선합니다.
디자인 아이디어
개발에 앞서 연구원들은 먼저 소프트웨어 엔지니어, 연구원, UX 디자이너, 시각 예술가, 학생 및 기술 및 비기술적 배경을 가진 기타 실무자를 포함하여 10명의 내부 참가자를 초대하여 구체적인 요구 사항과 기대 사항을 논의했습니다. 실시간 시각적 개선 서비스를 위한 것입니다.
두 번의 회의를 거쳐 기존의 텍스트-투-이미지 시스템을 기반으로 주로 8차원(D1~D8로 표시)을 포함하여 예상되는 프로토타입 시스템의 기본 설계가 확립되었습니다.
D1: 타이밍, 시각적 강화 시스템이 대화와 동기식 또는 비동기식으로 표시될 수 있습니다.
D2: 음성 내용을 표현하고 이해하는 데 사용할 수 있는 주제
D3: 시각적으로 사용할 수 있는 다양한 시각적 콘텐츠와 시각적 유형 및 시각적 소스
D4: 규모, 시각적 향상은 회의 규모에 따라 달라질 수 있습니다.
D5: 공간, 화상 회의가 같은 장소에 있든 한 장소에 있든 상관없습니다. 원격 설정
D6: 개인 정보 보호, 이러한 요인은 시각적 요소를 비공개로 표시할지, 참가자 간에 공유할지, 모든 사람에게 공개할지 여부에도 영향을 미칩니다.
D7: 초기 상태, 참가자는 또한 원하는 다양한 방법을 식별했습니다. ,대화를 수행할 때 시스템과 상호 작용합니다. 예를 들어 다양한 수준의 "이니셔티브", 즉 시스템이 채팅에 개입할 때 사용자가 자율적으로 결정할 수 있습니다. D8: 상호 작용, 참가자는 음성이나 제스처를 사용하는 등 다양한 상호 작용 방법을 구상했습니다. 입력용
동적 시각 효과를 사용하여 언어 의사소통의 디자인 공간 향상
사전 피드백을 바탕으로 연구원들은 의미상 관련된 시각적 콘텐츠, 유형 및 소스의 동기화된 시각 효과를 생성하는 데 중점을 두도록 비디오 캡션 시스템을 설계했습니다.
탐색 회의의 아이디어 대부분은 일대일 원격 대화에 중점을 두는 반면, 비디오 캡션은 일대다(예: 청중에게 프레젠테이션) 및 다대다 시나리오(예: 청중에게 프레젠테이션)에도 사용할 수 있습니다( 여러 사람) 논의하기 위해 회의) 배포.
그 외에도 대화를 가장 잘 보완하는 시각적 요소는 토론의 맥락에 크게 좌우되므로 목적에 맞게 제작된 훈련 세트가 필요합니다.
연구원들은 일상 대화, 강의, 여행 가이드 등 다양한 상황별 시나리오를 다루며 언어, 시각적 내용, 유형, 출처를 포함하여 1595개의 쿼드러플을 수집했습니다.
예를 들어, 사용자가 "웃는 얼굴"의 시각적 콘텐츠, "이모지"의 시각적 콘텐츠 및 "시각 소스"에 해당하는 "I would love to see it!"이라고 말합니다. 공개 검색용.
"그녀가 우리 멕시코 여행에 대해 말했나요?"는 시각적 콘텐츠인 "멕시코 여행 사진", 시각적 유형은 "사진", 시각적 출처는 "개인 앨범"에 해당합니다.
데이터 세트 VC 1.5K는 현재 오픈 소스입니다.
데이터 링크: https://github.com/google/archat/tree/main/dataset
시각적 의도 예측 모델
어떤 시각적 요소가 대화를 보완할 수 있는지 예측하려면, 연구원들은 VC1.5K 데이터세트를 사용하여 대규모 언어 모델을 기반으로 한 시각적 의도 예측 모델을 훈련했습니다.
훈련 단계에서 각 시각적 의도는 "
이 형식을 기반으로 시스템은 개방형 어휘 대화와 시각적 콘텐츠, 시각적 소스 및 시각적 유형의 상황별 예측을 처리할 수 있습니다.
이 접근 방식은 키워드 기반 접근 방식보다 실제로 더 좋습니다. 후자는 사용자가 "에이미 숙모가 이번 토요일에 여기에 올 것입니다"라고 말할 수 있는 개방형 어휘 예를 처리할 수 없기 때문입니다. '방문', 키워드가 일치하지 않으며 관련 영상 유형이나 영상 소스를 추천할 수 없습니다.
연구원들은 VC1.5K 데이터 세트에서 1276개(80%) 샘플을 사용하여 대규모 언어 모델을 미세 조정하고 나머지 319개(20%) 샘플을 테스트 데이터로 사용했으며 토큰 정확도 메트릭을 사용하여 미세 조정된 모델의 성능, 즉 모델이 정확하게 예측한 샘플 내 토큰의 정확한 비율입니다.
최종 모델은 97%의 훈련 토큰 정확도와 87%의 검증 토큰 정확도를 달성할 수 있습니다.
실용 설문조사
훈련된 시각적 자막 모델의 실용성을 평가하기 위해 연구팀은 89명의 참가자를 초대하여 846개의 작업을 수행하고 효과를 평가하도록 요청했으며, 1명은 매우 반대하고 7명은 매우 동의합니다.
실험 결과, 대부분의 참가자는 대화에서 시각적 효과를 보는 것을 선호하는 것으로 나타났으며(Q1), 83%가 5-다소 동의함 이상으로 평가했습니다.
또한 참가자들은 표시된 시각적 요소가 유용하고 유익하다고 느꼈으며(2분기), 82%가 5점 이상의 평점과 고품질(3분기)을 부여했으며, 82%는 5점 이상의 평점을 받았습니다. ; 원래 연설과 관련됨(Q4, 84%).
참여자들은 또한 해당 대화의 맥락에서 예측된 시각적 유형(Q5, 87%)과 시각적 소스(Q6, 86%)가 정확하다는 것을 발견했습니다.
연구 참가자들은 시각적 예측 모델의 기술적 평가 결과를 평가했습니다.
이 미세 조정된 시각적 의도 예측 모델을 기반으로 연구원들은 ARChat 플랫폼에서 시각적 캡션을 개발했습니다. Google Meet과 같은 화상 회의 플랫폼의 카메라 스트림에 새로운 대화형 위젯을 직접 추가하세요.
시스템 워크플로에서 비디오 캡션은 자동으로 사용자의 음성을 캡처하고, 마지막 문장을 검색하고, 100밀리초마다 시각적 의도 예측 모델에 데이터를 입력하고, 관련 시각 효과를 검색한 다음 권장 시각 효과를 제공할 수 있습니다.
Visual Captions의 시스템 워크플로
Visual Captions는 영상 추천 시 세 가지 수준의 선택적 주도권을 제공합니다.
자동 표시(높은 주도성): 시스템이 자율적으로 검색하고 표시합니다. 사용자 상호 작용 없이 모든 회의 참가자에게 공개적으로 시각적 정보를 제공합니다.
자동 추천(중간 이니셔티브): 추천 비주얼은 비공개 스크롤 보기에 표시되며, 이 모드에서는 사용자가 비주얼을 클릭하여 공개적으로 표시합니다. 시스템은 비주얼을 적극적으로 추천하지만 사용자가 결정합니다. 보여줄 것과 보여줄 것.
주문형 제안(낮은 주도성): 시스템은 사용자가 스페이스바를 누른 후에만 시각 효과를 권장합니다.
연구원들은 통제된 실험실 연구(n = 26)와 테스트 단계 배포 연구(n = 10)에서 시각적 캡션 시스템을 평가했습니다. 참가자들은 실시간 시각적 요소가 익숙하지 않은 개념을 설명하고 언어적 모호성을 해결하며 라이브를 촉진하는 데 도움이 된다는 것을 발견했습니다. 대화를 더욱 매력적으로 만들어 보세요.
VC가 없는 경우와 세 가지 다른 이니셔티브가 있는 VC를 포함하여 참가자의 작업 부하 지수 및 Likert 규모 등급
참여자는 사이트 시스템 선호도에 대한 상호 작용의 차이도 보고했습니다. 즉, 서로 다른 수준을 사용합니다. 다양한 회의 시나리오에서의 VC 이니셔티브
위 내용은 이제 당황스러운 '화상회의'에 대해 걱정하지 마세요! Google CHI는 새로운 아티팩트 시각적 캡션을 출시합니다. 사진을 자막 도우미로 활용하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 발견합니다.

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
