>기술 주변기기 >일체 포함 >마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

WBOY
WBOY앞으로
2023-04-15 08:43:021224검색

2021년 11월 마이크로소프트는 40개 이상의 벤치마크 작업을 휩쓴 멀티모달 비전 기본 모델 플로렌스(Florence)를 출시했으며 분류, 대상 탐지, VQA, 그림을 통한 대화, 비디오 검색, 액션 등 많은 작업에 쉽게 적용할 수 있었습니다. 인식 등 작업.

1년 반만에 피렌체가 정식으로 상업화 단계를 시작했습니다!

플로렌스는 무엇을 할 수 있나요?

최근 Microsoft 글로벌 인공 지능 최고 기술 책임자(CTO) Huang Xuedong은 Microsoft Florence 기본 모델의 공개 미리 보기 버전을 공식 발표했습니다.

Florence 모델은 수십억 개의 텍스트-이미지 쌍으로 학습되었으며 Azure 인지 비전 서비스에 통합되었습니다. "가격" 및 "성능" 측면에서 "프로덕션 환경" 요구 사항에 도달했으며 현재 무료 평가판 단계.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

향상된 비전 서비스를 통해 개발자는 다양한 산업 분야에 걸쳐 시장에 바로 적용할 수 있는 최첨단 컴퓨터 비전 애플리케이션을 만들 수 있습니다. 고객은 데이터를 원활하게 디지털화, 분석하고 자연어 상호 작용으로 연결하여 이미지 및 비디오 콘텐츠에서 보다 정확한 정보를 추출하고 유해한 콘텐츠로부터 사용자를 보호하며 보안을 강화하고 사고 대응 속도를 높일 수 있습니다.

Florence의 실제 기능도 매우 강력하며 사용자는 Vision Studio에서 "즉시 사용 가능한" 기능을 경험할 수 있습니다.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

경험 웹사이트: https://portal.vision.cognitive.azure.com/gallery/featured

구체적인 포함:

촘촘한 캡션(자세한 설명): 자동으로 풍부한 설명 정보 및 디자인 제안 제공 가능 접근 가능 대체 텍스트, SEO, 스마트 사진 관리 등을 통해 디지털 콘텐츠를 지원합니다.

이미지 검색: 자연어 쿼리를 사용하여 이미지와 텍스트 간의 유사성을 원활하게 측정하여 검색 추천 및 광고를 개선합니다.

배경 제거: 사람과 사물을 원래 배경에서 쉽게 분리하고 다른 배경 장면으로 대체하여 이미지의 모양과 느낌을 바꿀 수 있습니다.

모델 맞춤화: 사용 가능한 이미지 수가 적더라도 더 높은 정확도로 고유한 비즈니스 요구 사항에 맞는 맞춤형 모델을 제공하는 데 드는 비용과 시간을 줄입니다.

비디오 요약: 인간이 생각하고 쓰는 것과 동일한 직관적인 방식으로 비디오 콘텐츠를 검색하고 상호 작용합니다. 관련 콘텐츠를 찾는 데 도움이 되며 추가 메타데이터가 필요하지 않습니다.

Reddit

Reddit 소비자 제품 제품 관리자인 Tiffany Ong은 Microsoft의 Vision 기술을 통해 사용자가 Reddit의 콘텐츠를 더 쉽게 발견하고 이해할 수 있다고 말했습니다.

새로 생성된 이미지 설명을 통해 사용자는 Reddit에 더 쉽게 액세스할 수 있습니다. 이미지 설명을 사용하면 사용자가 기사 검색 결과를 개선할 수 있으며, Reddit 사용자에게 사이트에서 이미지를 탐색하고, 대화에 참여하고, 궁극적으로 연결과 커뮤니티를 구축할 수 있는 더 많은 기회가 제공됩니다. 감지.

Florence는 이미지당 최대 10,000개의 태그를 생성할 수 있으므로 Reddit이 이미지의 개체 수를 더 효과적으로 제어할 수 있고 더 나은 이미지 설명을 생성하는 데 도움이 됩니다.

Microsoft 365

Microsoft는 Microsoft 데이터 센터 외에도 Microsoft 365 응용 프로그램(Teams, PowerPoint, Outlook, Word, Designer, OneDrive 포함)의 시각적 서비스 기능도 개선하고 있습니다.

이미지 분할 기능을 통해 Teams는 디지털 공간에서 혁신을 주도하고 가상 회의 경험을 새로운 차원으로 끌어올리고 있습니다.

PowerPoint, Outlook 및 Word는 자동으로 텍스트를 대체하는 이미지 설명으로 접근성을 향상시킵니다.

Microsoft Designer와 OneDrive는 향상된 이미지 설명, 이미지 검색 및 배경 생성을 통해 이미지 검색 및 편집을 단순화합니다.

Microsoft 데이터 센터는 비전 서비스를 활용하여 보안과 인프라 안정성을 향상하고 있습니다.

LinkedIn

LinkedIn의 접근성 엔지니어링 책임자인 Jennison Asuncon은 LinkedIn의 게시물 중 40% 이상이 시각 장애가 있거나 시력이 낮은 사용자의 경우 시각적 서비스를 통해 모든 사용자가 이미지를 가질 수 있다고 말했습니다. 독서에 대한 동등한 접근권을 보장하고 온라인 대화에 참여할 수 있도록 합니다.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

Azure Visual Cognitive Service를 통해 LinkedIn은 자동 이미지 설명 편집 및 대체 텍스트 지원을 제공할 수 있는데 이는 새로운 경험입니다.

저도 신났을 뿐만 아니라 제 동료들이 행사에 참석한 사진을 공유했는데 그 사진에는 LinkedIn CEO인 Ryan Roslansky가 있었습니다.

책임 있게 혁신

책임 있는 인공 지능 원칙을 검토하면 Microsoft가 세상의 접근성을 개선하기 위해 인공 지능 시스템을 개발하는 데 어떻게 전념하고 있는지 알 수 있습니다.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

Microsoft는 조직이 인공 지능을 최대한 활용할 수 있도록 돕기 위해 최선을 다하고 있으며, 보다 지속 가능하고 안전하며 접근 가능한 세상을 만들기 위해 노력하는 사람들에게 기술, 리소스 및 전문 지식을 제공하는 프로젝트에 막대한 투자를 하고 있습니다.

Multimodality is the future

Microsoft와 Google을 포함한 많은 거대 기술 기업들은 인공 지능 시스템의 기능을 향상시키는 가장 좋은 방법이 "다중 모드 모델"이라고 믿고 있습니다. 모델은 언어, 이미지, 비디오 및 오디오를 동시에 이해할 수 있으며 비디오에 텍스트 설명을 추가하는 등 단일 모달 모델이 완료할 수 없는 작업을 완료할 수 있습니다.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

한 모델을 사용하여 이미지를 이해하고 다른 모델을 사용하여 언어를 이해하는 등 동일한 목적을 달성하기 위해 여러 "단일 모달" 모델을 함께 묶는 것은 어떨까요?

첫 번째 이유는 다른 양식에서 제공되는 배경 정보를 사용하면 경우에 따라 다중 모드 모델이 동일한 작업에서 단일 모드 모델보다 더 나은 성능을 발휘할 수 있다는 것입니다.

예를 들어 이미지, 가격 데이터, 구매 내역을 이해하는 AI 도우미는 "가격 데이터만 이해하는" AI보다 더 나은 맞춤형 제품 추천을 제공할 수 있습니다.

그리고 계산 관점에서 보면 다중 모드 모델이 더 효율적인 경우가 많으므로 데이터 처리 속도를 높이고 백엔드 비용을 줄일 수 있습니다.

모든 기업이 비용 절감과 효율성 향상을 열망한다는 것은 의심의 여지가 없습니다.

Florence는 이미지, 비디오, 언어는 물론 이러한 양식 간의 관계를 이해할 수 있으므로 이미지와 텍스트 간의 유사성을 측정하는 등 단일 양식으로는 수행할 수 없는 일부 작업을 수행할 수 있습니다. 사진 속 개체를 분할한 다음 다른 배경에 붙여넣습니다.

거의 모든 AI 모델 훈련은 데이터 저작권 문제에 직면해 있습니다. Azure AI의 CVP인 John Montgomery는 "Florence의 훈련 데이터"에 대해 답변할 때 많은 정보를 공개하지 않았습니다. 또한 파트너의 데이터를 포함하여 "전적으로 획득한" 데이터 소스인 Montgomery는 훈련 데이터에서 잠재적으로 문제가 있는 콘텐츠를 제거하는 것도 공개 훈련 데이터 세트의 일반적인 특징이라고 말했습니다.

마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.

Montgomery는 대규모 기본 모델을 사용할 때 가장 중요한 것은 교육 데이터 세트의 품질을 보장하고 각 시각적 작업에 대한 Microsoft의 조정 모델에 대한 기반을 만드는 것이라고 믿습니다. 공정성, 적대적, 까다로운 사례에 대한 테스트를 거쳐 Azure Open AI Service 및 DALL-E와 동일한 콘텐츠 검토 서비스를 구현합니다.

향후 소비자는 Florence를 사용하여 제조 공정의 결함을 감지하고 소매점에서 셀프 체크아웃을 활성화하는 등 더 많은 작업을 수행할 수 있습니다.

그러나 Montgomery는 이러한 사용 사례에는 실제로 다중 모드 비전 모델이 필요하지 않지만 다중 모드가 프로세스에 가치 있는 것을 추가할 수 있다고 주장합니다.

Florence는 이미지와 텍스트 간의 간단하고 고품질의 번역 프로세스가 이루어지면 미지의 가능성이 있는 완전히 새로운 세계를 여는 "완전히 재검토된" 시각적 모델입니다.

고객은 크게 향상된 이미지 검색을 경험하고, 이미지 및 비전 모델은 물론 언어 및 음성과 같은 기타 모델 유형을 완전히 새로운 유형의 애플리케이션으로 훈련하고, 사용자 정의 모델의 품질을 쉽게 향상시킬 수 있습니다.

위 내용은 마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제