통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지-일체 포함-php.cn

집

기술 주변기기

일체 포함

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

王林

Apr 12, 2023 pm 05:31 PM

ai모델

본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.

이제 AI 서클에서 손의 속도로 경쟁할 차례입니다.

아니요, 메타의 SAM이 출시된 지 며칠 안 됐는데, 국내 프로그래머들이 버프를 겹쳐서 표적 탐지, 세분화, 주요 시각 AI 기능 생성 등을 하나로 통합했습니다!

예를 들어 Stable Diffusion과 SAM을 기반으로 사진 속 의자를 소파로 완벽하게 교체할 수 있습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

옷과 머리 색깔을 바꾸는 것도 너무 쉽습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

프로젝트가 시작되자마자 출시되자 많은 사람들이 "핸드스피드가 너무 빠르다"고 감탄했습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

누군가가 말했습니다: 나와 아라가키 유이의 새로운 웨딩 사진이 있습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

위는 Gounded-SAM이 가져온 효과입니다. 이 프로젝트는 GitHub에서 1.8,000개의 별을 받았습니다.

간단히 말하면 이미지만 입력하면 이미지를 자동으로 감지하고 분할하는 제로샷 비전 애플리케이션입니다.

이 연구는 Shen Xiangyang이 창립자이자 회장인 IDEA 연구소(광동-홍콩-마카오 Greater Bay Area 디지털 경제 연구소)에서 나온 것입니다.

추가 교육이 필요하지 않습니다.

Grounded SAM은 주로 Grounding DINO와 SAM의 두 가지 모델로 구성됩니다.

그 중 SAM(Segment Anything)은 Meta에서 4일 전에 출시한 Zero-sample Segmentation 모델입니다.

훈련 과정에서 나타나지 않은 객체와 이미지를 포함하여 이미지/비디오의 모든 객체에 대한 마스크를 생성할 수 있습니다.

SAM이 모든 프롬프트에 대해 유효한 마스크를 반환하도록 함으로써 모델은 프롬프트가 모호하거나 여러 객체를 가리키는 경우에도 모든 가능성 중에서 합리적인 마스크를 출력할 수 있습니다. 이 작업은 모델을 사전 훈련하고 힌트를 통해 일반적인 다운스트림 분할 작업을 해결하는 데 사용됩니다.

모델 프레임워크는 주로 이미지 인코더, 힌트 인코더 및 빠른 마스크 디코더로 구성됩니다. 이미지 임베딩을 계산한 후 SAM은 50밀리초 이내에 웹의 모든 프롬프트를 기반으로 분할을 생성할 수 있습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

Grounding DINO는 이 연구팀의 기존 성과입니다.

이것은 제로샷 감지 모델으로, 텍스트 설명이 포함된 개체 상자와 라벨을 생성할 수 있습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

두 가지를 결합한 후에는 텍스트 설명을 통해 사진 속 개체를 찾을 수 있으며, SAM의 강력한 분할 기능을 사용하여 마스크를 세밀하게 분할할 수 있습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

이러한 기능 외에도. , 그들은 또한 처음에 표시된 제어 가능한 이미지 생성인 Stable Diffusion 능력을 중첩합니다.

Stable Diffusion이 이전에도 유사한 기능을 달성할 수 있었다는 점은 언급할 가치가 있습니다. 교체하려는 이미지 요소를 지우고 텍스트 프롬프트를 입력하기만 하면 됩니다.

이번 Grounded SAM에서는 수동 선택 단계를 저장하고 텍스트 설명을 통해 직접 제어할 수 있습니다.

또한 BLIP(Bootstrapping Language-Image Pre-training)과 결합하여 이미지 제목을 생성하고 레이블을 추출한 후 개체 상자와 마스크를 생성합니다.

현재 더 흥미로운 기능이 개발 중입니다.

예를 들어 캐릭터의 일부 확장: 옷 갈아입기, 머리 색깔, 피부색 등.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

구체적인 소비 방법도 GitHub에 올려두었습니다. 프로젝트에는 Python 3.8 이상, pytorch 1.7 이상, torchvision 0.8 이상이 필요하며 관련 종속성이 설치되어야 합니다. 구체적인 내용은 GitHub 프로젝트 페이지를 참조하세요.

연구팀은 IDEA 연구소(광동-홍콩-마카오 Greater Bay Area 디지털 경제 연구소) 출신입니다.

공개 정보에 따르면 연구소는 인공 지능, 디지털 경제 산업 및 첨단 기술을 위한 국제 혁신 연구 기관입니다. 전 Microsoft Asia Research Institute의 수석 과학자이자 전 Microsoft Global Intelligence의 부사장 Dr. Shen Xiangyang 창립자이자 회장직을 맡고 있습니다.

한 가지 더

Grounded SAM의 향후 작업을 위해 팀은 여러 가지 전망을 가지고 있습니다.

이미지를 자동으로 생성하여 새로운 데이터 세트를 형성합니다.
분할 사전 훈련을 갖춘 강력한 기본 모델
(채팅- )GPT
이미지 라벨, 박스, 마스크를 자동으로 생성하고 새로운 이미지를 생성할 수 있는 파이프라인을 구성합니다.

이 프로젝트의 팀원 중 상당수가 Zhihu의 AI 분야에서 적극적으로 응답하고 있다는 점을 언급할 가치가 있습니다. 이번에는 Zhihu의 Grounded SAM에 대한 질문에도 답변해 주셨습니다.

통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지

위 내용은 통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

모든 비즈니스 아이디어를 향상시킬 수있는 5 개의 강력한 AI 프롬프트Apr 16, 2025 am 11:11 AM

다행히도 이것은 생성 AI가 매우 도움이 될 수있는 필드입니다. 아니요, 그것은 완벽한 전략을 제시하지 않을 것입니다. 그러나 비즈니스 계획을 브레인 스토밍하고 시장 조사 및 마케팅 컨텐츠 및 메시징을 미세 조정하는 데 도움이 될 수 있습니다. 아닙니다

졸업생 : AI 시대를위한 경력 조언Apr 16, 2025 am 11:10 AM

올해 만 다르게 느껴집니다. 불확실한. 관세 전쟁이 잘 진행되고 있다는 사실은 아닙니다. AI는 너무 많은 머리 긁힘과 영혼 검색의 근본적인 원인입니다. 전국 청소년 자선 단체 온 사이드는 최근에 설문 조사를 실시했습니다.

효과적인 가속도 또는 친 사회적 ai. AI의 미래는 무엇입니까?Apr 16, 2025 am 11:09 AM

가속 주의자 비전 : 최고 속도 E/ACC로 알려진 효과적인 가속도는 2022 년경 실리콘 밸리와 그 너머에서 상당한 견인력을 얻은 기술 최적의 운동으로 나타났습니다.

Excel의 상대적, 절대 및 혼합 참조는 무엇입니까?Apr 16, 2025 am 11:03 AM

소개 초기 스프레드 시트 경험은 복사시 공식의 예측할 수없는 행동으로 인해 실망 스러웠습니다. 나는 그때 셀 참조를 이해하지 못했지만, 상대적, 절대적, 혼합 참조를 마스터하는 것은 내 스프레드 스를 혁명으로 만들었다

Word2Vec을 사용한 스마트 제목 전자 메일 라인 생성Apr 16, 2025 am 11:01 AM

이 기사는 Word2Vec 임베드를 사용하여 효과적인 이메일 제목 줄을 생성하는 방법을 보여줍니다. 그것은 의미 론적 유사성을 활용하여 상황에 맞는 제목 줄을 만들어 이메일 마케팅을 개선하는 시스템을 구축함으로써 당신을 안내합니다.

데이터 분석가의 미래Apr 16, 2025 am 11:00 AM

데이터 분석 : 진화하는 환경 탐색 데이터가 숫자가 아니라 모든 관리 결정의 초석을 상상해보십시오. 이 동적 환경에서 데이터 분석가는 필수 불가결 한 데이터를 실행 가능한 것으로 변환합니다.

Excel의 Sumproduct 기능은 무엇입니까? - 분석 VidhyaApr 16, 2025 am 10:55 AM

Excel의 SumProduct 기능 : 데이터 분석 강국 간소화 된 데이터 분석을 위해 Excel의 SumProduct 기능의 힘을 잠금 해제하십시오. 이 다재다능한 기능은 요약 및 곱하기 기능을 쉽게 결합하여 추가로 확장, 빼기

데이터 스크러빙 란 무엇입니까?Apr 16, 2025 am 10:53 AM

데이터 정리 : 정보에 입각 한 의사 결정에 대한 데이터 정확성 및 신뢰성 보장 부정확 한 게스트 목록 (연락처, 복제, 철자가 잘못된 이름)으로 대가족 상봉을 계획한다고 상상해보십시오. 제대로 준비되지 않은 목록은 이벤트를 망칠 수 있습니다. 비슷하게

See all articles

핫 AI 도구

뜨거운 도구

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.