>기술 주변기기 >일체 포함 >ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

WBOY
WBOY앞으로
2023-04-12 22:58:051764검색

2022년에는 '원성투' 모델이 인기를 끌 것 같은데, 2023년에는 어떤 모델이 인기를 끌까요?

기계 학습 엔지니어 Daniel Bourke의 대답은 다음과 같습니다. 그 반대입니다!

아니요, 새로 출시된 '그림 기반 텍스트' 모델이 인터넷에서 폭발적인 인기를 얻었고, 그 뛰어난 효과로 인해 많은 네티즌들이 다시 게시하고 좋아요를 눌렀습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

기본적인 "그림을 보고 대화하기" 기능뿐만 아니라, 사랑의 시 쓰기, 줄거리 설명, 그림 속 물체에 대한 대화 디자인 등 모든 기능을 원활하게 처리할 수 있는 AI입니다!

예를 들어, 온라인에서 맛있는 음식을 찾았을 때 사진을 보내면 필요한 재료와 요리 단계가 즉시 인식됩니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

사진에 있는 일부 음식도 Leeuwenhoek의 세부 정보일 수도 있습니다. 분명히 "봤다".

사진 속 뒤집힌 집에서 어떻게 빠져나오느냐고 묻자 AI의 대답은: 옆쪽에 미끄럼틀이 있는 거 아닌가요?

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

이 새로운 AI는 BLIP-2(Bootstrapping Language-Image Pre-training 2)라고 불리며, 코드는 현재 오픈 소스입니다.

가장 중요한 점은 BLIP-2는 이전 연구와 달리 보편적인 사전 학습 프레임워크를 사용하기 때문에 자신의 언어 모델에 임의로 연결할 수 있다는 점입니다.

일부 네티즌들은 인터페이스를 ChatGPT로 바꾼 후 이미 강력한 조합을 고민하고 있습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

저자 중 한 명인 Steven Hoi는 BLIP-2가 미래에 "ChatGPT의 다중 모드 버전"이 될 것이라고 말했습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

그렇다면 BLIP-2의 또 다른 놀라운 점은 무엇일까요? 함께 아래를 내려다보세요.

뛰어난 이해력

BLIP-2는 게임 플레이가 매우 다양하다고 할 수 있습니다.

사진만 제공하면 대화도 가능하고 스토리텔링, 추론, 개인화된 텍스트 생성 등 다양한 요구사항을 충족할 수 있습니다.

예를 들어 BLIP-2는 사진 속의 명승지를 만리장성으로 쉽게 식별할 수 있을 뿐만 아니라 만리장성의 역사도 소개합니다.

중국의 만리장성은 기원전 221년에 진시황이 건설했습니다. 북방의 침략으로부터 제국의 수도를 지켜라.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

영화 스틸을 제공하면 BLIP-2는 그것이 어디서 왔는지 알 뿐만 아니라 이야기의 결말도 알고 있습니다. 즉, 타이타닉이 침몰하고 영웅이 익사했습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

BLIP-2는 인간의 표정도 매우 정확하게 파악하고 있습니다.

사진 속 남자의 표정이 어떠하며 왜 그러냐는 질문에 BLIP-2의 대답은 "닭이 자신을 향해 날아오니까 무서워서였다"고 답했습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

더 놀라운 점은 BLIP-2가 많은 공개 질문에서도 매우 좋은 성능을 발휘한다는 것입니다.

아래 그림을 바탕으로 로맨틱한 문장을 쓰도록 요청하세요.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

답은 다음과 같습니다. 사랑은 일몰과 같아서, 다가오는 것을 보기 힘들지만, 일어나면 너무 아름답습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

이 분은 완벽한 이해력을 가지고 있을 뿐만 아니라, 문학적 소양도 뛰어납니다!

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

그림 속 두 동물에 대한 대화를 생성하도록 하세요. BLIP-2는 오만한 고양이 x 바보 개 설정도 쉽게 처리할 수 있습니다.

고양이: 야 개야, 네 등에 올라타도 될까?

개: 물론이죠, 왜 안 되겠어요?

고양이: 눈밭을 걷는데 지쳤어요.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

그렇다면 BLIP-2는 어떻게 이렇게 강력한 이해 능력을 발휘할 수 있을까요?

여러 시각적 언어 작업에서 새로운 SOTA 달성

대규모 모델의 엔드 투 엔드 교육 비용 증가를 고려하여 BLIP-2는 일반적이고 효율적인 사전 교육 전략을 사용합니다.

기성품에서 고정된 사전 학습된 이미지 인코더 및 고정된 대규모 언어 모델의 안내된 시각적 언어 사전 학습입니다.

이는 누구나 자신이 사용하고 싶은 모델을 선택할 수 있다는 의미이기도 합니다.

모드 간 격차를 해소하기 위해 연구원은 경량 쿼리 변환기를 제안했습니다.

이 Transformer는 두 단계로 사전 훈련됩니다.

첫 번째 단계는 고정 이미지 인코더에서 학습하는 시각적 언어 표현을 부트스트랩하고, 두 번째 단계는 고정 언어 모델에서 언어 생성 학습까지 비전을 부트스트랩합니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

연구진은 BLIP-2의 성능을 테스트하기 위해 제로샷 이미지 텍스트 생성, 시각적 질문 답변, 이미지 텍스트 검색 및 이미지 캡션 작업에 대해 평가했습니다.

최종 결과는 BLIP-2가 여러 시각적 언어 작업에서 SOTA를 달성한 것으로 나타났습니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

그 중 BLIP-2는 제로샷 VQAv2에서 Flamingo 80B보다 8.7% 더 높고 훈련 매개변수가 54배 감소했습니다.

그리고 더 강력한 이미지 인코더나 더 강력한 언어 모델이 더 나은 성능을 제공한다는 것은 분명합니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

연구원은 논문 끝부분에서 BLIP-2가 여전히 단점, 즉 맥락 학습 능력이 부족하다는 점을 언급했다는 점을 언급할 가치가 있습니다.

각 샘플에는 하나의 이미지만 포함되어 있습니다. 텍스트 쌍, 현재 단일 시퀀스에서 여러 이미지-텍스트 쌍 간의 상관 관계를 학습하는 것은 불가능합니다.

연구팀

BLIP-2의 연구팀은 Salesforce Research 소속입니다.

ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.

제1저자는 1년 전 런칭한 BLIP의 제1저자이기도 한 Junnan Li입니다.

현재 세일즈포스 아시아 연구소의 선임연구원이다. 홍콩대학교에서 학사, 싱가포르 국립대학교에서 박사학위를 취득했습니다.

자기 지도 학습, 준지도 학습, 약한 지도 학습, 시각 언어 등 연구 분야가 매우 넓습니다.

다음은 BLIP-2의 논문 링크와 GitHub 링크입니다. 관심 있는 친구들은 골라보세요~

​페이퍼 링크: https://arxiv.org/pdf/2301.12597.pdf

GitHub 링크: https: / /github.com/salesforce/LAVIS/tree/main/projects/blip2

참조 링크: [1]https://twitter.com/mrdbourke/status/1620353263651688448

[2]​https://twitter. /LiJunnan0409/status/1620259379223343107

위 내용은 ChatGPT에게 사진 읽는 방법을 가르치는 방법은 다음과 같습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제