*이 기사는 *** 데이터 과학 블로그 톤의 일부입니다
목차
멀티 모달 래그 란 무엇입니까?
nomic 비전 임베딩
nomic 비전 임베딩의 성능 벤치 마크
nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현
1 단계 : 필요한 라이브러리 설치
2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기
3 단계 : PDF에서 이미지 추출
4 단계 : pdf
6 단계 : 텍스트 데이터 청킹
7 단계 : 로딩 노미 임베딩 모델
8 단계 : 내장 생성
9 단계 : QDRANT 에 텍스트 임베드를 저장합니다
10 단계 : QDRANT 에 이미지 임베딩을 저장합니다
11 단계 : 멀티 모달 리트리버 생성
12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것
쿼리
결론
자주 묻는 질문
멀티 모달 래그 란 무엇입니까?
멀티 모달 래그는 다양한 데이터 유형을 통합하여 전통적인 래그를 기반으로 한 상당한 AI 발전을 나타냅니다. 텍스트를 주로 처리하는 기존 시스템과 달리 멀티 모달 래그는 여러 데이터 형식을 동시에 통합합니다. 이것은 다른 양식에 걸쳐보다 포괄적 인 이해와 맥락 인식 반응으로 이어집니다. .
주요 멀티 모달 래그 구성 요소 :
데이터 수집 : 다양한 소스의 - 데이터는 특수 프로세서를 사용하여 섭취하여 검증, 청소 및 정규화를 보장합니다.
벡터 표현 : 양식은 신경망 (예 : 이미지 클립, 텍스트의 버트)을 사용하여 처리됩니다.
벡터 데이터베이스 스토리지 : 임베딩은 효율적인 검색을 위해 인덱싱 기술 (HNSW, FAISS)을 사용하여 최적화 된 벡터 데이터베이스 (예 : Qdrant)에 저장됩니다.
쿼리 처리 : > 들어오는 쿼리는 분석되고, 저장된 데이터와 동일한 벡터 공간으로 변환되며, 관련 양식을 식별하고 검색을위한 임베딩을 생성하는 데 사용됩니다.
-
nomic 비전 임베딩
nomic 비전 임베드는 주요 혁신으로 시각적 및 텍스트 데이터를위한 통합 된 임베딩 공간을 만듭니다. NOMIC AI가 개발 한 Nomic Imbed Vision V1 및 V1.5는 텍스트 상대와 동일한 잠복 공간을 공유합니다 (Nomic Imbed Text V1 및 V1.5). 따라서 텍스트-이미지 검색과 같은 멀티 모달 작업에 이상적입니다. 상대적으로 작은 매개 변수 수 (92m)를 사용하면 NOMIC Imbed Vision은 대규모 응용 프로그램에 효율적입니다.
클립 모델 제한 주소 지정 :
클립은 제로 샷 기능으로 탁월하지만 텍스트 인코더는 이미지 검색 이외의 작업에서 (MTEB 벤치 마크에 표시된대로) 성능이 저조합니다. Nomic Imbed Vision은 Nomic Embed Text 잠재 공간과 비전 인코더를 정렬하여이를 해결합니다.
nomic embed Vision은 Nomic Imbed Text와 함께 훈련되어 텍스트 인코더를 동결하고 이미지 텍스트 쌍의 비전 인코더를 훈련 시켰습니다. 이를 통해 NOMIC INMED TEXT INMEDDING과 최적의 결과와 후진 호환성을 보장합니다.
nomic 비전 임베딩의 성능 벤치 마크
클립 모델은 제로 샷 기능에서 인상적이지만 시맨틱 유사성 (MTEB 벤치 마크)과 같은 단단한 작업에서 약점을 보여줍니다. NOMIC INMED VISION은 NOMIC INMED 텍스트 잠재 공간과 비전 인코더를 정렬하여 이미지, 텍스트 및 멀티 모달 작업 (ImageNet Zero-Shot, MTEB, DataComp 벤치 마크)에서 강력한 성능을 제공함으로써이를 극복합니다.
-
nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현
이 튜토리얼은 텍스트와 이미지가 포함 된 PDF에서 정보를 검색하는 멀티 모달 래그 시스템 (T4 GPU와 함께 Google Colab 사용)을 구축합니다.
1 단계 : 라이브러리 설치
필요한 파이썬 라이브러리 설치 : OpenAi, Qdrant, Transformers, Torch, Pymupdf 등2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기
OpenAI API 키를 설정하고 필수 라이브러리를 가져옵니다 (Pymupdf, Pil, Langchain, OpenAi 등). (간결성을 위해 코드가 생략되었습니다.)
3 단계 : PDF에서 이미지 추출
pymupdf를 사용하여 PDF에서 이미지를 추출하고 디렉토리로 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
4 단계 : pdf pymupdf를 사용하여 각 pdf 페이지에서 텍스트를 추출하십시오. (간결성을 위해 코드가 생략되었습니다.)
5 단계 : 추출 된 데이터 저장
추출 된 이미지와 텍스트를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
6 단계 : 텍스트 데이터 청킹
추출 된 텍스트를 Langchain의 를 사용하여 작은 덩어리로 나눕니다. (간결성을 위해 코드가 생략되었습니다.)
7 단계 : 로딩 노미 임베딩 모델
Hugging Face의 변압기를 사용하여 Nomic의 텍스트 및 비전 임베딩 모델을로드하십시오. (간결성을 위해 코드가 생략되었습니다.)
8 단계 : 내장 생성
텍스트 및 이미지 임베딩을 생성합니다. (간결성을 위해 코드가 생략되었습니다.)
9 단계 : QDRANT 에 텍스트 임베드를 저장합니다
Qdrant 컬렉션에 텍스트 임베드를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
10 단계 : QDRANT 에 이미지 임베딩을 저장합니다
이미지 임베딩을 별도의 Qdrant 컬렉션에 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
11 단계 : 멀티 모달 리트리버 생성
쿼리를 기반으로 관련 텍스트 및 이미지 임베딩을 검색하는 함수를 만듭니다. (간결성을 위해 코드가 생략되었습니다.)
12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것
Langchain을 사용하여 검색된 데이터를 처리하고 언어 모델 (예 : GPT-4)을 사용하여 응답을 생성합니다. (간결성을 위해 코드가 생략되었습니다.)
쿼리
예제 쿼리는 PDF 내 텍스트와 이미지 모두에서 정보를 검색하는 시스템의 능력을 보여줍니다. (예제는 간결성을 위해 쿼리 및 출력이 생략되었지만 원본에는 존재합니다.)
결론
nomic 비전 임베드는 멀티 모달 래그를 크게 향상시켜 시각적 데이터와 텍스트 데이터 사이의 원활한 상호 작용을 가능하게합니다. 이는 클립과 같은 모델의 한계를 해결하여 통일 된 임베딩 공간을 제공하고 다양한 작업에서 개선 된 성능을 제공합니다. 이것은 생산 환경에서 더 풍부하고 상황을 인식하는 사용자 경험으로 이어집니다.
키 테이크 아웃
멀티 모달 래그는보다 포괄적 인 이해를 위해 다양한 데이터 유형을 통합합니다.
nomic 비전 임베드는 개선 된 정보 검색을위한 시각적 및 텍스트 데이터를 통합합니다.
시스템은 효율적인 검색을 위해 특수 처리, 벡터 표현 및 스토리지를 사용합니다.
nomic embed Vision은 단단한 작업에서 클립의 한계를 극복합니다
자주 묻는 질문
(FAQS는 간결하게 생략되었지만 원본에 존재합니다.) 참고 : 코드 스 니펫은 간결하게 생략되었지만 핵심 기능과 단계는 정확하게 설명되어 있습니다. 원래 입력에는 광범위한 코드가 포함되어 있습니다. 그것을 포함 하여이 응답을 지나치게 길게 만들 것입니다. 완전한 코드 구현은 원래 입력을 참조하십시오.
-
데이터 수집 : 다양한 소스의
- 데이터는 특수 프로세서를 사용하여 섭취하여 검증, 청소 및 정규화를 보장합니다. 벡터 표현 : 양식은 신경망 (예 : 이미지 클립, 텍스트의 버트)을 사용하여 처리됩니다. 벡터 데이터베이스 스토리지 : 임베딩은 효율적인 검색을 위해 인덱싱 기술 (HNSW, FAISS)을 사용하여 최적화 된 벡터 데이터베이스 (예 : Qdrant)에 저장됩니다. 쿼리 처리 : > 들어오는 쿼리는 분석되고, 저장된 데이터와 동일한 벡터 공간으로 변환되며, 관련 양식을 식별하고 검색을위한 임베딩을 생성하는 데 사용됩니다.
-
nomic 비전 임베딩 nomic 비전 임베드는 주요 혁신으로 시각적 및 텍스트 데이터를위한 통합 된 임베딩 공간을 만듭니다. NOMIC AI가 개발 한 Nomic Imbed Vision V1 및 V1.5는 텍스트 상대와 동일한 잠복 공간을 공유합니다 (Nomic Imbed Text V1 및 V1.5). 따라서 텍스트-이미지 검색과 같은 멀티 모달 작업에 이상적입니다. 상대적으로 작은 매개 변수 수 (92m)를 사용하면 NOMIC Imbed Vision은 대규모 응용 프로그램에 효율적입니다. 클립 모델 제한 주소 지정 : 클립은 제로 샷 기능으로 탁월하지만 텍스트 인코더는 이미지 검색 이외의 작업에서 (MTEB 벤치 마크에 표시된대로) 성능이 저조합니다. Nomic Imbed Vision은 Nomic Embed Text 잠재 공간과 비전 인코더를 정렬하여이를 해결합니다. -
nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현 이 튜토리얼은 텍스트와 이미지가 포함 된 PDF에서 정보를 검색하는 멀티 모달 래그 시스템 (T4 GPU와 함께 Google Colab 사용)을 구축합니다. 1 단계 : 라이브러리 설치 필요한 파이썬 라이브러리 설치 : OpenAi, Qdrant, Transformers, Torch, Pymupdf 등2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기 OpenAI API 키를 설정하고 필수 라이브러리를 가져옵니다 (Pymupdf, Pil, Langchain, OpenAi 등). (간결성을 위해 코드가 생략되었습니다.) 3 단계 : PDF에서 이미지 추출 pymupdf를 사용하여 PDF에서 이미지를 추출하고 디렉토리로 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 4 단계 : pdf pymupdf를 사용하여 각 pdf 페이지에서 텍스트를 추출하십시오. (간결성을 위해 코드가 생략되었습니다.) 5 단계 : 추출 된 데이터 저장 추출 된 이미지와 텍스트를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 6 단계 : 텍스트 데이터 청킹 추출 된 텍스트를 Langchain의 를 사용하여 작은 덩어리로 나눕니다. (간결성을 위해 코드가 생략되었습니다.) 7 단계 : 로딩 노미 임베딩 모델 Hugging Face의 변압기를 사용하여 Nomic의 텍스트 및 비전 임베딩 모델을로드하십시오. (간결성을 위해 코드가 생략되었습니다.) 8 단계 : 내장 생성 텍스트 및 이미지 임베딩을 생성합니다. (간결성을 위해 코드가 생략되었습니다.) 9 단계 : QDRANT 에 텍스트 임베드를 저장합니다 Qdrant 컬렉션에 텍스트 임베드를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 10 단계 : QDRANT 에 이미지 임베딩을 저장합니다 이미지 임베딩을 별도의 Qdrant 컬렉션에 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 11 단계 : 멀티 모달 리트리버 생성 쿼리를 기반으로 관련 텍스트 및 이미지 임베딩을 검색하는 함수를 만듭니다. (간결성을 위해 코드가 생략되었습니다.) 12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것 Langchain을 사용하여 검색된 데이터를 처리하고 언어 모델 (예 : GPT-4)을 사용하여 응답을 생성합니다. (간결성을 위해 코드가 생략되었습니다.) 쿼리 예제 쿼리는 PDF 내 텍스트와 이미지 모두에서 정보를 검색하는 시스템의 능력을 보여줍니다. (예제는 간결성을 위해 쿼리 및 출력이 생략되었지만 원본에는 존재합니다.) 결론
nomic 비전 임베드는 멀티 모달 래그를 크게 향상시켜 시각적 데이터와 텍스트 데이터 사이의 원활한 상호 작용을 가능하게합니다. 이는 클립과 같은 모델의 한계를 해결하여 통일 된 임베딩 공간을 제공하고 다양한 작업에서 개선 된 성능을 제공합니다. 이것은 생산 환경에서 더 풍부하고 상황을 인식하는 사용자 경험으로 이어집니다. 키 테이크 아웃 멀티 모달 래그는보다 포괄적 인 이해를 위해 다양한 데이터 유형을 통합합니다. nomic 비전 임베드는 개선 된 정보 검색을위한 시각적 및 텍스트 데이터를 통합합니다. 시스템은 효율적인 검색을 위해 특수 처리, 벡터 표현 및 스토리지를 사용합니다. nomic embed Vision은 단단한 작업에서 클립의 한계를 극복합니다 자주 묻는 질문 (FAQS는 간결하게 생략되었지만 원본에 존재합니다.) 참고 :코드 스 니펫은 간결하게 생략되었지만 핵심 기능과 단계는 정확하게 설명되어 있습니다. 원래 입력에는 광범위한 코드가 포함되어 있습니다. 그것을 포함 하여이 응답을 지나치게 길게 만들 것입니다. 완전한 코드 구현은 원래 입력을 참조하십시오.
위 내용은 nomic 임베딩으로 헝겊 시스템을 향상시킵니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 있습니다.

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경
