찾다
기술 주변기기일체 포함nomic 임베딩으로 헝겊 시스템을 향상시킵니다

Multimodal 검색 증명 생성 (RAG) 시스템은 텍스트, 이미지, 오디오 및 비디오 등 다양한 데이터 유형을 통합하여 AI를 혁신하고 있습니다. 이것은 전통적인 걸레를 능가하는 텍스트에만 초점을 둔 전통적인 걸레를 능가합니다. 주요 발전은 Nomic Vision Embedding으로 시각적 및 텍스트 데이터를위한 통합 공간을 만들어 원활한 교차 모달 상호 작용을 가능하게합니다. 고급 모델은 고품질 임베딩을 생성하여 정보 검색을 개선하고 다양한 컨텐츠 형태 간의 격차를 해소하여 궁극적으로 사용자 경험을 풍부하게합니다. 학습 목표

멀티 모달 헝겊의 기본 사항과 전통적인 래그에 대한 장점을 파악하십시오. 텍스트와 이미지 임베딩 공간을 통일하는 데있어서 비전 비전 임베딩의 역할을 이해합니다. nomic 비전 임베딩을 클립 모델과 비교하고 성능 벤치 마크를 분석합니다. nomic 비전 및 텍스트 임베딩을 사용하여 파이썬에서 멀티 모달 래그 시스템을 구현하십시오. 멀티 모달 검색을 위해 PDFS에서 텍스트 및 시각 데이터를 추출하고 처리하는 법을 배우십시오.

*이 기사는 *** 데이터 과학 블로그 톤의 일부입니다 목차
  • 멀티 모달 래그 란 무엇입니까? nomic 비전 임베딩 nomic 비전 임베딩의 성능 벤치 마크 nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현 1 단계 : 필요한 라이브러리 설치 2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기 3 단계 : PDF에서 이미지 추출 4 단계 : pdf 6 단계 : 텍스트 데이터 청킹 7 단계 : 로딩 노미 임베딩 모델 8 단계 : 내장 생성 9 단계 : QDRANT 에 텍스트 임베드를 저장합니다 10 단계 : QDRANT 에 이미지 임베딩을 저장합니다 11 단계 : 멀티 모달 리트리버 생성 12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것
  • 쿼리 결론 자주 묻는 질문
  • 멀티 모달 래그 란 무엇입니까? 멀티 모달 래그는 다양한 데이터 유형을 통합하여 전통적인 래그를 기반으로 한 상당한 AI 발전을 나타냅니다. 텍스트를 주로 처리하는 기존 시스템과 달리 멀티 모달 래그는 여러 데이터 형식을 동시에 통합합니다. 이것은 다른 양식에 걸쳐보다 포괄적 인 이해와 맥락 인식 반응으로 이어집니다. . 주요 멀티 모달 래그 구성 요소 :

      데이터 수집 : 다양한 소스의
    • 데이터는 특수 프로세서를 사용하여 섭취하여 검증, 청소 및 정규화를 보장합니다. 벡터 표현 : 양식은 신경망 (예 : 이미지 클립, 텍스트의 버트)을 사용하여 처리됩니다. 벡터 데이터베이스 스토리지 : 임베딩은 효율적인 검색을 위해 인덱싱 기술 (HNSW, FAISS)을 사용하여 최적화 된 벡터 데이터베이스 (예 : Qdrant)에 저장됩니다. 쿼리 처리 : > 들어오는 쿼리는 분석되고, 저장된 데이터와 동일한 벡터 공간으로 변환되며, 관련 양식을 식별하고 검색을위한 임베딩을 생성하는 데 사용됩니다.
    • nomic 비전 임베딩 nomic 비전 임베드는 주요 혁신으로 시각적 및 텍스트 데이터를위한 통합 된 임베딩 공간을 만듭니다. NOMIC AI가 개발 한 Nomic Imbed Vision V1 및 V1.5는 텍스트 상대와 동일한 잠복 공간을 공유합니다 (Nomic Imbed Text V1 및 V1.5). 따라서 텍스트-이미지 검색과 같은 멀티 모달 작업에 이상적입니다. 상대적으로 작은 매개 변수 수 (92m)를 사용하면 NOMIC Imbed Vision은 대규모 응용 프로그램에 효율적입니다. 클립 모델 제한 주소 지정 : 클립은 제로 샷 기능으로 탁월하지만 텍스트 인코더는 이미지 검색 이외의 작업에서 (MTEB 벤치 마크에 표시된대로) 성능이 저조합니다. Nomic Imbed Vision은 Nomic Embed Text 잠재 공간과 비전 인코더를 정렬하여이를 해결합니다.
    • nomic embed Vision은 Nomic Imbed Text와 함께 훈련되어 텍스트 인코더를 동결하고 이미지 텍스트 쌍의 비전 인코더를 훈련 시켰습니다. 이를 통해 NOMIC INMED TEXT INMEDDING과 최적의 결과와 후진 호환성을 보장합니다. nomic 비전 임베딩의 성능 벤치 마크 클립 모델은 제로 샷 기능에서 인상적이지만 시맨틱 유사성 (MTEB 벤치 마크)과 같은 단단한 작업에서 약점을 보여줍니다. NOMIC INMED VISION은 NOMIC INMED 텍스트 잠재 공간과 비전 인코더를 정렬하여 이미지, 텍스트 및 멀티 모달 작업 (ImageNet Zero-Shot, MTEB, DataComp 벤치 마크)에서 강력한 성능을 제공함으로써이를 극복합니다.
    • nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현 이 튜토리얼은 텍스트와 이미지가 포함 된 PDF에서 정보를 검색하는 멀티 모달 래그 시스템 (T4 GPU와 함께 Google Colab 사용)을 구축합니다. 1 단계 : 라이브러리 설치 필요한 파이썬 라이브러리 설치 : OpenAi, Qdrant, Transformers, Torch, Pymupdf 등2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기 OpenAI API 키를 설정하고 필수 라이브러리를 가져옵니다 (Pymupdf, Pil, Langchain, OpenAi 등). (간결성을 위해 코드가 생략되었습니다.) 3 단계 : PDF에서 이미지 추출 pymupdf를 사용하여 PDF에서 이미지를 추출하고 디렉토리로 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 4 단계 : pdf pymupdf를 사용하여 각 pdf 페이지에서 텍스트를 추출하십시오. (간결성을 위해 코드가 생략되었습니다.) 5 단계 : 추출 된 데이터 저장 추출 된 이미지와 텍스트를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 6 단계 : 텍스트 데이터 청킹 추출 된 텍스트를 Langchain의 를 사용하여 작은 덩어리로 나눕니다. (간결성을 위해 코드가 생략되었습니다.) 7 단계 : 로딩 노미 임베딩 모델 Hugging Face의 변압기를 사용하여 Nomic의 텍스트 및 비전 임베딩 모델을로드하십시오. (간결성을 위해 코드가 생략되었습니다.) 8 단계 : 내장 생성 텍스트 및 이미지 임베딩을 생성합니다. (간결성을 위해 코드가 생략되었습니다.) 9 단계 : QDRANT 에 텍스트 임베드를 저장합니다 Qdrant 컬렉션에 텍스트 임베드를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 10 단계 : QDRANT 에 이미지 임베딩을 저장합니다 이미지 임베딩을 별도의 Qdrant 컬렉션에 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 11 단계 : 멀티 모달 리트리버 생성 쿼리를 기반으로 관련 텍스트 및 이미지 임베딩을 검색하는 함수를 만듭니다. (간결성을 위해 코드가 생략되었습니다.) 12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것 Langchain을 사용하여 검색된 데이터를 처리하고 언어 모델 (예 : GPT-4)을 사용하여 응답을 생성합니다. (간결성을 위해 코드가 생략되었습니다.) 쿼리 예제 쿼리는 PDF 내 텍스트와 이미지 모두에서 정보를 검색하는 시스템의 능력을 보여줍니다. (예제는 간결성을 위해 쿼리 및 출력이 생략되었지만 원본에는 존재합니다.)

      결론 nomic 비전 임베드는 멀티 모달 래그를 크게 향상시켜 시각적 데이터와 텍스트 데이터 사이의 원활한 상호 작용을 가능하게합니다. 이는 클립과 같은 모델의 한계를 해결하여 통일 된 임베딩 공간을 제공하고 다양한 작업에서 개선 된 성능을 제공합니다. 이것은 생산 환경에서 더 풍부하고 상황을 인식하는 사용자 경험으로 이어집니다. 키 테이크 아웃

      멀티 모달 래그는보다 포괄적 인 이해를 위해 다양한 데이터 유형을 통합합니다. nomic 비전 임베드는 개선 된 정보 검색을위한 시각적 및 텍스트 데이터를 통합합니다. 시스템은 효율적인 검색을 위해 특수 처리, 벡터 표현 및 스토리지를 사용합니다. nomic embed Vision은 단단한 작업에서 클립의 한계를 극복합니다

      자주 묻는 질문

      (FAQS는 간결하게 생략되었지만 원본에 존재합니다.) 참고 :

      코드 스 니펫은 간결하게 생략되었지만 핵심 기능과 단계는 정확하게 설명되어 있습니다. 원래 입력에는 광범위한 코드가 포함되어 있습니다. 그것을 포함 하여이 응답을 지나치게 길게 만들 것입니다. 완전한 코드 구현은 원래 입력을 참조하십시오.

    위 내용은 nomic 임베딩으로 헝겊 시스템을 향상시킵니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
    에이전트 걸레를 사용하여 지능형 FAQ 챗봇을 만드는 방법에이전트 걸레를 사용하여 지능형 FAQ 챗봇을 만드는 방법May 07, 2025 am 11:28 AM

    AI 에이전트는 이제 크고 작은 기업의 일부입니다. 병원의 양식 작성 및 법률 문서 확인에서 비디오 장면 분석 및 고객 지원 처리에 이르기까지 모든 종류의 작업에 대한 AI 에이전트가 있습니다. 동료

    공황에서 권력으로 : AI 시대에 리더가 배워야하는 어떤 지도자공황에서 권력으로 : AI 시대에 리더가 배워야하는 어떤 지도자May 07, 2025 am 11:26 AM

    인생은 좋다. 예측 가능 - 당신의 분석적 마음이 그것을 선호하는 방식으로. 당신은 오늘 사무실에 들려 마지막 순간의 서류를 마무리했습니다. 그 후 바로 당신은 파트너와 아이들을 햇볕이 잘 드는 휴가를 보내고 있습니다.

    AGI를 예측하는 증거 수렴이 AI 전문가들의 과학적 합의를 능가 할 것이라고 왜AGI를 예측하는 증거 수렴이 AI 전문가들의 과학적 합의를 능가 할 것이라고 왜May 07, 2025 am 11:24 AM

    그러나 과학적 합의에는 딸꾹질과 gotchas가 있으며, 아마도 더 신중한 접근 방식은 양심으로도 알려진 증거의 수렴을 사용하는 것일 것입니다. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 나의

    Studio Ghibli Dilemma - 생성 시대의 저작권 AIStudio Ghibli Dilemma - 생성 시대의 저작권 AIMay 07, 2025 am 11:19 AM

    Openai 나 Studio Ghibli는이 이야기에 대한 의견 요청에 응답하지 않았습니다. 그러나 그들의 침묵은 창조적 인 경제에서 더 넓고 복잡한 긴장을 반영합니다. 생성 AI 시대에 저작권은 어떻게 기능해야합니까? 같은 도구와 함께

    Mulesoft는 아연 도금 에이전트 AI 연결을위한 믹스를 공식화합니다Mulesoft는 아연 도금 에이전트 AI 연결을위한 믹스를 공식화합니다May 07, 2025 am 11:18 AM

    콘크리트와 소프트웨어는 모두 필요한 경우 강력한 성능을 위해 아연 도금 될 수 있습니다. 둘 다 스트레스 테스트를 할 수 있으며, 둘 다 시간이 지남에 따라 균열과 균열로 고통받을 수 있으며, 둘 다 분해되어 두 기능의 생산 인 "새로운 빌드"로 재현 할 수 있습니다.

    Openai는 Windsurf를 구매하기 위해 30 억 달러의 계약을 체결 한 것으로 알려졌다Openai는 Windsurf를 구매하기 위해 30 억 달러의 계약을 체결 한 것으로 알려졌다May 07, 2025 am 11:16 AM

    그러나 많은보고는 매우 표면 수준에서 멈 춥니 다. Windsurf가 무엇인지 알아 내려고한다면 Google 검색 엔진 결과 상단에 표시되는 신디케이트 된 콘텐츠에서 원하는 것을 얻지 못할 수도 있습니다.

    모든 미국 어린이를위한 필수 AI 교육? 250 명 이상의 CEO가 예라고 말합니다모든 미국 어린이를위한 필수 AI 교육? 250 명 이상의 CEO가 예라고 말합니다May 07, 2025 am 11:15 AM

    주요 사실 공개 서한에 서명 한 리더에는 Adobe, Accenture, AMD, American Airlines, Blue Origin, Cognizant, Dell, Dropbox, IBM, LinkedIn, Lyft, Microsoft, Salesforce, Uber, Yahoo 및 Zoom과 같은 유명 회사의 CEO가 포함됩니다.

    우리의 안주 위기 : AI 속임수 탐색우리의 안주 위기 : AI 속임수 탐색May 07, 2025 am 11:09 AM

    이 시나리오는 더 이상 투기 소설이 아닙니다. 통제 된 실험에서 Apollo Research는 GPT-4가 불법적 인 내부자 거래 계획을 실행 한 다음 조사관에게 거짓말을하는 것을 보여주었습니다. 에피소드는 두 개의 곡선이 상승하고 있음을 생생하게 상기시켜줍니다.

    See all articles

    핫 AI 도구

    Undresser.AI Undress

    Undresser.AI Undress

    사실적인 누드 사진을 만들기 위한 AI 기반 앱

    AI Clothes Remover

    AI Clothes Remover

    사진에서 옷을 제거하는 온라인 AI 도구입니다.

    Undress AI Tool

    Undress AI Tool

    무료로 이미지를 벗다

    Clothoff.io

    Clothoff.io

    AI 옷 제거제

    Video Face Swap

    Video Face Swap

    완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

    뜨거운 도구

    VSCode Windows 64비트 다운로드

    VSCode Windows 64비트 다운로드

    Microsoft에서 출시한 강력한 무료 IDE 편집기

    안전한 시험 브라우저

    안전한 시험 브라우저

    안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

    맨티스BT

    맨티스BT

    Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

    Eclipse용 SAP NetWeaver 서버 어댑터

    Eclipse용 SAP NetWeaver 서버 어댑터

    Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

    DVWA

    DVWA

    DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는