Rumah >Peranti teknologi >AI >Meningkatkan kain multimodal dengan Deepseek Janus Pro
Deepseek Janus Pro 1B, yang dilancarkan pada 27 Januari 2025, adalah model AI multimodal maju yang dibina untuk memproses dan menghasilkan imej dari arahan teks. Dengan keupayaannya untuk memahami dan membuat imej berdasarkan teks, versi parameter 1 bilion (1B) ini memberikan prestasi yang cekap untuk pelbagai aplikasi, termasuk generasi teks-ke-imej dan pemahaman imej. Di samping itu, ia cemerlang dalam menghasilkan kapsyen terperinci dari foto, menjadikannya alat yang serba boleh untuk kedua -dua tugas kreatif dan analisis.
Jadual Kandungan Objektif Pembelajaran Apa yang Deepseek Janus Pro?
Pemahaman & Generasi VisualArsitektur Decoupled untuk Imej Pemahaman & Generasi
Janus-Pro menyimpang dari model multimodal sebelumnya dengan menggunakan laluan yang berasingan dan khusus untuk pengekodan visual, dan bukannya bergantung pada pengekod visual tunggal untuk pemahaman imej dan generasi.
Pengekodan pemahaman imej.
Laluan ini mengekstrak ciri -ciri semantik dari imej.Ciri -ciri utama Senibina Model
1. Senibina Dual-Pathway untuk Pengertian Visual & Generasi
Backbone Transformer Dikongsi adalah FusionText dan Ciri Imej Fusion. Kaedah pengekodan bebas untuk menukar input mentah ke dalam ciri -ciri diproses oleh pengubah autoregressive bersatu.
Ini diperbaiki dalam Janus Pro:
Multimodal Rag dengan Model Deepseek Janus Pro 1B
Langkah 1. Pasang perpustakaan yang diperlukan
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./JanusLangkah 2. Model untuk menyimpan embeddings imej
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")Byaldi memberikan rangka kerja yang mudah digunakan untuk menubuhkan sistem kain multimodal. Seperti yang dilihat dari kod di atas, kami memuatkan ColQwen2, yang merupakan model yang direka untuk pengindeksan dokumen yang cekap menggunakan ciri -ciri visual.
Langkah 3. Memuatkan imej pdf
# Use ColQwen2 to index and store the presentation index_name = "image_index" model1.index(input_path=Path("/content/PublicWaterMassMailing.pdf"), index_name=index_name, store_collection_with_index=True, # Stores base64 images along with the vectors overwrite=True )Kami menggunakan PDF ini untuk menanyakan dan membina sistem RAG pada langkah seterusnya. Dalam kod di atas, kami menyimpan imej PDF bersama -sama dengan vektor.
Langkah 4. Pertanyaan & pengambilan semula dari gambar yang disimpan
query = "How many clients drive more than 50% revenue?" returned_page = model1.search(query, k=1)[0] import base64 # Example Base64 string (truncated for brevity) base64_string = returned_page['base64'] # Decode the Base64 string image_data = base64.b64decode(base64_string) with open('output_image.png', 'wb') as image_file: image_file.write(image_data)Halaman yang relevan dari halaman pdf diambil dan disimpan sebagai output_image.png berdasarkan pertanyaan.
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")Kod ini menghasilkan respons dari model DeepSeek Janus Pro 1B menggunakan embeddings input yang disediakan (teks dan imej). Ia menggunakan beberapa tetapan konfigurasi seperti padding, token permulaan/akhir, panjang token max, dan sama ada menggunakan caching dan pensampelan. Selepas tindak balas dijana, ia menguraikan id token kembali ke dalam teks yang boleh dibaca manusia menggunakan tokenizer. Output yang disahdirkan disimpan dalam pembolehubah jawapan.
keseluruhan kod hadir dalam buku nota Colab ini.
output untuk pertanyaan
output untuk pertanyaan lain
output untuk pertanyaan lain
"" Apakah bilangan promosi sejak awal FY20? "
tindak balas di atas adalah betul kerana ia sepadan dengan teks yang disebutkan dalam pdf. KESIMPULAN
Takeaways Key
Ans. Deepseek Janus Pro 1B adalah model AI multimodal yang direka untuk mengintegrasikan kedua -dua teks dan pemprosesan imej, mampu memahami dan menghasilkan imej dari deskripsi teks. Ia mempunyai 1 bilion parameter untuk prestasi yang cekap dalam tugas seperti penjanaan teks-ke-imej dan pemahaman imej. Q2. Bagaimanakah seni bina Janus Pro 1B berfungsi?
Ans. Janus Pro 1B amat berguna untuk tugas-tugas yang melibatkan generasi teks-ke-imej, pemahaman imej, dan aplikasi AI multimodal yang memerlukan keupayaan pemprosesan imej dan teks
Q5. Bagaimanakah Janus-Pro dibandingkan dengan model lain seperti Dall-e 3?Ans. Janus-Pro-7b mengungguli Dall-E 3 dalam tanda aras seperti Geneval dan DPG-Bench, menurut Deepseek. Janus-Pro memisahkan pemahaman/generasi, skala data/model untuk penjanaan imej yang stabil, dan mengekalkan struktur bersatu, fleksibel, dan cekap. Walaupun kedua-dua model melakukan penjanaan teks-ke-imej, Janus-Pro juga menawarkan imej imej, yang Dall-E 3 tidak.
Atas ialah kandungan terperinci Meningkatkan kain multimodal dengan Deepseek Janus Pro. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!