Penjanaan laporan kewangan multimodal menggunakan llamaindex-AI-php.cn

Rumah

Peranti teknologi

Penjanaan laporan kewangan multimodal menggunakan llamaindex

尊渡假赌尊渡假赌尊渡假赌

Mar 09, 2025 pm 12:45 PM

Dalam banyak aplikasi dunia nyata, data tidak semata-mata tekstual-ia mungkin termasuk imej, jadual, dan carta yang membantu memperkuat naratif. Penjana laporan multimodal membolehkan anda memasukkan kedua -dua teks dan imej ke dalam output akhir, menjadikan laporan anda lebih dinamik dan kaya dengan visual.

Artikel ini menggariskan bagaimana untuk membina saluran paip itu menggunakan:

llamaindex untuk penguraian dokumen dan enjin pertanyaan,
Model bahasa terbuka untuk analisis teks,
llamaparse untuk mengekstrak kedua -dua teks dan imej dari dokumen PDF,
arize phoenix (melalui lbatrace) untuk pembalakan dan debugging.

Hasil akhir adalah saluran paip yang boleh memproses keseluruhan dek slaid PDF -kedua -dua teks dan visual -dan menghasilkan laporan berstruktur yang mengandungi teks dan imej.

Objektif Pembelajaran

Jadual Kandungan ~~Model Langkah 5: Mengurangkan dokumen dengan llamaparse Langkah 6: Teks dan Imej Bersekutu~~

Langkah 7: Bina Indeks Ringkasan

Ditanya soalan

Gambaran keseluruhan proses

Membina penjana laporan multimodal melibatkan membuat saluran paip yang mengintegrasikan elemen teks dan visual dengan lancar dari dokumen kompleks seperti PDF. Proses ini bermula dengan memasang perpustakaan yang diperlukan, seperti llamaindex untuk menghuraikan dokumen dan pertanyaan orkestra, dan llamaparse untuk mengekstrak kedua -dua teks dan imej. Observability ditubuhkan menggunakan Arize Phoenix (melalui Lbatrace) untuk memantau dan debug saluran paip.

Setelah persediaan selesai, saluran paip memproses dokumen PDF, menguraikan kandungannya ke dalam teks berstruktur dan menjadikan elemen visual seperti jadual dan carta. Unsur -unsur parsed ini kemudiannya dikaitkan, mewujudkan dataset bersatu. SummaryIndex dibina untuk membolehkan pandangan peringkat tinggi, dan enjin pertanyaan berstruktur dibangunkan untuk menghasilkan laporan yang menggabungkan analisis teks dengan visual yang relevan. Hasilnya adalah penjana laporan dinamik dan interaktif yang mengubah dokumen statik menjadi output yang kaya dan multimodal yang disesuaikan untuk pertanyaan pengguna.

Pelaksanaan langkah demi langkah

Ikuti panduan terperinci ini untuk membina penjana laporan multimodal, dari menubuhkan kebergantungan untuk menghasilkan output berstruktur dengan teks dan imej bersepadu. Setiap langkah memastikan integrasi lullamaindex, llamaparse, dan arize Phoenix untuk saluran paip yang cekap dan dinamik.

Langkah 1: Pasang dan Import Ketergantungan

anda memerlukan perpustakaan berikut yang berjalan di Python 3.9.9:

llama-index

llama-sarse (untuk penguraian imej teks)

llama-index-callbacks-verize-phoenix (untuk pemerhatian/pembalakan)

nest_asyncio (untuk mengendalikan gelung acara async dalam buku nota)

!pip install -U llama-index-callbacks-arize-phoenix import nest_asyncio nest_asyncio.apply()
Langkah 2: Sediakan pemerhatian

Kami mengintegrasikan dengan llamatrace - Llamacloud API (Arize Phoenix). Pertama, dapatkan kunci API dari lbatrace.com, kemudian sediakan pembolehubah persekitaran untuk menghantar jejak ke Phoenix.
Kunci API Phoenix Phoenix boleh didapati dengan mendaftar untuk lbatrace di sini, kemudian navigasi ke panel kiri bawah dan klik pada 'Kekunci' di mana anda perlu mencari kunci API anda.

Sebagai contoh:
Langkah 3: Muatkan data - Dapatkan dek slaid anda
PHOENIX_API_KEY = "<phoenix_api_key>" os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}" llama_index.core.set_global_handler( "arize_phoenix", endpoint="https://llamatrace.com/v1/traces" )</phoenix_api_key>

Untuk demonstrasi, kami menggunakan dek slaid pertemuan ConocoPhillips '2023. Kami memuat turun pdf:

periksa sama ada dek slaid PDF berada dalam folder data, jika tidak letakkan dalam folder data dan namakannya seperti yang anda mahukan.
import os import requests # Create the directories (ignore errors if they already exist) os.makedirs("data", exist_ok=True) os.makedirs("data_images", exist_ok=True) # URL of the PDF url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf" # Download and save to data/conocophillips.pdf response = requests.get(url) with open("data/conocophillips.pdf", "wb") as f: f.write(response.content) print("PDF downloaded to data/conocophillips.pdf")

Langkah 4: Sediakan Model

Anda memerlukan model penyembuhan dan LLM. Dalam contoh ini:

Seterusnya, anda mendaftarkannya sebagai lalai untuk llamaindex:
from llama_index.llms.openai import OpenAI from llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding(model="text-embedding-3-large") llm = OpenAI(model="gpt-4o")

Langkah 5: Mengurangkan dokumen dengan llamaparse
from llama_index.core import Settings Settings.embed_model = embed_model Settings.llm = llm

llamaparse boleh mengekstrak teks dan imej (melalui model besar multimodal). Untuk setiap halaman PDF, ia kembali:

teks markdown
(dengan jadual, tajuk, titik peluru, dll.)
imej yang diberikan
(disimpan secara tempatan)

print(f"Parsing slide deck...") md_json_objs = parser.get_json_result("data/conocophillips.pdf") md_json_list = md_json_objs[0]["pages"]

~~print(md_json_list[10]["md"])~~

~~!pip install -U llama-index-callbacks-arize-phoenix import nest_asyncio nest_asyncio.apply()~~

Langkah 6: Teks dan Imej Bersekutu

Kami membuat senarai
textNode objek (struktur data Llamaindex) untuk setiap halaman. Setiap nod mempunyai metadata mengenai nombor halaman dan laluan fail imej yang sepadan:

PHOENIX_API_KEY = "<phoenix_api_key>" os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}" llama_index.core.set_global_handler( "arize_phoenix", endpoint="https://llamatrace.com/v1/traces" )</phoenix_api_key>

~~Langkah 7: Membina Indeks Ringkasan~~

dengan nod teks ini, anda boleh membuat summaryindex:

SummaryIndex memastikan anda dapat dengan mudah mengambil atau menghasilkan ringkasan peringkat tinggi ke seluruh dokumen.
import os import requests # Create the directories (ignore errors if they already exist) os.makedirs("data", exist_ok=True) os.makedirs("data_images", exist_ok=True) # URL of the PDF url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf" # Download and save to data/conocophillips.pdf response = requests.get(url) with open("data/conocophillips.pdf", "wb") as f: f.write(response.content) print("PDF downloaded to data/conocophillips.pdf")

Langkah 8: Tentukan skema output berstruktur

saluran paip kami bertujuan untuk menghasilkan output akhir dengan blok teks interleaved dan blok imej. Untuk itu, kami membuat model Pydantic tersuai (menggunakan pydantic v2 atau memastikan keserasian) dengan dua jenis blok-

textblock dan Titik utama: ReportOutput memerlukan sekurang -kurangnya satu blok imej, memastikan jawapan terakhir adalah multimodal. Langkah 9: Buat enjin pertanyaan berstruktur

from llama_index.llms.openai import OpenAI from llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding(model="text-embedding-3-large") llm = OpenAI(model="gpt-4o")
llamaindex membolehkan anda menggunakan "LLM berstruktur" (iaitu, llm yang outputnya secara automatik dihuraikan ke dalam skema tertentu). Inilah caranya:

~~from llama_index.core import Settings Settings.embed_model = embed_model Settings.llm = llm~~

~~Kesimpulan~~

print(f"Parsing slide deck...") md_json_objs = parser.get_json_result("data/conocophillips.pdf") md_json_list = md_json_objs[0]["pages"]
Dengan menggabungkan llamaindex, llamaparse, dan openai, anda boleh membina penjana laporan multimodal yang memproses keseluruhan PDF (dengan teks, jadual, dan imej) ke dalam output berstruktur. Pendekatan ini memberikan hasil yang lebih kaya dan lebih bermaklumat -betul -betul apa yang dikehendaki oleh pihak berkepentingan untuk mendapatkan pandangan kritikal dari dokumen korporat atau teknikal yang kompleks.
Jangan ragu untuk menyesuaikan saluran paip ini ke dokumen anda sendiri, tambahkan langkah pengambilan untuk arkib besar, atau mengintegrasikan model khusus domain untuk menganalisis imej yang mendasari. Dengan asas-asas yang dibentangkan di sini, anda boleh membuat laporan dinamik, interaktif, dan visual yang jauh melebihi pertanyaan berasaskan teks yang mudah.

print(md_json_list[10]["md"])
Terima kasih banyak kepada Jerry Liu dari Llamaindex untuk membangunkan saluran paip yang menakjubkan ini.

Takeaways Key

Transformasi PDF dengan teks dan visual ke dalam format berstruktur sambil mengekalkan integriti kandungan asal menggunakan llamaparse dan llamaindex.

menghasilkan laporan yang diperkaya secara visual bahawa ringkasan dan imej tekstual yang sama untuk pemahaman kontekstual yang lebih baik.

Generasi laporan kewangan dapat dipertingkatkan dengan mengintegrasikan kedua -dua teks dan elemen visual untuk output yang lebih mendalam dan dinamik.

Memanfaatkan Llamaindex dan Llamaparse menyelaraskan proses penjanaan laporan kewangan, memastikan hasil yang tepat dan berstruktur.

Dapatkan dokumen yang relevan sebelum memproses untuk mengoptimumkan generasi laporan untuk arkib besar.

Meningkatkan parsing visual, menggabungkan analisis spesifik carta, dan menggabungkan model untuk pemprosesan teks dan imej untuk pandangan yang lebih mendalam.

Soalan Lazim
Q1. Apakah "Generator Laporan Multimodal"?
a. Penjana laporan multimodal adalah sistem yang menghasilkan laporan yang mengandungi pelbagai jenis kandungan -terutamanya teks dan imej -dalam satu output kohesif. Dalam saluran paip ini, anda menghuraikan PDF ke dalam kedua -dua elemen teks dan visual, kemudian menggabungkannya ke dalam satu laporan akhir.
Q2. Kenapa saya perlu memasang llama-index-callbacks-verize-phoenix dan menubuhkan pemerhatian? a. Alat pemerhatian seperti Arize Phoenix (melalui Lbatrace) membolehkan anda memantau dan menghilangkan tingkah laku model, pertanyaan trek dan tindak balas, dan mengenal pasti isu -isu dalam masa nyata. Ia amat berguna apabila berurusan dengan dokumen besar atau kompleks dan beberapa langkah berasaskan LLM.
~~Q3. Mengapa menggunakan llamaparse dan bukannya pengekstrak teks pdf standard?~~
a. Kebanyakan pengekstrak teks PDF hanya mengendalikan teks mentah, sering kehilangan pemformatan, imej, dan jadual. Llamaparse mampu mengekstrak kedua -dua teks dan imej (imej halaman yang diberikan), yang penting untuk membina saluran paip multimodal di mana anda perlu merujuk kembali ke jadual, carta, atau visual lain. Apakah kelebihan menggunakan SummaryIndex?
a. SummaryIndex adalah abstraksi llamaindex yang menganjurkan kandungan anda (mis., Halaman PDF) supaya ia dapat dengan cepat menghasilkan ringkasan yang komprehensif. Ia membantu mengumpulkan pandangan peringkat tinggi dari dokumen panjang tanpa perlu memotong mereka secara manual atau menjalankan pertanyaan pengambilan untuk setiap data.
Q5. Bagaimanakah saya memastikan laporan akhir termasuk sekurang -kurangnya satu blok imej? a. Dalam model Pydantic ReportOutput, menguatkuasakan bahawa senarai blok memerlukan sekurang -kurangnya satu ImageBlock. Ini dinyatakan dalam sistem dan skema sistem anda. LLM mesti mematuhi peraturan ini, atau ia tidak akan menghasilkan output berstruktur yang sah.

Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan pada budi bicara penulis.

Atas ialah kandungan terperinci Penjanaan laporan kewangan multimodal menggunakan llamaindex. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Tidak boleh menggunakan chatgpt! Menjelaskan sebab dan penyelesaian yang boleh diuji dengan segera [terbaru 2025]May 14, 2025 am 05:04 AM

Chatgpt tidak boleh diakses? Artikel ini menyediakan pelbagai penyelesaian praktikal! Ramai pengguna mungkin menghadapi masalah seperti tidak dapat diakses atau tindak balas yang perlahan apabila menggunakan chatgpt setiap hari. Artikel ini akan membimbing anda untuk menyelesaikan masalah ini langkah demi langkah berdasarkan situasi yang berbeza. Punca ketidakmampuan dan penyelesaian masalah awal Chatgpt Pertama, kita perlu menentukan sama ada masalah itu berada di sisi pelayan Openai, atau masalah rangkaian atau peranti pengguna sendiri. Sila ikuti langkah di bawah untuk menyelesaikan masalah: Langkah 1: Periksa status rasmi Openai Lawati halaman Status Openai (status.openai.com) untuk melihat sama ada perkhidmatan ChATGPT berjalan secara normal. Sekiranya penggera merah atau kuning dipaparkan, ini bermakna terbuka

Mengira risiko ASI bermula dengan minda manusiaMay 14, 2025 am 05:02 AM

Pada 10 Mei 2025, ahli fizik MIT Max Tegmark memberitahu The Guardian bahawa AI Labs harus mencontohi kalkulus ujian triniti Oppenheimer sebelum melepaskan kecerdasan super buatan. "Penilaian saya ialah 'Compton Constant', kebarangkalian perlumbaan

Penjelasan yang mudah difahami tentang cara menulis dan menyusun lirik dan alat yang disyorkan di chatgptMay 14, 2025 am 05:01 AM

Teknologi penciptaan muzik AI berubah dengan setiap hari berlalu. Artikel ini akan menggunakan model AI seperti CHATGPT sebagai contoh untuk menerangkan secara terperinci bagaimana menggunakan AI untuk membantu penciptaan muzik, dan menerangkannya dengan kes -kes sebenar. Kami akan memperkenalkan bagaimana untuk membuat muzik melalui Sunoai, AI Jukebox pada muka yang memeluk, dan perpustakaan Python Music21. Dengan teknologi ini, semua orang boleh membuat muzik asli dengan mudah. Walau bagaimanapun, perlu diperhatikan bahawa isu hak cipta kandungan AI yang dihasilkan tidak boleh diabaikan, dan anda mesti berhati-hati apabila menggunakannya. Mari kita meneroka kemungkinan AI yang tidak terhingga dalam bidang muzik bersama -sama! Ejen AI terbaru Terbuka "Openai Deep Research" memperkenalkan: [Chatgpt] Ope

Apa itu chatgpt-4? Penjelasan menyeluruh tentang apa yang boleh anda lakukan, harga, dan perbezaan dari GPT-3.5!May 14, 2025 am 05:00 AM

Kemunculan CHATGPT-4 telah memperluaskan kemungkinan aplikasi AI. Berbanding dengan GPT-3.5, CHATGPT-4 telah meningkat dengan ketara. Ia mempunyai keupayaan pemahaman konteks yang kuat dan juga dapat mengenali dan menghasilkan imej. Ia adalah pembantu AI sejagat. Ia telah menunjukkan potensi yang besar dalam banyak bidang seperti meningkatkan kecekapan perniagaan dan membantu penciptaan. Walau bagaimanapun, pada masa yang sama, kita juga harus memberi perhatian kepada langkah berjaga -jaga dalam penggunaannya. Artikel ini akan menerangkan ciri-ciri CHATGPT-4 secara terperinci dan memperkenalkan kaedah penggunaan yang berkesan untuk senario yang berbeza. Artikel ini mengandungi kemahiran untuk memanfaatkan sepenuhnya teknologi AI terkini, sila rujuknya. Ejen AI Terbuka Terbuka, sila klik pautan di bawah untuk butiran "Penyelidikan Deep Openai"

Menjelaskan Cara Menggunakan App ChatGPT! Fungsi Sokongan dan Perbualan Suara JepunMay 14, 2025 am 04:59 AM

App ChatGPT: Melepaskan kreativiti anda dengan pembantu AI! Panduan pemula Aplikasi CHATGPT adalah pembantu AI yang inovatif yang mengendalikan pelbagai tugas, termasuk menulis, terjemahan, dan menjawab soalan. Ia adalah alat dengan kemungkinan tidak berkesudahan yang berguna untuk aktiviti kreatif dan pengumpulan maklumat. Dalam artikel ini, kami akan menerangkan dengan cara yang mudah difahami untuk pemula, dari cara memasang aplikasi telefon pintar ChATGPT, kepada ciri-ciri yang unik untuk aplikasi seperti fungsi input suara dan plugin, serta mata yang perlu diingat apabila menggunakan aplikasi. Kami juga akan melihat dengan lebih dekat sekatan plugin dan penyegerakan konfigurasi peranti-ke-peranti

Bagaimana saya menggunakan versi chatgpt Cina? Penjelasan prosedur dan yuran pendaftaranMay 14, 2025 am 04:56 AM

Chatgpt Versi Cina: Buka kunci pengalaman baru dialog Cina AI Chatgpt popular di seluruh dunia, adakah anda tahu ia juga menawarkan versi Cina? Alat AI yang kuat ini bukan sahaja menyokong perbualan harian, tetapi juga mengendalikan kandungan profesional dan serasi dengan Cina yang mudah dan tradisional. Sama ada pengguna di China atau rakan yang belajar bahasa Cina, anda boleh mendapat manfaat daripadanya. Artikel ini akan memperkenalkan secara terperinci bagaimana menggunakan versi CHATGPT Cina, termasuk tetapan akaun, input perkataan Cina, penggunaan penapis, dan pemilihan pakej yang berbeza, dan menganalisis potensi risiko dan strategi tindak balas. Di samping itu, kami juga akan membandingkan versi CHATGPT Cina dengan alat AI Cina yang lain untuk membantu anda memahami lebih baik kelebihan dan senario aplikasinya. Perisikan AI Terbuka Terbuka

5 mitos ejen AI anda perlu berhenti mempercayai sekarangMay 14, 2025 am 04:54 AM

Ini boleh dianggap sebagai lonjakan seterusnya ke hadapan dalam bidang AI generatif, yang memberi kita chatgpt dan chatbots model bahasa besar yang lain. Daripada hanya menjawab soalan atau menghasilkan maklumat, mereka boleh mengambil tindakan bagi pihak kami, Inter

Penjelasan yang mudah difahami tentang penyalahgunaan membuat dan menguruskan pelbagai akaun menggunakan chatgptMay 14, 2025 am 04:50 AM

Teknik pengurusan akaun berganda yang cekap menggunakan CHATGPT | Penjelasan menyeluruh tentang cara menggunakan perniagaan dan kehidupan peribadi! ChatGPT digunakan dalam pelbagai situasi, tetapi sesetengah orang mungkin bimbang untuk menguruskan pelbagai akaun. Artikel ini akan menerangkan secara terperinci bagaimana untuk membuat pelbagai akaun untuk chatgpt, apa yang perlu dilakukan apabila menggunakannya, dan bagaimana untuk mengendalikannya dengan selamat dan cekap. Kami juga meliputi perkara penting seperti perbezaan dalam perniagaan dan penggunaan peribadi, dan mematuhi syarat penggunaan OpenAI, dan memberikan panduan untuk membantu anda menggunakan pelbagai akaun. Terbuka

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

4 minggu yang laluByDDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang laluByDDD

Nordhold: Sistem Fusion, dijelaskan

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Tunjukkan Lagi

Topik panas

1671

1428

1329

1276

1256