Rumah >Peranti teknologi >AI >Penjanaan data sintetik dengan LLM

Penjanaan data sintetik dengan LLM

PHPzasal: 2025-02-25 16:54:10325semak imbas

Generasi Retrieval-Augmented (RAG): Merevolusi Analisis Data Kewangan

Artikel ini meneroka populariti generasi pengambilan semula (RAG) dalam firma kewangan, yang memberi tumpuan kepada bagaimana ia menyelaraskan akses pengetahuan dan menangani cabaran utama dalam penyelesaian yang didorong oleh LLM. RAG menggabungkan retriever (mencari dokumen yang relevan) dengan model bahasa yang besar (LLM) (respons sintesis), membuktikan tidak ternilai untuk tugas seperti sokongan pelanggan, penyelidikan, dan pengurusan pengetahuan dalaman.

Penilaian LLM yang berkesan adalah penting. Diilhamkan oleh pembangunan yang didorong oleh ujian (TDD), pendekatan yang didorong oleh penilaian menggunakan tanda aras yang boleh diukur untuk mengesahkan dan memperbaiki aliran kerja AI. Bagi RAG, ini melibatkan membuat pasangan input-output wakil (mis., Pasangan Q & A untuk chatbots, atau dokumen sumber dan ringkasan yang diharapkan). Secara tradisinya, penciptaan dataset ini sangat bergantung pada pakar-pakar mata pelajaran (PKS), yang membawa kepada proses yang memakan masa, tidak konsisten, dan mahal. Tambahan pula, batasan LLMS dalam mengendalikan unsur -unsur visual dalam dokumen (jadual, gambar rajah) menghalang ketepatan, dengan alat OCR standard sering jatuh pendek.

mengatasi cabaran dengan keupayaan multimodal

Kemunculan model asas multimodal menawarkan penyelesaian. Model -model ini memproses kedua -dua teks dan kandungan visual, menghapuskan keperluan untuk pengekstrakan teks berasingan. Mereka boleh menelan keseluruhan halaman, mengiktiraf struktur susun atur, carta, dan jadual, dengan itu meningkatkan ketepatan, skalabilitas, dan mengurangkan usaha manual.

Kajian Kes: Analisis Laporan Penyelidikan Pengurusan Kekayaan

Kajian ini menggunakan laporan Cerulli 2023 (dokumen pengurusan kekayaan biasa yang menggabungkan teks dan visual kompleks) untuk menunjukkan generasi pasangan Q & A automatik. Matlamatnya adalah untuk menghasilkan soalan yang menggabungkan elemen visual dan menghasilkan jawapan yang boleh dipercayai. Proses ini menggunakan Claude Sonnet 3.5 Anthropic, yang mengendalikan penukaran PDF-to-image secara dalaman, memudahkan aliran kerja dan mengurangkan kerumitan kod.

Prompt mengarahkan model untuk menganalisis halaman tertentu, mengenal pasti tajuk halaman, membuat soalan merujuk kandungan visual atau tekstual, dan menghasilkan dua jawapan yang berbeza untuk setiap soalan. Pendekatan pembelajaran perbandingan telah dilaksanakan, menyampaikan dua jawapan untuk penilaian dan memilih tindak balas yang unggul. Ini mencerminkan pengambilan keputusan manusia, di mana membandingkan alternatif memudahkan proses. Ini sejajar dengan amalan terbaik yang diserlahkan dalam "Apa yang kita pelajari dari satu tahun bangunan dengan LLM," menekankan kestabilan perbandingan pasangan untuk penilaian LLM.

Claude Opus, dengan keupayaan penalarannya yang maju, bertindak sebagai "hakim," memilih jawapan yang lebih baik berdasarkan kriteria seperti kejelasan dan langsung. Ini dengan ketara mengurangkan kajian SME manual, meningkatkan skalabiliti dan kecekapan. Walaupun pemeriksaan spot SME awal adalah penting, kebergantungan ini berkurang dari masa ke masa apabila keyakinan sistem berkembang.

Mengoptimumkan aliran kerja: caching, batching, dan pemilihan halaman

Beberapa pengoptimuman telah dilaksanakan:

caching: caching berkurangan kos. Memproses laporan tanpa kos caching $ 9; Dengan caching, ia berharga $ 3 (penjimatan 3x). Penjimatan kos lebih dramatik pada skala.
pemprosesan batch: Menggunakan kelompok antropik API kos output separuh, membuktikan jauh lebih efektif daripada pemprosesan individu.
Pemilihan halaman: Pemprosesan dokumen dalam kelompok 10 halaman menghasilkan keseimbangan terbaik antara ketepatan dan kecekapan. Menggunakan tajuk halaman yang jelas sebagai sauh terbukti lebih dipercayai daripada bergantung semata -mata pada nombor halaman untuk menghubungkan pasangan Q & A ke sumber mereka.

Output dan faedah contoh

Contoh menunjukkan bagaimana LLM secara tepat menyintesis maklumat dari jadual dalam laporan untuk menjawab soalan mengenai pengedaran AUM. Faedah keseluruhan termasuk:

pengurangan kos yang signifikan melalui pemprosesan caching dan batch.
Mengurangkan masa dan usaha untuk PKS , membolehkan mereka memberi tumpuan kepada tugas bernilai tinggi.

Pendekatan ini menunjukkan penyelesaian berskala dan kos efektif untuk membuat dataset penilaian untuk sistem RAG, memanfaatkan kuasa LLM multimodal untuk meningkatkan ketepatan dan kecekapan dalam analisis data kewangan. Imej dari teks asal disertakan di bawah:

Synthetic Data Generation with LLMs

Atas ialah kandungan terperinci Penjanaan data sintetik dengan LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

batch for while include using internal this input ocr tdd prompt Access Foundation Prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Meningkatkan Rag: Beyond Vanilla PendekatanArtikel seterusnya：Meningkatkan Rag: Beyond Vanilla Pendekatan

Artikel berkaitan

Lihat lagi