Rumah >Peranti teknologi >AI >Penjanaan data sintetik dengan LLM
Artikel ini meneroka populariti generasi pengambilan semula (RAG) dalam firma kewangan, yang memberi tumpuan kepada bagaimana ia menyelaraskan akses pengetahuan dan menangani cabaran utama dalam penyelesaian yang didorong oleh LLM. RAG menggabungkan retriever (mencari dokumen yang relevan) dengan model bahasa yang besar (LLM) (respons sintesis), membuktikan tidak ternilai untuk tugas seperti sokongan pelanggan, penyelidikan, dan pengurusan pengetahuan dalaman.
Penilaian LLM yang berkesan adalah penting. Diilhamkan oleh pembangunan yang didorong oleh ujian (TDD), pendekatan yang didorong oleh penilaian menggunakan tanda aras yang boleh diukur untuk mengesahkan dan memperbaiki aliran kerja AI. Bagi RAG, ini melibatkan membuat pasangan input-output wakil (mis., Pasangan Q & A untuk chatbots, atau dokumen sumber dan ringkasan yang diharapkan). Secara tradisinya, penciptaan dataset ini sangat bergantung pada pakar-pakar mata pelajaran (PKS), yang membawa kepada proses yang memakan masa, tidak konsisten, dan mahal. Tambahan pula, batasan LLMS dalam mengendalikan unsur -unsur visual dalam dokumen (jadual, gambar rajah) menghalang ketepatan, dengan alat OCR standard sering jatuh pendek.
mengatasi cabaran dengan keupayaan multimodal
Kemunculan model asas multimodal menawarkan penyelesaian. Model -model ini memproses kedua -dua teks dan kandungan visual, menghapuskan keperluan untuk pengekstrakan teks berasingan. Mereka boleh menelan keseluruhan halaman, mengiktiraf struktur susun atur, carta, dan jadual, dengan itu meningkatkan ketepatan, skalabilitas, dan mengurangkan usaha manual.
Kajian Kes: Analisis Laporan Penyelidikan Pengurusan Kekayaan
Kajian ini menggunakan laporan Cerulli 2023 (dokumen pengurusan kekayaan biasa yang menggabungkan teks dan visual kompleks) untuk menunjukkan generasi pasangan Q & A automatik. Matlamatnya adalah untuk menghasilkan soalan yang menggabungkan elemen visual dan menghasilkan jawapan yang boleh dipercayai. Proses ini menggunakan Claude Sonnet 3.5 Anthropic, yang mengendalikan penukaran PDF-to-image secara dalaman, memudahkan aliran kerja dan mengurangkan kerumitan kod.Prompt mengarahkan model untuk menganalisis halaman tertentu, mengenal pasti tajuk halaman, membuat soalan merujuk kandungan visual atau tekstual, dan menghasilkan dua jawapan yang berbeza untuk setiap soalan. Pendekatan pembelajaran perbandingan telah dilaksanakan, menyampaikan dua jawapan untuk penilaian dan memilih tindak balas yang unggul. Ini mencerminkan pengambilan keputusan manusia, di mana membandingkan alternatif memudahkan proses. Ini sejajar dengan amalan terbaik yang diserlahkan dalam "Apa yang kita pelajari dari satu tahun bangunan dengan LLM," menekankan kestabilan perbandingan pasangan untuk penilaian LLM.
Claude Opus, dengan keupayaan penalarannya yang maju, bertindak sebagai "hakim," memilih jawapan yang lebih baik berdasarkan kriteria seperti kejelasan dan langsung. Ini dengan ketara mengurangkan kajian SME manual, meningkatkan skalabiliti dan kecekapan. Walaupun pemeriksaan spot SME awal adalah penting, kebergantungan ini berkurang dari masa ke masa apabila keyakinan sistem berkembang.
Mengoptimumkan aliran kerja: caching, batching, dan pemilihan halaman
Beberapa pengoptimuman telah dilaksanakan:
Output dan faedah contoh
Contoh menunjukkan bagaimana LLM secara tepat menyintesis maklumat dari jadual dalam laporan untuk menjawab soalan mengenai pengedaran AUM. Faedah keseluruhan termasuk:
Pendekatan ini menunjukkan penyelesaian berskala dan kos efektif untuk membuat dataset penilaian untuk sistem RAG, memanfaatkan kuasa LLM multimodal untuk meningkatkan ketepatan dan kecekapan dalam analisis data kewangan. Imej dari teks asal disertakan di bawah:
Atas ialah kandungan terperinci Penjanaan data sintetik dengan LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!