Rumah >Peranti teknologi >AI >Pengekstrakan maklumat dan pembuatan jodoh AI
Artikel ini meneroka menggunakan model bahasa besar (LLMS) untuk pengekstrakan maklumat dari CVS Pencari Kerja dan mengesyorkan pekerjaan yang sesuai. Ia memanfaatkan llamaparse untuk parsing dokumen dan pydantic untuk pengekstrakan dan pengesahan data berstruktur, meminimumkan halusinasi LLM. Proses ini melibatkan: mengekstrak maklumat utama (pendidikan, kemahiran, pengalaman), kemahiran menjaringkan berdasarkan keunggulan mereka dalam CV, mewujudkan pangkalan data vektor pekerjaan, mengambil perlawanan kerja teratas berdasarkan persamaan semantik, dan menghasilkan cadangan dengan penjelasan menggunakan LLM.
Aplikasi StreamLit membolehkan pengguna memuat naik CV (PDF), pilih LLMS (OpenAI's gpt-4o
atau alternatif sumber terbuka), dan membenamkan model. Aplikasi itu kemudian mengekstrak profil calon, mengira skor kemahiran (dipaparkan sebagai penarafan bintang), dan menyediakan cadangan pekerjaan teratas dengan penjelasan. Kod ini menggunakan API OpenAI untuk model embedding gpt-4o
LLM dan text-embedding-3-large
, tetapi menawarkan fleksibiliti untuk menggunakan alternatif sumber terbuka dengan GPU yang dibolehkan CUDA.
Butiran artikel Model Pydantic untuk pengekstrakan data berstruktur, mempamerkan penggunaannya dalam mengesahkan output LLM dan memastikan konsistensi data. Ia menerangkan proses mewujudkan pangkalan data vektor pekerjaan dari dataset JSON yang dikendalikan (sample_jobs.json
) dan menggunakan kesamaan kosin untuk menjaringkan kemahiran berdasarkan kaitan semantik mereka dalam CV. Cadangan kerja akhir dijana menggunakan pendekatan Generasi Pengambilan Retrieval (RAG), menggabungkan maklumat profil yang diekstrak dengan penerangan pekerjaan yang relevan dari pangkalan data vektor.
Aplikasi Streamlit memaparkan maklumat profil yang diekstrak (nama, e -mel, umur, pendidikan, kemahiran, pengalaman) dan pertandingan pekerjaan teratas, termasuk butiran syarikat, penerangan pekerjaan, lokasi, jenis pekerjaan, julat gaji (jika ada), URL , dan penjelasan ringkas mengenai perlawanan. Skor kemahiran diwakili secara visual menggunakan sistem penarafan bintang.
Artikel ini menyimpulkan dengan mencadangkan bidang untuk penambahbaikan dan pengembangan, termasuk: memperbaiki saluran paip pengingesan pangkalan data kerja, memperluaskan maklumat profil yang diekstrak dari CV, menyempurnakan kaedah pemarkahan kemahiran, memperluaskan aplikasi untuk memadankan iklan kerja dengan profil calon, ujian Permohonan dengan format CV yang pelbagai, dan menyediakan peningkatan CV dan cadangan peningkatan. Kod lengkap boleh didapati di GitHub. Penulis menggalakkan pembaca untuk bertepuk tangan, mengulas, dan mengikuti mereka di Medium dan LinkedIn.
Atas ialah kandungan terperinci Pengekstrakan maklumat dan pembuatan jodoh AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!