cari
Rumahpembangunan bahagian belakangTutorial Python# | Automatikkan pengekstrakan data PDF: Bina

Gambaran keseluruhan

Saya menulis skrip Python yang menterjemah logik perniagaan pengekstrakan data PDF ke dalam kod yang berfungsi.

Skrip telah diuji pada 71 halaman PDF Penyata Kustodian meliputi tempoh 10 bulan (Jan hingga Okt 2024). Memproses PDF mengambil masa kira-kira 4 saat untuk disiapkan - jauh lebih cepat daripada melakukannya secara manual.

# | Automate PDF data extraction: Build

Daripada apa yang saya lihat, output kelihatan betul dan kod itu tidak mengalami sebarang ralat.

Tangkapan gambar bagi tiga output CSV ditunjukkan di bawah. Harap maklum bahawa data sensitif telah dikelabukan.

Snapshot 1: Pegangan Saham

# | Automate PDF data extraction: Build

Gambar 2: Pegangan Dana

# | Automate PDF data extraction: Build

Gambar 3: Pegangan Tunai

# | Automate PDF data extraction: Build

Aliran kerja ini menunjukkan langkah luas yang saya ambil untuk menjana fail CSV.

# | Automate PDF data extraction: Build

Sekarang, saya akan menghuraikan dengan lebih terperinci cara saya menterjemah logik perniagaan kepada kod dalam Python.

Langkah 1: Baca dokumen PDF

Saya menggunakan fungsi open() pdfplumber.

# Open the PDF file
with pdfplumber.open(file_path) as pdf:

file_path ialah pembolehubah yang diisytiharkan yang memberitahu pdfplumber fail yang hendak dibuka.

Langkah 2.0: Ekstrak & tapis jadual daripada setiap halaman

Fungsi extract_tables() melakukan kerja keras mengekstrak semua jadual daripada setiap halaman.

Walaupun saya tidak begitu mahir dengan logik asas, saya rasa fungsi itu melakukan kerja yang cukup baik. Sebagai contoh, dua syot kilat di bawah menunjukkan jadual yang diekstrak berbanding yang asal (daripada PDF)

Snapshot A: Output daripada Terminal Kod VS

# | Automate PDF data extraction: Build

Snapshot B: Jadual dalam PDF

# | Automate PDF data extraction: Build

Saya kemudiannya perlu melabel secara unik setiap jadual, supaya saya boleh "memilih dan memilih" data daripada jadual tertentu kemudian hari.

Pilihan yang ideal ialah menggunakan tajuk setiap jadual. Walau bagaimanapun, menentukan koordinat tajuk adalah di luar kemampuan saya.

Sebagai penyelesaian, saya mengenal pasti setiap jadual dengan menggabungkan pengepala tiga lajur pertama. Contohnya, jadual Pegangan Saham dalam Snapshot B dilabelkan Saham/ETFsnNameExchangeQuantity.

⚠️Pendekatan ini mempunyai kelemahan yang serius - tiga nama pengepala pertama tidak menjadikan semua jadual cukup unik. Nasib baik, ini hanya memberi kesan kepada jadual yang tidak berkaitan.

Langkah 2.1: Ekstrak, tapis & ubah teks bukan jadual

Nilai khusus yang saya perlukan - Nombor Akaun dan Tarikh Penyata - adalah sub-rentetan dalam Halaman 1 setiap PDF.

Sebagai contoh, "Nombor Akaun M1234567" mengandungi nombor akaun "M1234567".

# | Automate PDF data extraction: Build

Saya menggunakan pustaka semula Python dan mendapat ChatGPT untuk mencadangkan ungkapan biasa yang sesuai ("regex"). Regex membahagikan setiap rentetan kepada dua kumpulan, dengan data yang dikehendaki dalam kumpulan kedua.

Regex untuk rentetan Tarikh Penyata dan Nombor Akaun

# Open the PDF file
with pdfplumber.open(file_path) as pdf:

Saya seterusnya menukar Tarikh Penyata kepada format "yyyymmdd". Ini memudahkan anda membuat pertanyaan dan mengisih data.

regex_date=r'Statement for \b([A-Za-z]{3}-\d{4})\b'
regex_acc_no=r'Account Number ([A-Za-z]\d{7})'

match_date ialah pembolehubah yang diisytiharkan apabila rentetan yang sepadan dengan regex ditemui.

Langkah 3: Buat data jadual

Ela keras - mengekstrak titik data yang berkaitan - cukup banyak dilakukan pada ketika ini.

Seterusnya, saya menggunakan fungsi DataFrame() panda untuk mencipta data jadual berdasarkan output dalam Langkah 2 dan Langkah 3. Saya juga menggunakan fungsi ini untuk menggugurkan lajur dan baris yang tidak diperlukan.

Hasil akhir kemudiannya boleh ditulis dengan mudah ke CSV atau disimpan dalam pangkalan data.

Langkah 4: Tulis data ke fail CSV

Saya menggunakan fungsi write_to_csv() Python untuk menulis setiap bingkai data ke fail CSV.

 if match_date:
    # Convert string to a mmm-yyyy date
    date_obj=datetime.strptime(match_date.group(1),"%b-%Y")
    # Get last day of the month
    last_day=calendar.monthrange(date_obj.year,date_obj.month[1]
    # Replace day with last day of month
    last_day_of_month=date_obj.replace(day=last_day)
    statement_date=last_day_of_month.strftime("%Y%m%d")

df_cash_selected ialah rangka data Cash Holdings manakala file_cash_holdings ialah nama fail Cash Holdings CSV.

➡️ Saya akan menulis data ke pangkalan data yang betul setelah saya memperoleh beberapa pengetahuan pangkalan data.

Langkah Seterusnya

Skrip berfungsi kini tersedia untuk mengekstrak data jadual dan teks daripada Penyata Penjaga PDF.

Sebelum saya meneruskan lebih jauh, saya akan menjalankan beberapa ujian untuk melihat sama ada skrip berfungsi seperti yang diharapkan.

--Tamat

Atas ialah kandungan terperinci # | Automatikkan pengekstrakan data PDF: Bina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail TeksCara Menggunakan Python untuk Mencari Pengagihan Zipf Fail TeksMar 05, 2025 am 09:58 AM

Tutorial ini menunjukkan cara menggunakan Python untuk memproses konsep statistik undang -undang ZIPF dan menunjukkan kecekapan membaca dan menyusun fail teks besar Python semasa memproses undang -undang. Anda mungkin tertanya -tanya apa maksud pengedaran ZIPF istilah. Untuk memahami istilah ini, kita perlu menentukan undang -undang Zipf. Jangan risau, saya akan cuba memudahkan arahan. Undang -undang Zipf Undang -undang Zipf hanya bermaksud: Dalam korpus bahasa semulajadi yang besar, kata -kata yang paling kerap berlaku muncul kira -kira dua kali lebih kerap sebagai kata -kata kerap kedua, tiga kali sebagai kata -kata kerap ketiga, empat kali sebagai kata -kata kerap keempat, dan sebagainya. Mari kita lihat contoh. Jika anda melihat corpus coklat dalam bahasa Inggeris Amerika, anda akan melihat bahawa perkataan yang paling kerap adalah "th

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?Mar 10, 2025 pm 06:54 PM

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Penapisan gambar di pythonPenapisan gambar di pythonMar 03, 2025 am 09:44 AM

Berurusan dengan imej yang bising adalah masalah biasa, terutamanya dengan telefon bimbit atau foto kamera resolusi rendah. Tutorial ini meneroka teknik penapisan imej di Python menggunakan OpenCV untuk menangani isu ini. Penapisan Imej: Alat yang berkuasa Penapis Imej

Cara Bekerja Dengan Dokumen PDF Menggunakan PythonCara Bekerja Dengan Dokumen PDF Menggunakan PythonMar 02, 2025 am 09:54 AM

Fail PDF adalah popular untuk keserasian silang platform mereka, dengan kandungan dan susun atur yang konsisten merentasi sistem operasi, peranti membaca dan perisian. Walau bagaimanapun, tidak seperti Python memproses fail teks biasa, fail PDF adalah fail binari dengan struktur yang lebih kompleks dan mengandungi unsur -unsur seperti fon, warna, dan imej. Mujurlah, tidak sukar untuk memproses fail PDF dengan modul luaran Python. Artikel ini akan menggunakan modul PYPDF2 untuk menunjukkan cara membuka fail PDF, mencetak halaman, dan mengekstrak teks. Untuk penciptaan dan penyuntingan fail PDF, sila rujuk tutorial lain dari saya. Penyediaan Inti terletak pada menggunakan modul luaran PYPDF2. Pertama, pasangkannya menggunakan PIP: Pip adalah p

Cara Cache Menggunakan Redis dalam Aplikasi DjangoCara Cache Menggunakan Redis dalam Aplikasi DjangoMar 02, 2025 am 10:10 AM

Tutorial ini menunjukkan cara memanfaatkan caching redis untuk meningkatkan prestasi aplikasi python, khususnya dalam rangka kerja Django. Kami akan merangkumi pemasangan Redis, konfigurasi Django, dan perbandingan prestasi untuk menyerlahkan bene

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?Mar 10, 2025 pm 06:52 PM

Artikel ini membandingkan tensorflow dan pytorch untuk pembelajaran mendalam. Ia memperincikan langkah -langkah yang terlibat: penyediaan data, bangunan model, latihan, penilaian, dan penempatan. Perbezaan utama antara rangka kerja, terutamanya mengenai grap pengiraan

Cara Melaksanakan Struktur Data Anda Sendiri di PythonCara Melaksanakan Struktur Data Anda Sendiri di PythonMar 03, 2025 am 09:28 AM

Tutorial ini menunjukkan mewujudkan struktur data saluran paip tersuai di Python 3, memanfaatkan kelas dan pengendali yang berlebihan untuk fungsi yang dipertingkatkan. Fleksibiliti saluran paip terletak pada keupayaannya untuk menggunakan siri fungsi ke set data, GE

Pengenalan kepada pengaturcaraan selari dan serentak di PythonPengenalan kepada pengaturcaraan selari dan serentak di PythonMar 03, 2025 am 10:32 AM

Python, kegemaran sains dan pemprosesan data, menawarkan ekosistem yang kaya untuk pengkomputeran berprestasi tinggi. Walau bagaimanapun, pengaturcaraan selari dalam Python memberikan cabaran yang unik. Tutorial ini meneroka cabaran -cabaran ini, memberi tumpuan kepada Interprete Global

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),