집 >백엔드 개발 >파이썬 튜토리얼 >Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.

Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.

王林원래의: 2024-07-30 01:14:33842검색

Easily Split and Rename PDFs for Skyward

왜 그것을 구축하고 무엇을 하는가?

몇 주 전 제 상사는 우리가 겪고 있는 특정 문제에 대한 작업 흐름을 생각해 볼 수 있는지 알아보라는 과제를 저에게 주었습니다. 우리는 Pre/ACT 편지를 SMS(학생 관리 시스템)로 가져오고 싶었는데, 우리의 경우에는 Skyward였습니다. 우리가 직면한 문제는 Pre/ACT 편지가 대량 PDF 또는 개별 PDF로 되어 있고 Skyward에 들어가려면 각 학생의 ID 번호에 대한 PDF가 필요하다는 것입니다. 이를 달성하기 위해 UI용 Streamlit을 사용하여 Python으로 프로그램을 작성하기로 결정했습니다.

우리가 해결해야 할 문제를 PDF부터 살펴보겠습니다. 편지의 대량 단일 PDF 내보내기를 가져오는 것이 더 합리적이었습니다. 이는 대량 내보내기를 개별 PDF로 분할해야 함을 의미했습니다. 각 문자는 일반적으로 2페이지로 구성되지만 항상 그런 것은 아니므로 한 페이지씩 간단히 나누면 오류가 발생할 가능성이 높습니다.

두 번째 문제는 각 학생의 PDF를 읽고 해당 ID 번호로 이름을 바꾸는 것이었습니다. 이는 주로 나에게 필요한 것을 가져오는 Regex 패턴에 달려 있습니다.

이것도 시간이 걸리는 도전이었기 때문에 AI와 협력하여 코드 생성을 도왔습니다. 참고: 이는 사용 중인 논리와 언어를 아는 것을 대체하지 않습니다. AI/LLM으로 이 글을 작성할 때 저는 생각의 사슬 접근 방식을 사용하여 제가 원하는 것을 한 입 크기로 제공한 다음 더 추가하기 전에 각 청크를 디버깅하고 테스트했습니다. 아래 코드는 사용된 최종 코드입니다. 각 섹션을 섹션별로 분류하겠습니다. 해당 지역에서 이를 솔루션으로 구현하려는 경우 TLDR이 이 게시물의 끝 부분을 참조하세요.

요구사항 및 수입품

이 부분은 매우 간단하며 프로그램이 실행되는 기초입니다.

UI를 위한 간소화
PDF 조작을 위한 pypdf2, pymupdf 및 fitz

requirements.txt 내용

streamlit
pypdf2
fitz
pymupdf

app.py 가져오기

import PyPDF2
import fitz  # PyMuPDF
import re
from pathlib import Path
import concurrent.futures
import streamlit as st
import shutil
import zipfile
import os

아이디 찾기

이 다음 스니펫은 대량 PDF에서 ID를 찾고 이를 분할하는 데 사용할 페이지 목록을 만드는 방법을 다루고 있습니다. 이는 정규식에 따라 달라지는 부분이며 상황에 따라 변경해야 할 수도 있습니다.

def find_id_pages(input_pdf):
 doc = fitz.open(input_pdf)
 id_pages = []
 id_pattern = re.compile(r'\(ID#:\s*(\d+)\)')

    for i, page in enumerate(doc):
 text = page.get_text()
        if id_pattern.search(text):
 id_pages.append(i)

    return id_pages

PDF 분할

제목에서 알 수 있듯이 PDF를 분할하는 데 사용됩니다. 이것은 각 개별 PDF의 이름을 추출하는 기능을 사용합니다. 또한 성능 향상을 위해 한 번에 최대 10개까지 병렬로 분할된다는 점도 알 수 있습니다.

def split_pdf(input_pdf, output_folder, progress_callback):
 input_path = Path(input_pdf)
 output_folder = Path(output_folder)
 output_folder.mkdir(parents=True, exist_ok=True)

    # Find pages with IDs
 id_pages = find_id_pages(input_pdf)

    if not id_pages:
 st.error("No ID pages found in the PDF.")
        return

 pdf_reader = PyPDF2.PdfReader(str(input_path))
 total_pages = len(pdf_reader.pages)
 temp_pdfs = []

    for i in range(len(id_pages)):
 start_page = id_pages[i]
 end_page = id_pages[i + 1] if i + 1 < len(id_pages) else total_pages

 pdf_writer = PyPDF2.PdfWriter()
        for j in range(start_page, end_page):
 pdf_writer.add_page(pdf_reader.pages[j])

 temp_pdf_path = output_folder / f'temp_{i}.pdf'
        with open(temp_pdf_path, 'wb') as output_pdf:
 pdf_writer.write(output_pdf)

 temp_pdfs.append(temp_pdf_path)
 progress_callback((i + 1) / len(id_pages))  # Update progress bar

    # Process renaming in parallel
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
 executor.map(lambda pdf_path: extract_and_rename_pdf(pdf_path, output_folder), temp_pdfs)

def extract_and_rename_pdf(pdf_path, output_folder):
 doc = fitz.open(pdf_path)
 text_first_page = doc[0].get_text()

    # Extract ID using a regex pattern for the format (ID#: 01234)
 match_first_page = re.search(r'\(ID#:\s*(\d+)\)', text_first_page)

    if match_first_page:
 id_value = match_first_page.group(1)
 new_pdf_path = output_folder / f'{id_value}.pdf'
 pdf_path.rename(new_pdf_path)
    else:
 new_pdf_path = output_folder / f'unknown_{pdf_path.stem}.pdf'
 pdf_path.rename(new_pdf_path)

거의 다 왔어

다음은 몇 가지 짧은 기능입니다. 하나는 분할된 PDF를 모두 압축하는 기능(내부 서버에서 실행하려는 경우)이고 다른 하나는 임시 파일을 정리하여 PII 학생 정보가 어디에 남지 않도록 하는 기능입니다. 살 필요는 없습니다.

def zip_output_folder(output_folder, zip_name):
 shutil.make_archive(zip_name, 'zip', output_folder)

def clean_up(output_folder, zip_name):
 shutil.rmtree(output_folder)
 os.remove(f"{zip_name}.zip")

UI 구축

마지막 코드는 UI용입니다. Streamlit은 다재다능한 WebUI입니다(예, 단독으로 실행할 수 있습니다). 몇 번의 시도 끝에 유용성을 고려했습니다. 간단하게 정리하여 업로드 버튼, 작업 버튼(예: 분할) 및 압축된 PDF를 가져오는 다운로드 버튼으로 분류했습니다.

# Streamlit App Portion
st.title("PDF Splitter and Renamer")

uploaded_file = st.file_uploader("Choose a PDF file", type="pdf")
output_folder = "output_folder"

if st.button("Split and Rename PDF"):
    if uploaded_file and output_folder:
        try:
            # Save uploaded file temporarily
            with open("temp_input.pdf", "wb") as f:
 f.write(uploaded_file.getbuffer())

 progress_bar = st.progress(0)
            def update_progress(progress):
 progress_bar.progress(progress)

 split_pdf("temp_input.pdf", output_folder, update_progress)

 zip_name = "output_pdfs"
 zip_output_folder(output_folder, zip_name)
 st.success("PDF split and renamed successfully!")

            with open(f"{zip_name}.zip", "rb") as f:
 st.download_button(
                    label="Download ZIP",
                    data=f,
                    file_name=f"{zip_name}.zip",
                    mime="application/zip"
 )

            # Remove temporary file
 Path("temp_input.pdf").unlink()
 clean_up(output_folder, zip_name)
        except Exception as e:
 st.error(f"An error occurred: {e}")
    else:
 st.error("Please upload a PDF file and specify an output folder.")

시작 및 실행을 위한 TLDR

작업을 시작하고 실행하려면 다음 명령을 사용하세요(Linux, WSL 및 MacOS를 가정함). http://localhost:8501로 이동하여 앱에 접속할 수 있습니다.

git clone https://github.com/Blacknight318/act-to-sms.git
cd act-to-sms
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
streamlit run app.py

마무리 중

K12 학교에 재학 중이라면 이 내용이 도움이 되기를 바랍니다. 그렇다면 박수를 치거나 나에게 커피를 사주는 것을 고려해보세요. 다음 시간까지 순풍과 바다를 따라가세요.

위 내용은 Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python if for while Error break using internal Regex number function this macos http linux ui issue Foundation

성명：

이전 기사：테스트 커버리지 도구 이해다음 기사：테스트 커버리지 도구 이해