몇 주 전 제 상사는 우리가 겪고 있는 특정 문제에 대한 작업 흐름을 생각해 볼 수 있는지 알아보라는 과제를 저에게 주었습니다. 우리는 Pre/ACT 편지를 SMS(학생 관리 시스템)로 가져오고 싶었는데, 우리의 경우에는 Skyward였습니다. 우리가 직면한 문제는 Pre/ACT 편지가 대량 PDF 또는 개별 PDF로 되어 있고 Skyward에 들어가려면 각 학생의 ID 번호에 대한 PDF가 필요하다는 것입니다. 이를 달성하기 위해 UI용 Streamlit을 사용하여 Python으로 프로그램을 작성하기로 결정했습니다.
우리가 해결해야 할 문제를 PDF부터 살펴보겠습니다. 편지의 대량 단일 PDF 내보내기를 가져오는 것이 더 합리적이었습니다. 이는 대량 내보내기를 개별 PDF로 분할해야 함을 의미했습니다. 각 문자는 일반적으로 2페이지로 구성되지만 항상 그런 것은 아니므로 한 페이지씩 간단히 나누면 오류가 발생할 가능성이 높습니다.
두 번째 문제는 각 학생의 PDF를 읽고 해당 ID 번호로 이름을 바꾸는 것이었습니다. 이는 주로 나에게 필요한 것을 가져오는 Regex 패턴에 달려 있습니다.
이것도 시간이 걸리는 도전이었기 때문에 AI와 협력하여 코드 생성을 도왔습니다. 참고: 이는 사용 중인 논리와 언어를 아는 것을 대체하지 않습니다. AI/LLM으로 이 글을 작성할 때 저는 생각의 사슬 접근 방식을 사용하여 제가 원하는 것을 한 입 크기로 제공한 다음 더 추가하기 전에 각 청크를 디버깅하고 테스트했습니다. 아래 코드는 사용된 최종 코드입니다. 각 섹션을 섹션별로 분류하겠습니다. 해당 지역에서 이를 솔루션으로 구현하려는 경우 TLDR이 이 게시물의 끝 부분을 참조하세요.
이 부분은 매우 간단하며 프로그램이 실행되는 기초입니다.
requirements.txt 내용
streamlit pypdf2 fitz pymupdf
app.py 가져오기
import PyPDF2 import fitz # PyMuPDF import re from pathlib import Path import concurrent.futures import streamlit as st import shutil import zipfile import os
이 다음 스니펫은 대량 PDF에서 ID를 찾고 이를 분할하는 데 사용할 페이지 목록을 만드는 방법을 다루고 있습니다. 이는 정규식에 따라 달라지는 부분이며 상황에 따라 변경해야 할 수도 있습니다.
def find_id_pages(input_pdf): doc = fitz.open(input_pdf) id_pages = [] id_pattern = re.compile(r'\(ID#:\s*(\d+)\)') for i, page in enumerate(doc): text = page.get_text() if id_pattern.search(text): id_pages.append(i) return id_pages
제목에서 알 수 있듯이 PDF를 분할하는 데 사용됩니다. 이것은 각 개별 PDF의 이름을 추출하는 기능을 사용합니다. 또한 성능 향상을 위해 한 번에 최대 10개까지 병렬로 분할된다는 점도 알 수 있습니다.
def split_pdf(input_pdf, output_folder, progress_callback): input_path = Path(input_pdf) output_folder = Path(output_folder) output_folder.mkdir(parents=True, exist_ok=True) # Find pages with IDs id_pages = find_id_pages(input_pdf) if not id_pages: st.error("No ID pages found in the PDF.") return pdf_reader = PyPDF2.PdfReader(str(input_path)) total_pages = len(pdf_reader.pages) temp_pdfs = [] for i in range(len(id_pages)): start_page = id_pages[i] end_page = id_pages[i + 1] if i + 1 < len(id_pages) else total_pages pdf_writer = PyPDF2.PdfWriter() for j in range(start_page, end_page): pdf_writer.add_page(pdf_reader.pages[j]) temp_pdf_path = output_folder / f'temp_{i}.pdf' with open(temp_pdf_path, 'wb') as output_pdf: pdf_writer.write(output_pdf) temp_pdfs.append(temp_pdf_path) progress_callback((i + 1) / len(id_pages)) # Update progress bar # Process renaming in parallel with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor: executor.map(lambda pdf_path: extract_and_rename_pdf(pdf_path, output_folder), temp_pdfs)
def extract_and_rename_pdf(pdf_path, output_folder): doc = fitz.open(pdf_path) text_first_page = doc[0].get_text() # Extract ID using a regex pattern for the format (ID#: 01234) match_first_page = re.search(r'\(ID#:\s*(\d+)\)', text_first_page) if match_first_page: id_value = match_first_page.group(1) new_pdf_path = output_folder / f'{id_value}.pdf' pdf_path.rename(new_pdf_path) else: new_pdf_path = output_folder / f'unknown_{pdf_path.stem}.pdf' pdf_path.rename(new_pdf_path)
다음은 몇 가지 짧은 기능입니다. 하나는 분할된 PDF를 모두 압축하는 기능(내부 서버에서 실행하려는 경우)이고 다른 하나는 임시 파일을 정리하여 PII 학생 정보가 어디에 남지 않도록 하는 기능입니다. 살 필요는 없습니다.
def zip_output_folder(output_folder, zip_name): shutil.make_archive(zip_name, 'zip', output_folder)
def clean_up(output_folder, zip_name): shutil.rmtree(output_folder) os.remove(f"{zip_name}.zip")
마지막 코드는 UI용입니다. Streamlit은 다재다능한 WebUI입니다(예, 단독으로 실행할 수 있습니다). 몇 번의 시도 끝에 유용성을 고려했습니다. 간단하게 정리하여 업로드 버튼, 작업 버튼(예: 분할) 및 압축된 PDF를 가져오는 다운로드 버튼으로 분류했습니다.
# Streamlit App Portion st.title("PDF Splitter and Renamer") uploaded_file = st.file_uploader("Choose a PDF file", type="pdf") output_folder = "output_folder" if st.button("Split and Rename PDF"): if uploaded_file and output_folder: try: # Save uploaded file temporarily with open("temp_input.pdf", "wb") as f: f.write(uploaded_file.getbuffer()) progress_bar = st.progress(0) def update_progress(progress): progress_bar.progress(progress) split_pdf("temp_input.pdf", output_folder, update_progress) zip_name = "output_pdfs" zip_output_folder(output_folder, zip_name) st.success("PDF split and renamed successfully!") with open(f"{zip_name}.zip", "rb") as f: st.download_button( label="Download ZIP", data=f, file_name=f"{zip_name}.zip", mime="application/zip" ) # Remove temporary file Path("temp_input.pdf").unlink() clean_up(output_folder, zip_name) except Exception as e: st.error(f"An error occurred: {e}") else: st.error("Please upload a PDF file and specify an output folder.")
작업을 시작하고 실행하려면 다음 명령을 사용하세요(Linux, WSL 및 MacOS를 가정함). http://localhost:8501로 이동하여 앱에 접속할 수 있습니다.
git clone https://github.com/Blacknight318/act-to-sms.git cd act-to-sms python3 -m venv venv source venv/bin/activate pip install -r requirements.txt streamlit run app.py
K12 학교에 재학 중이라면 이 내용이 도움이 되기를 바랍니다. 그렇다면 박수를 치거나 나에게 커피를 사주는 것을 고려해보세요. 다음 시간까지 순풍과 바다를 따라가세요.
위 내용은 Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!