오늘은 특히 Golang의 PDF to TXT 라이브러리를 사용하여 PDF 파일을 텍스트 파일로 변환하는 방법을 공유하고 싶습니다. PDF는 현대 문학에서 매우 일반적인 형식이지만 경우에 따라 텍스트 처리 및 분석을 위해 PDF 형식의 문서를 사용하는 것이 불편할 수 있습니다. 따라서 나중에 사용하려면 텍스트 형식으로 변환해야 합니다. 이를 수행할 수 있는 소프트웨어가 많이 있지만 프로그래밍 환경에서 라이브러리를 사용하여 PDF를 텍스트로 변환하는 것이 더 효율적이고 유연합니다.
먼저 Golang PDF to TXT 라이브러리를 다운로드해야 합니다. 사용할 수 있는 PDF to TXT 라이브러리가 많이 있지만 우리는 가장 인기 있는 몇 가지 라이브러리 중 하나인 go-pdf-to-text를 사용합니다. 이 라이브러리는 사용하기 쉽고 좋은 문서를 가지고 있기 때문에 좋은 선택입니다.
go-pdf-to-text 라이브러리를 설치하는 것은 쉽습니다. 명령줄에서 다음 명령을 실행하기만 하면 됩니다.
go get -u github.com/lu4p/unipdf/extract go get -u github.com/lu4p/unipdf/model/textencoding go get -u github.com/lu4p/unipdf/model/textlayout go get -u github.com/lu4p/unipdf/model/textencoding/simplenc
이 라이브러리를 다운로드한 후 코드를 작성하고 텍스트로 변환할 수 있습니다. 다음은 PDF 파일을 텍스트 형식으로 변환하는 몇 가지 샘플 코드입니다.
package main import ( "fmt" "os" pdf "github.com/lu4p/unipdf/v3/model" "github.com/lu4p/unipdf/v3/extractor" ) func main() { f, err := os.Open("example.pdf") if err != nil { fmt.Println(err) os.Exit(1) } defer f.Close() pdfReader, err := pdf.NewPdfReader(f) if err != nil { fmt.Println(err) os.Exit(1) } numPages, err := pdfReader.GetNumPages() if err != nil { fmt.Println(err) os.Exit(1) } ex := extractor.New(pdfReader) for i := 1; i <= numPages; i++ { pageText, err := ex.ExtractPageText(i) if err != nil { fmt.Println(err) os.Exit(1) } fmt.Println(pageText) } }
이 예에서는 먼저 PDF 파일을 연 다음 pdfReader에 로드합니다. 그런 다음 추출 패키지의 New 함수를 사용하여 텍스트 추출을 위해 페이지 콘텐츠를 메모리에 로드하는 추출기를 만듭니다. 루프를 사용하여 모든 페이지를 반복하고 이를 텍스트로 변환합니다.
이 라이브러리를 사용하는 것은 전혀 어렵지 않다는 것을 알 수 있습니다. PDF 변환을 위해 이 라이브러리를 사용해 보십시오.
go-pdf-to-text 라이브러리 외에도 PDF를 TXT로 변환하는 데 사용할 수 있는 다른 라이브러리가 있습니다. 그러나 각 라이브러리에는 일부 측면에서 서로 다른 장점과 한계가 있습니다. 예를 들어, 이러한 라이브러리 중 일부는 더 빠르게 변환할 수 있는 반면 다른 라이브러리는 더 정확한 텍스트 추출을 제공할 수 있습니다. 따라서 프로젝트 요구 사항과 원하는 텍스트 출력의 정확성을 기반으로 라이브러리를 선택할 때 균형을 맞춰야 합니다.
요컨대, PDF to TXT는 특히 PDF의 콘텐츠를 분석하고 처리해야 할 때 매우 유용한 도구가 될 수 있습니다. Golang을 사용하면 PDF 파일을 TXT 형식으로 쉽게 변환하고 여기에서 필요한 텍스트 데이터를 추출할 수 있습니다. 우리가 사용한 go-pdf-to-text 라이브러리는 훌륭하게 작동하지만 프로젝트 요구 사항과 원하는 출력에 따라 이 작업에 다른 라이브러리를 사용할 수 있습니다.
위 내용은 golang pdf를 txt로 변환하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!