>  기사  >  백엔드 개발  >  Synapse를 사용하여 Python의 ADLS gen2에서 pdf, pptx 또는 docx 파일을 읽는 방법은 무엇입니까?

Synapse를 사용하여 Python의 ADLS gen2에서 pdf, pptx 또는 docx 파일을 읽는 방법은 무엇입니까?

WBOY
WBOY앞으로
2024-02-10 10:54:13565검색

如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

질문 내용

시냅스 노트북에서 Python을 사용하여 다양한 형식의 파일을 읽고 싶습니다. 여기에는 .pdf, .pptx, .docx, .msg 및 .eml이 포함됩니다. 나는 파일을 읽고 파이썬으로 파일을 구문 분석하고 조작할 수 있기를 원합니다. 다른 Python 라이브러리를 사용하여 데이터 블록에서 이 작업을 수행할 수 있었습니다.

데이터 브릭에서 이 작업을 수행하는 방법은 다음과 같습니다.

으아아아

시냅스에서 오류가 발생합니다: FileNotFoundError: [errno 2] 해당 파일이나 디렉터리가 없습니다.

이 파일 경로는 Spark나 Pandas를 사용하여 csv, excel, txt 데이터를 읽을 수 있으므로 인증이나 연결 문제는 없을 것 같습니다. 형식은 다음과 같습니다: abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path

저장 위치도 마운트해 보았습니다. 이는 텍스트 파일을 읽는 데 도움이 되지만 다른 형식은 읽지 않습니다. 시냅스에서 저장 위치 마운트


정답


마운팅이 올바른 방법인데, 이 답변에 설명되어 있습니다. 저는 시냅스 스튜디오를 사용하고 있습니다. 핵심은 마운트된 스토리지에 대한 경로 명령에서 얻은 파일 형식을 사용하는 것입니다. 그렇지 않으면 기본적으로 이전에 질문에서 언급한 내용을 사용할 수 있습니다. PDF의 경우에만 pypdf 라이브러리 사용에서 pypdf2로 변경해야 했습니다.

유효한 형식은 다음과 같습니다:

으아아아

mssparkutils fs에서 가져온 형식이 작동하지 않습니다

으아아아

위 내용은 Synapse를 사용하여 Python의 ADLS gen2에서 pdf, pptx 또는 docx 파일을 읽는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 stackoverflow.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제