この記事では主に、Ubuntu で Python を使用して doc および docx ドキュメントを読み取る方法を紹介します。これは、必要な友人に参照してもらえるように共有します
。 使用するパッケージは python-docx です
1. python-docx パッケージをインストールしますsudo pip install python-docx2. python-docx パッケージを使用してデータを読み取ります
このパッケージはできません処理済み ドキュメント ドキュメントの場合、アンチワード ツールを使用してドキュメント ドキュメントのコンテンツを読み取る必要があります。
ドキュメントドキュメントを読む
1. Web サイトにアクセスして、antiword をダウンロードします。
2. ダウンロード後、解凍し、解凍したフォルダーで make および make install コマンドを実行します。#encoding:utf8 import docx doc = docx.Document('test.docx') docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)
関連する推奨事項:
Python による dat ファイルのバッチ処理と科学的計算方法に基づく
以上がUbuntu で Python を使用して doc および docx ドキュメントのコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。