#本文將分享一個實用的Python辦公室自動化腳本「利用Python批量翻譯英文Word文件並保留格式」,最終效果甚至比部分收費的軟體還要好!先來看看具體的工作內容。
手上有大量外文文件(本案例以5份為例,分別命名為test1 .docx
test2.docx
以此類推),其中一份如下:
基本需求:「批次將這些文檔的內容全部翻譯成中文,並轉存到新的文件中”,效果如下:
#高級需求:基本需求滿足的同時,要求「保留原始文檔的格式」,效果如下:
本需求的核心是翻譯,策略是利用網路的翻譯API,這裡推薦百度翻譯開放平台,不考慮並發數的話可以用標準版,免費使用不限字元量!
「百度翻譯開放平台:
」http://api.fanyi.baidu.com/api/trans/product/index
在使用百度的通用翻譯API 之前需要完成以下工作:
http://api.fanyi.baidu.com
);參考技術文檔和Demo編寫程式碼
完成後在個人頁面在可以看到ID 和金鑰,這很重要!
下面給出整理好的通用翻譯 API 的 demo,已經對輸出做簡單修改,程式碼拿走就能用!
2. 格式修改
######進階需求的困難就是保留格式,簡單來說###原文件的頁面格式和段落格式是什麼,翻譯後對應的部分是什麼。 #########基於上述的邏輯關係,只需要取得原始文檔的對應內容再賦值給新翻譯的文檔即可。 (暫時只能滿足頁面設定和段落設定的統一,針對一段特定字詞的格式修改,確保精確性需要基於自然語言處理NLP,本文暫不涉及)###頁面樣式只要包含邊距、方向、高度、寬度等等,從原始文件可以看到,採取的是窄邊距。但我們無需知道窄邊距四個方向應該如何設置,只需要在程式碼中呈現新舊文檔的變數傳遞即可,具體如下
段落樣式包含對齊、縮排、間距等等,原始文件中採取了段後縮進,標題是居中對齊。這些設定在變數傳遞中能夠很好完成。如果原文檔中沒有設定的變數值為None
對於字號、加粗、斜體、顏色等樣式調整,採取的策略是建立空列表,遍歷原文檔每一段每一個文字塊,獲取相應屬性並放到各自的列表中,對同一段而言,其包含的文字區塊屬性最多的選項賦值給翻譯後文件的對應段落(如同一段全部或大部分的文字是加粗,則翻譯後對應段落所有文字區塊均設定為加粗) 對NLP有興趣的讀者可自行嘗試如何高度還原英文文檔中某些特定詞語的樣式修改,並在翻譯後的文檔中體現出來
上面的程式碼不包含對字體的設置,因為沒必要把英文的字體傳遞給中文文檔。對中文字體的設定之前的文章有提到過,比較複雜,直接見程式碼:
from docx.oxml.ns import qn run.font.name = '微软雅黑' r = run._element.rPr.rFonts r.set(qn('w:eastAsia'), '微软雅黑')
現在每個部分操作均以完成,考慮到本例中有多個文件均需要翻譯,故全部邏輯如下:
glob
模块批处理框架可获取某个文件的绝对路径python-docx
完成 Word 文件实例化后对段落进行解析导入需要的模块,除翻译 demo 中需要的库外还需要 glob
库批量获取文件、python-docx
读取文件、time
模块控制访问并发。为什么要 os
模块见下文:
import requests import random import json from hashlib import md5 import time from docx import Document import glob import os
对原 demo 的部分内容进行保留,涉及到 query
参数的代码需要移动到后面的循环中。保留的部分:
效果如下
获取到段落文本后,可以将段落文本赋值给 query
参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph
将结果写入新文档:
最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename
方法获取并经字符串拼接达到目的:
wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')
单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:
完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:
代码运行完毕后得到五个新的翻译后文件
翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!
至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!
以上是用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!