#本文將分享一個實用的Python辦公室自動化腳本「利用Python批量翻譯英文Word文件並保留格式」,最終效果甚至比部分收費的軟體還要好!先來看看具體的工作內容。
一、需求描述
手上有大量外文文件(本案例以5份為例,分別命名為test1 .docx
test2.docx
以此類推),其中一份如下:
基本需求:「批次將這些文檔的內容全部翻譯成中文,並轉存到新的文件中”,效果如下:
#高級需求:基本需求滿足的同時,要求「保留原始文檔的格式」,效果如下:
二、邏輯梳理
1 . 翻譯API
本需求的核心是翻譯,策略是利用網路的翻譯API,這裡推薦百度翻譯開放平台,不考慮並發數的話可以用標準版,免費使用不限字元量!
「百度翻譯開放平台:
」http://api.fanyi.baidu.com/api/trans/product/index
在使用百度的通用翻譯API 之前需要完成以下工作:
使用百度帳號登入百度翻譯開放平台( http://api.fanyi.baidu.com
);#註冊成為開發者,取得APPID; - #進行開發者認證(如僅需標準版可跳過);

參考技術文檔和Demo編寫程式碼
完成後在個人頁面在可以看到ID 和金鑰,這很重要!
下面給出整理好的通用翻譯 API 的 demo,已經對輸出做簡單修改,程式碼拿走就能用!
可以看到,測試內容準確的被翻譯出來,注意如果需要多次存取API,免費版有並發數和時間限制,可以用time
模組睡眠一秒鐘
2. 格式修改
######進階需求的困難就是保留格式,簡單來說###原文件的頁面格式和段落格式是什麼,翻譯後對應的部分是什麼。 #########基於上述的邏輯關係,只需要取得原始文檔的對應內容再賦值給新翻譯的文檔即可。 (暫時只能滿足頁面設定和段落設定的統一,針對一段特定字詞的格式修改,確保精確性需要基於自然語言處理NLP,本文暫不涉及)###2.1 頁面樣式
頁面樣式只要包含邊距、方向、高度、寬度等等,從原始文件可以看到,採取的是窄邊距。但我們無需知道窄邊距四個方向應該如何設置,只需要在程式碼中呈現新舊文檔的變數傳遞即可,具體如下
2.2 段落樣式
段落樣式包含對齊、縮排、間距等等,原始文件中採取了段後縮進,標題是居中對齊。這些設定在變數傳遞中能夠很好完成。如果原文檔中沒有設定的變數值為None
#2.3 文字區塊樣式修改
對於字號、加粗、斜體、顏色等樣式調整,採取的策略是建立空列表,遍歷原文檔每一段每一個文字塊,獲取相應屬性並放到各自的列表中,對同一段而言,其包含的文字區塊屬性最多的選項賦值給翻譯後文件的對應段落(如同一段全部或大部分的文字是加粗,則翻譯後對應段落所有文字區塊均設定為加粗)
對NLP有興趣的讀者可自行嘗試如何高度還原英文文檔中某些特定詞語的樣式修改,並在翻譯後的文檔中體現出來
上面的程式碼不包含對字體的設置,因為沒必要把英文的字體傳遞給中文文檔。對中文字體的設定之前的文章有提到過,比較複雜,直接見程式碼:
from docx.oxml.ns import qn run.font.name = '微软雅黑' r = run._element.rPr.rFonts r.set(qn('w:eastAsia'), '微软雅黑')
#3. 整體實作步驟
現在每個部分操作均以完成,考慮到本例中有多個文件均需要翻譯,故全部邏輯如下:
利用 glob
模块批处理框架可获取某个文件的绝对路径由 python-docx
完成 Word 文件实例化后对段落进行解析解析出的段落文本交给百度通用翻译 API,解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件 同个文件全部解析、翻译并写入新文件后保存文件
三、代码实现
导入需要的模块,除翻译 demo 中需要的库外还需要 glob
库批量获取文件、python-docx
读取文件、time
模块控制访问并发。为什么要 os
模块见下文:
import requests import random import json from hashlib import md5 import time from docx import Document import glob import os
对原 demo 的部分内容进行保留,涉及到 query
参数的代码需要移动到后面的循环中。保留的部分:
效果如下
获取到段落文本后,可以将段落文本赋值给 query
参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph
将结果写入新文档:
最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename
方法获取并经字符串拼接达到目的:
wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')

单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:
完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:
代码运行完毕后得到五个新的翻译后文件
翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!
至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!
以上是用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架:Django適合快速開發複雜應用,Flask適用於小型或高度自定義項目。 2.API開發:使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化:利用Python處理數據並通過Web界面展示。 4.機器學習與AI:Python用於構建智能Web應用。 5.性能優化:通過異步編程、緩存和代碼優

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

Python在現實世界中的應用包括數據分析、Web開發、人工智能和自動化。 1)在數據分析中,Python使用Pandas和Matplotlib處理和可視化數據。 2)Web開發中,Django和Flask框架簡化了Web應用的創建。 3)人工智能領域,TensorFlow和PyTorch用於構建和訓練模型。 4)自動化方面,Python腳本可用於復製文件等任務。

Python在數據科學、Web開發和自動化腳本領域廣泛應用。 1)在數據科學中,Python通過NumPy、Pandas等庫簡化數據處理和分析。 2)在Web開發中,Django和Flask框架使開發者能快速構建應用。 3)在自動化腳本中,Python的簡潔性和標準庫使其成為理想選擇。

Python的靈活性體現在多範式支持和動態類型系統,易用性則源於語法簡潔和豐富的標準庫。 1.靈活性:支持面向對象、函數式和過程式編程,動態類型系統提高開發效率。 2.易用性:語法接近自然語言,標準庫涵蓋廣泛功能,簡化開發過程。

Python因其簡潔與強大而備受青睞,適用於從初學者到高級開發者的各種需求。其多功能性體現在:1)易學易用,語法簡單;2)豐富的庫和框架,如NumPy、Pandas等;3)跨平台支持,可在多種操作系統上運行;4)適合腳本和自動化任務,提升工作效率。

可以,在每天花費兩個小時的時間內學會Python。 1.制定合理的學習計劃,2.選擇合適的學習資源,3.通過實踐鞏固所學知識,這些步驟能幫助你在短時間內掌握Python。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1
好用且免費的程式碼編輯器