在Python中檢查字串是否存在於PDF檔案中-Python教學-PHP中文網

首頁

後端開發

Python教學

在Python中檢查字串是否存在於PDF檔案中

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 19, 2023 pm 05:57 PM

pythonpdf檢查

在Python中檢查字串是否存在於PDF檔案中

在當今的數位世界中，PDF檔案已成為儲存和共享資訊的重要媒介。然而，有時在PDF文件中尋找特定的文字字串可能會很困難，特別是當文件很長或複雜時。這就是流行的程式語言Python派上用場的地方。

Python提供了幾個函式庫，讓我們可以與PDF檔案互動並從中提取資訊。一個常見的任務是在PDF文件中搜尋特定的字串。這可以用於各種目的，如資料分析、文字探勘或資訊檢索。

在這個背景下，我們有一個問題，我們想要檢查一個特定的字串是否存在於一個PDF檔案中。為了解決這個問題，我們可以使用兩種不同的方法。

第一種方法涉及直接在PDF檔案中搜尋字串。此方法利用提供搜尋功能的PDF庫在整個PDF檔案中搜尋字串。該庫讀取PDF文件並在文件內容上執行搜尋操作。這種方法快速且有效率，因為它不需要遍歷PDF文件的每一行。

第二種方法涉及迭代遍歷PDF檔案的每一行，並檢查每一行中是否存在該字串。這種方法涉及開啟PDF文件，逐行讀取並檢查每一行是否存在該字串。與第一種方法相比，這種方法速度較慢且效率較低，但在某些情況下它可以很有用，例如當我們需要對搜尋過程進行更精細的控制時，例如從PDF文件中提取特定訊息時。

總之，第一種方法是直接在PDF檔案中搜尋字串，而第二種方法是遍歷PDF檔案的每一行，並檢查每一行中是否存在字串。選擇使用哪種方法取決於手邊任務的特定要求。

現在我們已經談論了足夠多的方法，讓我們專注於編寫第一種方法的程式碼。

方法一

# The string we want to search for
St = 'Shruti'

# Open the PDF file in read mode
with open("example.pdf", "r") as f:
    # Read the entire file into a string variable 'a'
    a = f.read()

    # Check if the string 'St' is present in the file contents
    if St in a:
        # If the string is present, print a message indicating its presence
        print('String '', St, '' Is Found In The PDF File')
    else:
        # If the string is not present, print a message indicating its absence
        print('String '', St, '' Not Found')

# Close the file
f.close()

Explanation

的中文翻譯為：

解釋

在這段程式碼中，我們有一個字串St，我們想在PDF檔案中搜尋它。我們使用open()函數以唯讀模式開啟PDF文件，並將文件賦給變數f。檔案名稱'example.pdf'應該替換為您想要搜尋的檔案的名稱。

接下來，我們使用read()方法將整個PDF檔案的內容讀入一個字串變數a中。這將建立一個包含PDF文件中所有文字的字串。

然後，我們使用in關鍵字檢查檔案內容中是否存在字串St。如果在PDF文件中找到了該字串，我們列印一條訊息表示其存在。如果未找到該字串，我們列印一條訊息表示其不存在。

最後，我們使用close()方法關閉文件，釋放與文件句柄相關的任何系統資源。這是一個重要的步驟，以確保我們不會不必要地保持任何文件打開，這可能會在將來造成問題。

總的來說，這段程式碼提供了在PDF檔案中搜尋字串的簡單方法。然而，需要注意的是，如果PDF檔案包含複雜的格式、圖形或影像，這種方法可能無法正常運作，因為這些元素可能不會包含在read()方法傳回的字串中。在這種情況下，可能需要使用專門的PDF庫從PDF文件中提取文本，並在提取的文本中搜尋字串。

要執行上面的程式碼，我們需要執行下面顯示的命令。

指令

python3 main.py

一旦我們執行上述命令，我們將在終端機中獲得以下輸出。

輸出

("String '", 'Shruti', "' Is Found In The PDF File")

現在讓我們專注於第二種方法。

方法二

要檢查一個字串是否存在於PDF檔案中，我們可以逐行搜尋。首先，我們打開檔案並讀取其內容，這些內容儲存在一個名為f的變數中。我們將行變數和計數器都設為零，以便逐行迭代檔案。

使用for循環，我們遍歷文件的每一行，並檢查字串是否存在。如果在行中找到了字串，我們印出一條表示其存在的訊息。最後，我們關閉檔案以釋放與檔案句柄相關聯的任何系統資源。

透過逐行搜索，我們可以更準確地定位PDF文件中的字串。但是，這種方法可能比一次性搜尋整個文件更慢，特別是對於較大的PDF文件而言。此外，還需要考慮文件中的任何格式或其他非文字元素，這可能需要使用專門的PDF庫來處理。

考慮下面顯示的程式碼。

Example

的中文翻譯為：

範例

# Define the string to search for
St = 'Shruti'

# Open the PDF file in read mode
f = open("example.pdf", "r")

# Initialize counter variables
c = 0
line = 0

# Loop over each line in the file
for a in f:
    # Increment the line counter
    line = line + 1

    # Check if the string is present in the line
    if St in a:
        # Set the flag variable to indicate the string was found
        c = 1
        # Exit the loop once the string is found
        break

# Check the flag variable to see if the string was found
if c == 0:
    # Print a message indicating the string was not found
    print('String '', St, '' Not Found')
else:
    # Print a message indicating the line number where the string was found
    print('String '', St, '' Is Found In Line', line)

# Close the file to release any system resources associated with the file handle
f.close()

Explanation

的中文翻譯為：

解釋

這段程式碼在名為example.pdf的PDF檔案中搜尋字串'Shruti'。檔案應該與Python腳本在同一個目錄中，或需要指定檔案的完整路徑。

我們先定義要搜尋的字串，並使用open()函數以唯讀模式開啟PDF檔案。文件物件被賦值給變數f。

然后我们初始化两个变量：c是一个标志变量，设置为0，line是一个计数变量，设置为0。

接下来，我们使用for循环来遍历文件中的每一行。对于每一行，我们递增行计数器。然后，我们使用in运算符检查字符串St是否存在于该行中。如果存在，我们将c标志变量设置为1，表示找到了该字符串，并使用break语句跳出循环。

在循环之后，我们检查c标志变量的值。如果它仍然为0，则表示文件中未找到字符串"St"，我们打印一条相应的消息。否则，我们使用print()函数打印一条消息，指示找到字符串的行号。

最后，我们使用close()方法关闭文件，释放与文件句柄相关的任何系统资源。

这种方法对于在大型PDF文件中搜索字符串非常有用，因为它允许我们在找到字符串后停止搜索，而不是将整个文件读入内存。然而，需要注意的是，如果PDF文件包含复杂的格式、图形或图像，这种方法可能无法正常工作，因为这些元素可能不会包含在循环返回的行中。在这种情况下，可能需要使用专门的PDF库从PDF文件中提取文本，并在提取的文本中搜索字符串。

要运行上面的代码，我们需要运行下面显示的命令。

命令

python3 main.py

一旦我们运行上述命令，我们将在终端中获得以下输出。

输出

("String '", 'Shruti', "' Is Found In Line", 3727)

结论

总之，在Python中檢查字串是否存在於PDF檔案中可以使用各种方法来实现，这取决于手头任务的要求。

在本教程中，我们讨论了两种检查字符串是否存在于PDF文件中的方法：直接搜索整个PDF文件或逐行搜索。我们还提供了这两种方法的工作示例，以及详细的解释和代码注释。通过理解这些方法，您应该能够使用Python在PDF文件中搜索特定文本，这对于各种应用程序（如数据挖掘、文本提取等）可能是一个有价值的工具。

以上是在Python中檢查字串是否存在於PDF檔案中的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：tutorialspoint。如有侵權，請聯絡admin@php.cn刪除

Python：遊戲，Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python vs.C：申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。