如何使用機器學習轉換器將 Apache Spark 與容易出錯的文字進行有效的字串比對？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何使用機器學習轉換器將 Apache Spark 與容易出錯的文字進行有效的字串比對？

Barbara Streisand

Nov 03, 2024 am 02:27 AM

How can Apache Spark be used for efficient string matching with error-prone text using machine learning transformers?

Apache Spark 中針對易錯文字的高效字串比對

背景：

驗證文字時字串符合至關重要從圖像或其他來源提取。然而，OCR 工具經常會引入錯誤，導致精確的字串匹配不可靠。這就需要一種有效的演算法來將提取的字串與資料集進行比較，即使存在錯誤也是如此。

方法：

雖然使用Spark 執行此任務可能會並不理想，我們提出了一種結合多個機器學習轉換器的方法：

Tokenizer：將字串分解為標記以處理字元替換等錯誤。
NGram： 建立 n-gram（例如 3-gram）以解決遺失或損壞的字元。
Vectorizer： 將 n-gram 轉換為數值向量，允許用於距離計算。
LSH（局部敏感雜湊）： 對向量執行近似最近鄰搜尋。

實作：

<code class="scala">import org.apache.spark.ml.feature.{RegexTokenizer, NGram, HashingTF, MinHashLSH, MinHashLSHModel}

val tokenizer = new RegexTokenizer()
val ngram = new NGram().setN(3)
val vectorizer = new HashingTF()
val lsh = new MinHashLSH()

val pipeline = new Pipeline()
val model = pipeline.fit(db)

val dbHashed = model.transform(db)
val queryHashed = model.transform(query)

model.stages.last.asInstanceOf[MinHashLSHModel]
  .approxSimilarityJoin(dbHashed, queryHashed, 0.75).show</code>

這種方法利用 LSH 來有效地識別相似的字串，即使有錯誤也是如此。閾值 0.75 可以根據所需的相似度進行調整。

Pyspark 實作：

<code class="python">from pyspark.ml import Pipeline
from pyspark.ml.feature import RegexTokenizer, NGram, HashingTF, MinHashLSH

model = Pipeline(stages=[
    RegexTokenizer(pattern="", inputCol="text", outputCol="tokens", minTokenLength=1),
    NGram(n=3, inputCol="tokens", outputCol="ngrams"),
    HashingTF(inputCol="ngrams", outputCol="vectors"),
    MinHashLSH(inputCol="vectors", outputCol="lsh")
]).fit(db)

db_hashed = model.transform(db)
query_hashed = model.transform(query)

model.stages[-1].approxSimilarityJoin(db_hashed, query_hashed, 0.75).show()</code>

相關資源：

[最佳化個條目的相似度並為每個條目輸出前N 個相似項](https://stackoverflow.com/questions/53917468/optimize-spark-job-that-必須計算每個條目與每個條目的相似度）

以上是如何使用機器學習轉換器將 Apache Spark 與容易出錯的文字進行有效的字串比對？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

學習Python：2小時的每日學習是否足夠？Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python：關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優

Python vs.C：探索性能和效率Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

python在行動中：現實世界中的例子Apr 18, 2025 am 12:18 AM

Python在現實世界中的應用包括數據分析、Web開發、人工智能和自動化。 1)在數據分析中，Python使用Pandas和Matplotlib處理和可視化數據。 2)Web開發中，Django和Flask框架簡化了Web應用的創建。 3)人工智能領域，TensorFlow和PyTorch用於構建和訓練模型。 4)自動化方面，Python腳本可用於復製文件等任務。