PHP函数similar_text()的原理_PHP教程-php教程-PHP中文網

首頁

後端開發

php教程

PHP函数similar_text()的原理_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:27 AM

phptext函數原理字串每次的相似計算

　　PHP有个计算两个字符串相似度的函数similar_text()，可以得出一个百分比来表示两个字符串的相似程度。效果如下：

　　similar_text('aaaa', 'aaaa', $percent);

　　var_dump($percent);

　　//float(100)

　　similar_text('aaaa', 'aaaabbbb', $percent);

　　var_dump($percent);

　　//float(66.666666666667)

　　similar_text('abcdef', 'aabcdefg', $percent);

　　var_dump($percent);

　　//float(85.714285714286)

　　利用这个函数，可以用来做模糊搜索的功能，或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。

　　但这个函数具体使用了怎样的算法呢?我研究了他的底层实现，总结为三步：

　　(1)找出两个字符串中相同部分最长的一段;

　　(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段，以此类推，直到没有任何相同部分;

　　(3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;

　　我研究的源代码版本是PHP 5.4.6，相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

　　//找出两个字符串中相同部分最长的一段

　　static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)

　　{

　　char *p, *q;

　　char *end1 = (char *) txt1 + len1;

　　char *end2 = (char *) txt2 + len2;

　　int l;

　　*max = 0;

　　//以第一个字符串为基准开始遍历

　　for (p = (char *) txt1; p

　　//遍历第二个字符串

　　for (q = (char *) txt2; q

　　//发现有字符相同，继续循环找，l为相同部分的长度

　　for (l = 0; (p + l

　　//冒泡方法找出最长的一个l，并记住相同部分的开始位置

　　if (l > *max) {

　　*max = l;

　　*pos1 = p - txt1;

　　*pos2 = q - txt2;

　　}

　　//计算两个字符串的相同部分的总长度

　　static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)

　　{

　　int sum;

　　int pos1, pos2, max;

　　//找出两个字符串相同部分最长的一段

　　php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);

　　//这里是对sum的初始赋值，也是对max值的判断

　　//如果max为零，表示两个字符串没有任何相同的字符，也就会跳出if

　　if ((sum = max)) {

　　//对前半段递归，相同段长度累加

　　if (pos1 && pos2) {

　　sum += php_similar_char(txt1, pos1,

　　txt2, pos2);

　　}

　　//对后半段递归，相同段长度累加

　　if ((pos1 + max

　　sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,

　　txt2 + pos2 + max, len2 - pos2 - max);

　　}

　　return sum;

　　}

　　//PHP函数定义

　　PHP_FUNCTION(similar_text)

　　{

　　char *t1, *t2;

　　zval **percent = NULL;

　　int ac = ZEND_NUM_ARGS();

　　int sim;

　　int t1_len, t2_len;

　　//检查参数合法性

　　if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss|Z", &t1, &t1_len, &t2, &t2_len, &percent) == FAILURE) {

　　return;

　　}

　　//如果有第三个参数

　　if (ac > 2) {

　　convert_to_double_ex(percent);

　　}

　　//如果两个字符串长度都为0，返回0

　　if (t1_len + t2_len == 0) {

　　if (ac > 2) {

　　Z_DVAL_PP(percent) = 0;

　　}

　　RETURN_LONG(0);

　　}

　　//调用上面的函数，计算两个字符串的相似库

　　sim = php_similar_char(t1, t1_len, t2, t2_len);

　　//可以看第三个参数percent的计算公式

　　if (ac > 2) {

　　Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);

　　}

　　RETURN_LONG(sim);

　　}

　　另外，PHP还提供了另外一个计算字符串相似度的函数levenshtein()，通过计算两个字符串的编辑距离来表示字符串相似度，这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些，因为通过前面的代码分析可以看到，similar_text()的复杂度是O(n^3)，n表示最长字符串的长度，而levenshtein()的复杂度为O(m*n)，m与n分别为两个字符串的长度。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP與Python：了解差異Apr 11, 2025 am 12:15 AM

PHP和Python各有優勢，選擇應基於項目需求。 1.PHP適合web開發，語法簡單，執行效率高。 2.Python適用於數據科學和機器學習，語法簡潔，庫豐富。

php：死亡還是簡單地適應？Apr 11, 2025 am 12:13 AM

PHP不是在消亡，而是在不斷適應和進化。 1)PHP從1994年起經歷多次版本迭代，適應新技術趨勢。 2)目前廣泛應用於電子商務、內容管理系統等領域。 3)PHP8引入JIT編譯器等功能，提升性能和現代化。 4)使用OPcache和遵循PSR-12標準可優化性能和代碼質量。

PHP的未來：改編和創新Apr 11, 2025 am 12:01 AM

PHP的未來將通過適應新技術趨勢和引入創新特性來實現：1)適應云計算、容器化和微服務架構，支持Docker和Kubernetes；2)引入JIT編譯器和枚舉類型，提升性能和數據處理效率；3)持續優化性能和推廣最佳實踐。

您什麼時候使用特質與PHP中的抽像類或接口？Apr 10, 2025 am 09:39 AM

在PHP中，trait適用於需要方法復用但不適合使用繼承的情況。 1)trait允許在類中復用方法，避免多重繼承複雜性。 2)使用trait時需注意方法衝突，可通過insteadof和as關鍵字解決。 3)應避免過度使用trait，保持其單一職責，以優化性能和提高代碼可維護性。

什麼是依賴性注入容器（DIC），為什麼在PHP中使用一個？Apr 10, 2025 am 09:38 AM

依賴注入容器（DIC）是一種管理和提供對象依賴關係的工具，用於PHP項目中。 DIC的主要好處包括：1.解耦，使組件獨立，代碼易維護和測試；2.靈活性，易替換或修改依賴關係；3.可測試性，方便注入mock對象進行單元測試。

與常規PHP陣列相比，解釋SPL SplfixedArray及其性能特徵。Apr 10, 2025 am 09:37 AM

SplFixedArray在PHP中是一種固定大小的數組，適用於需要高性能和低內存使用量的場景。 1)它在創建時需指定大小，避免動態調整帶來的開銷。 2)基於C語言數組，直接操作內存，訪問速度快。 3)適合大規模數據處理和內存敏感環境，但需謹慎使用，因其大小固定。

PHP如何安全地上載文件？Apr 10, 2025 am 09:37 AM

PHP通過$\_FILES變量處理文件上傳，確保安全性的方法包括：1.檢查上傳錯誤，2.驗證文件類型和大小，3.防止文件覆蓋，4.移動文件到永久存儲位置。

什麼是無效的合併操作員（??）和無效分配運算符（?? =）？Apr 10, 2025 am 09:33 AM

JavaScript中處理空值可以使用NullCoalescingOperator(??)和NullCoalescingAssignmentOperator(??=)。 1.??返回第一個非null或非undefined的操作數。 2.??=將變量賦值為右操作數的值，但前提是該變量為null或undefined。這些操作符簡化了代碼邏輯，提高了可讀性和性能。

See all articles