搜尋
首頁php教程php手册【代码】PHP 分析函数similar

PHP 有个计算两个字符串相度的函数similar_text(),可以得出一个百分比来表示两个字符串的相程度。效果如下: 1similar_text('aaaa', 'aaaa', $percent);2var_dump($percent);3//float(100)4similar_text('aaaa', 'aaaabbbb', $percent);5var_dump($percent)

PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:


1
similar_text('aaaa', 'aaaa', $percent);
2
var_dump($percent);
3
//float(100)
4
similar_text('aaaa', 'aaaabbbb', $percent);
5
var_dump($percent);
6
//float(66.666666666667)
7
similar_text('abcdef', 'aabcdefg', $percent);
8
var_dump($percent);
9
//float(85.714285714286)


利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。


但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:


(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;
(3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;


我研究的源代码版本是PHP 5.4.6,相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

01
//找出两个字符串中相同部分最长的一段
02
static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
03
{
04
    char *p, *q;
05
    char *end1 = (char *) txt1 + len1;
06
    char *end2 = (char *) txt2 + len2;
07
    int l;
08
 
09
    *max = 0;
10
    //以第一个字符串为基准开始遍历
11
    for (p = (char *) txt1; p  *max) {
18
                *max = l;
19
                *pos1 = p - txt1;
20
                *pos2 = q - txt2;
21
            }
22
        }
23
    }
24
}
25
 
26
//计算两个字符串的相同部分的总长度
27
static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
28
{
29
    int sum;
30
    int pos1, pos2, max;
31
 
32
    //找出两个字符串相同部分最长的一段
33
    php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
34
    //这里是对sum的初始赋值,也是对max值的判断
35
    //如果max为零,表示两个字符串没有任何相同的字符,也就会跳出if
36
    if ((sum = max)) {
37
        //对前半段递归,相同段长度累加
38
        if (pos1 && pos2) {
39
            sum += php_similar_char(txt1, pos1,
40
                                    txt2, pos2);
41
        }
42
        //对后半段递归,相同段长度累加
43
        if ((pos1 + max  2) {
68
        convert_to_double_ex(percent);
69
    }
70
 
71
    //如果两个字符串长度都为0,返回0
72
    if (t1_len + t2_len == 0) {
73
        if (ac > 2) {
74
            Z_DVAL_PP(percent) = 0;
75
        }
76
 
77
        RETURN_LONG(0);
78
    }
79
 
80
    //调用上面的函数,计算两个字符串的相似度
81
    sim = php_similar_char(t1, t1_len, t2, t2_len);
82
 
83
    //可以看到percent的计算公式
84
    if (ac > 2) {
85
        Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
86
    }
87
 
88
    RETURN_LONG(sim);
89
}


另外,PHP还提供了另外一个计算字符串相似度的函数levenshtein(),通过计算两个字符串的编辑距离来表示字符串相似度,这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些,因为通过前面的代码分析可以看到,similar_text()的复杂度是O(n^3),n表示最长字符串的长度,而levenshtein()的复杂度为O(m*n),m与n分别为两个字符串的长度。


以上是本文关于PHP 分析函数similar_text()的原理,希望本文对广大php开发者有所帮助,感谢阅读本文。更多有关php技术问题欢迎加群探讨:304224365 ,验证码:csl,不写验证不予通过。

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。