찾다
php教程php手册【代码】PHP 分析函数similar

【代码】PHP 分析函数similar

Jun 06, 2016 pm 07:44 PM
php암호기능분석하다믿다

PHP 有个计算两个字符串相度的函数similar_text(),可以得出一个百分比来表示两个字符串的相程度。效果如下: 1similar_text('aaaa', 'aaaa', $percent);2var_dump($percent);3//float(100)4similar_text('aaaa', 'aaaabbbb', $percent);5var_dump($percent)

PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:


1
similar_text('aaaa', 'aaaa', $percent);
2
var_dump($percent);
3
//float(100)
4
similar_text('aaaa', 'aaaabbbb', $percent);
5
var_dump($percent);
6
//float(66.666666666667)
7
similar_text('abcdef', 'aabcdefg', $percent);
8
var_dump($percent);
9
//float(85.714285714286)


利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。


但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:


(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;
(3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;


我研究的源代码版本是PHP 5.4.6,相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

01
//找出两个字符串中相同部分最长的一段
02
static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
03
{
04
    char *p, *q;
05
    char *end1 = (char *) txt1 + len1;
06
    char *end2 = (char *) txt2 + len2;
07
    int l;
08
 
09
    *max = 0;
10
    //以第一个字符串为基准开始遍历
11
    for (p = (char *) txt1; p  *max) {
18
                *max = l;
19
                *pos1 = p - txt1;
20
                *pos2 = q - txt2;
21
            }
22
        }
23
    }
24
}
25
 
26
//计算两个字符串的相同部分的总长度
27
static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
28
{
29
    int sum;
30
    int pos1, pos2, max;
31
 
32
    //找出两个字符串相同部分最长的一段
33
    php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
34
    //这里是对sum的初始赋值,也是对max值的判断
35
    //如果max为零,表示两个字符串没有任何相同的字符,也就会跳出if
36
    if ((sum = max)) {
37
        //对前半段递归,相同段长度累加
38
        if (pos1 && pos2) {
39
            sum += php_similar_char(txt1, pos1,
40
                                    txt2, pos2);
41
        }
42
        //对后半段递归,相同段长度累加
43
        if ((pos1 + max  2) {
68
        convert_to_double_ex(percent);
69
    }
70
 
71
    //如果两个字符串长度都为0,返回0
72
    if (t1_len + t2_len == 0) {
73
        if (ac > 2) {
74
            Z_DVAL_PP(percent) = 0;
75
        }
76
 
77
        RETURN_LONG(0);
78
    }
79
 
80
    //调用上面的函数,计算两个字符串的相似度
81
    sim = php_similar_char(t1, t1_len, t2, t2_len);
82
 
83
    //可以看到percent的计算公式
84
    if (ac > 2) {
85
        Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
86
    }
87
 
88
    RETURN_LONG(sim);
89
}


另外,PHP还提供了另外一个计算字符串相似度的函数levenshtein(),通过计算两个字符串的编辑距离来表示字符串相似度,这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些,因为通过前面的代码分析可以看到,similar_text()的复杂度是O(n^3),n表示最长字符串的长度,而levenshtein()的复杂度为O(m*n),m与n分别为两个字符串的长度。


以上是本文关于PHP 分析函数similar_text()的原理,希望本文对广大php开发者有所帮助,感谢阅读本文。更多有关php技术问题欢迎加群探讨:304224365 ,验证码:csl,不写验证不予通过。

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.