ホームページ >バックエンド開発 >PHPチュートリアル >PHP_PHPチュートリアルの文字列類似度を計算する関数

PHP_PHPチュートリアルの文字列類似度を計算する関数

WBOY
WBOYオリジナル
2016-07-20 11:03:211098ブラウズ

PHPで文字列の類似度を計算するsimilar_text関数とsimilarity levenshtein関数の詳細な紹介 以下では、文字列の類似度の導入について詳しく紹介します。 ​

similar_text — 2 つの文字列の類似性を計算します
int like_text ( string $first , string $second [, float &$percent ] )
$first は必須です。比較する最初の文字列を指定します。
$秒は必須です。比較する 2 番目の文字列を指定します。
$percent はオプションです。類似性パーセントを格納するために使用される変数名を指定します。

2 つの文字列間の類似性の計算は、Oliver [1993] の説明に従って実行されます。この実装は Oliver の仮想コードでスタックを使用しませんが、再帰呼び出しを行うため、プロセス全体が遅くなったり速くなったりする可能性があることに注意してください。また、このアルゴリズムの複雑さは O(N**3) であることに注意してください。ここで、N は最長の文字列の長さです。

たとえば、文字列 abcdefg と文字列 aeg の間の類似性を見つけたいとします。

コードは次のとおりですコードをコピーsimilar_text関数の使用法と実装プロセス。 like_text() 関数は、主に 2 つの文字列内の一致する文字の数を計算するために使用され、2 つの文字列の類似性 (パーセンテージ) を計算することもできます。今日紹介する levenshtein() 関数は、similar_text() 関数と比較して高速です。ただし、similar_text() 関数を使用すると、必要な変更が少なく、より正確な結果が得られます。速度は追求するが精度は低く、文字列の長さが制限されている場合は、levenshtein() 関数の使用を検討できます。
$first = "abcdefg";

$sec = "aeg";

echo like_text($first, $second); 結果の出力は 3 です。パーセンテージで表示したい場合は、次のように 3 番目のパラメーターを使用できます。
$first = "abcdefg";

$sec = "aeg";


同様のテキスト($first, $second, $percent);
エコー $パーセント;

使用説明書

まずマニュアルの levenshtein() 関数の説明を読んでください:


levenshtein() 関数は、2 つの文字列間のレーベンシュタイン距離を返します。

編集距離としても知られるレーベンシュタイン距離は、2 つの文字列間で一方をもう一方に変換するために必要な編集操作の最小数を指します。許可される編集操作には、ある文字を別の文字に置き換える、文字を挿入する、文字を削除するなどがあります。

たとえば、子猫を座っている状態に変換します:

座る(k→s)

座ってます (e→i)

座っている (→g) levenshtein() 関数は、各操作 (置換、挿入、削除) に等しい重みを与えます。ただし、オプションの挿入、置換、および削除パラメータを設定することで、各操作のコストを定義できます。

文法:

レーベンシュタイン(文字列1,文字列2,挿入,置換,削除)

パラメータの説明

•string1 は必須です。比較する最初の文字列。

•string2 は必須です。比較する 2 番目の文字列。

•オプションを挿入します。キャラクターを挿入するコスト。デフォルトは 1 です。
•オプションで交換します。キャラクターを置き換えるのにかかるコスト。デフォルトは 1 です。
•削除はオプションです。キャラクターを削除するコスト。デフォルトは 1 です。
ヒントとメモ

•いずれかの文字列が 255 文字を超える場合、levenshtein() 関数は -1 を返します。

•levenshtein() 関数は大文字と小文字を区別しません。

•levenshtein() 関数は、similar_text() 関数より高速です。ただし、similar_text() 関数を使用すると、修正が少なくて済み、より正確な結果が得られます。


コードは次のとおりです

出力: 1 30


www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/445299.html技術記事 PHPで文字列の類似度を計算するsimilar_text関数とsimilarity levenshtein関数の詳細な紹介 以下では、文字列の類似度の導入について詳しく紹介します。 like_text は 2 単語をカウントします...
コードをコピー
echo levenshtein("Hello World","ello World");

エコー「」 ";
echo levenshtein("Hello World","ello World",10,20,30);
?>

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。