ホームページ  >  記事  >  バックエンド開発  >  PHP入門 中国語単語分割とキーワード自動取得_PHPチュートリアル

PHP入門 中国語単語分割とキーワード自動取得_PHPチュートリアル

WBOY
WBOYオリジナル
2016-07-21 15:14:341409ブラウズ

复制代码代码如下:

header("Content-Type:text/html; charset=utf-8");
define('APP_ROOT', str_replace('\', '/', dirname(__FILE__)));
$test = '这里是一段中文测试代码!';
関数 get_tags_arr($title)
{
require(APP_ROOT.'/pscws4.class.php');
$pscws = 新しい PSCWS4();
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb');
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini');
$pscws->set_ignore(true);
$pscws->send_text($title);
$words = $pscws->get_tops(5);
$tags = array();
foreach ($words as $val) {
$tags[] = $val['word'];
}
$pscws->close();
$tag を返す;
}
print_r(get_tags_arr($test));
//============================================== =============
function get_keywords_str($content){
require(APP_ROOT.'/phpanalysis.class.php');
PhpAnalysis::$loadInit = false;
$pa = new PhpAnalysis('utf-8', 'utf-8', false);
$pa->LoadDict();
$pa->SetSource($content);
$pa->分析開始( false );
$tags = $pa->GetFinallyResult();
$tag を返す;
}
print(get_keywords_str($test));

相关下載地址

SCWS – 简易中文分词系统

SCWS は、概念上、新しい要素はなく、自家採取による音声词典が採用されており、ある程度の名前、人名、地名、数字時代等を含む规集があり、小范围赋试大概确率は 90% です。 SCWS は、主要なプラットフォーム環境である Unix ライクの OS で、標準的な C コードを採用して、さまざまなツールの組み込みを容易にする共有関数を提供します。さらに、GBK、UTF-8、BIG5 などの文字コードをサポートしており、カット効率が高くなります。

系统平台:Windows/Unix

开発行语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php

开源官网:http://www.ftphp.com/scws/

補足: PHP の拡張として、既存の PHP アーキテクチャに基づいた Web システムを簡単に統合できることが非常に優れています。

PhpanAracy - PHP無组件分词系统

PhpanAracy 分注システムは、文字列一致に基づいた分注メソッドであり、この方法はまた実行される機械的分注メソッドであり、一定の戦略に基づいて分析対象の文字列を「十分な」コンピューターの書典に割り当てられます。教科書内で特定の文字列に到達すると、一致は成功します(1 つの文字列が表示されます)。最大(最長)のマッチングと最小(最小)のマッチングの場合、性的注釈手順と関連するかどうかに応じて、個別の方法と注釈と関連する統合方法に分けることができます。

系统平台:PHP環境

开公開语言:PHP

使用方法:HTTPサービス务

演示网址:http://www.itgrass.com/phpanalysis/

开源官网:http://www.itgrass.com/phpanalysis/

追加点: 非常に簡単で、簡単に使用でき、いくつかの単純な用途に使用できますが、大量のデータの計算効率は以前のものではありません。

http://www.jb51.net/codes は、一部のセクションにいくつかの違いがあるだけで、基本的な機能には問題がないシステムを使用しています。 /40139.html



http://www.bkjia.com/PHPjc/326301.html

www.bkjia.com

tru​​ehttp://www.bkjia.com/PHPjc/326301.html技術記事复制代码代码如下: ?php header("Content-Type:text/html; charset=utf-8");定義('APP_ROOT', str_replace('\', '/', dirname(__FILE__))); $test = '这里是一段中文测试代...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。