Maison >développement back-end >Problème PHP >Que dois-je faire si php ne peut pas charger scws ?

Que dois-je faire si php ne peut pas charger scws ?

藏色散人
藏色散人original
2021-09-06 09:06:231996parcourir

php ne peut pas charger scws car il n'a pas été installé correctement. La solution est la suivante : 1. Recherchez "scws-1.2.1.tar.bz2" ; 2. Installez via "make install" ; 3. Installez l'extension PHP de scws ; 4. , installez simplement le thésaurus.

Que dois-je faire si php ne peut pas charger scws ?

L'environnement d'exploitation de cet article : système Windows 7, PHP version 5.4, ordinateur Dell G3.

Que dois-je faire si scws ne peut pas être chargé par php ? Exemples d'installation et d'utilisation du système de segmentation de mots chinois PHP open source

1. Introduction à SCWS

SCWS est l'acronyme de Simple Chinese Word Segmentation (c'est-à-dire : Simple Système de segmentation des mots chinois).

Il s'agit d'un moteur mécanique de segmentation de mots chinois basé sur un dictionnaire de fréquence de mots. Il peut essentiellement segmenter correctement un paragraphe entier de texte chinois en mots. Le mot est la plus petite unité morphémique en chinois, mais lorsqu'ils sont écrits, les mots ne sont pas séparés par des espaces comme en anglais. Par conséquent, la segmentation précise et rapide des mots a toujours été un problème difficile dans la segmentation des mots chinois.

SCWS est développé en langage C pur et ne s'appuie sur aucune fonction de bibliothèque externe. Il peut utiliser directement des bibliothèques de liens dynamiques pour intégrer des applications. Les encodages chinois pris en charge incluent GBK, UTF-8, etc. De plus, un module d'extension PHP est fourni pour utiliser rapidement et facilement la fonction de segmentation de mots en PHP.

Il n'y a pas beaucoup d'éléments innovants dans l'algorithme de segmentation des mots. Il utilise le dictionnaire de fréquence des mots collecté par lui-même, complété par certains noms propres, noms de personnes, noms de lieux, âges numériques et autres règles de reconnaissance pour réaliser une segmentation de base des mots. la précision a été testée dans une petite plage Entre 90 % et 95 %, elle peut essentiellement répondre aux besoins de certains petits moteurs de recherche, à l'extraction de mots clés et à d'autres occasions. La première version prototype a été publiée fin 2005.

SCWS est développé par hightman et publié en open source sous licence BSD. Le code source est hébergé sur github.

2. Installation scws

Le code est le suivant :

# wget -c http://www.xunsearch.com/scws/down/scws-1.2.1.tar.bz2
# tar jxvf scws-1.2.1.tar.bz2
# cd scws-1.2.1
# ./configure --prefix=/usr/local/scws
# make && make install

3.Installation de l'extension PHP Scws

Le code est le suivant :

# cd ./phpext
# phpize
# ./configure --with-php-config=/usr/local/php5410/bin/php-config
# make && make install
# echo "[scws]" >> /usr/local/php5410/etc/php.ini
# echo "extension = scws.so" >> /usr/local/php5410/etc/php.ini
# echo "scws.default.charset = utf-8" >> /usr/local/php5410/etc/php.ini
# echo "scws.default.fpath = /usr/local/scws/etc/" >> /usr/local/php5410/etc/php.ini

4. Installation du thésaurus

Le code est le suivant :

# wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
# chown www:www /usr/local/scws/etc/dict.utf8.xdb

5. . Exemple de code PHP. Vous pouvez lire la description officielle de l'API SCWS en détail

Le code est le suivant :

//实例化分词插件核心类
 $so = scws_new();
 //设置分词时所用编码
 $so->set_charset('utf-8');
 //设置分词所用词典(此处使用utf8的词典)
 $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb');
 //设置分词所用规则
 $so->set_rule('/usr/local/scws/etc/rules.utf8.ini ');
 //分词前去掉标点符号
 $so->set_ignore(true);
 //是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
 $so->set_multi(true);
 //设定将文字自动以二字分词法聚合
 $so->set_duality(true);
 //要进行分词的语句
 $so->send_text(“欢迎来到火星时代IT开发”);
 //获取分词结果,如果提取高频词用get_tops方法
 while ($tmp = $so->get_result())
 {
     print_r($tmp);
 }
 $so->close();

Description du résultat du tableau de retour :

Le code est le suivant :

word   _string_ 词本身 
idf        _float_ 逆文本词频 
off         _int_ 该词在原文本路的位置 
attr       _string_ 词性

Apprentissage recommandé : "Tutoriel vidéo PHP"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn