Maison > Questions et réponses > le corps du texte
背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。
技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?
阿神2017-04-17 17:33:52
Utilisez un algorithme de segmentation de mots pour segmenter la collection de contenu et extraire les mots à haute fréquence et certains mots spécifiés comme étiquettes pour le texte
PHP中文网2017-04-17 17:33:52
À mon avis, il est préférable d'avoir une bibliothèque de balises et d'utiliser le texte de la bibliothèque de balises pour qu'il corresponde au texte d'introduction de l'hôpital, au nom de l'hôpital, etc. que vous avez mentionné. Vous pouvez utiliser des règles régulières pour y parvenir. vous souhaitez faire correspondre les doubles paupières au nom d'une personne, vous pouvez simplement personnaliser les règles de correspondance.
黄舟2017-04-17 17:33:52
Dites-moi quelques-unes de vos opinions, je ne comprends pas JAVA
Ce dont vous avez besoin, c'est d'une segmentation de mots, et segmentez-le en fonction des informations utiles que vous pouvez obtenir. J'ai déjà eu une compréhension approximative des bibliothèques liées au traitement du langage naturel de python, ce qui devrait être en mesure de résoudre le problème de l'affiche originale.
Je ne sais pas quel est le problème avec le problème que vous avez mentionné. Est-ce parce que vous ne pouvez pas obtenir les informations du médecin correspondant à ce cas, ou y a-t-il un problème avec votre structure de données ?
Mais il y a des cas où les cas de double paupière doivent être étiquetés par quelqu'un comme Yang Qingfeng (un médecin qui est très doué pour faire des doubles paupières), ce qui est gênant.
Enfin, parlons ici de la source du vocabulaire. En plus de la segmentation des mots basée sur les informations existantes mentionnée ci-dessus, il peut également s'agir de termes de recherche liés à l'industrie dans les moteurs de recherche, de termes de recherche sur site et de recherches associées. mots obtenus auprès des concurrents ; en fait, tant que 80 % des mots (mots avec un grand volume de recherche) sont résolus, l'expérience utilisateur passera à un niveau supérieur