背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。
技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?
PHP中文网2017-04-17 17:33:52
个人想法,最好有一个标签库,利用标签库中的文字去匹配您所说的医院介绍文字、医院名称等,可以使用正则来实现,如果说双眼皮匹配人名这种,就只能自定义个匹配的规则了。
黄舟2017-04-17 17:33:52
说下自己的一些看法,并不懂JAVA
你需要的是分词,根据你能够拿到的有用信息来进行分词。之前粗略的了解过 python 的自然语言处理相关的库,应该能够解决楼主的问题。
不太清楚你提到的这个麻烦事什么问题,是拿不到这个案例对应的医生信息, 还是说你们的数据结构有问题?
但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。
最后说下这里的词库的来源,除了上面提到的根据已有的信息来进行分词,还可以是搜索引擎里面行业相关的搜索词,站内搜索词,从竞争对手获得的相关搜索词;其实只要解决80%的词(搜索量大的词)用户体验就会上升一个等级