背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。
技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?
PHP中文网2017-04-17 17:33:52
個人想法,最好有一個標籤庫,利用標籤庫中的文字去匹配您所說的醫院介紹文字、醫院名稱等,可以使用正則來實現,如果說雙眼皮匹配人名這種,就只能自定義個符合的規則了。
黄舟2017-04-17 17:33:52
說下自己的一些看法,並不懂JAVA
你需要的是分詞,根據你能拿到的有用資訊來進行分詞。之前粗略的了解 python 的自然語言處理相關的庫,應該能夠解決樓主的問題。
不太清楚你提到的這個麻煩事什麼問題,是拿不到這個案例對應的醫生信息, 還是說你們的數據結構有問題?
但存在例如需要給雙眼皮的案例打上如楊慶峰(一個做雙眼皮非常厲害的醫生)的標籤,這就麻煩了。
最後說下這裡的詞庫的來源,除了上面提到的根據已有的資訊來進行分詞,還可以是搜尋引擎裡面產業相關的搜尋字詞,站內搜尋字詞,從競爭對手獲得的相關搜尋字詞;其實只要解決80%的字(搜尋量大的字)使用者體驗就會上升一個等級