search
HomeBackend DevelopmentPHP Tutorialxunsearch自定义词库的TF、IDF作用?

最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!

1.增加自定义词库后的奇怪现象.

我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1)),丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!

2.自定义词库中的TF、IDF值的作用

DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

回复内容:

最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!

1.增加自定义词库后的奇怪现象.

我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1)),丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!

2.自定义词库中的TF、IDF值的作用

DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
php怎么把负数转为正整数php怎么把负数转为正整数Apr 19, 2022 pm 08:59 PM

php把负数转为正整数的方法:1、使用abs()函数将负数转为正数,使用intval()函数对正数取整,转为正整数,语法“intval(abs($number))”;2、利用“~”位运算符将负数取反加一,语法“~$number + 1”。

php怎么设置implode没有分隔符php怎么设置implode没有分隔符Apr 18, 2022 pm 05:39 PM

在PHP中,可以利用implode()函数的第一个参数来设置没有分隔符,该函数的第一个参数用于规定数组元素之间放置的内容,默认是空字符串,也可将第一个参数设置为空,语法为“implode(数组)”或者“implode("",数组)”。

php怎么给数组增加一个数组元素php怎么给数组增加一个数组元素Apr 19, 2022 pm 08:45 PM

增加元素的方法:1、使用“array_unshift(数组,数组元素)”语句,在数组的开头添加元素;2、使用“array_push(数组,数组元素)”语句,在数组的末尾添加元素;3、用“array_pad(数组,数组长度+1,元素)”语句。

php怎么统计数组里同一个值有几个php怎么统计数组里同一个值有几个Apr 19, 2022 pm 08:26 PM

在php中,可以使用array_count_values()函数来统计数组里同一个值有几个,语法为“array_count_values($array)”;该函数会返回一个关联数组,其元素的键名是原数组的值,键值是该值在原数组中出现的次数。

如何使用PHP和Xunsearch实现音乐和视频搜索功能如何使用PHP和Xunsearch实现音乐和视频搜索功能Jul 29, 2023 pm 11:48 PM

如何使用PHP和Xunsearch实现音乐和视频搜索功能摘要:音乐和视频搜索已经成为了人们日常生活中的重要需求之一。本文将介绍如何使用PHP编程语言和Xunsearch搜索引擎来实现音乐和视频搜索功能。引言:随着互联网的发展,音乐和视频的传播范围更广,并且用户对于音乐和视频的搜索需求也越来越高。为了满足用户的需求,开发人员需要构建一个高效且准确的搜索系统。本

详解PHP和Xunsearch的集成方法以实现智能搜索功能详解PHP和Xunsearch的集成方法以实现智能搜索功能Aug 01, 2023 pm 05:32 PM

详解PHP和Xunsearch的集成方法以实现智能搜索功能在Web开发中,搜索功能是非常常见且重要的一个组件。为了实现高效的搜索功能,在PHP开发中可以集成Xunsearch来实现智能搜索功能。本文将详细介绍如何通过PHP和Xunsearch实现智能搜索功能,并附上相应的代码示例。背景介绍Xunsearch是一个基于C++的高性能全文检索引擎,可以提供非常快

如何利用PHP和Xunsearch实现实时搜索和自动更新索引如何利用PHP和Xunsearch实现实时搜索和自动更新索引Jul 30, 2023 pm 07:55 PM

如何利用PHP和Xunsearch实现实时搜索和自动更新索引引言:在开发网站或应用程序时,搜索功能是一个至关重要的组成部分。传统的数据库搜索方式存在效率问题,并不能满足实时的需求。Xunsearch是一个基于C++编写的全文搜索引擎,支持中文分词和快速搜索。本文将介绍如何利用PHP和Xunsearch实现实时搜索和自动更新索引。一、环境准备在开始之前,我们需

php中变量怎么去掉最后一个字符php中变量怎么去掉最后一个字符Apr 18, 2022 pm 09:05 PM

去掉方法:1、用“substr(变量,0,-1)”语句,可倒序裁掉英文字符串的最后一个字符;2、用“mb_substr(变量,0,-1,"字符编码")”语句,可删除中文字符串的最后一个字符;3、用“rtrim(变量, "指定字符")”语句。

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Tools

DVWA

DVWA

Damn Vulnerable Web App (DVWA) is a PHP/MySQL web application that is very vulnerable. Its main goals are to be an aid for security professionals to test their skills and tools in a legal environment, to help web developers better understand the process of securing web applications, and to help teachers/students teach/learn in a classroom environment Web application security. The goal of DVWA is to practice some of the most common web vulnerabilities through a simple and straightforward interface, with varying degrees of difficulty. Please note that this software

Atom editor mac version download

Atom editor mac version download

The most popular open source editor

SecLists

SecLists

SecLists is the ultimate security tester's companion. It is a collection of various types of lists that are frequently used during security assessments, all in one place. SecLists helps make security testing more efficient and productive by conveniently providing all the lists a security tester might need. List types include usernames, passwords, URLs, fuzzing payloads, sensitive data patterns, web shells, and more. The tester can simply pull this repository onto a new test machine and he will have access to every type of list he needs.

Dreamweaver Mac version

Dreamweaver Mac version

Visual web development tools

Zend Studio 13.0.1

Zend Studio 13.0.1

Powerful PHP integrated development environment