SCWS的scws_get_words函数是否存在bug-php教程-PHP中文网

首页

后端开发

php教程

SCWS的scws_get_words函数是否存在bug

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:52 PM

cphp中文分词

SCWS是国人做的一个很优秀的分词库，它的php扩展可以方便地处理中文分词。现在发现其中一个函数scws_get_words函数的问题，这个函数是用来获取分词结果的，其第二个参数可以指定你需要返回的结果，这是它的c api文档描述(php大同小异)

·scws_top_t scws_get_words(scws_t s, char *xattr);
描述：返回指定词性的关键词表，系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性，多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性，
否则表示必须包含，传入 NULL 表示统计全部词性。
返回值：返回词表集链表的头指针，该词表集必须调用 scws_free_tops 释放
错误：无

也就是说我只需要在第二个参数里加上以逗号分割的参数即可，比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'字符，表示我要在结果中过滤掉这些。

但实际的结果是，无论你加了多少过滤条件都不起作用，但相反，如果你只加一个过滤条件比如'~a'，也就是没有逗号的时候，它可以把相应的结果过滤掉。所以我考虑这之中是否存在bug。下面附上此函数的c实现代码，大家帮我看看

// get words by attr (rand order)
scws_top_t scws_get_words(scws_t s, char *xattr)
{
	int off, cnt, xmode = SCWS_NA;
	xtree_t xt;	
	scws_res_t res, cur;
	scws_top_t top, tail, base;
	char *word;
	word_attr *at = NULL;

	if (!s || !s->txt || !(xt = xtree_new(0,1)))
		return NULL;

	__PARSE_XATTR__;

	// save the offset.
	off = s->off;
	s->off = 0;
	base = tail = NULL;
	while ((cur = res = scws_get_result(s)) != NULL)
	{
		do
		{
			/* check attribute filter */
			if (at != NULL)
			{
				if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at))
					continue;

				if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at))
					continue;
			}

			/* put to the stats */
			if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL)))
			{
				top = (scws_top_t) malloc(sizeof(struct scws_topword));
				top->weight = cur->idf;
				top->times = 1;
				top->next = NULL;
				top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len);
				strncpy(top->attr, cur->attr, 2);
				// add to the chain
				if (tail == NULL)
					base = tail = top;
				else
				{
					tail->next = top;
					tail = top;
				}
				xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len);
			}
			else
			{
				top->weight += cur->idf;
				top->times++;
			}
		}
		while ((cur = cur->next) != NULL);
		scws_free_result(res);
	}

	// free at & xtree
	if (at != NULL)
		free(at);
	xtree_free(xt);

	// restore the offset
	s->off = off;
	return base;
}

我发现它的__PARSE_XATTR__宏有些问题啊，这里另外附上word_attr的结构定义

/* macro to parse xattr -> xmode, at */
#define	__PARSE_XATTR__		do {				\
	if (xattr == NULL) break;				\
	if (*xattr == '~') { xattr++; xmode = SCWS_YEA; }	\
	if (*xattr == '\0') break;				\
	cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr);	\
	at = (word_attr *) malloc(cnt);				\
	memset(at, 0, cnt);					\
	cnt = 0;						\
	for (cnt = 0; (word = strchr(xattr, ',')); cnt++) {	\
		strncpy(at[cnt], xattr, 2);			\
		xattr = word + 1;				\
	}							\
	strncpy(at[cnt], xattr, 2);				\
} while (0)

typedef char word_attr[4];

这样处理xattr的话，只能处理词性是2个字符的情况，因为它strncpy(at[cnt], xattr, 2);。这也太马虎了吧，词性表里有一堆一个字符的词性啊，它copy的话就会把逗号也copy进去啊。

自己全部用2个字符的词性过滤试了一下，果然可以了。。。大家考虑下这里应该怎么改下吧

回复内容：

·scws_top_t scws_get_words(scws_t s, char *xattr);
描述：返回指定词性的关键词表，系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性，多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性，
否则表示必须包含，传入 NULL 表示统计全部词性。
返回值：返回词表集链表的头指针，该词表集必须调用 scws_free_tops 释放
错误：无

也就是说我只需要在第二个参数里加上以逗号分割的参数即可，比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'字符，表示我要在结果中过滤掉这些。

// get words by attr (rand order)
scws_top_t scws_get_words(scws_t s, char *xattr)
{
	int off, cnt, xmode = SCWS_NA;
	xtree_t xt;	
	scws_res_t res, cur;
	scws_top_t top, tail, base;
	char *word;
	word_attr *at = NULL;

	if (!s || !s->txt || !(xt = xtree_new(0,1)))
		return NULL;

	__PARSE_XATTR__;

	// save the offset.
	off = s->off;
	s->off = 0;
	base = tail = NULL;
	while ((cur = res = scws_get_result(s)) != NULL)
	{
		do
		{
			/* check attribute filter */
			if (at != NULL)
			{
				if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at))
					continue;

				if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at))
					continue;
			}

			/* put to the stats */
			if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL)))
			{
				top = (scws_top_t) malloc(sizeof(struct scws_topword));
				top->weight = cur->idf;
				top->times = 1;
				top->next = NULL;
				top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len);
				strncpy(top->attr, cur->attr, 2);
				// add to the chain
				if (tail == NULL)
					base = tail = top;
				else
				{
					tail->next = top;
					tail = top;
				}
				xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len);
			}
			else
			{
				top->weight += cur->idf;
				top->times++;
			}
		}
		while ((cur = cur->next) != NULL);
		scws_free_result(res);
	}

	// free at & xtree
	if (at != NULL)
		free(at);
	xtree_free(xt);

	// restore the offset
	s->off = off;
	return base;
}

我发现它的__PARSE_XATTR__宏有些问题啊，这里另外附上word_attr的结构定义

/* macro to parse xattr -> xmode, at */
#define	__PARSE_XATTR__		do {				\
	if (xattr == NULL) break;				\
	if (*xattr == '~') { xattr++; xmode = SCWS_YEA; }	\
	if (*xattr == '\0') break;				\
	cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr);	\
	at = (word_attr *) malloc(cnt);				\
	memset(at, 0, cnt);					\
	cnt = 0;						\
	for (cnt = 0; (word = strchr(xattr, ',')); cnt++) {	\
		strncpy(at[cnt], xattr, 2);			\
		xattr = word + 1;				\
	}							\
	strncpy(at[cnt], xattr, 2);				\
} while (0)

typedef char word_attr[4];

自己全部用2个字符的词性过滤试了一下，果然可以了。。。大家考虑下这里应该怎么改下吧

跟作者交流了下，hightman给出了patch，修改宏定义处

diff -c -r1.28 -r1.29
*** libscws/scws.c  5 Aug 2011 04:39:33 -0000   1.28
--- libscws/scws.c  26 Oct 2011 08:41:44 -0000  1.29
***************
*** 1278,1284 ****
    memset(at, 0, cnt);                                 \
    cnt = 0;                                            \
    for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \
!       strncpy(at[cnt], xattr, 2);                     \
        xattr = word + 1;                               \
    }                                                   \
    strncpy(at[cnt], xattr, 2);                         \
--- 1278,1285 ----
    memset(at, 0, cnt);                                 \
    cnt = 0;                                            \
    for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \
!       at[cnt][0] = *xattr++;                          \
!       at[cnt][1] = xattr == word ? '\0' : *xattr;     \
        xattr = word + 1;                               \
    }                                                   \
    strncpy(at[cnt], xattr, 2);                         \

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

C语言中的常量是什么，可以举一个例子吗？Aug 28, 2023 pm 10:45 PM

常量也称为变量，一旦定义，其值在程序执行期间就不会改变。因此，我们可以将变量声明为引用固定值的常量。它也被称为文字。必须使用Const关键字来定义常量。语法C编程语言中使用的常量语法如下-consttypeVariableName;(or)consttype*VariableName;不同类型的常量在C编程语言中使用的不同类型的常量如下所示：整数常量-例如：1,0,34,4567浮点数常量-例如：0.0,156.89,23.456八进制和十六进制常量-例如：十六进制：0x2a,0xaa..八进制

VSCode和VS C++IntelliSense无法工作或拾取库Feb 29, 2024 pm 01:28 PM

VS代码和VisualStudioC++IntelliSense可能无法拾取库，尤其是在处理大型项目时。当我们将鼠标悬停在#Include<；wx/wx.h>；上时，我们看到了错误消息“CannotOpen源文件‘string.h’”(依赖于“wx/wx.h”)，有时，自动完成功能无法响应。在这篇文章中，我们将看到如果VSCode和VSC++IntelliSense不能工作或不能提取库，你可以做些什么。为什么我的智能感知不能在C++中工作？处理大文件时，IntelliSense有时

修复Xbox错误代码8C230002Feb 27, 2024 pm 03:55 PM

您是否由于错误代码8C230002而无法在Xbox上购买或观看内容？一些用户在尝试购买或在其控制台上观看内容时不断收到此错误。抱歉，Xbox服务出现问题。稍后再试.有关此问题的帮助，请访问www.xbox.com/errorhelp。状态代码：8C230002这种错误代码通常是由于暂时的服务器或网络问题引起的。但是，还有可能是由于帐户的隐私设置或家长控制等其他原因，这些可能会阻止您购买或观看特定内容。修复Xbox错误代码8C230002如果您尝试在Xbox控制台上观看或购买内容时收到错误代码8C

递归程序在C++中找到数组的最小和最大元素Aug 31, 2023 pm 07:37 PM

我们以整数数组Arr[]作为输入。目标是使用递归方法在数组中找到最大和最小的元素。由于我们使用递归，我们将遍历整个数组，直到达到长度=1，然后返回A[0]，这形成了基本情况。否则，将当前元素与当前最小或最大值进行比较，并通过递归更新其值以供后续元素使用。让我们看看这个的各种输入输出场景−输入 −Arr={12,67,99,76,32};输出 −数组中的最大值：99解释 &mi

中国东方航空宣布C919客机即将投入实际运营May 28, 2023 pm 11:43 PM

5月25日消息，中国东方航空在业绩说明会上披露了关于C919客机的最新进展。据公司表示，与中国商飞签署的C919采购协议已于2021年3月正式生效，其中首架C919飞机已在2022年底交付。预计不久之后，该飞机将正式投入实际运营。东方航空将以上海为主要基地进行C919的商业运营，并计划在2022年和2023年引进总共5架C919客机。公司表示，未来的引进计划将根据实际运营情况和航线网络规划来确定。据小编了解，C919是中国具有完全自主知识产权的全球新一代单通道干线客机，符合国际通行的适航标准。该

C++程序打印数字的螺旋图案Sep 05, 2023 pm 06:25 PM

以不同格式显示数字是学习基本编码问题之一。不同的编码概念，如条件语句和循环语句。有不同的程序中，我们使用特殊字符（如星号）来打印三角形或正方形。在本文中，我们将以螺旋形式打印数字，就像C++中的正方形一样。我们将行数n作为输入，然后从左上角开始移向右侧，然后向下，然后向左，然后向上，然后再次向右，以此类推等等。螺旋图案与数字123456724252627282982340414243309223948494431102138474645321120373635343312191817161514

C语言中的void关键字的作用Feb 19, 2024 pm 11:33 PM

C中的void是一个特殊的关键字，用来表示空类型，也就是指没有具体类型的数据。在C语言中，void通常用于以下三个方面。函数返回类型为void在C语言中，函数可以有不同的返回类型，例如int、float、char等。然而，如果函数不返回任何值，则可以将返回类型设为void。这意味着函数执行完毕后，并不返回具体的数值。例如：voidhelloWorld()

23 年来首次，C# 获得了 TIOBE 2023 年度编程语言奖Jan 11, 2024 pm 04:45 PM

根据TIOBE编程社区指数，该指数是衡量编程语言受欢迎程度的标准之一，通过收集来自全球工程师、课程、供应商和搜索引擎的数据进行评估。2024年1月TIOBE指数于近日发布，同时官方公布了2023年编程语言排名，C#荣获TIOBE2023年度编程语言，这是23年来C#首次拿下这一荣誉。TIOBE官方新闻稿称，C#已经稳居前10名长达20多年，如今它正在追赶四大语言，成为一年内涨幅最大的编程语言（+1.43%），当之无愧地获得了该奖项。排名第二的是Scratch（+0.83%）和Fortran（+0

See all articles