SCWS是国人做的一个很优秀的分词库,它的php扩展可以方便地处理中文分词。现在发现其中一个函数scws_get_words
函数的问题,这个函数是用来获取分词结果的,其第二个参数可以指定你需要返回的结果,这是它的c api文档描述(php大同小异)
·scws_top_t scws_get_words(scws_t s, char *xattr);
描述:返回指定词性的关键词表,系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,
否则表示必须包含,传入 NULL 表示统计全部词性。
返回值:返回词表集链表的头指针,该词表集必须调用 scws_free_tops 释放
错误:无
也就是说我只需要在第二个参数里加上以逗号分割的参数即可,比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'
字符,表示我要在结果中过滤掉这些。
但实际的结果是,无论你加了多少过滤条件都不起作用,但相反,如果你只加一个过滤条件比如'~a'
,也就是没有逗号的时候,它可以把相应的结果过滤掉。所以我考虑这之中是否存在bug。下面附上此函数的c实现代码,大家帮我看看
// get words by attr (rand order) scws_top_t scws_get_words(scws_t s, char *xattr) { int off, cnt, xmode = SCWS_NA; xtree_t xt; scws_res_t res, cur; scws_top_t top, tail, base; char *word; word_attr *at = NULL; if (!s || !s->txt || !(xt = xtree_new(0,1))) return NULL; __PARSE_XATTR__; // save the offset. off = s->off; s->off = 0; base = tail = NULL; while ((cur = res = scws_get_result(s)) != NULL) { do { /* check attribute filter */ if (at != NULL) { if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at)) continue; if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at)) continue; } /* put to the stats */ if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL))) { top = (scws_top_t) malloc(sizeof(struct scws_topword)); top->weight = cur->idf; top->times = 1; top->next = NULL; top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len); strncpy(top->attr, cur->attr, 2); // add to the chain if (tail == NULL) base = tail = top; else { tail->next = top; tail = top; } xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len); } else { top->weight += cur->idf; top->times++; } } while ((cur = cur->next) != NULL); scws_free_result(res); } // free at & xtree if (at != NULL) free(at); xtree_free(xt); // restore the offset s->off = off; return base; }
我发现它的__PARSE_XATTR__
宏有些问题啊,这里另外附上word_attr
的结构定义
/* macro to parse xattr -> xmode, at */ #define __PARSE_XATTR__ do { \ if (xattr == NULL) break; \ if (*xattr == '~') { xattr++; xmode = SCWS_YEA; } \ if (*xattr == '\0') break; \ cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr); \ at = (word_attr *) malloc(cnt); \ memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ strncpy(at[cnt], xattr, 2); \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \ } while (0) typedef char word_attr[4];
这样处理xattr的话,只能处理词性是2个字符的情况,因为它strncpy(at[cnt], xattr, 2);
。这也太马虎了吧,词性表里有一堆一个字符的词性啊,它copy的话就会把逗号也copy进去啊。
自己全部用2个字符的词性过滤试了一下,果然可以了。。。大家考虑下这里应该怎么改下吧
回复内容:
SCWS是国人做的一个很优秀的分词库,它的php扩展可以方便地处理中文分词。现在发现其中一个函数scws_get_words
函数的问题,这个函数是用来获取分词结果的,其第二个参数可以指定你需要返回的结果,这是它的c api文档描述(php大同小异)
·scws_top_t scws_get_words(scws_t s, char *xattr);
描述:返回指定词性的关键词表,系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,
否则表示必须包含,传入 NULL 表示统计全部词性。
返回值:返回词表集链表的头指针,该词表集必须调用 scws_free_tops 释放
错误:无
也就是说我只需要在第二个参数里加上以逗号分割的参数即可,比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'
字符,表示我要在结果中过滤掉这些。
但实际的结果是,无论你加了多少过滤条件都不起作用,但相反,如果你只加一个过滤条件比如'~a'
,也就是没有逗号的时候,它可以把相应的结果过滤掉。所以我考虑这之中是否存在bug。下面附上此函数的c实现代码,大家帮我看看
// get words by attr (rand order) scws_top_t scws_get_words(scws_t s, char *xattr) { int off, cnt, xmode = SCWS_NA; xtree_t xt; scws_res_t res, cur; scws_top_t top, tail, base; char *word; word_attr *at = NULL; if (!s || !s->txt || !(xt = xtree_new(0,1))) return NULL; __PARSE_XATTR__; // save the offset. off = s->off; s->off = 0; base = tail = NULL; while ((cur = res = scws_get_result(s)) != NULL) { do { /* check attribute filter */ if (at != NULL) { if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at)) continue; if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at)) continue; } /* put to the stats */ if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL))) { top = (scws_top_t) malloc(sizeof(struct scws_topword)); top->weight = cur->idf; top->times = 1; top->next = NULL; top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len); strncpy(top->attr, cur->attr, 2); // add to the chain if (tail == NULL) base = tail = top; else { tail->next = top; tail = top; } xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len); } else { top->weight += cur->idf; top->times++; } } while ((cur = cur->next) != NULL); scws_free_result(res); } // free at & xtree if (at != NULL) free(at); xtree_free(xt); // restore the offset s->off = off; return base; }
我发现它的__PARSE_XATTR__
宏有些问题啊,这里另外附上word_attr
的结构定义
/* macro to parse xattr -> xmode, at */ #define __PARSE_XATTR__ do { \ if (xattr == NULL) break; \ if (*xattr == '~') { xattr++; xmode = SCWS_YEA; } \ if (*xattr == '\0') break; \ cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr); \ at = (word_attr *) malloc(cnt); \ memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ strncpy(at[cnt], xattr, 2); \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \ } while (0) typedef char word_attr[4];
这样处理xattr的话,只能处理词性是2个字符的情况,因为它strncpy(at[cnt], xattr, 2);
。这也太马虎了吧,词性表里有一堆一个字符的词性啊,它copy的话就会把逗号也copy进去啊。
自己全部用2个字符的词性过滤试了一下,果然可以了。。。大家考虑下这里应该怎么改下吧
跟作者交流了下,hightman给出了patch,修改宏定义处
diff -c -r1.28 -r1.29 *** libscws/scws.c 5 Aug 2011 04:39:33 -0000 1.28 --- libscws/scws.c 26 Oct 2011 08:41:44 -0000 1.29 *************** *** 1278,1284 **** memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ ! strncpy(at[cnt], xattr, 2); \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \ --- 1278,1285 ---- memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ ! at[cnt][0] = *xattr++; \ ! at[cnt][1] = xattr == word ? '\0' : *xattr; \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \

常量也称为变量,一旦定义,其值在程序执行期间就不会改变。因此,我们可以将变量声明为引用固定值的常量。它也被称为文字。必须使用Const关键字来定义常量。语法C编程语言中使用的常量语法如下-consttypeVariableName;(or)consttype*VariableName;不同类型的常量在C编程语言中使用的不同类型的常量如下所示:整数常量-例如:1,0,34,4567浮点数常量-例如:0.0,156.89,23.456八进制和十六进制常量-例如:十六进制:0x2a,0xaa..八进制

VS代码和VisualStudioC++IntelliSense可能无法拾取库,尤其是在处理大型项目时。当我们将鼠标悬停在#Include<;wx/wx.h>;上时,我们看到了错误消息“CannotOpen源文件‘string.h’”(依赖于“wx/wx.h”),有时,自动完成功能无法响应。在这篇文章中,我们将看到如果VSCode和VSC++IntelliSense不能工作或不能提取库,你可以做些什么。为什么我的智能感知不能在C++中工作?处理大文件时,IntelliSense有时

您是否由于错误代码8C230002而无法在Xbox上购买或观看内容?一些用户在尝试购买或在其控制台上观看内容时不断收到此错误。抱歉,Xbox服务出现问题。稍后再试.有关此问题的帮助,请访问www.xbox.com/errorhelp。状态代码:8C230002这种错误代码通常是由于暂时的服务器或网络问题引起的。但是,还有可能是由于帐户的隐私设置或家长控制等其他原因,这些可能会阻止您购买或观看特定内容。修复Xbox错误代码8C230002如果您尝试在Xbox控制台上观看或购买内容时收到错误代码8C

我们以整数数组Arr[]作为输入。目标是使用递归方法在数组中找到最大和最小的元素。由于我们使用递归,我们将遍历整个数组,直到达到长度=1,然后返回A[0],这形成了基本情况。否则,将当前元素与当前最小或最大值进行比较,并通过递归更新其值以供后续元素使用。让我们看看这个的各种输入输出场景−输入 −Arr={12,67,99,76,32};输出 −数组中的最大值:99解释 &mi

5月25日消息,中国东方航空在业绩说明会上披露了关于C919客机的最新进展。据公司表示,与中国商飞签署的C919采购协议已于2021年3月正式生效,其中首架C919飞机已在2022年底交付。预计不久之后,该飞机将正式投入实际运营。东方航空将以上海为主要基地进行C919的商业运营,并计划在2022年和2023年引进总共5架C919客机。公司表示,未来的引进计划将根据实际运营情况和航线网络规划来确定。据小编了解,C919是中国具有完全自主知识产权的全球新一代单通道干线客机,符合国际通行的适航标准。该

以不同格式显示数字是学习基本编码问题之一。不同的编码概念,如条件语句和循环语句。有不同的程序中,我们使用特殊字符(如星号)来打印三角形或正方形。在本文中,我们将以螺旋形式打印数字,就像C++中的正方形一样。我们将行数n作为输入,然后从左上角开始移向右侧,然后向下,然后向左,然后向上,然后再次向右,以此类推等等。螺旋图案与数字123456724252627282982340414243309223948494431102138474645321120373635343312191817161514

C中的void是一个特殊的关键字,用来表示空类型,也就是指没有具体类型的数据。在C语言中,void通常用于以下三个方面。函数返回类型为void在C语言中,函数可以有不同的返回类型,例如int、float、char等。然而,如果函数不返回任何值,则可以将返回类型设为void。这意味着函数执行完毕后,并不返回具体的数值。例如:voidhelloWorld()

根据TIOBE编程社区指数,该指数是衡量编程语言受欢迎程度的标准之一,通过收集来自全球工程师、课程、供应商和搜索引擎的数据进行评估。2024年1月TIOBE指数于近日发布,同时官方公布了2023年编程语言排名,C#荣获TIOBE2023年度编程语言,这是23年来C#首次拿下这一荣誉。TIOBE官方新闻稿称,C#已经稳居前10名长达20多年,如今它正在追赶四大语言,成为一年内涨幅最大的编程语言(+1.43%),当之无愧地获得了该奖项。排名第二的是Scratch(+0.83%)和Fortran(+0


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),