SCWS是国人做的一个很优秀的分词库,它的php扩展可以方便地处理中文分词。现在发现其中一个函数scws_get_words
函数的问题,这个函数是用来获取分词结果的,其第二个参数可以指定你需要返回的结果,这是它的c api文档描述(php大同小异)
·scws_top_t scws_get_words(scws_t s, char *xattr);
描述:返回指定词性的关键词表,系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,
否则表示必须包含,传入 NULL 表示统计全部词性。
返回值:返回词表集链表的头指针,该词表集必须调用 scws_free_tops 释放
错误:无
也就是说我只需要在第二个参数里加上以逗号分割的参数即可,比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'
字符,表示我要在结果中过滤掉这些。
但实际的结果是,无论你加了多少过滤条件都不起作用,但相反,如果你只加一个过滤条件比如'~a'
,也就是没有逗号的时候,它可以把相应的结果过滤掉。所以我考虑这之中是否存在bug。下面附上此函数的c实现代码,大家帮我看看
// get words by attr (rand order) scws_top_t scws_get_words(scws_t s, char *xattr) { int off, cnt, xmode = SCWS_NA; xtree_t xt; scws_res_t res, cur; scws_top_t top, tail, base; char *word; word_attr *at = NULL; if (!s || !s->txt || !(xt = xtree_new(0,1))) return NULL; __PARSE_XATTR__; // save the offset. off = s->off; s->off = 0; base = tail = NULL; while ((cur = res = scws_get_result(s)) != NULL) { do { /* check attribute filter */ if (at != NULL) { if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at)) continue; if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at)) continue; } /* put to the stats */ if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL))) { top = (scws_top_t) malloc(sizeof(struct scws_topword)); top->weight = cur->idf; top->times = 1; top->next = NULL; top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len); strncpy(top->attr, cur->attr, 2); // add to the chain if (tail == NULL) base = tail = top; else { tail->next = top; tail = top; } xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len); } else { top->weight += cur->idf; top->times++; } } while ((cur = cur->next) != NULL); scws_free_result(res); } // free at & xtree if (at != NULL) free(at); xtree_free(xt); // restore the offset s->off = off; return base; }
我发现它的__PARSE_XATTR__
宏有些问题啊,这里另外附上word_attr
的结构定义
/* macro to parse xattr -> xmode, at */ #define __PARSE_XATTR__ do { \ if (xattr == NULL) break; \ if (*xattr == '~') { xattr++; xmode = SCWS_YEA; } \ if (*xattr == '\0') break; \ cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr); \ at = (word_attr *) malloc(cnt); \ memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ strncpy(at[cnt], xattr, 2); \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \ } while (0) typedef char word_attr[4];
这样处理xattr的话,只能处理词性是2个字符的情况,因为它strncpy(at[cnt], xattr, 2);
。这也太马虎了吧,词性表里有一堆一个字符的词性啊,它copy的话就会把逗号也copy进去啊。
自己全部用2个字符的词性过滤试了一下,果然可以了。。。大家考虑下这里应该怎么改下吧
回复内容:
SCWS是国人做的一个很优秀的分词库,它的php扩展可以方便地处理中文分词。现在发现其中一个函数scws_get_words
函数的问题,这个函数是用来获取分词结果的,其第二个参数可以指定你需要返回的结果,这是它的c api文档描述(php大同小异)
·scws_top_t scws_get_words(scws_t s, char *xattr);
描述:返回指定词性的关键词表,系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,
否则表示必须包含,传入 NULL 表示统计全部词性。
返回值:返回词表集链表的头指针,该词表集必须调用 scws_free_tops 释放
错误:无
也就是说我只需要在第二个参数里加上以逗号分割的参数即可,比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'
字符,表示我要在结果中过滤掉这些。
但实际的结果是,无论你加了多少过滤条件都不起作用,但相反,如果你只加一个过滤条件比如'~a'
,也就是没有逗号的时候,它可以把相应的结果过滤掉。所以我考虑这之中是否存在bug。下面附上此函数的c实现代码,大家帮我看看
// get words by attr (rand order) scws_top_t scws_get_words(scws_t s, char *xattr) { int off, cnt, xmode = SCWS_NA; xtree_t xt; scws_res_t res, cur; scws_top_t top, tail, base; char *word; word_attr *at = NULL; if (!s || !s->txt || !(xt = xtree_new(0,1))) return NULL; __PARSE_XATTR__; // save the offset. off = s->off; s->off = 0; base = tail = NULL; while ((cur = res = scws_get_result(s)) != NULL) { do { /* check attribute filter */ if (at != NULL) { if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at)) continue; if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at)) continue; } /* put to the stats */ if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL))) { top = (scws_top_t) malloc(sizeof(struct scws_topword)); top->weight = cur->idf; top->times = 1; top->next = NULL; top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len); strncpy(top->attr, cur->attr, 2); // add to the chain if (tail == NULL) base = tail = top; else { tail->next = top; tail = top; } xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len); } else { top->weight += cur->idf; top->times++; } } while ((cur = cur->next) != NULL); scws_free_result(res); } // free at & xtree if (at != NULL) free(at); xtree_free(xt); // restore the offset s->off = off; return base; }
我发现它的__PARSE_XATTR__
宏有些问题啊,这里另外附上word_attr
的结构定义
/* macro to parse xattr -> xmode, at */ #define __PARSE_XATTR__ do { \ if (xattr == NULL) break; \ if (*xattr == '~') { xattr++; xmode = SCWS_YEA; } \ if (*xattr == '\0') break; \ cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr); \ at = (word_attr *) malloc(cnt); \ memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ strncpy(at[cnt], xattr, 2); \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \ } while (0) typedef char word_attr[4];
这样处理xattr的话,只能处理词性是2个字符的情况,因为它strncpy(at[cnt], xattr, 2);
。这也太马虎了吧,词性表里有一堆一个字符的词性啊,它copy的话就会把逗号也copy进去啊。
自己全部用2个字符的词性过滤试了一下,果然可以了。。。大家考虑下这里应该怎么改下吧
跟作者交流了下,hightman给出了patch,修改宏定义处
diff -c -r1.28 -r1.29 *** libscws/scws.c 5 Aug 2011 04:39:33 -0000 1.28 --- libscws/scws.c 26 Oct 2011 08:41:44 -0000 1.29 *************** *** 1278,1284 **** memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ ! strncpy(at[cnt], xattr, 2); \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \ --- 1278,1285 ---- memset(at, 0, cnt); \ cnt = 0; \ for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \ ! at[cnt][0] = *xattr++; \ ! at[cnt][1] = xattr == word ? '\0' : *xattr; \ xattr = word + 1; \ } \ strncpy(at[cnt], xattr, 2); \

PHPでは、特性は方法が必要な状況に適していますが、継承には適していません。 1)特性により、クラスの多重化方法が複数の継承の複雑さを回避できます。 2)特性を使用する場合、メソッドの競合に注意を払う必要があります。メソッドの競合は、代替およびキーワードとして解決できます。 3)パフォーマンスを最適化し、コードメンテナビリティを改善するために、特性の過剰使用を避け、その単一の責任を維持する必要があります。

依存関係噴射コンテナ(DIC)は、PHPプロジェクトで使用するオブジェクト依存関係を管理および提供するツールです。 DICの主な利点には、次のものが含まれます。1。デカップリング、コンポーネントの独立したもの、およびコードの保守とテストが簡単です。 2。柔軟性、依存関係を交換または変更しやすい。 3.テスト可能性、単体テストのために模擬オブジェクトを注入するのに便利です。

SplfixedArrayは、PHPの固定サイズの配列であり、高性能と低いメモリの使用が必要なシナリオに適しています。 1)動的調整によって引き起こされるオーバーヘッドを回避するために、作成時にサイズを指定する必要があります。 2)C言語アレイに基づいて、メモリと高速アクセス速度を直接動作させます。 3)大規模なデータ処理とメモリに敏感な環境に適していますが、サイズが固定されているため、注意して使用する必要があります。

PHPは、$ \ _ファイル変数を介してファイルのアップロードを処理します。セキュリティを確保するための方法には次のものが含まれます。1。アップロードエラー、2。ファイルの種類とサイズを確認する、3。ファイル上書きを防ぐ、4。ファイルを永続的なストレージの場所に移動します。

JavaScriptでは、nullcoalescingoperator(??)およびnullcoalescingsignmentoperator(?? =)を使用できます。 1.??最初の非潜水金または非未定されたオペランドを返します。 2.??これらの演算子は、コードロジックを簡素化し、読みやすさとパフォーマンスを向上させます。

XSS攻撃を防ぎ、リソースのロードを制限し、ウェブサイトのセキュリティを改善できるため、CSPは重要です。 1.CSPはHTTP応答ヘッダーの一部であり、厳格なポリシーを通じて悪意のある行動を制限します。 2。基本的な使用法は、同じ起源からのロードリソースのみを許可することです。 3.高度な使用法は、特定のドメイン名がスクリプトやスタイルをロードできるようにするなど、より微調整された戦略を設定できます。 4。CSPポリシーをデバッグおよび最適化するには、コンテンツセキュリティポリシーレポートのみのヘッダーを使用します。

HTTPリクエストメソッドには、それぞれリソースを取得、送信、更新、削除するために使用されるGET、POST、PUT、および削除が含まれます。 1. GETメソッドは、リソースを取得するために使用され、読み取り操作に適しています。 2. POSTメソッドはデータの送信に使用され、新しいリソースを作成するためによく使用されます。 3. PUTメソッドは、リソースの更新に使用され、完全な更新に適しています。 4.削除メソッドは、リソースの削除に使用され、削除操作に適しています。

HTTPSは、HTTPに基づいてセキュリティレイヤーを追加するプロトコルであり、主に暗号化されたデータを介してユーザーのプライバシーとデータセキュリティを保護します。その作業原則には、TLSの握手、証明書の確認、暗号化された通信が含まれます。 HTTPSを実装する場合、証明書管理、パフォーマンスへの影響、および混合コンテンツの問題に注意を払う必要があります。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版
中国語版、とても使いやすい

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ホットトピック



