単語が出現する回数を数える-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

単語が出現する回数を数える

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2016 pm 02:05 PM

非日常的な英単語のセットがあり、英語の記事で最も頻繁に出現する単語を計算する必要があります。
そこで、最初は配列を走査し、substr_count を使用して各単語の出現数を順番に数えることを考えましたが、これでは記事全体を複数回繰り返しスキャンすることになります。あるいは、記事を単語に分割し、配列関数を使用して交差の数を計算することもできますが、それでも理想的ではないと感じます。

何か考えはありますか？このアプリケーションは実際にはキーワードを抽出します。

ディスカッションへの返信 (解決策)

配列に分割するのはなぜ良くないのですか? 英語で配列を入力するのは非常に便利です、少なくとも中国語よりははるかに簡単です
実際、私はニーズをよく理解していません。純粋な統計情報の array_count_values は十分便利です

つまり、シソーラスがすでにあるので、記事内でシソーラスの単語の出現数を確認する必要があります
はいの場合、その後、トライアルゴリズムを使用できます (私が投稿しました)
もちろん、記事を一度スキャンするだけですまずシソーラスを構築します

つまり、シソーラスはすでにあります。記事内の類義語辞典の単語
「はい」の場合は、トライアルゴリズムを使用できます (私が投稿しました)
記事を一度スキャンするだけです。それだけです。もちろん、最初に語彙を構築する必要があります

なぜこの形式が保存に適しているのですか語彙？ mysql、json、xml、純粋な配列?

記事が 5kb で語彙が 1000 語ある場合、この記事に一致するようにこれら 1000 語を 1 つずつ処理します。

mysql_query、
json_decode()
simplexml_load_file()
配列

どれがより効率的ですか?もっとリソース (CPU、RAM) を節約しますか?

5kb に 1000 語があり、そのすべてが記事である可能性は低いでしょうか?

たとえ 1000 個あったとしても、その量はそれほど多くはなく、重複を削除するのは 1 つの配列交差で十分です

私のアイデアは、記事を単語の配列に分割することであり、array_count_values で実行できます。関数
次に、特定の回数 (意味を一致させるには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の部分との交差を見つけるだけで十分です。語彙

ポスターは特に英語の語彙について言及していますが、アルゴリズムが英語の語彙に限定されている場合、意味がありません

5kb に 1000 語があり、そのすべてが記事である可能性は低いです。

たとえ 1,000 個あったとしても、その量はそれほど多くはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。関数
次に、特定の回数 (意味をなすには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の語彙との交差部分を見つけるだけで十分です

あなたの言ったことは理にかなっています

でも、それは単純な質問だと思います単純な処理、彼は英語を話すので、こう考えてください、アルゴリズムを考えるのにあまり時間をかける必要はありません

もし彼が混合言語と言ったら、私だったらこの投稿には返信せずに見るだけでしょうね、笑フロア：5kbに1000文字って、全部記事ということはまずないですよね？

たとえ 1,000 個あったとしても、その量はそれほど大きくはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。統計と重複排除機能
次に、回数を抽出します...

バージョンによって提供されるプレフィックスツリーが理解できないので、とりあえず実装するために記事を複数回スキャンすることにしました

例

include 'TTrie.php';class wordkey extends TTrie {  function b() {    $t = array_pop($this->buffer);    $this->buffer[] = "<b>$t</b>";  }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛阳', 'b');$t = $p->match('秦始皇东巡洛阳');echo join('', $t);

秦始皇帝東部ツアー

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPアプリケーションをより速くする方法May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster、followthesesteps：1）useopcodecachinglikeopcacheTostoredscriptbytecode.2）最小化abasequeriesecachingingindexing.3）leveragephp7機能forbettercodeefficiency.4）

PHP Performance Optimization Checklist：今すぐ速度を改善してくださいMay 12, 2025 am 12:07 AM

PoldeSeptepsに続きます

PHP依存性インジェクション：コードのテスト可能性を改善しますMay 12, 2025 am 12:03 AM

依存性注入（DI）は、明示的に推移的な依存関係によりPHPコードのテスト可能性を大幅に改善します。 1）DI分離クラスと特定の実装により、テストとメンテナンスが柔軟になります。 2）3つのタイプのうち、コンストラクターは、状態を一貫性に保つために明示的な式依存性を注入します。 3）DIコンテナを使用して複雑な依存関係を管理し、コードの品質と開発効率を向上させます。

PHPパフォーマンスの最適化：データベースクエリの最適化May 12, 2025 am 12:02 AM

DatabaseQueryoptimizationInpholvesseveralstrategESTOEnhancePerformance.1）selectonlynlynlyndorycolumnStoredatedataTransfer.2）useindexingtospeedupdataretrieval.3）revenmecrycachingtostoreres sultsoffrequent queries.4）

簡単なガイド：PHPスクリプトで電子メールを送信しますMay 12, 2025 am 12:02 AM

phpisusededemingemailsduetoitsbuilt-inmail（）functionandsupportiveLibrarieslikephpmailerandswiftmailer.1）usethemail（）functionforbasicemails、butithaslimitations.2）emploadforadvancedfeatureSlikelikelivableabableabuses.3）雇用

PHPパフォーマンス：ボトルネックの識別と修正May 11, 2025 am 12:13 AM

PHPパフォーマンスボトルネックは、次の手順で解決できます。1）パフォーマンス分析にXdebugまたはBlackfireを使用して問題を見つける。 2）データベースクエリを最適化し、APCUなどのキャッシュを使用します。 3）array_filterなどの効率的な関数を使用して、配列操作を最適化します。 4）bytecodeキャッシュ用のopcacheを構成します。 5）HTTP要求の削減や写真の最適化など、フロントエンドを最適化します。 6）パフォーマンスを継続的に監視および最適化します。これらの方法により、PHPアプリケーションのパフォーマンスを大幅に改善できます。

PHPの依存関係注射：簡単な要約May 11, 2025 am 12:09 AM

依存関係（di）inphpisadesignpatternativats anducesclassodulencies、拡張測定性、テスト可能性、および維持可能性。

PHPパフォーマンスの向上：キャッシュ戦略と技術May 11, 2025 am 12:08 AM

cachingemprovesppperformancebystring of computationsorquickretrieval、還元装置の削減は、reducingerloadendenhancersponseTimes.efcectivestrategiesInclude：1）opcodecaching、compiledphpscriptsinmemorytoskipcompilation;

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。