タイトルのように、より簡単な関数は、English API 開発ドキュメントの単語頻度をカウントする方法です。 (ドキュメントは複数の HTML ファイルであるか、単純な txt テキストではなく chm ファイルである可能性があります);
さらに複雑な要件は、開発ドキュメントには多くのクラス名、関数名、メソッド名などが含まれるため、単語がつながっている可能性があり、数えるときに単語を区切るのが最善であるということです (これは分離できます)命名規則による) ;
さらに複雑な要件は、単に文書の単語の出現頻度をカウントすることには実際的な意味があまりないため、カウントされた単語をどのように再処理するかということです:
上記の機能を備えたソフトウェアを開発する場合、具体的にはどのような技術が必要ですか? アイデアをお寄せください...
そうですね、実は私の悩みは、英語の文書を読むときに、理解できない単語が多すぎて、単語を調べなければならないことが多く、効率が低すぎることです。文書を統計的に分析できるツール 文書を読む前に、その文書の語彙の意味を大まかに把握できるので効率が上がり、ネーミングも開発に役立ちます...
変更点:
しかし、これは私たちの議論の焦点ではありません、私はただこのアイデアを持っていて、みんなで話し合うためにそれを提案するだけです
世界只因有你2017-07-05 10:37:00
大学院入学試験の準備中、長い間コードを書いていませんでしたが、一般的な考え方は次のようになります:
クリーニングとフィルタリング: HTML の場合は、まずコンテンツをフィルタリングして、独自の規則を作成することも、他の人が作成したルールを検索することもできます
単語の分割: まずスペースなどの一般的な区切り文字を使用して単語をフィルターし、次にさまざまな言語の命名規則に従って単語を 1 つずつ検索します
一般的な単語をフィルタリング: インターネット上で一般的な英単語のファイルを見つけて、それらを照合できるはずです
WordCount: Python を使用して MapReduce フィルタリングを自分で実装することも、Hadoop、Spark などを使用することもできます
これで、単純な単語をフィルタリングするための単語統計が完了しました。コンピューター関連の単語のカウントについては、コンピューター関連の単語のデータ ファイルをオンラインでダウンロードし、説明する必要がある場合は、Youdao または Baidu Translate に電話して直接照合する必要があります。 API で十分ですが、これらの API には上限がある可能性があり、使用したことはありません。
上記の手順では効率の問題は考慮されていません。効率の問題を考慮する必要がある場合は、いくつかのアルゴリズムを使用するか、他の人が作成したクラス ライブラリを直接使用する必要があります。
最後に、やはり言いたいのは、文書を理解するための最も早い方法は、より多くの文書を読むことです。読み続ければ、文書を読む速度がどんどん速くなることがわかります。しかし、これを研修プロジェクトとして捉えると、何か面白いことをやっているとも言えます。
質問に対する回答を修正しました:
。
淡淡烟草味2017-07-05 10:37:00
これを英語の単語の分割と呼ぶべきではありません。単語の分割は文の構成要素ごとに分割することを指します。結合された変数名は、大文字と小文字のキャメルケース、アンダースコアで区切られたアンダースコアなどの一般的な命名方法で識別できます。
単語分割用のさまざまな Word Splitting ライブラリが見つかり、Python にも多数あるはずです。コンピュータ専門名詞の辞書をダウンロードし、単語を抽出して辞書と照合して意味を取得します。
でも、実際は、作ったとしても、文字だけ見ると、救国にはちょっと曲がりがあって、読めなくなる可能性が高いです。それはまったく。コンピュータ関連の記事の語彙はそれほど多くありません。一度覚えてしまえば二度馴染みます。コリンズ デュアル ソリューションを Macmillan、MDict、または Oulu 辞書と組み合わせて使用することをお勧めします。 。 Chrome では、Saladict をインストールして単語を検索することもできます。