ホームページ  >  記事  >  ウェブフロントエンド  >  Webテキストデータのクリーニング処理と例(サンプルコード)

Webテキストデータのクリーニング処理と例(サンプルコード)

云罗郡主
云罗郡主転載
2018-10-17 14:41:443836ブラウズ

この記事は、Web テキスト データのクリーニング プロセスと例 (サンプル コード) に関するもので、困っている友人が参考になれば幸いです。

現在、データの 80% 以上が非構造化されています。テキスト データの前処理は、データ分析の前に行う唯一の方法です。利用可能なテキスト データのほとんどは構造化されておらず、本質的にノイズが多いため、データを処理するためのより優れた洞察やより優れたアルゴリズムの構築が必要です。

ソーシャル メディア データは非構造的なコミュニケーションであるため、スペル ミス、不適切な文法、スラングの使用、URL、ストップ ワード、表現などの不規則性などのエラーが存在することは承知しています。 。

これに興味があると仮定した場合の典型的なビジネス質問: これは、ファンの間で iPhone の人気を高める機能です。以下に、iPhone に関連する消費者の意見に関するツイートを抽出しました:

このツイートに対してテキストの前処理を行います:

1. HTML 文字を削除します:

Web から取得したデータには、通常、元のデータに埋め込まれた &&&& などの HTML エンティティが多数含まれています。したがって、これらのエンティティを削除する必要があります。 1 つの方法は、特定の正規表現を使用してそれらを直接削除することです。もう 1 つのアプローチは、これらのエンティティを標準の HTML マークアップに変換できる適切なパッケージとモジュール (Python の HTMLPARSER など) を使用することです。たとえば、

Webテキストデータのクリーニング処理と例(サンプルコード)

2. データのデコード:

これは、複雑な記号から単純でわかりやすい文字に情報を変換するプロセスです。テキスト データは、「Latin」、「UTF8」など、さまざまな形式のデコードを受ける可能性があります。したがって、より適切な分析を行うには、完全なデータを標準のエンコード形式で保存する必要があります。 UTF-8 エンコーディングは広く受け入れられており、推奨されています。

Webテキストデータのクリーニング処理と例(サンプルコード)

3. アポストロフィ検索: テキスト内で単語の意味が曖昧になるのを避けるために、記事内で適切な構造を維持し、文脈の規則に従うことをお勧めします。自由な文法。アポストロフィを使用すると、曖昧さがなくなる可能性が高くなります。

たとえば、「it's は it is または it has の短縮形です」。

すべてのアポストロフィは標準辞書に変換する必要があります。考えられるすべてのキーワードのルックアップ テーブルを使用して、あいまいさを排除できます。

Webテキストデータのクリーニング処理と例(サンプルコード)

4. ストップワードの削除: データ分析を文字レベルでデータに基づいて行う必要がある場合、一般的に出現する単語 (ストップワード) を削除する必要があります。ストップワードの長いリストを作成することも、事前定義された言語固有のライブラリを使用することもできます。

5. 句読点の削除: すべての句読点は優先順位に従って処理される必要があります。例: ","、","、"?" 「重要な句読点は保持する必要がありますが、他の句読点は削除する必要があります。

6. 式の削除: テキスト データ (通常は音声文字起こし) には人間の表現が含まれる場合があります。 [笑い]、[泣き声]、[聴衆が立ち止まる] などの表現。これらの表現は通常、スピーチの内容とは無関係であるため、この場合は削除する必要があります。 分割された付属語: テキスト データ。ソーシャル フォーラムの人々によって生成され、本質的には完全に非公式です。ほとんどのツイートには、RayyDay などの複数の付属物が伴います。これらのエンティティは、単純なルールで表すことができ、正規表現は通常の形式に分割されます。

##8. スラング検索: 同様に、ソーシャル メディアにはほとんどのスラング単語が含まれており、これらの単語を標準語に変換して、フリー テキストを作成する必要があります。アポストロフィ検索と同様の方法を使用できます。俗語を標準語に変換するために使用されます。変換用の検索辞書として使用できるすべての俗語のリストを提供する情報源が数多くあります。たとえば、「I loooveee you」は「I love you」となります。URL の削除: テキスト データ内の URL とハイパーリンクは削除する必要があります。

HTML ビデオ チュートリアルについて詳しく知りたい場合は、上記の Web テキスト データのクリーニング プロセスと例 (サンプル コード) を完全に紹介します。 #、PHP 中国語 Web サイト

にご注意ください。

以上がWebテキストデータのクリーニング処理と例(サンプルコード)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はcsdn.netで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。