検索
ホームページJava&#&チュートリアルJavaで実装したキーワード抽出アルゴリズムと応用例

Javaで実装したキーワード抽出アルゴリズムと応用例

インターネット時代の到来により、膨大なテキストデータの取得や分析が非常に困難になったため、キーワード抽出の研究と応用が求められています。自然言語処理技術。キーワード抽出とは、テキストのトピックを最もよく表す単語や語句をテキストから抽出することを指し、テキストの分類、検索、クラスタリングなどのタスクをサポートします。この記事では、Java で実装されたいくつかのキーワード抽出アルゴリズムとアプリケーション例を紹介します。

1. TF-IDF アルゴリズム

TF-IDF は、テキストからキーワードを抽出するために一般的に使用されるアルゴリズムで、テキスト内の単語の出現頻度とテキスト内の単語の出現頻度に基づいています。コーパス全体、単語の頻度、重み付け計算。 TF は現在のテキスト内の単語の頻度を表し、IDF はコーパス全体内の単語の逆文書頻度を表します。計算式は次のとおりです。テキスト) / (テキスト内の単語の総数) )

IDF = log(コーパス内の文書の総数 / 単語を含む文書の数)

TF-IDF = TF * IDF

Java コード実装:

public Map<String, Double> tfIdf(List<String> docs) {
    Map<String, Integer> wordFreq = new HashMap<>();
    int totalWords = 0;
    for (String doc : docs) {
        String[] words = doc.split(" ");
        for (String word : words) {
            wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1);
            totalWords++;
        }
    }
    Map<String, Double> tfIdf = new HashMap<>();
    int docSize = docs.size();
    for (String word : wordFreq.keySet()) {
        double tf = (double) wordFreq.get(word) / totalWords;
        int docCount = 0;
        for (String doc : docs) {
            if (doc.contains(word)) {
                docCount++;
            }
        }
        double idf = Math.log((double) docSize / (docCount + 1));
        tfIdf.put(word, tf * idf);
    }
    return tfIdf;
}

2. TextRank アルゴリズム

TextRank は、テキスト キーワードの抽出と概要の抽出に使用されるグラフベースのアルゴリズムです。単語の出現関係をグラフ化してグラフ内の単語の重要度を評価し、男女別にランキングを行い、上位の単語をキーワードや重要文として特定します。 TextRank の中核となる考え方は、単語の共起関係をページ間のリンクとみなして単語を並べ替え、テキスト内のキーワードを取得する PageRank アルゴリズムです。 TextRank アルゴリズムの計算プロセスには次のステップが含まれます:

1. テキスト内の単語またはフレーズを抽出します;

2. 単語の共起グラフを確立し、共起関係を使用してエッジを表します。

3 , 単語を並べ替えて各単語の PageRank 値を計算します;
4. PageRank 値に基づいて上位の単語をキーワードとして選択します。

Java コード実装:

public List<String> textrank(List<String> docs, int numKeywords) {
    List<String> sentences = new ArrayList<>();
    for (String doc : docs) {
        sentences.addAll(Arrays.asList(doc.split("[。?!;]")));
    }
    List<String> words = new ArrayList<>();
    for (String sentence : sentences) {
        words.addAll(segment(sentence));
    }
    Map<String, Integer> wordFreq = new HashMap<>();
    Map<String, Set<String>> wordCooc = new HashMap<>();
    for (String word : words) {
        wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1);
        wordCooc.put(word, new HashSet<>());
    }
    for (String sentence : sentences) {
        List<String> senWords = segment(sentence);
        for (String w1 : senWords) {
            if (!wordFreq.containsKey(w1)) {
                continue;
            }
            for (String w2 : senWords) {
                if (!wordFreq.containsKey(w2)) {
                    continue;
                }
                if (!w1.equals(w2)) {
                    wordCooc.get(w1).add(w2);
                    wordCooc.get(w2).add(w1);
                }
            }
        }
    }
    Map<String, Double> wordScore = new HashMap<>();
    for (String word : words) {
        double score = 1.0;
        for (String coocWord : wordCooc.get(word)) {
            score += wordScore.getOrDefault(coocWord, 1.0) / wordCooc.get(coocWord).size();
        }
        wordScore.put(word, score);
    }
    List<Map.Entry<String, Double>> sortedWords =
            wordScore.entrySet().stream()
                     .sorted(Collections.reverseOrder(Map.Entry.comparingByValue()))
                     .collect(Collectors.toList());
    List<String> keywords = new ArrayList<>();
    for (int i = 0; i < numKeywords && i < sortedWords.size(); i++) {
        keywords.add(sortedWords.get(i).getKey());
    }
    return keywords;
}

private List<String> segment(String text) {
    // 使用中文分词器分词
    // TODO
    return Arrays.asList(text.split(" "));
}

3. LDA トピック モデル

LDA は、テキストを複数のトピックの混合物として扱い、テキスト分析を実行できる確率的トピック モデルです。テキスト、トピックの分類とキーワードの抽出。 LDA トピック モデルは、テキスト内の単語を確率分布として扱い、各単語を複数のトピックに割り当てることができます。 LDA トピック モデルでは、トピックの数と反復回数を指定し、それを EM アルゴリズムを通じて解決して、各トピックの単語分布と各テキストのトピック分布を取得する必要があります。

Java コードの実装:

public List<String> lda(List<String> docs, int numTopics,
                        int numKeywords, int iterations) {
    List<List<String>> words = new ArrayList<>();
    for (String doc : docs) {
        words.add(segment(doc));
    }
    Dictionary dictionary = new Dictionary(words);
    Corpus corpus = new Corpus(dictionary);
    for (List<String> docWords : words) {
        Document doc = new Document(dictionary);
        for (String word : docWords) {
            doc.addWord(new Word(word));
        }
        corpus.addDocument(doc);
    }
    LdaGibbsSampler sampler = new LdaGibbsSampler(corpus, numTopics, 0.5, 0.1);
    sampler.gibbs(iterations);
    List<String> keywords = new ArrayList<>();
    for (int i = 0; i < numTopics; i++) {
        List<WordProbability> wordProbs = sampler.getSortedWordsByWeight(i);
        for (int j = 0; j < numKeywords && j < wordProbs.size(); j++) {
            keywords.add(wordProbs.get(j).getWord().getName());
        }
    }
    return keywords;
}

private List<String> segment(String text) {
    // 使用中文分词器分词
    // TODO
    return Arrays.asList(text.split(" "));
}

アプリケーション例

キーワード抽出は、テキスト分類、概要抽出、検索エンジンのランキングなどの分野に適用できます。上記アルゴリズムに基づいた応用例を以下に示します。

1. ニュース分類

一部のニュース レポートのテキストを考慮して、TF-IDF アルゴリズムを使用して各テキストのキーワードを抽出し、機械学習アルゴリズムを使用して、分類。たとえば、決定木アルゴリズムを使用してニュースを分類したり、キーワードを特徴として決定木に入力したりできます。分類効果は相互検証などの方法で評価できます。

2. 要約の抽出

記事のテキストが与えられた場合、TextRank アルゴリズムを使用して重要な文を抽出し、それらを結合して要約を作成できます。要約抽出は自動要約や検索エンジン表示などに応用できます。

3. 科学技術文献検索

科学技術文献の検索では、通常、ユーザーがキーワードまたはキーワードの組み合わせを入力すると、検索エンジンがその文書とその文書との一致度を計算します。 TF-IDF アルゴリズムを使用してキーワードを検索し、一致度に応じてソートすることで、ユーザーは関連するドキュメントをすばやく見つけることができます。さらに、LDA トピック モデルと組み合わせることで、ドキュメントをトピックに分類し、トピック キーワードを検索入力として使用して検索結果を向上させることができます。

結論

この記事では、Java で実装されたいくつかのキーワード抽出アルゴリズムとアプリケーション例を紹介します。 TF-IDF アルゴリズムは、テキスト処理で最も一般的に使用されるアルゴリズムの 1 つで、TextRank アルゴリズムはキー センテンスを抽出でき、LDA トピック モデルはテキスト トピックを分類できます。これらのアルゴリズムは、文書分類、自動要約、検索エンジンランキングなどの分野に適用でき、幅広い応用が期待されています。

以上がJavaで実装したキーワード抽出アルゴリズムと応用例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
JVMは、Javaの「Write and、Run Anywhere」(Wora)機能にどのように貢献しますか?JVMは、Javaの「Write and、Run Anywhere」(Wora)機能にどのように貢献しますか?May 02, 2025 am 12:25 AM

JVMは、バイトコード解釈、プラットフォームに依存しないAPI、動的クラスの負荷を介してJavaのWORA機能を実装します。 2。標準API抽象オペレーティングシステムの違い。 3.クラスは、実行時に動的にロードされ、一貫性を確保します。

Javaの新しいバージョンは、プラットフォーム固有の問題にどのように対処しますか?Javaの新しいバージョンは、プラットフォーム固有の問題にどのように対処しますか?May 02, 2025 am 12:18 AM

Javaの最新バージョンは、JVMの最適化、標準的なライブラリの改善、サードパーティライブラリサポートを通じて、プラットフォーム固有の問題を効果的に解決します。 1)Java11のZGCなどのJVM最適化により、ガベージコレクションのパフォーマンスが向上します。 2)Java9のモジュールシステムなどの標準的なライブラリの改善は、プラットフォーム関連の問題を削減します。 3)サードパーティライブラリは、OpenCVなどのプラットフォーム最適化バージョンを提供します。

JVMによって実行されたバイトコード検証のプロセスを説明します。JVMによって実行されたバイトコード検証のプロセスを説明します。May 02, 2025 am 12:18 AM

JVMのバイトコード検証プロセスには、4つの重要な手順が含まれます。1)クラスファイル形式が仕様に準拠しているかどうかを確認し、2)バイトコード命令の有効性と正確性を確認し、3)データフロー分析を実行してタイプの安全性を確保し、検証の完全性とパフォーマンスのバランスをとる。これらの手順を通じて、JVMは、安全で正しいバイトコードのみが実行されることを保証し、それによりプログラムの完全性とセキュリティを保護します。

プラットフォームの独立性は、Javaアプリケーションの展開をどのように簡素化しますか?プラットフォームの独立性は、Javaアプリケーションの展開をどのように簡素化しますか?May 02, 2025 am 12:15 AM

java'splatformendencealLowsApplicationStorunOperatingSystemwithajvm.1)singlecodebase:writeandcompileonceforallplatforms.2)easyUpdates:updatebytecodeforsimultaneousdeployment.3)テストの実験効果:scalbortffortfforduniverbehaviol.4)

Javaのプラットフォームの独立性は、時間とともにどのように進化しましたか?Javaのプラットフォームの独立性は、時間とともにどのように進化しましたか?May 02, 2025 am 12:12 AM

Javaのプラットフォームの独立性は、JVM、JITコンピレーション、標準化、ジェネリック、ラムダ式、Projectpanamaなどのテクノロジーを通じて継続的に強化されています。 1990年代以来、Javaは基本的なJVMから高性能モダンJVMに進化し、さまざまなプラットフォームでのコードの一貫性と効率を確保しています。

Javaアプリケーションでプラットフォーム固有の問題を緩和するためのいくつかの戦略は何ですか?Javaアプリケーションでプラットフォーム固有の問題を緩和するためのいくつかの戦略は何ですか?May 01, 2025 am 12:20 AM

Javaはプラットフォーム固有の問題をどのように軽減しますか? Javaは、JVMおよび標準ライブラリを通じてプラットフォームに依存します。 1)bytecodeとjvmを使用して、オペレーティングシステムの違いを抽象化します。 2)標準のライブラリは、パスクラス処理ファイルパス、CHARSETクラス処理文字エンコードなど、クロスプラットフォームAPIを提供します。 3)最適化とデバッグのために、実際のプロジェクトで構成ファイルとマルチプラットフォームテストを使用します。

Javaのプラットフォームの独立性とマイクロサービスアーキテクチャの関係は何ですか?Javaのプラットフォームの独立性とマイクロサービスアーキテクチャの関係は何ですか?May 01, 2025 am 12:16 AM

java'splatformentencentenhancesmicroservicesecturectureby byofferingdeploymentflexability、一貫性、スケーラビリティ、およびポート可能性。1)展開の展開の展開は、AllosmicRoserviThajvm.2)deploymentflexibility lowsmicroserviceSjvm.2)一貫性のあるAcrossServicessimplisimpligiessdevelisementand

GraalvmはJavaのプラットフォーム独立目標とどのように関係していますか?GraalvmはJavaのプラットフォーム独立目標とどのように関係していますか?May 01, 2025 am 12:14 AM

Graalvmは、Javaのプラットフォームの独立性を3つの方法で強化します。1。言語間の相互運用性、Javaが他の言語とシームレスに相互運用できるようにします。 2。独立したランタイム環境、graalvmnativeimageを介してJavaプログラムをローカル実行可能ファイルにコンパイルします。 3.パフォーマンスの最適化、Graalコンパイラは、Javaプログラムのパフォーマンスと一貫性を改善するための効率的なマシンコードを生成します。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール