>  기사  >  Java  >  ChatGPT Java: 기사에서 주요 정보를 자동으로 요약하고 추출하는 방법

ChatGPT Java: 기사에서 주요 정보를 자동으로 요약하고 추출하는 방법

PHPz
PHPz원래의
2023-10-26 10:26:08994검색

ChatGPT Java:如何实现自动摘要和提取文章关键信息

ChatGPT Java: 기사에서 자동 요약 및 핵심 정보 추출을 구현하는 방법, 구체적인 코드 예제가 필요합니다.

요약 및 핵심 정보 추출은 정보 검색 및 텍스트 처리에 있어 매우 중요한 작업입니다. Java로 자동 요약을 구현하고 기사의 주요 정보를 추출하려면 자연어 처리(NLP) 라이브러리 및 관련 알고리즘을 사용할 수 있습니다. 이 기사에서는 Lucene 및 Stanford CoreNLP를 사용하여 이러한 기능을 구현하는 방법을 소개하고 구체적인 코드 예제를 제공합니다.

1. 자동 요약
자동 요약은 텍스트에서 중요한 문장이나 문구를 추출하여 텍스트의 간결한 요약을 생성합니다. Java에서는 Lucene 라이브러리를 사용하여 자동 요약 기능을 구현할 수 있습니다. 다음은 간단한 샘플 코드입니다.

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

public class Summarizer {
    public static String summarize(String text, int numSentences) throws Exception {
        // 创建索引
        Directory directory = new RAMDirectory();
        Analyzer analyzer = new StandardAnalyzer();
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(directory, config);
        
        // 创建文档
        Document doc = new Document();
        doc.add(new TextField("text", text, Field.Store.YES));
        writer.addDocument(doc);
        writer.close();
        
        // 搜索并获取摘要
        IndexSearcher searcher = new IndexSearcher(directory);
        TopDocs topDocs = searcher.search(query, numSentences);
        StringBuilder summary = new StringBuilder();
        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
            Document summaryDoc = searcher.doc(scoreDoc.doc);
            summary.append(summaryDoc.get("text")).append(" ");
        }
        
        searcher.getIndexReader().close();
        directory.close();
        
        return summary.toString();
    }
}

위 코드에서는 Lucene 라이브러리를 사용하여 인메모리 인덱스를 생성하고 결과를 검색한 후 관련 문장을 요약으로 추출합니다.

2. 기사의 핵심정보 추출
핵심정보 추출이란 기사에서 가장 대표적이고 중요한 키워드나 문구를 추출하는 것을 말합니다. Java에서는 Stanford CoreNLP 라이브러리를 사용하여 이 기능을 구현할 수 있습니다. 다음은 간단한 샘플 코드입니다.

import edu.stanford.nlp.simple.*;

public class KeywordExtractor {
    public static List<String> extractKeywords(String text, int numKeywords) {
        List<String> keywords = new ArrayList<>();
        Document document = new Document(text);
        
        // 提取名词关键词
        for (Sentence sentence : document.sentences()) {
            for (String word : sentence.words()) {
                if (sentence.posTag(word).startsWith("NN")) {
                    keywords.add(word);
                }
            }
        }
        
        // 统计关键词频率
        Map<String, Integer> freqMap = new HashMap<>();
        for (String keyword : keywords) {
            freqMap.put(keyword, freqMap.getOrDefault(keyword, 0) + 1);
        }
        
        // 按照频率排序
        List<Map.Entry<String, Integer>> sortedList = new ArrayList<>(freqMap.entrySet());
        sortedList.sort(Map.Entry.comparingByValue(Comparator.reverseOrder()));
        
        // 返回前 numKeywords 个关键词
        List<String> topKeywords = new ArrayList<>();
        for (int i = 0; i < Math.min(numKeywords, sortedList.size()); i++) {
            topKeywords.add(sortedList.get(i).getKey());
        }
        
        return topKeywords;
    }
}

위 코드에서는 Stanford CoreNLP 라이브러리를 사용하여 텍스트 내 명사 키워드를 추출하고, 빈도 통계 및 순위를 사용하여 가장 대표적인 키워드를 얻습니다.

3. 요약
이 기사에서는 Java를 사용하여 기사의 주요 정보를 자동으로 요약하고 추출하는 방법을 소개합니다. Lucene 및 Stanford CoreNLP 라이브러리와 관련 알고리즘을 사용하면 이러한 기능을 보다 쉽게 ​​구현할 수 있습니다. 이 코드 예제가 이러한 작업을 더 잘 이해하고 연습하는 데 도움이 되기를 바랍니다.

위 내용은 ChatGPT Java: 기사에서 주요 정보를 자동으로 요약하고 추출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.