首頁 >後端開發 >C++ >如何使用C++進行自然語言處理與文字分析?

如何使用C++進行自然語言處理與文字分析?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創
2024-06-03 18:06:01929瀏覽

使用 C++ 進行自然語言處理涉及安裝 Boost.Regex、ICU 和 pugixml 函式庫。文章詳細介紹了詞幹分析器的創建過程,它可以將單字簡化為根詞,以及詞袋模型的創建,它將文字表示為單字頻率向量。示範使用分詞、詞乾化和詞袋模型來分析文本,輸出分詞後的單字、詞幹和詞頻。

如何使用C++進行自然語言處理與文字分析?

使用C++ 進行自然語言處理和文字分析

#自然語言處理(NLP) 是一門利用電腦進行處理、分析和產生人語言的任務的學科。本文將介紹如何使用 C++ 程式語言進行 NLP 和文字分析。

安裝必要的函式庫

你需要安裝以下函式庫:

  • #Boost.Regex
  • ICU for C++
  • pugixml

在Ubuntu 上安裝這些函式庫的命令如下:

sudo apt install libboost-regex-dev libicu-dev libpugixml-dev

建立詞幹分析器

詞幹分析器用於將單字縮減為其根詞。

#include <boost/algorithm/string/replace.hpp>
#include <iostream>
#include <map>

std::map<std::string, std::string> stemmer_map = {
    {"ing", ""},
    {"ed", ""},
    {"es", ""},
    {"s", ""}
};

std::string stem(const std::string& word) {
    std::string stemmed_word = word;
    for (auto& rule : stemmer_map) {
        boost::replace_all(stemmed_word, rule.first, rule.second);
    }
    return stemmed_word;
}

建立詞袋模型

詞袋模型是將文字表示為單字頻數向量的模型。

#include <map>
#include <string>
#include <vector>

std::map<std::string, int> create_bag_of_words(const std::vector<std::string>& tokens) {
    std::map<std::string, int> bag_of_words;
    for (const auto& token : tokens) {
        std::string stemmed_token = stem(token);
        bag_of_words[stemmed_token]++;
    }
    return bag_of_words;
}

實戰案例

以下是使用上述程式碼進行文字分析的示範:

#include <iostream>
#include <vector>

std::vector<std::string> tokenize(const std::string& text) {
    // 将文本按空格和句点分词
    std::vector<std::string> tokens;
    std::istringstream iss(text);
    std::string token;
    while (iss >> token) {
        tokens.push_back(token);
    }
    return tokens;
}

int main() {
    std::string text = "Natural language processing is a subfield of linguistics, computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages.";

    // 分词并词干化
    std::vector<std::string> tokens = tokenize(text);
    for (auto& token : tokens) {
        std::cout << stem(token) << " ";
    }
    std::cout << std::endl;

    // 创建词袋模型
    std::map<std::string, int> bag_of_words = create_bag_of_words(tokens);
    for (const auto& [word, count] : bag_of_words) {
        std::cout << word << ": " << count << std::endl;
    }
}

輸出:

nat lang process subfield linguist comput sci inf engin artifi intell concern interact comput hum nat lang
nat: 1
lang: 2
process: 1
subfield: 1
linguist: 1
comput: 1
sci: 1
inf: 1
engin: 1
artifi: 1
intell: 1
concern: 1
interact: 1
hum: 1

以上是如何使用C++進行自然語言處理與文字分析?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn