>  기사  >  백엔드 개발  >  Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개

Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개

PHPz
PHPz원래의
2024-08-02 02:57:40663검색

Introdução à Tokenização e Básicos do WordNet com Python e NLTK

자연어 처리(NLP)는 언어학과 컴퓨팅을 결합하여 인간의 언어를 이해하고 해석하고 조작하는 흥미로운 분야입니다. 이를 위한 가장 강력한 도구 중 하나는 Python의 NLTK(Natural Language Toolkit)입니다. 이 텍스트에서는 토큰화의 개념과 NLP에서 널리 사용되는 영어 어휘 기반인 WordNet의 사용을 살펴보겠습니다.

토큰화란 무엇입니까?

토큰화는 텍스트를 토큰이라는 더 작은 단위로 나누는 프로세스입니다. 이러한 토큰은 단어, 구 또는 개별 문자일 수도 있습니다. 토큰화는 알고리즘이 텍스트를 더 효과적으로 이해하고 분석할 수 있게 해주기 때문에 텍스트 처리에서 중요한 단계입니다.

예를 들어 "Hello, world!"라는 문구를 생각해 보세요. 이 문장을 토큰화하면 ["Hello", "," "world", "!"]의 세 가지 토큰이 생성될 수 있습니다. 이 분할을 통해 텍스트의 각 부분을 개별적으로 분석할 수 있으므로 감정 분석, 기계 번역, 명명된 엔터티 인식과 같은 작업이 용이해집니다.

NLTK에서는 토큰화를 여러 가지 방법으로 수행할 수 있습니다. 몇 가지 실제 사례를 살펴보겠습니다.

문장의 텍스트 토큰화

텍스트를 문장으로 나누는 것은 많은 NLP 작업의 첫 번째 단계입니다. NLTK에서는 sent_tokenize 기능을 사용하여 이를 쉽게 수행할 수 있습니다.

으아아아

결과는 다음과 같습니다.

으아아아

여기서 본문은 세 문장으로 나누어져 있습니다. 이는 각 문장을 개별적으로 처리할 수 있는 보다 자세한 분석에 유용합니다.

문장을 단어로 토큰화

텍스트를 문장으로 나눈 후 다음 단계는 일반적으로 이 문장을 단어로 나누는 것입니다. 이를 위해 NLTK의 word_tokenize 함수가 사용됩니다.

으아아아

결과는 다음과 같습니다.

으아아아

이제 각 단어와 구두점 기호가 별도의 토큰으로 표시됩니다. 이는 각 단어가 텍스트에 나타나는 횟수를 계산해야 하는 단어 빈도 분석과 같은 작업에 필수적입니다.

토큰화를 위해 정규식 사용

경우에 따라 더욱 개인화된 토큰화가 필요할 수 있습니다. 정규식(regex)은 이를 위한 강력한 도구입니다. NLTK는 사용자 정의 토크나이저를 생성하기 위한 RegexpTokenizer 클래스를 제공합니다.

으아아아

결과는 다음과 같습니다.

으아아아

여기에서는 구두점을 무시하고 영숫자로 구성된 단어만 선택하는 정규식을 사용합니다.

워드넷 소개

WordNet은 단어를 synsets라는 동의어 집합으로 그룹화하고, 짧고 일반적인 정의를 제공하며, 이러한 단어 간의 다양한 의미 관계를 기록하는 어휘 데이터베이스입니다. NLTK에서 WordNet은 다른 관계 중에서 동의어, 반의어, 하위어 및 상위어를 찾는 데 사용됩니다.

WordNet을 사용하려면 NLTK에서 wordnet 모듈을 가져와야 합니다.

으아아아

Synset 검색

synset 또는 동의어 집합은 동일한 의미를 공유하는 단어 그룹입니다. 단어의 synsets를 검색하려면 synsets 기능을 사용합니다.

으아아아

결과는 "개"라는 단어의 다양한 의미를 나타내는 synset 목록이 됩니다.

으아아아

각 synset은 단어, 품사(명사의 경우 n, 동사의 경우 v 등) 및 다양한 감각을 구별하는 숫자를 포함하는 이름으로 식별됩니다.

정의 및 예

특정 synset의 정의와 사용예를 얻을 수 있습니다.

으아아아

결과는 다음과 같습니다.

으아아아

이를 통해 우리는 이 맥락에서 "개"의 의미와 사용법을 명확하게 이해할 수 있습니다.

동의어 및 반의어 검색

단어의 동의어와 반의어를 찾으려면 synset 기본형을 탐색할 수 있습니다.

으아아아

결과는 "good"이라는 단어에 대한 동의어와 반의어 목록이 됩니다.

으아아아

의미론적 유사성 계산

WordNet을 사용하면 단어 간의 의미 유사성을 계산할 수도 있습니다. 유사성은 하위어/상위어 그래프의 synset 사이의 거리를 기반으로 합니다.

으아아아

결과는 0과 1 사이의 유사성 값이 됩니다.

으아아아

이 값은 "개"와 "고양이"가 의미상 매우 유사하다는 것을 나타냅니다.

Filtrando Stopwords

Stopwords são palavras comuns que geralmente não adicionam muito significado ao texto, como "e", "a", "de". Remover essas palavras pode ajudar a focar nas partes mais importantes do texto. O NLTK fornece uma lista de stopwords para várias línguas.

from nltk.corpus import stopwords

stop_words = set(stopwords.words('portuguese'))
palavras = ["Olá", "mundo", "é", "um", "lugar", "bonito"]
palavras_filtradas = [w for w in palavras if not w in stop_words]
print(palavras_filtradas)

O resultado será:

['Olá', 'mundo', 'lugar', 'bonito']

Aqui, as stopwords foram removidas da lista original de palavras.

Aplicações Práticas

Análise de Sentimentos

A análise de sentimentos é uma aplicação comum de PLN onde o objetivo é determinar a opinião ou emoção expressa em um texto. Tokenização e o uso de WordNet são passos importantes nesse processo.

Primeiro, dividimos o texto em palavras e removemos as stopwords. Em seguida, podemos usar os synsets para entender melhor o contexto e a polaridade das palavras.

texto = "Eu amo programação em Python!"
palavras = word_tokenize(texto, language='portuguese')
palavras_filtradas = [w for w in palavras if not w in stop_words]

polaridade = 0
for palavra in palavras_filtradas:
    synsets = wordnet.synsets(palavra, lang='por')
    if synsets:
        for syn in synsets:
            polaridade += syn.pos_score() - syn.neg_score()

print("Polaridade do texto:", polaridade)

Nesse exemplo simplificado, estamos somando os scores positivos e negativos dos synsets das palavras filtradas para determinar a polaridade geral do texto.

Reconhecimento de Entidades Nomeadas

Outra aplicação é o reconhecimento de entidades nomeadas (NER), que identifica e classifica nomes de pessoas, organizações, locais, etc., em um texto.

import nltk
nltk.download('maxent_ne_chunker')
nltk.download('words')

frase = "Barack Obama foi o 44º presidente dos Estados Unidos."
palavras = word_tokenize(frase, language='portuguese')
tags = nltk.pos_tag(palavras)
entidades = nltk.ne_chunk(tags)
print(entidades)

O resultado será uma árvore que identifica "Barack Obama" como uma pessoa e "Estados Unidos" como um local.

Conclusão

Neste texto, exploramos os conceitos básicos de tokenização e uso do WordNet com a biblioteca NLTK em Python. Vimos como dividir textos em sentenças e palavras, como buscar sinônimos e antônimos, calcular similaridades semânticas, e aplicações práticas como análise de sentimentos e reconhecimento de entidades nomeadas. A NLTK é uma ferramenta poderosa para qualquer pessoa interessada em processamento de linguagem natural, oferecendo uma ampla gama de funcionalidades para transformar e analisar textos de forma eficaz.

위 내용은 Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.