Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개

PHPz

Aug 02, 2024 am 02:57 AM

Introdução à Tokenização e Básicos do WordNet com Python e NLTK

자연어 처리(NLP)는 언어학과 컴퓨팅을 결합하여 인간의 언어를 이해하고 해석하고 조작하는 흥미로운 분야입니다. 이를 위한 가장 강력한 도구 중 하나는 Python의 NLTK(Natural Language Toolkit)입니다. 이 텍스트에서는 토큰화의 개념과 NLP에서 널리 사용되는 영어 어휘 기반인 WordNet의 사용을 살펴보겠습니다.

토큰화란 무엇입니까?

토큰화는 텍스트를 토큰이라는 더 작은 단위로 나누는 프로세스입니다. 이러한 토큰은 단어, 구 또는 개별 문자일 수도 있습니다. 토큰화는 알고리즘이 텍스트를 더 효과적으로 이해하고 분석할 수 있게 해주기 때문에 텍스트 처리에서 중요한 단계입니다.

예를 들어 "Hello, world!"라는 문구를 생각해 보세요. 이 문장을 토큰화하면 ["Hello", "," "world", "!"]의 세 가지 토큰이 생성될 수 있습니다. 이 분할을 통해 텍스트의 각 부분을 개별적으로 분석할 수 있으므로 감정 분석, 기계 번역, 명명된 엔터티 인식과 같은 작업이 용이해집니다.

NLTK에서는 토큰화를 여러 가지 방법으로 수행할 수 있습니다. 몇 가지 실제 사례를 살펴보겠습니다.

문장의 텍스트 토큰화

텍스트를 문장으로 나누는 것은 많은 NLP 작업의 첫 번째 단계입니다. NLTK에서는 sent_tokenize 기능을 사용하여 이를 쉽게 수행할 수 있습니다.

으아아아

결과는 다음과 같습니다.

으아아아

여기서 본문은 세 문장으로 나누어져 있습니다. 이는 각 문장을 개별적으로 처리할 수 있는 보다 자세한 분석에 유용합니다.

문장을 단어로 토큰화

텍스트를 문장으로 나눈 후 다음 단계는 일반적으로 이 문장을 단어로 나누는 것입니다. 이를 위해 NLTK의 word_tokenize 함수가 사용됩니다.

으아아아

결과는 다음과 같습니다.

으아아아

이제 각 단어와 구두점 기호가 별도의 토큰으로 표시됩니다. 이는 각 단어가 텍스트에 나타나는 횟수를 계산해야 하는 단어 빈도 분석과 같은 작업에 필수적입니다.

토큰화를 위해 정규식 사용

경우에 따라 더욱 개인화된 토큰화가 필요할 수 있습니다. 정규식(regex)은 이를 위한 강력한 도구입니다. NLTK는 사용자 정의 토크나이저를 생성하기 위한 RegexpTokenizer 클래스를 제공합니다.

으아아아

결과는 다음과 같습니다.

으아아아

여기에서는 구두점을 무시하고 영숫자로 구성된 단어만 선택하는 정규식을 사용합니다.

워드넷 소개

WordNet은 단어를 synsets라는 동의어 집합으로 그룹화하고, 짧고 일반적인 정의를 제공하며, 이러한 단어 간의 다양한 의미 관계를 기록하는 어휘 데이터베이스입니다. NLTK에서 WordNet은 다른 관계 중에서 동의어, 반의어, 하위어 및 상위어를 찾는 데 사용됩니다.

WordNet을 사용하려면 NLTK에서 wordnet 모듈을 가져와야 합니다.

으아아아

Synset 검색

synset 또는 동의어 집합은 동일한 의미를 공유하는 단어 그룹입니다. 단어의 synsets를 검색하려면 synsets 기능을 사용합니다.

으아아아

결과는 "개"라는 단어의 다양한 의미를 나타내는 synset 목록이 됩니다.

으아아아

각 synset은 단어, 품사(명사의 경우 n, 동사의 경우 v 등) 및 다양한 감각을 구별하는 숫자를 포함하는 이름으로 식별됩니다.

정의 및 예

특정 synset의 정의와 사용예를 얻을 수 있습니다.

으아아아

결과는 다음과 같습니다.

으아아아

이를 통해 우리는 이 맥락에서 "개"의 의미와 사용법을 명확하게 이해할 수 있습니다.

동의어 및 반의어 검색

단어의 동의어와 반의어를 찾으려면 synset 기본형을 탐색할 수 있습니다.

으아아아

결과는 "good"이라는 단어에 대한 동의어와 반의어 목록이 됩니다.

으아아아

의미론적 유사성 계산

WordNet을 사용하면 단어 간의 의미 유사성을 계산할 수도 있습니다. 유사성은 하위어/상위어 그래프의 synset 사이의 거리를 기반으로 합니다.

으아아아

결과는 0과 1 사이의 유사성 값이 됩니다.

으아아아

이 값은 "개"와 "고양이"가 의미상 매우 유사하다는 것을 나타냅니다.

Filtrando Stopwords

Stopwords são palavras comuns que geralmente não adicionam muito significado ao texto, como "e", "a", "de". Remover essas palavras pode ajudar a focar nas partes mais importantes do texto. O NLTK fornece uma lista de stopwords para várias línguas.

from nltk.corpus import stopwords

stop_words = set(stopwords.words('portuguese'))
palavras = ["Olá", "mundo", "é", "um", "lugar", "bonito"]
palavras_filtradas = [w for w in palavras if not w in stop_words]
print(palavras_filtradas)

O resultado será:

['Olá', 'mundo', 'lugar', 'bonito']

Aqui, as stopwords foram removidas da lista original de palavras.

Aplicações Práticas

Análise de Sentimentos

A análise de sentimentos é uma aplicação comum de PLN onde o objetivo é determinar a opinião ou emoção expressa em um texto. Tokenização e o uso de WordNet são passos importantes nesse processo.

Primeiro, dividimos o texto em palavras e removemos as stopwords. Em seguida, podemos usar os synsets para entender melhor o contexto e a polaridade das palavras.

texto = "Eu amo programação em Python!"
palavras = word_tokenize(texto, language='portuguese')
palavras_filtradas = [w for w in palavras if not w in stop_words]

polaridade = 0
for palavra in palavras_filtradas:
    synsets = wordnet.synsets(palavra, lang='por')
    if synsets:
        for syn in synsets:
            polaridade += syn.pos_score() - syn.neg_score()

print("Polaridade do texto:", polaridade)

Nesse exemplo simplificado, estamos somando os scores positivos e negativos dos synsets das palavras filtradas para determinar a polaridade geral do texto.

Reconhecimento de Entidades Nomeadas

Outra aplicação é o reconhecimento de entidades nomeadas (NER), que identifica e classifica nomes de pessoas, organizações, locais, etc., em um texto.

import nltk
nltk.download('maxent_ne_chunker')
nltk.download('words')

frase = "Barack Obama foi o 44º presidente dos Estados Unidos."
palavras = word_tokenize(frase, language='portuguese')
tags = nltk.pos_tag(palavras)
entidades = nltk.ne_chunk(tags)
print(entidades)

O resultado será uma árvore que identifica "Barack Obama" como uma pessoa e "Estados Unidos" como um local.

Conclusão

Neste texto, exploramos os conceitos básicos de tokenização e uso do WordNet com a biblioteca NLTK em Python. Vimos como dividir textos em sentenças e palavras, como buscar sinônimos e antônimos, calcular similaridades semânticas, e aplicações práticas como análise de sentimentos e reconhecimento de entidades nomeadas. A NLTK é uma ferramenta poderosa para qualquer pessoa interessada em processamento de linguagem natural, oferecendo uma ampla gama de funcionalidades para transformar e analisar textos de forma eficaz.

위 내용은 Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python vs. C : 응용 및 사용 사례가 비교되었습니다Apr 12, 2025 am 12:01 AM

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간의 파이썬 계획 : 현실적인 접근Apr 11, 2025 am 12:04 AM

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까?Apr 02, 2025 am 07:12 AM

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

경치 좋은 스팟 코멘트 분석에서 Jieba Word 세분화의 정확성을 향상시키는 방법은 무엇입니까?Apr 02, 2025 am 07:09 AM

경치 좋은 스팟 댓글 분석에서 Jieba Word 세분화 문제를 해결하는 방법은 무엇입니까? 경치가 좋은 스팟 댓글 및 분석을 수행 할 때 종종 Jieba Word 세분화 도구를 사용하여 텍스트를 처리합니다 ...

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는