>백엔드 개발 >파이썬 튜토리얼 >NLTK (Natural Language Toolkit) 소개

NLTK (Natural Language Toolkit) 소개

William Shakespeare
William Shakespeare원래의
2025-03-01 10:05:09197검색
NLP (Natural Language Processing)는 인간 언어의 자동 또는 반자동 처리입니다. NLP는 언어학과 밀접한 관련이 있으며인지 과학, 심리학, 생리학 및 수학에 대한 연구와 관련이 있습니다. 특히 컴퓨터 과학 영역에서 NLP는 컴파일러 기술, 공식 언어 이론, 인간 컴퓨터 상호 작용, 기계 학습 및 정리 증명과 관련이 있습니다. 이 Quora 질문은 NLP의 다양한 장점을 보여줍니다.

이 튜토리얼에서는 NLTK (Natural Language Toolkit)라는 NLP를위한 흥미로운 Python 플랫폼을 안내해 드리겠습니다. 이 플랫폼에서 작업하는 방법을보기 전에 NLTK가 무엇인지 먼저 알려 드리겠습니다.

NLTK 란 무엇입니까?

NLTK (Natural Language Toolkit)는 텍스트 분석을 위해 프로그램을 구축하는 데 사용되는 플랫폼입니다. 이 플랫폼은 2001 년 펜실베이니아 대학교 (University of Pennsylvania)의 계산 언어학 과정과 함께 Steven Bird와 Edward Loper가 원래 발표했습니다. Python을 사용한 자연 언어 처리라는 플랫폼을위한 책이 첨부되어 있습니다. > NLTK를 설치하여 NLTK를 설치하여 자연스러운 언어 처리를 시작하자. 재미있을 것입니다!

NLTK를 설치하는 것은 매우 간단합니다. 나는 Wind 출력 : 출력에서 ​​알 수 있듯이 구두점 마크도 단어로 간주됩니다.

때때로 우리는 자연스러운 언어 처리 (NLP)에서 데이터를보다 이해할 수 있도록 쓸모없는 데이터를 필터링해야합니다.

nltk는 우리에게 다음과 같은 단어를 보려면 다음과 같은 스크립트를 사용합니다. 다음 :

자신의 텍스트에서 단어를 제거 할 수있는 방법은 무엇입니까? 아래의 예는이 작업을 수행 할 수있는 방법을 보여줍니다.

위의 스크립트의 출력은 다음과 같습니다. 따라서 word_tokenize () 기능은 다음과 같습니다.<ize> <blockquote> 검색 이외의 구두점을 분할하기 위해 문자열을 토큰 화 </blockquote> <h3> 다음 텍스트 파일을 가지고 있다고 가정 해 봅시다 (Dropbox에서 텍스트 파일을 다운로드). 우리는 라는 단어를 찾고 싶습니다. 다음과 같이 NLTK 플랫폼을 사용하여 간단히 수행 할 수 있습니다. </h3>이 경우 다음 출력을 얻을 수 있습니다. <p> <code>language

는 일부 컨텍스트 외에 라는 단어의 모든 발생을 반환한다는 것을 알게됩니다. 그 전에, 위의 스크립트에서 볼 수 있듯이, 우리는 읽기 파일을 토큰 화하고
"Python is a very high-level programming language. Python is interpreted."<br>
객체로 변환합니다.

프로그램을 처음 실행했을 때 다음 오류가 발생했을 때 콘솔 사용을 인코딩하는 것과 관련이있는 것 같습니다. 위키 백과에서 언급 한 바와 같이 . 1971 년 Michael S. Hart에 의해 설립되었으며 가장 오래된 디지털 도서관입니다. 컬렉션의 대부분의 항목은 공개 도메인 북의 전체 텍스트입니다. 이 프로젝트는 거의 모든 컴퓨터에서 사용할 수있는 오래 지속되는 개방형 형식으로 가능한 한 무료로이를 만들려고합니다. 2015 년 10 월 3 일 현재 Project Gutenberg는 컬렉션에서 50,000 개의 항목에 도달했습니다.

nltk에는 Project Gutenberg의 작은 텍스트가 포함되어 있습니다. Project Gutenberg의 포함 된 파일을 보려면 다음을 수행합니다. NLTK (Natural Language Toolkit) 소개 위의 스크립트의 출력은 다음과 같습니다.

concordance() 텍스트 파일에 대한 단어 수를 찾으려면 다음을 수행 할 수 있습니다. . language nltk.Text 결론

이 튜토리얼에서 볼 수 있듯이 NLTK 플랫폼은 NLP (Natural Language Processing) 작업을위한 강력한 도구를 제공합니다. 이 튜토리얼에서 표면 만 긁 혔습니다. 다른 NLP 작업에 NLTK를 사용하는 데 더 깊이 들어가려면 NLTK의 동반 된 책 : Python을 사용한 자연 언어 처리를 참조하십시오.

이 게시물은 Esther Vaati의 기여로 업데이트되었습니다. Esther는 Envato Tuts의 소프트웨어 개발자이자 작가입니다.

위 내용은 NLTK (Natural Language Toolkit) 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.