하나의 기사로 토큰화를 이해해보세요!-일체 포함-php.cn

집

기술 주변기기

일체 포함

하나의 기사로 토큰화를 이해해보세요!

PHPz

Apr 12, 2024 pm 02:31 PM

ai언어 모델

언어 모델은 일반적으로 문자열 형식인 텍스트에 대해 추론하지만 모델에 대한 입력은 숫자만 가능하므로 텍스트를 숫자 형식으로 변환해야 합니다.

토큰화는 자연어 처리의 기본 작업입니다. 연속된 텍스트 시퀀스(예: 문장, 단락 등)를 특정 내용에 따라 문자 시퀀스(예: 단어, 구, 문자, 구두점 등)로 나눌 수 있습니다. 그 중 단위를 토큰(token) 또는 워드(word)라고 합니다.

아래 그림에 표시된 특정 프로세스에 따라 먼저 텍스트 문장을 단위로 나눈 다음 단일 요소를 디지털화(벡터로 매핑)한 다음 이러한 벡터를 인코딩 모델에 입력하고 마지막으로 다운스트림 작업에 출력합니다. 최종 결과를 더 얻으려면.

하나의 기사로 토큰화를 이해해보세요!

텍스트 세분화

텍스트 세분화에 따라 토큰화는 단어 세분화 토큰화, 문자 세분화 토큰화, 하위 단어 세분화 토큰화의 세 가지 범주로 나눌 수 있습니다.

1. 단어 세분성 토큰화

단어 세분성 토큰화는 가장 직관적인 단어 분할 방법으로, 단어에 따라 텍스트를 분할하는 것을 의미합니다. 예:

The quick brown fox jumps over the lazy dog.词粒度Tokenized结果：['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

이 예에서는 텍스트가 독립된 단어로 구분되고 각 단어가 토큰으로 사용되며 구두점 '.'도 독립된 토큰으로 간주됩니다.

중국어 텍스트는 일반적으로 단어 분할 알고리즘을 통해 식별된 사전이나 구문, 관용어, 고유 명사 등에서 수집된 표준 어휘 모음을 기반으로 분할됩니다.

我喜欢吃苹果。词粒度Tokenized结果：['我', '喜欢', '吃', '苹果', '。']

이 중국어 텍스트는 "I", "like", "eat", "apple" 및 마침표 "."의 다섯 단어로 구분되며 각 단어는 토큰 역할을 합니다.

2. 문자 세분화 토큰화

문자 세분화 토큰화는 텍스트를 가장 작은 문자 단위로 나눕니다. 즉, 각 문자는 별도의 토큰으로 처리됩니다. 예:

Hello, world!字符粒度Tokenized结果：['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

문자 세분성 중국어의 토큰화는 각각의 독립적인 한자에 따라 텍스트를 분할하는 것입니다.

我喜欢吃苹果。字符粒度Tokenized结果：['我', '喜', '欢', '吃', '苹', '果', '。']

3.subword granular Tokenization

subword granular 토큰화는 단어 세분성과 문자 세분성 사이에서 텍스트를 단어와 문자 사이의 하위 단어(하위 단어)로 토큰으로 나눕니다. 일반적인 하위 단어 토큰화 방법에는 BPE(바이트 쌍 인코딩), WordPiece 등이 포함됩니다. 이러한 방법은 텍스트 데이터의 하위 문자열 빈도를 계산하여 단어 분할 사전을 자동으로 생성합니다. 이는 특정 의미 무결성을 유지하면서 서비스 불가능한 단어(OOV) 문제를 효과적으로 처리할 수 있습니다.

helloworld

BPE 알고리즘으로 훈련한 후 생성된 하위 단어 사전에 다음 항목이 포함되어 있다고 가정합니다.

h, e, l, o, w, r, d, hel, low, wor, orld

하위 단어 세분성 토큰화된 결과:

['hel', 'low', 'orld']

여기서 "helloworld"는 세 개의 하위 단어로 나뉩니다." " hel", "low", "orld"는 모두 사전에 나타나는 빈도가 높은 하위 문자열 조합입니다. 이 분할 방법은 알려지지 않은 단어(예: "helloworld"는 표준 영어 단어가 아님)를 처리할 수 있을 뿐만 아니라 특정 의미 정보(하위 단어의 조합으로 원래 단어를 복원할 수 있음)도 유지할 수 있습니다.

중국어의 경우 하위 단어 세분화 토큰화는 텍스트를 한자 사이의 하위 단어와 토큰으로 단어로 나누기도 합니다. 예:

我喜欢吃苹果

BPE 알고리즘으로 교육한 후 생성된 하위 단어 사전에 다음 항목이 포함되어 있다고 가정합니다.

我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果

하위 단어 세분성 토큰화된 결과:

['我', '喜欢', '吃', '苹果']

이 예에서는 "I like to eat" 사과'는 '나', '좋아요', '먹다', '사과' 등 4개의 하위 단어로 나뉘며, 이 하위 단어는 모두 사전에 등재된다. 한자는 더 이상 영어 하위 단어처럼 결합하지 않지만, 하위 단어 토큰화 방식은 사전 생성 시 "좋아요", "사과 먹기" 등 빈도가 높은 단어 조합을 고려했습니다. 이 분할 방법은 알려지지 않은 단어를 처리하는 동안 단어 수준의 의미 정보를 유지합니다.

Indexing

코퍼스나 어휘가 다음과 같이 생성되었다고 가정합니다.

vocabulary = {'我': 0,'喜欢': 1,'吃': 2,'苹果': 3,'。': 4}

어휘의 순서에 있는 각 토큰의 인덱스를 찾을 수 있습니다.

indexed_tokens = [vocabulary[token] for token in token_sequence]print(indexed_tokens)

출력: [0, 1, 2, 3, 4].

위 내용은 하나의 기사로 토큰화를 이해해보세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

LLM에서 도구 호출Apr 14, 2025 am 11:28 AM

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 있습니다.

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

AI에 대한 UN 입력 : 우승자, 패자 및 기회Apr 14, 2025 am 11:25 AM

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

생성 AI를 통한 협상 기술 학습Apr 14, 2025 am 11:23 AM

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

Ted는 Openai, Google, 메타가 법정으로 공개됩니다.Apr 14, 2025 am 11:22 AM

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 AI 독점권 속에서 임시 불평등을 경고합니다.Apr 14, 2025 am 11:21 AM

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 란 무엇입니까?Apr 14, 2025 am 11:19 AM

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

LLM 라우팅 : 전략, 기술 및 파이썬 구현Apr 14, 2025 am 11:14 AM

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는