정의
토큰화는 텍스트를 단어, 하위 단어, 문자 등의 더 작은 단위(토큰)로 분할하는 과정으로, 언어 모델의 입력으로 사용됩니다.
목적
목적은 LLM에서 학습과 추론을 위해 텍스트를 관리 가능한 구성 요소로 표준화하는 것입니다.
중요성
- NLP의 기본적인 전처리 단계.
- 어휘의 양과 효율성에 영향을 미칩니다.
- 토큰화 선택은 정확도와 성능에 영향을 미칩니다.
- 임베딩 및 모델 학습과 관련이 있습니다.
작동 원리
- 토큰화 체계(단어, 하위 단어, 문자)를 정의합니다.
- 입력 텍스트에 토크나이저를 적용합니다.
- 토큰을 숫자 ID에 매핑합니다.
- 처리를 위해 모델에 토큰을 공급합니다.
- 출력 토큰을 다시 텍스트로 변환합니다.
예시(실제 세계)
- GPT 모델에 사용되는 바이트 쌍 인코딩(BPE).
- BERT에서 사용되는 WordPiece입니다.
- 다국어 NLP에 사용되는 SentencePiece입니다.
참고문헌 / 추가 자료
- Sennrich 외. "서브워드 단위를 포함한 희귀 단어의 신경망 기계 번역." ACL.
- Google SentencePiece 문서.
- 주라프스키 & 마틴. 음성 및 언어 처리.