LLM의 토큰화

LLM의 토큰화

정의

토큰화는 텍스트를 단어, 하위 단어, 문자 등의 더 작은 단위(토큰)로 분할하는 과정으로, 언어 모델의 입력으로 사용됩니다.

목적

목적은 LLM에서 학습과 추론을 위해 텍스트를 관리 가능한 구성 요소로 표준화하는 것입니다.

중요성

  • NLP의 기본적인 전처리 단계.
  • 어휘의 양과 효율성에 영향을 미칩니다.
  • 토큰화 선택은 정확도와 성능에 영향을 미칩니다.
  • 임베딩 및 모델 학습과 관련이 있습니다.

작동 원리

  1. 토큰화 체계(단어, 하위 단어, 문자)를 정의합니다.
  2. 입력 텍스트에 토크나이저를 적용합니다.
  3. 토큰을 숫자 ID에 매핑합니다.
  4. 처리를 위해 모델에 토큰을 공급합니다.
  5. 출력 토큰을 다시 텍스트로 변환합니다.

예시(실제 세계)

  • GPT 모델에 사용되는 바이트 쌍 인코딩(BPE).
  • BERT에서 사용되는 WordPiece입니다.
  • 다국어 NLP에 사용되는 SentencePiece입니다.

참고문헌 / 추가 자료

  • Sennrich 외. "서브워드 단위를 포함한 희귀 단어의 신경망 기계 번역." ACL.
  • Google SentencePiece 문서.
  • 주라프스키 & 마틴. 음성 및 언어 처리.

다음 AI 이니셔티브를 지원하는 방법을 알려주세요.