정의
텍스트 데이터 수집은 AI 훈련에 사용하기 위해 책, 웹사이트, 채팅 로그 등의 출처에서 서면 언어를 수집하는 과정입니다.
목적
목적은 NLP와 LLM 개발을 위한 코퍼스를 만드는 것입니다.
중요성
- 언어 모델을 위한 원자재를 제공합니다.
- 저작권 및 라이센스 문제가 발생합니다.
- 데이터 다양성은 공정성과 정확성에 영향을 미칩니다.
- 유해하거나 관련성 없는 콘텐츠를 걸러내야 합니다.
작동 원리
- 텍스트 소스(웹, 문서, 필사본)를 식별합니다.
- 허가를 받아 텍스트를 크롤링하거나 스크래핑하세요.
- 콘텐츠를 정리하고 정규화합니다.
- 추적 가능성을 위해 메타데이터와 함께 저장합니다.
- 사전 훈련이나 미세 조정에 사용합니다.
예시(실제 세계)
- 일반 크롤링: 대규모 웹 코퍼스.
- 위키피디아 덤프: 구조화된 텍스트 데이터 세트.
- BooksCorpus: BERT 학습에 사용됨.
참고문헌 / 추가 자료
- 커먼 크롤 재단.
- 주라프스키 & 마틴. 음성 및 언어 처리.
- ISO/IEC TR 20547-5: 빅데이터 참조 아키텍처.
- 사례별 텍스트 데이터 수집