정의
문서 분류는 머신 러닝이나 규칙 기반 방법을 사용하여 텍스트 문서를 미리 정의된 클래스로 분류하는 과정입니다. 클래스에는 주제, 스팸 감지, 감정 등이 포함될 수 있습니다.
목적
대량의 텍스트를 효율적으로 정리하고 필터링하는 것이 목적이며, 검색, 콘텐츠 관리 및 자동화된 워크플로를 지원합니다.
중요성
- 분류를 자동화하여 시간을 절약합니다.
- 이메일 스팸 필터링, 법적 증거 수집 및 지식 관리를 위한 핵심입니다.
- 오류로 인해 문서가 누락되거나 잘못 분류될 수 있습니다.
- 감정 분석과 같은 NLP 작업과 관련이 있습니다.
작동 원리
- 텍스트 문서를 수집하고 사전 처리합니다.
- 특징(예: TF-IDF, 임베딩)을 사용하여 텍스트를 표현합니다.
- 분류 모델(SVM, 신경망)을 훈련합니다.
- 레이블이 지정된 테스트 세트에서 모델 정확도를 검증합니다.
- 분류기를 배포하여 새로운 문서를 분류합니다.
예시(실제 세계)
- Gmail 스팸 필터: 이메일을 스팸과 비스팸으로 분류합니다.
- 뉴스 애그리게이터: 주제별로 기사를 분류합니다.
- 법률 기술: 증거 공개 및 규정 준수를 위해 문서를 분류합니다.
참고문헌 / 추가 자료
- 매닝 외. 정보 검색 입문. 케임브리지 대학교 출판부.
- 주라프스키 & 마틴. 음성 및 언어 처리. 스탠퍼드.
- IEEE 지식 및 데이터 엔지니어링 저널.