NLP 란 무엇입니까?
NLP(자연어 처리)는 컴퓨터가 인간의 언어를 이해하도록 돕습니다. 컴퓨터에게 인간처럼 텍스트와 말을 읽고, 이해하고, 응답하도록 가르치는 것과 같습니다.
NLP는 무엇을 할 수 있나요?
- 지저분한 텍스트를 체계화된 데이터로 전환
- 댓글이 긍정적인지 부정적인지 파악하세요
- 언어 간 번역
- 긴 텍스트의 요약을 만듭니다
- 그리고 훨씬 더!
- NLP 시작하기:
좋은 NLP 시스템을 구축하려면 많은 사례를 통해 훈련해야 합니다. 인간이 더 많이 연습할수록 더 잘 배우는 것과 마찬가지입니다. 좋은 소식은 이러한 사례를 찾을 수 있는 무료 리소스가 많이 있다는 것입니다. 포옹하는 얼굴, 카글 그리고 GitHub의
NLP 시장 규모 및 성장:
2023년 현재 자연어 처리(NLP) 시장은 약 26억 달러 규모로 평가되었습니다. 30년부터 2023년까지 연평균 성장률(CAGR)이 약 2030%로 크게 성장할 것으로 예상됩니다. 이러한 성장은 의료, 금융, 고객 서비스와 같은 산업에서 NLP 애플리케이션에 대한 수요가 증가함에 따라 촉진되었습니다.
좋은 NLP 데이터 세트를 선택하려면 다음 요소를 고려하세요.
- 관련성: 데이터 세트가 특정 작업이나 도메인과 일치하는지 확인하세요.
- 크기: 일반적으로 데이터 세트가 클수록 모델 성능은 향상되지만 크기와 품질의 균형이 중요합니다.
- 다양성: 모델의 견고성을 강화하려면 다양한 언어 스타일과 맥락을 가진 데이터 세트를 찾으세요.
- 품질: 오류가 발생하지 않도록 데이터가 정확하게 레이블되어 있는지 확인하세요.
- 접근 용이성: 데이터 세트를 사용할 수 있는지 확인하고 라이선스 제한 사항을 고려하세요.
- 전처리: 데이터 세트에 상당한 정리나 전처리가 필요한지 확인합니다.
- 커뮤니티 지원: 인기 있는 데이터 세트에는 더 많은 리소스와 커뮤니티 지원이 포함되어 있는 경우가 많아 도움이 될 수 있습니다.
이러한 요소를 평가하면 프로젝트의 요구 사항에 가장 적합한 데이터 세트를 선택할 수 있습니다.
NLP를 위한 꼭 봐야 할 오픈 데이터 세트 33가지
일반
UCI의 스팸베이스 (링크)
Hewlett-Packard Labs에서 만든 Spambase에는 개인화된 스팸 필터를 개발하기 위해 사용자가 만든 스팸 이메일 모음이 있습니다. 이메일 메시지에서 4600개 이상의 관찰이 있으며 그 중 1820개에 가까운 스팸이 있습니다.
엔론 데이터세트 (링크)
Enron 데이터 세트에는 기계 학습 모델을 교육하기 위해 일반 대중이 사용할 수 있는 방대한 익명의 '실제' 이메일 모음이 있습니다. 150명 이상의 사용자, 주로 Enron의 고위 경영진이 보낸 XNUMX만 개 이상의 이메일을 자랑합니다. 이 데이터세트는 정형 및 비정형 형식 모두에서 사용할 수 있습니다. 비정형 데이터를 멋지게 꾸미려면 데이터 처리 기술을 적용해야 합니다.
추천 시스템 데이터세트 (링크)
Recommender System 데이터세트는 다음과 같은 다양한 기능을 포함하는 다양한 데이터세트의 거대한 모음입니다.
- 제품 리뷰
- 별점
- 피트니스 추적
- 곡 데이터
- 소셜 네트워크
- 타임 스탬프
- 사용자/항목 상호작용
- GPS 데이터
펜 트리뱅크 (링크)
Wall Street Journal의 이 자료는 서열 라벨링 모델을 테스트하는 데 널리 사용됩니다.
NLTK (링크)
이 Python 라이브러리는 NLP를 위한 100개 이상의 말뭉치 및 어휘 리소스에 대한 액세스를 제공합니다. 도서관 이용 교육 과정인 NLTK 도서도 포함되어 있습니다.
범용 종속성 (링크)
UD는 100개 이상의 언어로 된 리소스, 200개 이상의 트리뱅크, 300명 이상의 커뮤니티 구성원의 지원을 통해 문법에 주석을 추가하는 일관된 방법을 제공합니다.
감정 분석
영화 및 금융 사전 (링크)
영화 및 금융용 사전 데이터 세트는 금융 작성 및 영화 리뷰의 양극성 또는 음극성에 대한 도메인별 사전을 제공합니다. 이 사전은 IMDb 및 US Form-8 작성에서 가져온 것입니다.감성 140 (링크)
Sentiment 140에는 트윗 날짜, 극성, 텍스트, 사용자 이름, ID 및 쿼리의 160,000가지 필드로 분류된 다양한 이모티콘이 포함된 6개 이상의 트윗이 있습니다. 이 데이터 세트를 사용하면 Twitter 활동을 기반으로 브랜드, 제품 또는 주제의 감정을 발견할 수 있습니다. 이 데이터셋은 자동으로 생성되기 때문에 다른 사람이 주석을 추가한 트윗과 달리 긍정적인 감정이 있는 트윗과 부정적인 감정이 있는 트윗을 비호감으로 분류합니다.
다중 도메인 감정 데이터세트 (링크)
이 다중 도메인 감정 데이터 세트는 다양한 제품에 대한 Amazon 리뷰의 리포지토리입니다. 책과 같은 일부 제품 카테고리에는 수천 개의 리뷰가 있는 반면 다른 카테고리에는 수백 개의 리뷰만 있습니다. 게다가, 별 등급이 있는 리뷰는 바이너리 레이블로 변환될 수 있습니다.
스탠포드 센티멘트 트리뱅크 (링크)
Rotten Tomatoes의 이 NLP 데이터 세트에는 더 긴 문구와 더 자세한 텍스트 예제가 포함되어 있습니다.
블로그 소유권 코퍼스 (링크)
이 컬렉션에는 거의 1.4만 단어로 구성된 블로그 게시물이 있으며, 각 블로그는 별도의 데이터 세트입니다.
OpinRank 데이터세트 (링크)
Edmunds와 TripAdvisor의 300,000개 리뷰가 자동차 모델이나 여행지, 호텔별로 정리되어 있습니다.
본문
-
Wiki QA 코퍼스 (링크)
개방형 도메인 질문 및 답변 연구를 돕기 위해 만들어진 WiKi QA Corpus는 공개적으로 사용 가능한 가장 광범위한 데이터 세트 중 하나입니다. Bing 검색 엔진 쿼리 로그에서 컴파일되며 질문과 답변 쌍이 함께 제공됩니다. 3000개 이상의 질문과 1500개의 레이블이 지정된 답변 문장이 있습니다.
-
법적 사례 보고서 데이터 세트 (링크)
Legal Case Reports 데이터세트에는 4000개의 법적 케이스 모음이 있으며 자동 텍스트 요약 및 인용 분석을 훈련하는 데 사용할 수 있습니다. 각 문서, 캐치프레이즈, 인용 클래스, 인용 캐치프레이즈 등이 사용됩니다.
-
위험 (링크)
Jeopardy 데이터 세트는 Reddit 사용자가 모은 인기 있는 퀴즈 TV 쇼에 등장하는 200,000개 이상의 질문 모음입니다. 각 데이터 포인트는 방송 날짜, 에피소드 번호, 가치, 라운드 및 질문/답변으로 분류됩니다.
-
20개의 뉴스그룹 (링크)
20,000개의 문서 모음에는 20개의 뉴스 그룹과 주제가 포함되어 있으며 종교부터 대중 스포츠까지 다양한 주제를 다루고 있습니다.
-
로이터 뉴스 데이터세트 (링크)
1987년에 처음 등장한 이 데이터 세트는 기계 학습 목적으로 레이블이 지정되고, 색인이 생성되고, 컴파일되었습니다.
-
ArXiv (링크)
이 상당한 270GB 데이터 세트에는 모든 arXiv 연구 논문의 전체 텍스트가 포함되어 있습니다.
-
유럽 의회 절차 병렬 코퍼스 (링크)
의회 절차의 문장 쌍에는 21개 유럽 언어의 항목이 포함되어 있으며, 기계 학습 말뭉치에 대해 덜 일반적인 언어가 포함되어 있습니다.
-
십억 단어 벤치 마크 (링크)
WMT 2011 News Crawl에서 파생된 이 언어 모델링 데이터 세트는 혁신적인 언어 모델링 기술을 테스트하기 위해 거의 XNUMX억 단어로 구성됩니다.
오디오 스피치
-
음성 Wikipedia Corpora (링크)
-
2000년 HUB5 영어 (링크)
2000 HUB5 English 데이터셋에는 영어로 된 40개의 전화 대화 녹취록이 있습니다. 데이터는 국립표준기술원(National Institute of Standards and Technology)에서 제공하며 주요 초점은 대화 음성을 인식하고 음성을 텍스트로 변환하는 것입니다.
-
리브리스피치 (링크)
LibriSpeech 데이터 세트는 거의 1000시간 분량의 영어 연설을 수집하고 주제별로 적절하게 오디오북의 챕터로 분류하여 자연어 처리를 위한 완벽한 도구입니다.
-
무료 음성 숫자 데이터세트 (링크)
이 NLP 데이터세트에는 1,500개 이상의 영어 음성 숫자 녹음이 포함되어 있습니다.
-
M-AI Labs 음성 데이터세트 (링크)
데이터 세트는 여러 언어를 포함하고 남성, 여성 및 혼합 음성으로 분류된 약 1,000시간의 오디오를 전사와 함께 제공합니다.
-
시끄러운 음성 데이터베이스 (링크)
이 데이터 세트는 음성 향상 소프트웨어 개발을 위한 것이지만 까다로운 조건에서 음성 훈련에도 도움이 되는 병렬 시끄러운 음성 녹음과 깨끗한 음성 녹음 기능을 갖추고 있습니다.
후기
-
Yelp 리뷰 (링크)
Yelp 데이터 세트에는 8.5개 이상의 비즈니스, 해당 리뷰 및 사용자 데이터에 대한 약 160,000만 개의 리뷰가 있습니다. 리뷰는 감정 분석에 대해 모델을 훈련하는 데 사용할 수 있습니다. 게다가 이 데이터 세트에는 200,000개의 대도시 위치를 다루는 XNUMX개 이상의 사진이 있습니다.
-
IMDB 리뷰 (링크)
IMDB 리뷰는 50개 이상의 영화에 대한 캐스트 정보, 등급, 설명 및 장르를 포함하는 가장 인기 있는 데이터 세트 중 하나입니다. 이 데이터 세트는 기계 학습 모델을 테스트하고 훈련하는 데 사용할 수 있습니다.
-
Amazon 리뷰 및 평가 데이터 세트 (링크)
Amazon 리뷰 및 평가 데이터 세트에는 1996년부터 2014년까지 수집된 Amazon의 다양한 제품 리뷰와 메타데이터의 귀중한 컬렉션(약 142.8억 XNUMX만 레코드)이 포함되어 있습니다. 메타데이터에는 가격, 제품 설명, 브랜드, 카테고리 등이 포함되며 리뷰에는 텍스트 품질, 텍스트의 유용성, 등급 등이 포함됩니다.
질문과 답변
-
SQuAD(스탠포드 질문 및 답변 데이터 세트) (링크)
이 독해력 데이터 세트에는 답변 가능한 질문 100,000개와 답변할 수 없는 질문 50,000개가 있으며 모두 Wikipedia 크라우드 작업자가 생성했습니다.
-
자연스러운 질문 (링크)
이 훈련 세트에는 300,000개가 넘는 훈련 예제, 7,800개의 개발 예제, 7,800개의 테스트 예제가 있으며 각각 Google 쿼리와 일치하는 Wikipedia 페이지가 포함되어 있습니다.
-
트리 비아 QA (링크)
이 도전적인 질문 세트에는 사람이 검증한 하위 세트와 기계가 생성한 하위 세트를 모두 포함하여 950,000개의 QA 쌍이 있습니다.
-
CLEVR(구성 언어 및 초등 시각적 추론) (링크)
이 시각적 질문 답변 데이터 세트에는 3D 렌더링된 개체와 시각적 장면에 대한 세부 정보가 포함된 수천 개의 질문이 포함되어 있습니다.
그렇다면 머신 러닝 모델을 학습시키기 위해 어떤 데이터 세트를 선택하셨습니까?
우리가 갈 때, 우리는 당신을 떠날 것입니다 프로 팁.
필요에 맞는 NLP 데이터 세트를 선택하기 전에 README 파일을 철저히 살펴보십시오. 데이터세트에는 데이터세트의 콘텐츠, 데이터가 분류된 다양한 매개변수, 데이터세트의 가능한 사용 사례와 같이 필요한 모든 정보가 포함됩니다.
어떤 모델을 구축하든 관계없이 기계를 우리 삶과 더욱 밀접하고 본질적으로 통합할 수 있다는 흥미로운 전망이 있습니다. NLP를 사용하면 비즈니스, 영화, 음성 인식, 금융 등의 가능성이 다양해집니다.