ML용 NLP 데이터 세트

자연어 처리 모델을 훈련시키는 15가지 최고의 NLP 데이터 세트

자연어 처리는 기계 학습 갑옷의 중요한 부분입니다. 그러나 모델이 제대로 작동하려면 방대한 양의 데이터와 교육이 필요합니다. NLP의 중요한 문제 중 하나는 도메인 내에서 광범위한 관심 분야를 다룰 수 있는 훈련 데이터 세트가 없다는 것입니다.

이 방대한 분야에서 시작하는 경우 데이터 세트를 생성하는 것이 어렵고 실질적으로 중복된다는 것을 알게 될 수 있습니다. 특히 품질이 있을 때 NLP 목적에 따라 기계 학습 모델을 훈련하는 데 사용할 수 있는 데이터 세트.

NLP 시장은 11.7년과 2018년 동안 2026%의 CAGR로 성장하여 28.6 년까지 $ 2026 십억. NLP 및 기계 학습에 대한 수요가 증가함에 따라 이제 감정 분석, 리뷰, 질문 및 답변 분석, 음성 분석 데이터 세트에 맞는 고품질 데이터 세트를 손에 넣을 수 있습니다.

신뢰할 수 있는 기계 학습을 위한 NLP 데이터 세트

다양한 요구 사항에 중점을 둔 수많은 데이터 세트가 거의 매일 릴리스되고 있기 때문에 품질, 신뢰할 수 있는 최고의 데이터 세트에 액세스하는 것이 어려울 수 있습니다. 여기에서 제공하는 범주에 따라 분리된 선별된 데이터 세트를 제공하므로 작업이 더 쉬워졌습니다.

일반

Hewlett-Packard Labs에서 만든 Spambase에는 개인화된 스팸 필터를 개발하기 위해 사용자가 만든 스팸 이메일 모음이 있습니다. 이메일 메시지에서 4600개 이상의 관찰이 있으며 그 중 1820개에 가까운 스팸이 있습니다.

Enron 데이터 세트에는 기계 학습 모델을 교육하기 위해 일반 대중이 사용할 수 있는 방대한 익명의 '실제' 이메일 모음이 있습니다. 150명 이상의 사용자, 주로 Enron의 고위 경영진이 보낸 XNUMX만 개 이상의 이메일을 자랑합니다. 이 데이터세트는 정형 및 비정형 형식 모두에서 사용할 수 있습니다. 비정형 데이터를 멋지게 꾸미려면 데이터 처리 기술을 적용해야 합니다.

  • 추천 시스템 데이터세트 (링크)

Recommender System 데이터세트는 다음과 같은 다양한 기능을 포함하는 다양한 데이터세트의 거대한 모음입니다.

  • 제품 리뷰
  • 별점
  • 피트니스 추적
  • 곡 데이터
  • 소셜 네트워크
  • 타임 스탬프
  • 사용자/항목 상호작용
  • GPS 데이터

감정 분석

감정 분석
영화 및 금융용 사전 데이터 세트는 금융 작성 및 영화 리뷰의 양극성 또는 음극성에 대한 도메인별 사전을 제공합니다. 이 사전은 IMDb 및 US Form-8 작성에서 가져온 것입니다.

Sentiment 140에는 트윗 날짜, 극성, 텍스트, 사용자 이름, ID 및 쿼리의 160,000가지 필드로 분류된 다양한 이모티콘이 포함된 6개 이상의 트윗이 있습니다. 이 데이터 세트를 사용하면 Twitter 활동을 기반으로 브랜드, 제품 또는 주제의 감정을 발견할 수 있습니다. 이 데이터셋은 자동으로 생성되기 때문에 다른 사람이 주석을 추가한 트윗과 달리 긍정적인 감정이 있는 트윗과 부정적인 감정이 있는 트윗을 비호감으로 분류합니다.

  • 다중 도메인 감정 데이터세트 (링크)

이 다중 도메인 감정 데이터 세트는 다양한 제품에 대한 Amazon 리뷰의 리포지토리입니다. 책과 같은 일부 제품 카테고리에는 수천 개의 리뷰가 있는 반면 다른 카테고리에는 수백 개의 리뷰만 있습니다. 게다가, 별 등급이 있는 리뷰는 바이너리 레이블로 변환될 수 있습니다.

오늘 AI 교육 데이터 요구 사항에 대해 논의해 보겠습니다.

본문

개방형 도메인 질문 및 답변 연구를 돕기 위해 만들어진 WiKi QA Corpus는 공개적으로 사용 가능한 가장 광범위한 데이터 세트 중 하나입니다. Bing 검색 엔진 쿼리 로그에서 컴파일되며 질문과 답변 쌍이 함께 제공됩니다. 3000개 이상의 질문과 1500개의 레이블이 지정된 답변 문장이 있습니다.

  • 법적 사례 보고서 데이터 세트 (링크)

Legal Case Reports 데이터세트에는 4000개의 법적 케이스 모음이 있으며 자동 텍스트 요약 및 인용 분석을 훈련하는 데 사용할 수 있습니다. 각 문서, 캐치프레이즈, 인용 클래스, 인용 캐치프레이즈 등이 사용됩니다.

Jeopardy 데이터 세트는 Reddit 사용자가 모은 인기 있는 퀴즈 TV 쇼에 등장하는 200,000개 이상의 질문 모음입니다. 각 데이터 포인트는 방송 날짜, 에피소드 번호, 가치, 라운드 및 질문/답변으로 분류됩니다.

오디오 스피치

오디오 스피치 이 데이터 세트는 영어 이상의 것을 원하는 모든 사람에게 적합합니다. 이 데이터 세트에는 네덜란드어, 독일어 및 영어로 사용되는 기사 모음이 있습니다. 수백 시간 동안 진행되는 다양한 주제와 연사 세트가 있습니다.

2000 HUB5 English 데이터셋에는 영어로 된 40개의 전화 대화 녹취록이 있습니다. 데이터는 국립표준기술원(National Institute of Standards and Technology)에서 제공하며 주요 초점은 대화 음성을 인식하고 음성을 텍스트로 변환하는 것입니다.

LibriSpeech 데이터 세트는 거의 1000시간 분량의 영어 연설을 수집하고 주제별로 적절하게 오디오북의 챕터로 분류하여 자연어 처리를 위한 완벽한 도구입니다.

리뷰

Yelp 데이터 세트에는 8.5개 이상의 비즈니스, 해당 리뷰 및 사용자 데이터에 대한 약 160,000만 개의 리뷰가 있습니다. 리뷰는 감정 분석에 대해 모델을 훈련하는 데 사용할 수 있습니다. 게다가 이 데이터 세트에는 200,000개의 대도시 위치를 다루는 XNUMX개 이상의 사진이 있습니다.

IMDB 리뷰는 50개 이상의 영화에 대한 캐스트 정보, 등급, 설명 및 장르를 포함하는 가장 인기 있는 데이터 세트 중 하나입니다. 이 데이터 세트는 기계 학습 모델을 테스트하고 훈련하는 데 사용할 수 있습니다.

  • Amazon 리뷰 및 평가 데이터 세트 (링크)

Amazon 리뷰 및 평가 데이터 세트에는 1996년부터 2014년까지 수집된 Amazon의 다양한 제품 리뷰와 메타데이터의 귀중한 컬렉션(약 142.8억 XNUMX만 레코드)이 포함되어 있습니다. 메타데이터에는 가격, 제품 설명, 브랜드, 카테고리 등이 포함되며 리뷰에는 텍스트 품질, 텍스트의 유용성, 등급 등이 포함됩니다.

그렇다면 머신 러닝 모델을 학습시키기 위해 어떤 데이터 세트를 선택하셨습니까?

우리가 갈 때, 우리는 당신을 떠날 것입니다 프로 팁. 

필요에 맞는 NLP 데이터 세트를 선택하기 전에 README 파일을 철저히 살펴보십시오. 데이터세트에는 데이터세트의 콘텐츠, 데이터가 분류된 다양한 매개변수, 데이터세트의 가능한 사용 사례와 같이 필요한 모든 정보가 포함됩니다.

구축하는 모델에 관계없이 우리 기계를 우리 삶과 더 밀접하고 본질적으로 통합할 수 있는 흥미진진한 전망이 있습니다. NLP를 사용하면 비즈니스, 영화, 음성 인식, 금융 등에 대한 가능성이 다양해집니다. 더 많은 데이터 세트를 찾고 있다면 여기를 클릭하세요.

사회 공유하기

당신은 또한 같은 수 있습니다