필기 데이터 세트

ML 모델 훈련을 위한 15가지 최고의 오픈 소스 필기 데이터 세트

비즈니스 세계는 경이적인 속도로 변화하고 있지만 이러한 디지털 혁신은 우리가 바라는 것만큼 광범위하지 않습니다. 사람들은 대기업에서 중소기업에 이르기까지 일상 업무에서 여전히 물리적 문서를 처리하고 있습니다. 사용 빈도가 상당히 감소했지만 완전히 제거되지는 않았습니다. 디지털 사용을 위해 문서를 스캔하는 시간 소모적인 프로세스 대신 최신 OCR 시간 효율적이고 효과적입니다.

광학 문자 인식 사용의 증가는 주로 자동 인식 시스템의 생산 증가에 기인할 수 있습니다. 결과적으로 OCR 기술의 글로벌 시장 가치는 $ 8.93 억 2021년에는 15.4년에서 2022년 사이에 2030%의 CAGR로 성장할 것으로 예측됩니다.

그러나 OCR 기술이란 정확히 무엇입니까? 효율적인 AI 모델을 개발하는 기업의 판도를 바꾸는 이유는 무엇입니까? 알아 보자.

OCR이란 무엇입니까?

텍스트 인식이라고도 하며, OCR 또는 광학 문자 인식 스캔한 문서, 이미지 전용 PDF 및 손으로 쓴 메모에서 인쇄되거나 작성된 데이터를 기계가 읽을 수 있는 형식으로 추출하는 프로그램입니다. 소프트웨어는 이미지에서 각 문자를 가져와 단어와 문장으로 결합하므로 문서에 쉽게 액세스하고 디지털 방식으로 편집할 수 있습니다.

오픈 소스 데이터 세트란 무엇입니까?

OCR 기술이 활용될 가능성이 큰 곳이 여러 곳 있습니다. 일부 장소에는 공항, 전자책 출판, 광고, 은행 및 공급망 시스템이 포함됩니다. 그러나 응용 프로그램이 목적을 달성하려면 프로젝트별 교육을 받아야 합니다. 광학 문자 인식 데이터 세트.

애플리케이션의 효율성은 데이터 세트의 품질과 관련된 교육 방법에 크게 좌우됩니다. 그러나 고품질의 디지털 및 필기 데이터 세트 신청이 어렵습니다. 따라서 많은 회사에서 독점 데이터 세트 대신 오픈 소스 또는 무료 데이터 세트를 사용합니다.

오픈 소스 데이터 세트의 이점과 과제

기업은 ML 애플리케이션에 무료로 사용할 수 있는 데이터를 선택해야 하는지 여부를 이해하기 위해 이점과 과제를 서로 경쟁해야 합니다.

장점

  • 데이터에 쉽게 액세스할 수 있습니다. 데이터 가용성으로 인해 애플리케이션 개발 비용이 크게 절감됩니다.
  • 데이터 세트를 쉽게 사용할 수 있으므로 애플리케이션에 대한 데이터 수집에 소요되는 시간과 노력이 크게 줄어듭니다.
  • 데이터 세트를 학습, 적용 및 최적화하는 데 도움이 되는 커뮤니티 포럼 또는 도움말 그룹이 많이 있습니다.
  • 오픈 소스 데이터 세트의 주요 장점 중 하나는 사용자 정의에 대한 제한이 없다는 것입니다.
  •   오픈 소스 데이터는 인구의 많은 부분이 액세스할 수 있으므로 금전적 장벽 없이 분석과 혁신이 가능합니다.

도전

  • 프로젝트에 특정한 데이터를 얻기가 어렵습니다. 또한 정보가 누락되거나 사용 가능한 데이터가 잘못 사용될 가능성이 있습니다.
  • 독점 데이터를 획득하려면 시간과 노력이 필요하고 비용이 많이 듭니다.
  • 데이터 획득이 더 쉬울 수 있지만 지식 및 분석 비용이 초기 이점보다 클 수 있습니다.
  • 다른 개발자들도 동일한 데이터를 사용하여 애플리케이션을 개발합니다.
  • 이러한 데이터 세트는 보안 침해, 개인 정보 및 동의에 매우 취약합니다.

기계 학습을 위한 15가지 최고의 필기 및 OCR 데이터 세트

오픈 소스 OCR 데이터세트

많은 오픈 소스 데이터 세트를 텍스트 인식 애플리케이션 개발에 사용할 수 있습니다. 베스트 15 중 일부는

  1. ICDAR 데이터 세트

    문서 분석 및 인식을 위한 국제 회의에는 주석과 함께 229개의 교육 및 233개의 테스트 이미지 저장소가 있습니다. 텍스트 감지 평가를 위한 벤치마크 역할을 합니다.

  2. IIIT 5K 단어 데이터 세트

    Google 이미지 검색에서 가져온 IIIT 5K-word는 간판, 광고판, 번호판 및 포스터의 단어 모음입니다. 여기에는 5K의 잘린 단어 이미지가 포함되어 있어 사용 가능한 가장 광범위한 텍스트 인식 데이터 세트 중 하나입니다.

  3. NIST 데이터베이스

    NIST 또는 National Institute of Science는 3600개 이상의 문자 이미지가 포함된 810,000개 이상의 필기 샘플 컬렉션을 무료로 제공합니다.

  4. MNIST 데이터베이스

    NSIT의 Special Database 1 및 3에서 파생된 MNIST 데이터베이스는 훈련 세트에 대한 60,000개의 손으로 쓴 숫자와 테스트 세트에 대한 10,000개의 예제로 컴파일된 모음입니다. 이 오픈 소스 데이터베이스는 모델이 패턴을 인식하도록 훈련하는 동시에 사전 처리에 소요되는 시간을 줄이는 데 도움이 됩니다.

  5. 텍스트 감지

    오픈 소스 데이터베이스인 텍스트 감지 데이터 세트에는 간판, 문판, 경고판 등의 실내외 이미지가 약 500개 포함되어 있습니다.

  6. 스탠포드 OCR

    Stanford에서 발행한 이 무료 데이터 세트는 MIT Spoken Language Systems Group에서 손으로 쓴 단어 모음입니다.

  7. DDI-100

    Distorted Document Images Dataset이라고도 불리는 DDI-100은 여러 기하학적 패턴과 왜곡이 적용된 6658페이지 이상의 문서 모음입니다. 또한 DDI-100에는 99870개 이상의 이미지, 스탬프 마스크, 텍스트 마스크 및 경계 상자가 있습니다.

  8. RoadText-1K

    비디오에서 텍스트를 감지하도록 모델을 훈련시키는 데 도움이 되는 가장 큰 데이터 세트 중 하나인 RoadText-1K에는 경계 상자 텍스트 주석과 모든 비디오 프레임의 텍스트 전사가 포함된 1000개의 비디오 클립이 포함되어 있습니다.

  9. MSRA-TD500

    300개의 교육 및 200개의 텍스트 이미지가 포함되어 있습니다. MSRA-TD500에는 중국어와 영어의 문자가 포함되어 있으며 문장 수준에서 주석이 달려 있습니다.

  10. MJSynth 데이터세트

    옥스포드 대학에서 제공한 이 단어 데이터 세트에는 9개 이상의 영어 단어를 포함하는 거의 90만 개의 합성 생성 이미지가 있습니다.

  11. 스트리트 뷰 텍스트

    Google 스트리트 뷰 이미지에서 수집한 이 데이터 세트에는 주로 보드와 거리 표지판의 텍스트 감지 이미지가 있습니다.

  12. 문서 데이터베이스

    문서 데이터베이스는 941명의 작가가 작성한 표, 공식, 그림, 도표, 목록 등을 포함하여 189개의 손으로 쓴 문서 모음입니다.

  13. 수학 표현

    The Mathematics Expressions는 101개의 수학 기호와 10,000개의 표현식을 포함하는 데이터베이스입니다.

  14. 스트리트 뷰 하우스 번호

    Google Street View에서 가져온 이 Street View House Numbers는 73257개의 거리 집 번호를 포함하는 데이터베이스입니다.

  15. 자연환경 OCR

    자연 환경 OCR은 전 세계적으로 거의 660개의 이미지와 5238개의 텍스트 주석으로 구성된 데이터세트입니다.

이들은 텍스트 감지 애플리케이션을 위한 ML 모델 교육을 위한 최고의 오픈 소스 데이터 세트 중 일부였습니다. 비즈니스 및 애플리케이션 요구 사항에 맞는 것을 선택하는 데는 시간과 노력이 필요할 수 있습니다. 그러나 적절한 데이터 세트를 결정하기 전에 이러한 데이터 세트를 실험해야 합니다.

신뢰할 수 있고 효율적인 텍스트 감지 응용 프로그램으로 발전하는 데 도움이 되는 것은 상위 기술 솔루션 제공업체인 Shaip입니다. 우리는 기술 경험을 활용하여 맞춤형, 최적화 및 효율적인 OCR 교육 데이터 세트 다양한 클라이언트 프로젝트를 위해 우리의 능력을 완전히 이해하려면 지금 우리에게 연락하십시오.

사회 공유하기