필기 데이터 세트

ML 모델 교육을 위한 22가지 최고의 오픈 소스 OCR 및 필기 데이터 세트

광학 문자 인식 사용의 증가는 주로 자동 인식 시스템의 생산 증가에 기인할 수 있습니다. 결과적으로 OCR 기술의 글로벌 시장 가치는 $ 8.93 억 2021년에는 15.4년에서 2022년 사이에 2030%의 CAGR로 성장할 것으로 예측됩니다.

그러나 OCR 기술이란 정확히 무엇입니까? 효율적인 AI 모델을 개발하는 기업의 판도를 바꾸는 이유는 무엇입니까? 알아 보자.

OCR(광학 문자 인식)이란 무엇입니까?

OCR은 스캔한 종이 문서, PDF 또는 텍스트 이미지와 같은 다양한 유형의 문서를 편집 및 검색 가능한 데이터로 변환하는 기술입니다. 다음과 같이 작동합니다.

  • 이미지 속 텍스트 구조 분석
  • 텍스트를 줄과 문자로 나누기
  • 이러한 시각적 문자를 기계가 읽을 수 있는 텍스트로 변환

일반적인 용도는 다음과 같습니다.

  • 스캔한 문서를 편집 가능한 텍스트 파일로 변환
  • 인쇄된 책의 디지털화
  • 사진에서 텍스트 추출
  • 손으로 쓴 처방전을 디지털 텍스트로 변환
  • 번호판 인식

OCR 훈련 데이터

오픈 소스 데이터 세트의 이점과 과제

기업은 ML 애플리케이션에 무료로 사용할 수 있는 데이터를 선택해야 하는지 여부를 이해하기 위해 이점과 과제를 서로 경쟁해야 합니다.

장점

  • 데이터에 쉽게 액세스할 수 있습니다. 데이터 가용성으로 인해 애플리케이션 개발 비용이 크게 절감됩니다.
  • 데이터 세트를 쉽게 사용할 수 있으므로 애플리케이션에 대한 데이터 수집에 소요되는 시간과 노력이 크게 줄어듭니다.
  • 데이터 세트를 학습, 적용 및 최적화하는 데 도움이 되는 커뮤니티 포럼 또는 도움말 그룹이 많이 있습니다.
  • 오픈 소스 데이터 세트의 주요 장점 중 하나는 사용자 정의에 대한 제한이 없다는 것입니다.
  •   오픈 소스 데이터는 인구의 많은 부분이 액세스할 수 있으므로 금전적 장벽 없이 분석과 혁신이 가능합니다.

도전

  • 프로젝트에 특정한 데이터를 얻기가 어렵습니다. 또한 정보가 누락되거나 사용 가능한 데이터가 잘못 사용될 가능성이 있습니다.
  • 독점 데이터를 획득하려면 시간과 노력이 필요하고 비용이 많이 듭니다.
  • 데이터 획득이 더 쉬울 수 있지만 지식 및 분석 비용이 초기 이점보다 클 수 있습니다.
  • 다른 개발자들도 동일한 데이터를 사용하여 애플리케이션을 개발합니다.
  • 이러한 데이터 세트는 보안 침해, 개인 정보 및 동의에 매우 취약합니다.

기계 학습을 위한 22가지 최고의 필기 및 OCR 데이터 세트

오픈 소스 OCR 데이터세트

많은 오픈 소스 데이터 세트를 텍스트 인식 애플리케이션 개발에 사용할 수 있습니다. 베스트 22 중 일부는

  1. NIST 데이터베이스

    NIST 또는 National Institute of Science는 3600개 이상의 문자 이미지가 포함된 810,000개 이상의 필기 샘플 컬렉션을 무료로 제공합니다.

  2. MNIST 데이터베이스

    NSIT의 Special Database 1 및 3에서 파생된 MNIST 데이터베이스는 훈련 세트에 대한 60,000개의 손으로 쓴 숫자와 테스트 세트에 대한 10,000개의 예제로 컴파일된 모음입니다. 이 오픈 소스 데이터베이스는 모델이 패턴을 인식하도록 훈련하는 동시에 사전 처리에 소요되는 시간을 줄이는 데 도움이 됩니다.

  3. 텍스트 감지

    오픈 소스 데이터베이스인 텍스트 감지 데이터 세트에는 간판, 문판, 경고판 등의 실내외 이미지가 약 500개 포함되어 있습니다.

  4. 스탠포드 OCR

    Stanford에서 발행한 이 무료 데이터 세트는 MIT Spoken Language Systems Group에서 손으로 쓴 단어 모음입니다.

  5. 스트리트 뷰 텍스트

    Google 스트리트 뷰 이미지에서 수집한 이 데이터 세트에는 주로 보드와 거리 표지판의 텍스트 감지 이미지가 있습니다.

  6. 문서 데이터베이스

    문서 데이터베이스는 941명의 작가가 작성한 표, 공식, 그림, 도표, 목록 등을 포함하여 189개의 손으로 쓴 문서 모음입니다.

  7. 수학 표현

    The Mathematics Expressions는 101개의 수학 기호와 10,000개의 표현식을 포함하는 데이터베이스입니다.

  8. 스트리트 뷰 하우스 번호

    Google Street View에서 가져온 이 Street View House Numbers는 73257개의 거리 집 번호를 포함하는 데이터베이스입니다.

  9. 자연환경 OCR

    자연 환경 OCR은 전 세계적으로 거의 660개의 이미지와 5238개의 텍스트 주석으로 구성된 데이터세트입니다.

  10. 수학 표현

    10,000개 이상의 수학 기호가 포함된 101개 이상의 표현식.

  11. 손으로 쓴 한자

    약 909,818개의 뉴스 기사에 해당하는 10개의 손글씨 한자 이미지로 구성된 데이터 세트입니다.

  12. 아랍어 인쇄 텍스트

    113,284개의 아랍어 글꼴을 사용하는 10 단어의 어휘집입니다.

  13. 필기체 영어 텍스트

    1700개 이상의 항목이 포함된 화이트보드에 손으로 쓴 영어 텍스트입니다.

  14. 3000개 환경 이미지

    다양한 조명 아래의 실외 및 실내 장면을 포함한 다양한 환경의 3000개 이미지.

  15. 문자74K 데이터

    영어 및 칸나다어 숫자 이미지 74,000개.

  16. IAM(IAM 필기)

    IAM 데이터베이스에는 영국 영어의 Lancaster-Oslo/Bergen Corpus에서 13,353명의 작가가 손으로 쓴 657개의 텍스트 이미지가 있습니다.

  17. FUNSD(시끄러운 스캔 문서의 양식 이해)

    FUNSD에는 다양하고 시끄러운 모양의 주석이 달린 스캔 양식 199개가 포함되어 있어 양식 이해가 어렵습니다.

  18. 텍스트 OCR

    TextOCR은 자연 이미지의 임의 모양의 장면 텍스트에 대한 텍스트 인식을 벤치마킹합니다.

  19. 트위터 100k

    Twitter100k는 약하게 감독되는 크로스 미디어 검색을 위한 대규모 데이터 세트입니다.

  20. SSIG-SegPlate – 번호판 문자 분할(LPCS)

    이 데이터 세트는 101개의 주간 차량 이미지를 사용하여 번호판 문자 분할(LPCS)을 평가합니다.

  21. 105,941 이미지 자연 풍경 12개 언어 OCR 데이터

    데이터에는 12개 언어(아시아 6개, 유럽 6개)와 다양한 자연 장면 및 각도가 포함되어 있습니다. 줄 수준 경계 상자와 텍스트 전사 기능이 있습니다. 다국어 OCR 작업에 유용합니다.

  22. 인도 간판 이미지 데이터세트

    데이터 세트에는 낮, 저녁, 밤의 다양한 기상 조건에서 촬영된 분류 및 탐지를 위한 인도 교통 표지판 이미지가 있습니다.

이들은 텍스트 감지 애플리케이션을 위한 ML 모델 교육을 위한 최고의 오픈 소스 데이터 세트 중 일부였습니다. 비즈니스 및 애플리케이션 요구 사항에 맞는 것을 선택하는 데는 시간과 노력이 필요할 수 있습니다. 그러나 적절한 데이터 세트를 결정하기 전에 이러한 데이터 세트를 실험해야 합니다.

[또한 읽기: OCR 인포그래픽 – 정의, 이점, 과제 및 사용 사례]

신뢰할 수 있고 효율적인 텍스트 감지 애플리케이션으로 나아가는 데 도움을 드리는 곳은 Shaip입니다. Shaip은 높은 순위의 기술 솔루션 제공업체입니다. 저희는 기술 경험을 활용하여 다양한 클라이언트 프로젝트를 위한 사용자 정의 가능하고 최적화되고 효율적인 OCR 교육 데이터 세트를 만듭니다. 저희의 역량을 완전히 이해하려면 오늘 저희에게 연락하세요.

사회 공유하기