오픈소스 OCR

2026년 머신러닝 모델 학습에 사용할 수 있는 최고의 오픈소스 OCR 데이터셋 22가지

광학 문자 인식(OCR)은 이제 영수증 스캔, 신분증 확인, 송장 자동화, 기록 보관소 디지털화, 스타일러스 기반 메모 앱 등에 널리 사용되고 있습니다. OCR 시장은 2030년까지 연평균 14.8%의 성장률로 32.90억 달러에 이를 것으로 예상되며(Grand View Research, 2024), 특히 필기 인식 분야인 지능형 문자 인식이 가장 빠르게 성장할 전망입니다. 문서 분석, 장면 텍스트 감지, 필기체 인식 등 어떤 OCR 프로그램을 개발하든, 사용하는 OCR 데이터셋은 정확도의 한계를 결정짓는 중요한 요소입니다. 이 가이드에서는 사용 사례별로 정리된 22개의 무료 오픈 소스 OCR 데이터셋(최고의 필기 데이터셋 포함)을 소개하고, 2024년까지 출시된 최신 데이터셋들을 함께 살펴봅니다.

주요 요점

  • OCR(광학 문자 인식): 인쇄물, 풍경 또는 손으로 쓴 글씨 이미지를 기계가 읽을 수 있는 데이터로 변환하는 기술.
  • OCR 데이터 세트는 문서/양식, 장면 텍스트, 숫자/문자, 필기, 다국어의 다섯 가지 그룹으로 나뉩니다.
  • OCR 데이터 세트 문서 양식이나 영수증과 같은 구조화된 페이지를 캡처합니다. 장면-텍스트 데이터셋 실제 환경에서 텍스트를 캡처합니다.
  • IAM, MNIST, ICDAR 및 SROIE는 연구 전반에서 가장 많이 인용되는 OCR 벤치마크로 남아 있습니다.
  • 라이선스 조건은 매우 다양하므로 상업적 학습에 앞서 각 OCR 데이터셋을 확인하십시오.

OCR(광학 문자 인식)이란 무엇입니까?

OCR은 스캔한 종이 문서, PDF 또는 텍스트 이미지와 같은 다양한 유형의 문서를 편집 및 검색 가능한 데이터로 변환하는 기술입니다. 다음과 같이 작동합니다.

  • 이미지 속 텍스트 구조 분석
  • 텍스트를 줄과 문자로 나누기
  • 이러한 시각적 문자를 기계가 읽을 수 있는 텍스트로 변환

일반적인 용도는 다음과 같습니다.

  • 스캔한 문서를 편집 가능한 텍스트 파일로 변환
  • 인쇄된 책의 디지털화
  • 사진에서 텍스트 추출
  • 손으로 쓴 처방전을 디지털 텍스트로 변환
  • 번호판 인식

적합한 OCR 데이터셋을 어떻게 선택해야 할까요?

OCR 데이터셋을 선택할 때는 텍스트 유형, 캡처 환경, 주석 세분성, 라이선스라는 네 가지 요소를 고려해야 합니다. 인쇄 문서 OCR에는 필기체나 곡선형 장면 텍스트와는 다른 학습 데이터가 필요합니다. 문서 데이터셋은 송장, 양식, 영수증에 적합하고, 장면 텍스트 데이터셋은 간판이나 제품 설명에, 필기체 데이터셋은 메모, 원고, 스타일러스 입력에 적합합니다. 단어 수준 및 줄 수준 주석은 전체 OCR 파이프라인을 지원하는 반면, 문자 수준 주석은 분류 기준선에 적합합니다. 일부 OCR 데이터셋은 연구용으로만 사용 가능하거나 등록이 필요하므로 라이선스 조건을 반드시 확인해야 합니다.

최고의 문서 및 양식 OCR 데이터 세트는 무엇입니까?

문서 OCR 데이터 세트는 송장, 양식, 영수증, 신분증과 같은 구조화된 페이지를 분석하는 모델을 학습시킵니다. 이러한 모델은 비즈니스 문서 자동화 및 키-값 추출에 활용됩니다.

  1. 자금 — 실제와 같은 모습의 주석이 달린 스캔된 양식 199개. 양식 이해 및 핵심 값 추출을 위한 표준 벤치마크.
  2. 스로이 — ICDAR 2019 스캔 영수증 데이터셋은 약 1,000개의 영수증으로 구성되어 있으며, 단일 데이터셋 내에서 텍스트 감지, 인식 및 정보 추출을 지원합니다.
  3. 코드 — OCR 후 구문 분석을 위해 구축된 통합 영수증 데이터 세트로, 송장 및 영수증 자동화를 위한 풍부한 필드 수준 레이블을 제공합니다.
  4. 엑스펀드 — FUNSD의 다국어 확장판으로, 독일어, 스페인어, 프랑스어, 이탈리아어, 일본어, 포르투갈어, 중국어 등 7개 언어로 제공되며 각 언어별로 199페이지 분량입니다. 다국어 문서 AI에 이상적입니다.
  5. 디디-100 — 기울기, 흐림, 노이즈 등 실제 환경의 손상 조건에서도 탐지 및 인식이 가능한 약 100,000만 개의 왜곡된 문서 이미지 데이터셋을 제공합니다.

장면 텍스트 OCR에 가장 적합한 데이터셋은 무엇인가요?

장면-텍스트 OCR 데이터셋은 표지판, 제품, 거리 풍경과 같은 자연 이미지에서 텍스트를 읽도록 모델을 학습시킵니다. 이러한 데이터셋은 배경이 복잡한 실제 환경의 OCR에 필수적입니다.

  1. ICDAR 견고한 판독 — 단어 수준의 경계 상자와 전사를 사용하는 집중 장면 텍스트 및 부수적 장면 텍스트 과제를 포함하여 대부분의 장면 텍스트 연구의 기반이 되는 벤치마크 패밀리입니다.
  2. COCO-텍스트 — MS-COCO 이미지에 대규모 장면-텍스트 주석을 레이어링했습니다. 자연 장면에서 대규모 텍스트 감지에 효과적입니다.
  3. 전체 텍스트 — 곡선형 및 임의 방향의 텍스트 처리에 특화되어 있으며, 이는 기존 OCR 모델의 약점으로 알려져 있습니다.
  4. SVT(스트리트 뷰 텍스트) — 구글 스트리트 뷰에서 수집한 단어 이미지로, 해상도가 낮고 품질이 매우 다양합니다. Papers with Code 미러 사이트를 통해 이용 가능합니다.
  5. HierText — 문단에서 줄, 단어에 이르기까지 계층적 주석 기능을 제공하며, 손글씨와 인쇄된 장면 텍스트 모두를 지원합니다. 레이아웃을 인식하는 OCR에 유용합니다.

최고의 숫자 및 문자 OCR 데이터 세트는 무엇인가요?

숫자 및 문자 OCR 데이터셋은 통제된 환경에서 개별 기호를 인식하도록 모델을 학습시키는 데 사용됩니다. 이러한 데이터셋은 분류 기준선의 표준적인 출발점입니다.

  1. MNIST — 70,000만 개의 흑백 손글씨 숫자 이미지. 숫자 분류기 검증을 위한 가장 빠른 기준선.
  2. EMNIST — NIST 특수 데이터베이스 19에서 추출한 814,255개의 손글씨 문자와 숫자를 MNIST에 추가합니다.
  3. SVHN(스트리트 뷰 주택 번호) — 실제 주택 번호에서 추출한 600,000만 개 이상의 숫자 이미지. 잡음이 많은 환경에서 MNIST 데이터셋보다 훨씬 실용적인 성능을 제공합니다.
  4. Chars74K — 자연 이미지와 컴퓨터 글꼴을 사용하여 영어 및 칸나다어 문자를 포함하는 74,107개의 이미지.
  5. NIST 특별 데이터베이스 19 — 3,600명의 필기자가 손으로 쓴 810,000만 개 이상의 문자 이미지. 많은 영어 OCR 벤치마크의 출처입니다.

OCR에 가장 적합한 필기체 데이터셋은 무엇인가요?

필기체 데이터셋은 OCR 모델이 필기체, 인쇄체, 그리고 역사적인 필기 텍스트를 읽도록 훈련하는 데 사용됩니다. 가장 강력한 공개 필기체 데이터셋은 필기 텍스트 인식(HTR) 분야에서 가장 많이 인용되는 벤치마크 데이터셋으로 남아 있습니다.

  1. IAM 필기 데이터베이스 — 657명의 필기자가 작성한 13,353줄의 텍스트로 구성된 영어 필기체 인식의 표준 데이터셋입니다. 2024~2025년 OCR 연구에서 여전히 가장 많이 인용된 필기체 데이터셋입니다.
  2. IAM-OnDB — IAM의 온라인 펜 스트로크 버전으로, 궤적 데이터를 캡처합니다. 스타일러스 및 태블릿 인식에 사용되는 표준 필기 데이터 세트입니다.
  3. 벤담 문서 — 철학자 제레미 벤담의 역사적인 영어 원고를 필사한 자료입니다. 역사적인 필기체 OCR 분야의 선두 주자이며, Transkribus를 통해 이용할 수 있습니다.
  4. GNHK(굿노츠 필기체 컬렉션) — 2021년에 수집된 제약 없는 실제 영어 손글씨 메모 데이터 세트입니다. 실험실처럼 깔끔하게 정리된 IAM 데이터보다는 실제 운영 환경에 가까운 지저분한 데이터에 가깝습니다.

최고의 다국어 및 비라틴어 OCR 데이터 세트는 무엇인가요?

 

다국어 OCR 데이터셋은 영어 외에도 중국어, 아랍어, 수학 기호 등을 포함한 다양한 문자 체계를 기반으로 모델을 학습시킵니다. 이는 전 세계적인 문서 및 필기 인식에 필수적입니다.

  1. CASIA-HWDB — 표준 중국어 OCR 벤치마크는 1,020명의 필기자가 작성한 1.17만 개의 손글씨 샘플을 기반으로 합니다.
  2. 카트 — 1,000명의 서로 다른 필기자가 작성한 1,000개의 아랍어 손글씨를 다양한 해상도로 스캔했습니다. 가장 포괄적인 공개 아랍어 OCR 데이터 세트입니다.
  3. 크로메 — 온라인 손글씨 수학식 인식 경진대회: 101개 이상의 수학 기호를 사용한 10,000개 이상의 수학식을 온라인 및 오프라인 형태로 제공. 손글씨 방정식 OCR에 필수적.

무료 OCR 데이터셋을 사용할 때 흔히 발생하는 문제점은 무엇인가요?

대부분의 팀은 세 가지 함정에 빠집니다.

도메인 불일치: 깨끗한 IAM 또는 COCO-Text에 대한 교육을 받고 구겨진 송장에 배포하는 것은 정확도가 떨어지는 결과를 초래합니다.

면허증에 대한 무지: 일부 장면-텍스트 및 역사적 OCR 데이터 세트는 연구용으로만 제공되거나 상업적 사용 전에 등록이 필요합니다.

주석 누락 사항: 많은 OCR 데이터 세트에는 프로덕션 시스템에 필요한 레이아웃 메타데이터, 줄 단위 경계 상자 또는 필드 레이블이 부족합니다.

중소 규모 물류 회사가 배송 라벨 판독 자동화 시스템을 구축했다고 가정해 보겠습니다. 공개된 환경의 텍스트를 활용한 학습으로는 벤치마크에서 80%의 정확도를 달성하지만, 빛 반사와 접힘이 있는 실제 라벨에서는 정확도가 58%로 떨어집니다. 이러한 격차를 해소하기 위해서는 맞춤형 학습이 필요했습니다. 데이터 주석 출시 전 6,000개의 도메인 내 레이블 이미지를 확보했습니다.

오픈 소스 데이터 세트의 이점과 과제

오픈소스 데이터셋의 장점과 과제

기업은 ML 애플리케이션에 무료로 사용할 수 있는 데이터를 선택해야 하는지 여부를 이해하기 위해 이점과 과제를 서로 경쟁해야 합니다.

장점

  • 데이터에 쉽게 액세스할 수 있습니다. 데이터 가용성으로 인해 애플리케이션 개발 비용이 크게 절감됩니다.
  • 데이터 세트를 쉽게 사용할 수 있으므로 애플리케이션에 대한 데이터 수집에 소요되는 시간과 노력이 크게 줄어듭니다.
  • 데이터 세트를 학습, 적용 및 최적화하는 데 도움이 되는 커뮤니티 포럼 또는 도움말 그룹이 많이 있습니다.
  • 오픈 소스 데이터 세트의 주요 장점 중 하나는 사용자 정의에 대한 제한이 없다는 것입니다.
  • 오픈 소스 데이터는 인구의 많은 부분이 액세스할 수 있으므로 금전적 장벽 없이 분석과 혁신이 가능합니다.

도전

  • 프로젝트에 특정한 데이터를 얻기가 어렵습니다. 또한 정보가 누락되거나 사용 가능한 데이터가 잘못 사용될 가능성이 있습니다.
  • 독점 데이터를 획득하려면 시간과 노력이 필요하고 비용이 많이 듭니다.
  • 데이터 획득이 더 쉬울 수 있지만 지식 및 분석 비용이 초기 이점보다 클 수 있습니다.
  • 다른 개발자들도 동일한 데이터를 사용하여 애플리케이션을 개발합니다.
  • 이러한 데이터 세트는 보안 침해, 개인 정보 및 동의에 매우 취약합니다.

Shaip은 OCR 및 필기 인식 프로젝트를 어떻게 지원합니까?

샤입의 OCR 교육 데이터 서비스 공개 데이터셋 큐레이션과 맞춤형 큐레이션을 결합합니다. 데이터 수집 60개 이상의 언어를 지원하며, 인쇄 문서, 필기, 영수증, 신분증 등 다양한 유형의 텍스트를 인식합니다. Shaip의 주석 워크플로는 공개 OCR 데이터 세트에서 누락된 요소, 즉 줄 단위 경계 상자, 필드 단위 레이블, 전사 품질 관리, 필기자 메타데이터를 추가합니다.

맺음말

위의 22개 OCR 데이터셋은 문서, 장면 텍스트, 숫자, 필기, 다국어 인식 등 다양한 분야에 걸쳐 2026년까지 사용할 수 있는 완벽한 오픈 소스 기반을 제공합니다. 텍스트 유형과 캡처 환경에 맞는 OCR 데이터셋으로 시작하고, 실제 데이터의 별도 샘플과 비교하여 검증한 후, 도메인 격차를 해소하기 위한 맞춤형 주석 작업에 예산을 투자하세요. 이러한 조합을 통해 처음부터 직접 구축하는 것보다 훨씬 빠르게 결과를 얻을 수 있습니다.

가장 적합한 무료 OCR 데이터셋은 작업에 따라 다릅니다. ICDAR Robust Reading은 장면 텍스트 인식에, FUNSD와 SROIE는 문서 및 영수증 OCR에, IAM은 필기 인식에 가장 적합합니다. 숫자 인식에는 MNIST와 SVHN이 표준으로 사용됩니다. 대부분의 팀은 하나의 OCR 데이터셋에만 의존하기보다는 여러 범주에 걸쳐 두세 개의 데이터셋을 조합하여 사용합니다.

오픈 소스 OCR 데이터 세트가 모두 상업적 용도로 무료인 것은 아닙니다. MNIST, SVHN, COCO-Text는 관대한 라이선스를 사용하는 반면, IAM, ICDAR 세트, 그리고 과거 필기 데이터 세트는 등록이 필요하거나 연구 목적으로만 사용이 제한되는 경우가 많습니다. 상업용 모델을 학습시키기 전에 각 데이터 세트의 라이선스를 반드시 확인하십시오.

OCR 데이터셋은 인쇄된 문서, 장면 텍스트, 숫자 등 기계가 읽을 수 있는 모든 텍스트 인식을 포괄하는 반면, 필기 데이터셋은 필기 콘텐츠에 초점을 맞춘 하위 집합입니다. IAM 및 Bentham과 같은 필기 데이터셋은 HTR 모델을 학습하는 데 사용되는 반면, 문서 및 장면 텍스트 OCR 데이터셋은 인쇄된 텍스트와 실제 환경의 텍스트를 처리합니다.

다국어 OCR 데이터셋에는 7개 언어의 서식을 지원하는 XFUND, 중국어용 CASIA-HWDB, 아랍어용 KHATT, 그리고 다국어 장면 텍스트를 지원하는 ICDAR MLT가 포함됩니다. 스크립트별 OCR 데이터셋을 합성 데이터 증강과 결합하면 일반적으로 단일 데이터셋만 사용하는 것보다 우수한 성능을 보입니다.

맞춤형 주석 요구 사항은 문서가 공개 데이터와 얼마나 차이가 나는지에 따라 달라집니다. 깔끔하게 인쇄된 양식의 경우 1,000~5,000개의 도메인 내 샘플이 필요할 수 있지만, 알아보기 힘든 필기체, 영수증 또는 희귀한 필기체의 경우 10,000~50,000개의 샘플이 필요할 수 있습니다. Shaip의 주석 파이프라인은 일반적으로 공개 데이터만을 사용한 OCR 학습보다 15~30%의 정확도 향상을 제공합니다.

이 글이 마음에 드셨나요? 더 많은 소식을 받아보시려면 Shaip의 LinkedIn 페이지를 팔로우하세요.

사회 공유하기