광학 문자 인식(OCR)이란? 정의, 적용 사례, 작동 원리

광학 문자 인식의 정의와 활용 방법을 알아봅니다.

정의

광학 문자 인식(OCR)은 이미지 텍스트 추출을 통해 해당 텍스트를 기계가 읽을 수 있는 형식으로 변환하는 컴퓨터 비전의 한 영역으로 종이 문서에 손글씨나 타이핑된 문자를 디지털 형식으로 변환하는 과정을 말합니다.

1990년대에는 많은 기업이 이 기술을 사용하여 종이 문서를 디지털 파일로 변환했습니다. 그 이후 기술이 점점 더 발전되면서 여러 분야에서 사용될 뿐만 아니라 최근에는 인공지능과의 결합으로 많은 산업에서 활용되고 있습니다.

 

장점

과거에는 종이 상의 텍스트를 디지털로 변환하기 위해 수작업이 필요했습니다. 이는 사람이 직접 문서를 입력하여 작업을 수행하는 번거로운 작업으로, 실수가 발생할 수 있고 시간이 많이 소요됐죠. 그러나 광학 문자 인식 프로그램의 등장으로 이제는 원본 콘텐츠를 보존하면서도 빠르게 텍스트를 변환할 수 있게 되었습니다.

종이 문서를 디지털화함으로써 여러 가지 이점을 얻을 수 있습니다. 먼저, 문서를 쉽게 편집하고 서식을 지정할 수 있으며 검색이 가능합니다. 또한 이메일을 통해 문서를 공유하거나 웹 사이트에 업로드하고, 압축 파일로 저장할 수도 있습니다. 이러한 과정은 물리적 저장 공간을 절약하고 비용을 줄일 수 있어, 문서 양이 많은 기업에서 특히 유용합니다.

 

작동 원리

하드웨어와 소프트웨어가 결합된 OCR은 종이 문서를 스캔하고 문서 내의 문자를 데이터 처리에 사용되는 코드로 변환합니다. 그 작동 원리를 단계별로 알아보겠습니다.

1. 이미지 텍스트 추출

광학 스캐너와 같은 하드웨어는 종이 문서를 이미지로 처리합니다. 이 단계에서 이미지 텍스트 추출을 정확하게 표현하고 오류를 최소화하도록 작업합니다. 결과적으로 이미지는 흑백 버전으로 변환되며, 밝은 영역은 주로 배경을 나타내고 어두운 영역은 문자를 나타냅니다. 필요한 경우 도표나 이미지 텍스트 추출 또는 삽입 이미지와 같은 별도의 요소로 이미지를 분류할 수도 있습니다.

2. 지능형 문자 인식(ICR)

인공지능은 이미지의 어두운 부분을 분석해 문자와 숫자를 식별하는데요, 일반적으로 ICR(Intelligent Character Recognition)은 아래 두 가지 방법 중 하나를 사용하여 문자를 인식합니다.

  • 패턴 인식: 이 방법은 다양한 텍스트 형식과 손글씨에 대한 인공지능 알고리즘을 학습합니다. 그런 다음 스캔한 이미지의 문자와 학습된 문자를 비교하여 일치하는 항목을 식별합니다.
  • 특징 추출: 이 방법은 새로운 문자를 인식하기 위해 문자의 각도, 교차, 수평선 및 곡선의 수 등과 같은 특징에 규칙을 적용합니다. 예를 들어, “H”에는 두 개의 수직선과 그 사이에 하나의 수평선이 있습니다. 머신은 이러한 특징 식별자를 사용하여 이미지 내의 모든 “H”를 식별합니다.

문자가 식별되면 머신은 이를 ASCII 코드로 변환하여 추가적인 조작에 사용합니다.

3. 데이터 후처리

인공지능은 ICR의 마지막 단계에서 문서에서 찾을 수 있는 특정 단어 사전에 대한 학습을 통해 오류를 수정합니다. 인공지능의 해석이 사전을 벗어나지 않도록 AI의 출력을 해당 단어/형식으로만 제한합니다.

 

적용 사례

OCR 프로그램 적용 사례

기술의 발전으로 광학 문자 인식은 텍스트를 더욱 정확하게 변환하고 오류를 최소화할 수 있게 되었습니다. 또한 손글씨도 해석도 가능해졌을 뿐만 아니라 다양한 종류의 문서를 디지털화할 수 있는 능력을 갖추게 됐습니다.

 

컴퓨터 문서 작업

인쇄된 문서를 스캔하여 텍스트를 추출하고, 편집 가능한 형태로 쉽게 변환하여 검색할 수 있도록 합니다. 이 과정에서 인공지능 기술은 문서를 최대한 정확하게 변환하는 데 도움을 줍니다.

 

법적 문서 관리

대출 서류와 같이 서명된 중요한 법적 문서를 전자 데이터베이스에 쉽고 빠르게 저장할 수 있습니다. 이를 통해 여러 사람이 문서를 쉽게 열람하고 공유할 수 있습니다.

이는 인쇄 송장을 디지털화하는 데에도 큰 도움이 됩니다. 예를 들어, 스캐너가 송장의 금액을 50만 원을 5만 원으로 잘못 식별한 경우, 일반 프로그램은 이를 오류로 인식하지 못하기 때문에 사람의 검토가 필수적이었습니다. 그러나 인공지능 기반 프로그램은 전체 문서를 분석하여 이러한 오류를 감지하고 수정할 수 있습니다. 따라서 사람의 감독이 필요하지 않고도 송장의 올바른 금액을 정확하게 식별할 수 있습니다.

이 프로그램은 대량의 문서를 효율적으로 분석할 수 있어 작업자의 개입 없이도 작업을 수행할 수 있습니다. 이는 직원들의 작업 부담을 줄여주고 업무 품질을 향상시키며 이직률을 낮출 수 있습니다. 문자 인식 기술의 발전에 따라 인공지능 기반 OCR에 대한 수요는 더욱 증가할 것으로 예상됩니다.

 

소매업

소매업체는 제품을 일련번호로 식별합니다. 이때, OCR 기술을 통해 제품의 바코드를 스캔하고 제품의 일련번호를 추출할 수 있으며 재고를 효율적으로 관리할 수 있습니다.

 

문서 기록 및 보관

기록 문서를 검색 가능한 PDF로 변환합니다. 이는 오래된 신문이나 잡지, 편지 등의 역사적 문서를 디지털 형태로 보관하는 데 유용합니다.

 

금융업

현재는 수표의 앞뒷면을 스마트폰으로 찍어 업로드하는 것으로도 입금이 가능합니다. 인공지능 기반 OCR 프로그램은 수표를 자동으로 검토하여 유효성을 확인하고 입금하려는 금액과 일치하는지 확인합니다.

OCR은 인공지능 기술 발전으로 오류를 줄이고 정확도를 향상시켜 문서 관리의 효율성을 높이는 데 기여하고 있습니다.

 

인사이트

  1. 모델에 적합한 데이터를 사용해 실제 데이터 유형에 맞게 매핑하세요. 예를 들어, 영수증을 자동으로 기록하는 모델을 학습시키기 위해서는 이에 적합한 데이터, 즉, 찾고자 하는 값이 포함된 영수증을 사용해야 합니다. 특히 해당 모델이 사용자 생성 콘텐츠에 적용될 경우, 이 데이터는 다양한 각도에서 찍은 이미지와 여러 유형의 이미지를 활용해 균형을 맞추는 것이 중요합니다.
  2. 올바른 도구 선택이 중요합니다. 학습 데이터의 균형을 유지하기 위해 데이터 라벨링 툴은 모든 종류의 문서에서 작동할 수 있어야 합니다.
  3. 휴먼 인 더 루프(Human in the Loop) 접근 방식을 사용하세요. 모델의 정확성을 높이기 위해서는 AI와 사람의 협업이 필수입니다. 데이터 라벨링 과정에서 작업자와의 협업을 통해 학습 전 데이터의 오류를 찾아 수정하는 것이 좋습니다.

 

에펜의 OCR 솔루션

에펜은 400,000개 이상의 직접 손으로 쓴 이름의 전사를 특징으로 하는 필기 인식 데이터셋을 포함한 전처리 된 데이터셋을 지원합니다. 또한 광학 문자 인식 기능이 추가된 이미지 라벨링을 통해 인공지능 모델에 필요한 고품질 학습 데이터를 얻을 수 있도록 도와드립니다.

OCR 프로젝트를 계획하고 계신가요? 지금 바로 에펜의 데이터 전문가에게 상담 받아보세요!

데이터 라벨링 서비스 문의하기

Language