디지털 자산화 101을 위한 기술
2023/11/14 | 작성자: 루시 박
(이 블로그는 '무엇이든 디지털화하세요!' 시리즈의 2부입니다.)
이전 블로그에서 언급한 바와 같이 디지털 자산화는 반드시 디지털 트랜스포메이션에 선행되어야 합니다. 그러나 이러한 자산화의 목적에 따라 사용되는 기술은 달라집니다. 그렇다면 어떤 기술을 사용해야 할까요? 이 글에서는 목적과 데이터에 따라 어떤 기술을 채택해야 하는지 설명합니다.
OCR: 문서의 모든 문자를 판독하는 기술
조직의 데이터가 이미지나 문서 파일 형태로 되어 있고 파일의 모든 문자를 찾아서 읽으려는 경우, 광학 문자 인식(OCR)을 사용할 수 있습니다.
OCR은 어떤 입력을 받나요? PNG, JPG, PDF 등의 문서 파일입니다.
OCR은 어떤 출력을 반환하나요? 문자 및 문자 위치 정보입니다.
OCR은 어떻게 작동하나요? OCR은 두 가지 모델로 구성됩니다. 먼저, 주어진 파일에서 문자를 찾는 검출기와 검출기가 찾은 문자를 해독하는 인식기가 있습니다.
검출기 → 인식기
검출기의 경우 문자의 위치는 사각형(4점의 정사각형), 다각형(2N개의 점으로 표현되는 윤곽선), 중심점(하나의 중심점) 등으로 표현됩니다. 업스테이지 문서 OCR은 위 사진과 같이 4개의 점으로 이루어진 직사각형 방식으로 감지합니다.
반대로 인식기의 경우, 미리 정의된 대상 문자를 기반으로 문자 인식이 수행됩니다. 정의되지 않은 문자는 일반적으로 "�"와 같은 알 수 없는 기호로 인식됩니다. 현재 업스테이지 문서 OCR에서 정의된 인식 대상 문자는 다음과 같습니다:
(1) 한국어
(2) 영어
(3) 숫자
(4) 한자
(5) 특수 문자
고객 요청에 따라 이 목록을 지속적으로 업데이트하고 있습니다.
최근에는 디텍터와 인식기 모두 딥러닝 기반 모델로 개발되고 있으며, 활용 시나리오에 따라 디텍터와 인식기를 별도로 개발하는 대신 엔드투엔드 통합 모델로 대체할 수 있습니다.
좋은 OCR 모델은 무엇으로 구성되나요?
회사에 가장 적합한 OCR 모델을 채택하려면 모델을 제대로 평가할 수 있어야 합니다. 다음은 평가에 도움이 될 수 있는 네 가지 기준입니다:
정확도: OCR 모델에서 많은 고객에게 가장 중요한 지표는 정확도입니다. 보다 정확한 기술 용어는 F1 점수이며, 2023년 현재 상용 수준의 모델은 모든 테스트 세트에서 95점 이상을 기록하는 것이 일반적입니다.
추론 속도: 추론 속도는 실시간으로 결과를 반환하는 데 중요합니다. 이 속도는 이미지에 포함된 문자 수에 따라 달라지지만, 이미지당 2초 미만의 추론 속도가 적절합니다. 추론 속도는 일반적으로 정확도와 상충 관계에 있습니다. 추론 속도가 덜 중요한 경우, 속도는 느리지만 정확도가 그에 상응하는 높은 모델을 선택할 수 있습니다.
인식 범위: OCR 모델이 인식하는 문자의 범위는 ISO-15924에 정의된 문자 세트 또는 ISO 639-1의 언어 코드에 해당합니다. 따라서 OCR을 활용하기 전에 회사의 업무에 적합한 문자 세트 또는 언어 코드를 확인하는 것이 중요합니다. 또한 유니코드에 정의되지 않은 서명, 체크박스, 스탬프도 반드시 검토해야 합니다.
견고성: AI 모델의 특성상 정확도 점수는 테스트 세트와 메트릭에 따라 크게 달라질 수 있습니다. 따라서 어떤 사례에서 95점의 정확도를 기록한 OCR 모델이 다른 사례에서는 80점을 기록하는 것은 놀라운 일이 아닙니다. 일반적으로 특정 사례에서만 좋은 점수를 받는 모델이 회사의 데이터에서 품질이 좋지 않다면 모델의 일반화 성능이 좋지 않은 것으로 간주할 수 있습니다. 좋은 OCR 모델은 다양한 실제 데이터, 즉 엣지 케이스에 대해 우수한 품질을 갖습니다. 따라서 특정 OCR 모델이 적합한 성능을 가지고 있는지 검증하기 위해서는 데이터의 다양한 사례를 분석할 수 있는 충분한 견고성을 가지고 있는지 검증하는 것이 중요합니다.
OCR은 어떤 용도로 사용되나요?
OCR의 대표적인 용도는 다음과 같습니다:
이미지 검색: 이 기술은 문서 내의 문자를 색인화하여 이미지를 검색하는 데 사용할 수 있습니다. 이 기술은 특정 문서에 언급된 단어나 문장을 기반으로 관련 이미지를 찾는 데 유용합니다. OCR은 사용자가 입력한 텍스트를 분석하여 인터넷이나 데이터베이스에서 관련 이미지를 제시합니다.
만화 번역: 또한 OCR은 만화에 포함된 텍스트를 추출하여 다른 언어로 번역할 수 있습니다. 이는 전 세계 독자들에게 유용한 기술로, 다양한 언어로 만화를 쉽게 접할 수 있게 해줍니다.
정보 추출: 문서에서 핵심 정보를 선별하는 OCR에서 진화한 기술
단순히 텍스트 전체를 읽는 것이 아니라 문서에 포함된 주요 정보를 골라내고 싶을 때는 OCR에서 한 단계 더 나아가 정보 추출 기술을 사용할 수 있습니다.
정보 추출은 어떤 입력을 받나요? PNG, JPG, PDF 등의 문서 파일 목록과 추출하려는 모든 주요 정보입니다.
정보 추출은 어떤 결과를 반환하나요? 필요한 데이터를 구조화된 정보로 출력합니다.
정보 추출은 어떻게 이루어지나요? OCR과 마찬가지로 디텍터와 인식기가 수행된 후 주어진 모든 문자에서 필요한 정보만 추출하는 파서가 실행됩니다.
디텍터 → 인식기 → 파서
추출하려는 주요 정보 목록을 "온톨로지"라고 합니다. 예를 들어 문서에서 추출하려는 온톨로지가 환자 등록 번호, 치료 기간 또는 영수증 번호인 경우, 이 세 가지 정보를 포함하도록 데이터에 주석을 달면 됩니다. 이 데이터에서 학습된 정보 추출기는 키-값 쌍의 형태로 최종 값을 반환합니다.
적합한 정보 추출 모델
다음은 정보 추출 모델을 평가하는 데 사용할 수 있는 네 가지 기준입니다:
정확도, 추론 속도: 대부분의 OCR 모델과 마찬가지로 정확도와 추론 속도는 중요하며 이 둘 사이에는 상충 관계가 있습니다.
다양한 템플릿에 대한 적응성: 기존 기본 모델의 경우 문서 템플릿이 변경되면 핵심 정보를 전혀 추출할 수 없습니다. 하지만 AI 기술로 개발된 모델은 기존 템플릿이 없어도 정보를 추출할 수 있다는 장점이 있습니다.
조직의 데이터 형식 지원: 때로는 문서의 모든 주요 정보를 필요한 형식으로 표현할 수 없는 경우가 있습니다. 예를 들어 행과 열이 있는 표 형식으로 추출된 정보가 필요할 수 있습니다.
4. 신뢰도 점수 제공: 많은 경우, 정보 추출은 문서에 입력되는 정보를 자동화하는 데 사용됩니다. '신뢰도 점수'는 추출된 정보가 사람의 검증이 필요한지 여부를 확인하는 데 유용할 수 있습니다. 신뢰도 점수가 제공되면 특정 임계값 이상의 항목은 자동으로 처리되고, 그 이하의 항목은 사람이 검사하거나 별도의 처리 절차를 거치게 됩니다. 기준점은 조직에서 자체적으로 원하는 대로 설정해야 합니다.
어떤 용도로 사용되나요?
다양한 유형의 문서를 관계형 DB에 로드: 보험사는 정보 추출 기술을 사용하여 중요한 데이터(예: 약품명, 금액 등)를 선택적으로 추출하고, 의료비 영수증과 세부 의료비 명세서에서 필요한 정보를 자동으로 추출합니다. 추출된 정보가 데이터베이스에 자동으로 저장되면 이를 재사용하여 의약품 사용량 등의 통계 데이터를 쉽게 생성할 수 있습니다.
개인정보 마스킹: 이름, 주민등록번호, 주소와 같은 개인정보를 자동으로 식별하여 문서에서 마스킹(숨김) 처리할 수 있습니다. 이 보안 기능은 문서가 개인정보 보호 규정을 준수하는 데 도움이 됩니다.
업무 자동화: 물류 및 운송 회사는 화물의 배송을 인증하고 추적합니다. 선하증권(B/L) 문서에는 화물 세부 정보, 출발지, 목적지, 운송 조건 등의 주요 정보가 포함되어 있으며, 이 데이터를 저장합니다. 자동 추출 기술은 화물 관리, 운송 경로 최적화, 배송 상태 추적과 같은 프로세스를 자동화하여 물류 효율성을 크게 향상시킬 수 있습니다.
앞으로 나아가기
OCR과 정보 추출 기술은 단순한 데이터 처리를 넘어 효과적인 디지털 자산화는 물론 비즈니스 프로세스의 근본적인 혁신을 가능하게 합니다. 중요한 정보를 빠르고 정확하게 추출하는 프로세스를 자동화함으로써 업무 효율성을 크게 향상시킵니다. 이미 보험, 제조, 은행, 병원, 유통 등 다양한 산업 분야에서 활용되고 있는 이러한 기술은 더 넓은 분야로 확장될 수 있습니다. 이 글에서 소개한 사례를 참고하여 각 기업의 업무 환경에 최적화된 솔루션을 찾아 적용함으로써 보다 빠르고 정확하며 효율적인 업무 프로세스를 구축할 수 있습니다.