Upstage

원본 보기

텍스트를 인식하는 OCR의 탄생까지 (사내 OCR 이미지 데이터 수집 챌린지 업스테이지)

2023/02/21 | 작성자: 박성민

업스테이지가 최근 한화생명과 광학문자인식(OCR) 솔루션인 업스테이지의 '문서 AI'를 공급하는 계약을 체결했습니다. 업계 최초로 도입된 업스테이지의 노코드/로코드 AI 솔루션은 의료비 영수증 등 보험금 청구 문서를 효과적으로 처리할 수 있어 특히 금융권에서 AI 혁신을 주도하고 있습니다. 업스테이지 스타들의 헌신적인 노력으로 최고 성능의 솔루션이 탄생했습니다. 'D문서 AI' 그 과정에서 사내 이미지 데이터 수집 챌린지 이벤트를 개최하여 OCR 모델 학습을 진행했습니다.

이들의 노력 덕분에 업스테이지의 문서 AI는 기본 모델 성능만으로 95%가 넘는 전례 없는 인식률을 달성하며 사람의 후처리 없이도 문서 자동화를 실현할 수 있게 되었습니다 . 업스테이지의 현주 데이터 매니저와의 인터뷰를 통해 Document AI 개발의 초석이 된 작년 사내 이미지 데이터 수집 챌린지를 되돌아봅니다 .

[ 최고 성능의 AI OCR, 업스테이지의 문서 AI를 확인하세요. ]



사내 이미지 데이터 수집 이벤트 - 무엇이며 왜 만들었나요?

업스테이지 현재 서비스 '문서 AI'는 한국어와 영어에 특화된 광학 문자 인식(OCR) 모델입니다. OCR은 캡처된 이미지에서 텍스트를 검출하고 인식하는 디지털 혁신 기술로 다양한 산업 분야에서 활용되고 있습니다.

광학 문자 인식(OCR) 기술에 대한 설명

OCR 모델을 만들고 학습하는 과정에는 많은 양의 데이터가 필요합니다 . 수집된 공공 데이터 외에도 다양한 보완 자료가 필요해 사내 데이터 수집 이벤트를 진행하게 되었습니다. 이미지의 특성에 따라 점수를 부여하고, 상위 3등에게는 상금을, 무작위로 선정된 2명에게는 소정의 상품을 지급하여 더 많은 사람들의 참여를 독려했습니다.

특히 지난 3월에 진행된 2차 사내 이미지 데이터 수집 이벤트에서는 OCR 모델을 더욱 발전시키기 위해 세로 텍스트, 손글씨뿐만 아니라 일상 생활 속 텍스트(가로 텍스트, 간판 텍스트, 책 텍스트 등)와 같은 특수한 사례도 다수 수집했습니다.

어떤 이미지가 수집되었나요?

한글과 로마자 기반의 문자가 포함된 사진이라면 무엇이든 제출할 수 있습니다. 특히 이 모델의 건강한 학습을 위해 이미지의 글꼴 크기, 모양, 각도 등 다양한 데이터를 고려합니다. 이러한 특성은 점수 분배 및 평가의 기반이 됩니다. 기존 업스테이지 모델의 취약점을 고려해 세로쓰기, 손글씨, 엠보싱, 조각, 디지털 시계처럼 점과 선의 조합으로 구성된 글자, 밑줄이나 강조 등 글자가 경계를 통과하는 경우 등에 대해 가산점을 부여했다.

또한, 현재 모델이 인식하기 어려운 이미지를 발굴하기 위해 OCR 데모 사이트를 일반에 공개했습니다. 스타들은 데모 사이트에 직접 이미지를 업로드하여 모델의 예측 결과를 확인하고 재미있게 참여할 수 있습니다 .

사내 이미지 데이터 수집 이벤트 제출 시 참고 자료로 사용되는 Upstage OCR 데모 사이트

AI 모델 학습에 있어 데이터의 중요성은 이미 확립되어 있습니다. 하지만 충실도가 높은 모델을 구현하려면 얼마나 많은 데이터가 필요할까요?

원하는 정확도에 따라 필요한 데이터의 양은 달라질 수 있습니다. 하지만 일반적인 장면 텍스트 데이터의 경우, 모델을 학습시키는 데 약 5만 개 정도의 데이터가 있어야 일반에 공개할 수 있습니다. 물론 학습 데이터는 많을수록 좋기 때문에 업스테이지에서는 사내 이벤트를 통해 최대한 많은 이미지 데이터를 수집하는 것을 목표로 하고 있습니다.

이벤트를 통해 얼마나 많은 데이터가 수집되었나요?

많은 스타들이 팀으로 참여해주신 덕분에 총 7,570개의 이미지 데이터( )를 추가로 수집할 수 있었습니다. 이번 이벤트의 최고 득점자 상위 2위는 4.326점을 얻은 Van과 3.373점을 얻은 유정이가 차지했습니다. 반 씨는 서점을 방문해 세로 텍스트 이미지를 대량으로 확보하고, 가산점을 받을 수 있는 아이템에 집중하는 등 다양한 전략을 열정적으로 실행해 1등을 차지했습니다 . 책 제목 등의 사진을 통해 세로 텍스트 부문에서 높은 보너스 점수를 획득했습니다.

또한, 개인이 제출한 이미지의 점수가 30분마다 업데이트되는 리더보드가 표시되어 마감 시간까지 상위권 간의 치열한 경쟁이 이어졌습니다. 마감 직전에 높은 점수를 받은 이미지를 제출하여 경쟁자에게 최종 결과를 숨기는 기발한 전략도 있었습니다.

사내 이미지 데이터 수집 이벤트(세로 텍스트 부문)에서 1위를 차지한 스타 반 씨의 제출 사례

사내 이미지 데이터 수집 이벤트에서 어떤 결론에 도달했나요?

모델의 성능은 테스트 세트와 측정 방식에 따라 달라지기 때문에 예를 들어 어떤 도메인에서 성능이 향상되었는지, 다른 도메인에서 성능이 저하되었는지 등을 비교하기는 어렵습니다. 하지만 이번 사내 이벤트를 통해 수집된 데이터를 OCR 모델에 활용했을 때 모든 도메인에서 성능이 크게 개선된 것으로 나타났습니다.

특히 이번 이벤트를 통해 얻은 주요 성과 중 하나는 손글씨나 특이한 스타일의 텍스트 등 성능이 저하되는 부분에 대한 광범위한 이미지 데이터를 수집하여 모델의 문제를 정량적으로 확인할 수 있게 되었다는 점입니다.

과거에는 이러한 모델 문제를 식별하기 위한 테스트 세트 외에는 모델에 대한 학습 데이터가 충분하지 않았습니다. 충분한 데이터를 수집하기 위해 모델의 성능은 경험적 관점, 즉 사내 이벤트에서 접근하여 테스트 세트 구성과 특수 사례에 대한 모델 문제를 정량적으로 측정할 수 있는 충분한 데이터를 수집했습니다.

이번 이벤트에서는 범용 OCR 모델의 성능 향상을 위해 일상적인 풍경의 텍스트를 수집했습니다. 표준화된 문서 텍스트와 비교해 문자의 모양, 크기, 특징이 달라 향후 다양한 작업을 개선하는 데 필요한 기초 기술을 제공했습니다.

최근 한화생명에 공급한 OCR 모델은 범용 OCR 모델과는 달리 문서에 특화된 모델입니다. 하지만 업스테이지 문서 AI 개발 초기에는 한 가지 측면에만 초점을 맞춰 모델을 구축하기보다는 모든 필수 요소를 염두에 두고 모델을 만들었습니다. 초기 가설과 목표를 설정하는 것이 이 모델의 토대가 되었습니다.

데이터 팀은 업스테이지 OCR의 든든한 기둥입니다! 앞으로의 계획과 포부가 궁금합니다.

올해 업스테이지 데이터 팀의 목표는 엔진 개발에 필요한 데이터를 적시에 공급하는 것입니다.

문서 AI 엔진 팀과 자주 협업하면서 다양한 과제를 해결할 수 있는 우수한 데이터를 만들기 위해 함께 노력하고 있습니다. 예를 들어 손글씨, 체크박스, 도장 등 텍스트에 특화된 문서 전문 모델의 인식 성능을 개선하는 데 주력하고 있습니다. 이렇게 다양한 데이터를 적시에 제공하기 위해 데이터 구축 과정의 자동화 및 효율성 향상에 필요한 측면을 고려하고 있습니다.

개인적으로는 로데이터를 위한 양식, 모델 학습에 최적화된 주석 방식 등 각 업무에 적합한 데이터 설계에 집중하고 있습니다. 팀원들과 함께 올해의 목표를 달성해 업스테이지의 문서 AI가 더욱 빛을 발할 수 있도록 노력하겠습니다!

업스테이지의 OCR 솔루션 '문서 AI'를 활용해 구겨지거나 훼손된 진료비 영수증을 처리하는 시연 장면