2023/07/06 | 작성자: 송지은, 박성민

업스테이지가 아마존, 엔비디아, 알리바바, 화웨이 등 글로벌 기술 대기업을 제치고 권위 있는 'ICDAR 2023' 대회에서 4개 부문 우승을 차지하며 AI OCR 분야의 기술 우위를 입증했습니다.

'ICDAR 로버스트 리딩 대회'는 디지털 이미지와 동영상에서 텍스트를 감지하고 인식하는 기업의 성능을 평가하는 대회입니다. 업스테이지의 뛰어난 성능으로 4개 부문에서 1위를 차지했습니다: HierText-1/2, VQAonBD, IHTR. 이 놀라운 성과를 달성한 업스테이지의 뛰어난 멤버들을 만나보세요.

[선도적인 문서 AI의 힘을 지금 경험하세요! →]

[HierText-1/2]
경쟁에 참여하고 집중하는 것은 큰 즐거움입니다!

Q: 만나서 반갑습니다. 자기소개 부탁드립니다.

김다현: 안녕하세요, 업스테이지의 멀티모달 AI 연구원인 김다현입니다.

김윤수: 안녕하세요, AI 연구 개발을 담당하는 AI 챌린지 팀원 김윤수입니다.

'HierText'는 이미지의 텍스트 콘텐츠에서 계층 구조까지 모든 것을 추출합니다.

Q. 다시 한 번 우승을 축하드립니다! HierText 대회에 대해 설명해 주시겠어요?

김윤수: HierText는 구글 리서치에서 주최하는 대회로, 이미지에서 단어를 감지하는 것에서 더 나아가 계층 구조를 추출하는 것을 목표로 합니다. 계층 구조를 추출하려면 단어를 감지하여 줄로 그룹화한 다음 줄을 단락으로 그룹화하는 과정을 거쳐야 합니다. 과제 1에서는 계층 구조를 감지하는 능력을 기준으로 참가자를 평가하고, 과제 2에서는 감지된 단어를 정확하게 인식하는 능력을 기준으로 평가합니다.

김대현: 좀 더 자세히 설명하자면, 과제 1에서는 참가자들이 주어진 이미지에서 텍스트의 계층적 위치(단어, 문장, 단락)를 식별해야 했습니다. 과제 2에서는 참가자들이 단어를 읽어야 했고, 기본적으로 완전한 OCR을 수행해야 했습니다. 가장 큰 차이점은 이러한 읽기 능력에 있습니다.

과제 2는 과제 1에서 사용된 모델의 결과물을 활용했기 때문에 구성원들과의 협력이 매우 중요했습니다. 기존 태스크 1 참여자들과 결과물을 어떻게 교환할 것인지에 대한 공감대를 형성하는 것이 필수적이었습니다. 이로 인해 D+R로 구성된 업스테이지의 기존 OCR 파이프라인과는 차이가 생겼습니다. 이 문제를 해결하기 위해 태스크 2 모델의 입력 데이터 전처리를 수정하여 경쟁사의 데이터에 맞게 조정하는 것이 필수적이었습니다.

Q. 여러 부문 중 HierText-1/2에 참가하게 된 계기와 대회 준비 과정은 어땠는지 알려주세요.

김윤수: 저는 일반적으로 OCR 작업을 하지 않기 때문에 감지, 인식, 구문 분석이 결합된 작업보다는 한 가지 특정 측면에 집중하고 싶었습니다. HierText 과제 1이 주로 감지 작업이지만 단순한 감지를 넘어 단어, 줄, 단락의 계층 구조를 이해해야 한다는 사실을 알게 되었을 때 호기심이 발동했습니다. 저는 약 한 달 동안 대회에 전념했고, 팀에서도 제가 대회에 집중할 수 있도록 많은 지원을 해주었습니다.

김다현: 팀원들이 HierText 과제 1에 참여하는 것을 보고 과제 2에 참여하고 싶다는 동기가 생겼고, 특히 업스테이지가 전체 OCR 파이프라인을 개선하는 데 전념하고 있기 때문에 더더욱 그랬죠. IHTR 대회의 연기는 HierText 태스크 2와 완벽하게 맞아떨어져 참가하는 동안 시간을 효율적으로 관리하고 업무량을 줄일 수 있었습니다. ICDAR 대회를 준비하는 데 약 두 달이 걸렸는데, 팀과 회사의 큰 지원이 없었다면 불가능했을 것입니다. 그들은 정말 제 뒤에서 제가 참가할 수 있는 공간을 만들어 주었습니다. 준비 기간 동안 저는 대회 데이터의 특정 요구사항에 잘 맞도록 업스테이지의 OCR 모델과 방법을 조정하는 데 몰두했습니다.

Q. 주요 글로벌 경쟁사들과 큰 점수 격차를 벌릴 수 있었던 비결은 무엇이라고 생각하시나요?

김윤수: 업스테이지가 과제 1에서 네이버 클라우드, 엔비디아, AWS AI 랩스, 알리바바 다모 OCR팀, 앤트그룹, 화웨이 등 유수의 기업들을 약 10% 차이로 따돌리고 놀라운 우위를 확보할 수 있었던 것은 놀라운 성과입니다. 이러한 성공의 비결은 기존의 업스테이지 OCR 기술과 노하우에 혁신적인 접근 방식을 더한 것이 주효했다고 생각합니다. 또한 팀 환경도 중요한 역할을 했습니다. 한 달 내내 대회 점수 향상에 전념한 덕분에 자유롭게 실험하고 팀원들 간에 공유와 경쟁 정신을 키울 수 있었고, 결국 뛰어난 성과를 내는 데 촉매제 역할을 했습니다.

**Q: 대회에 참가하는 동안 업스테이지 웨이의 어떤 점이 중요하다고 생각했나요?**

**김윤수**: '한 걸음 더'라는 생각으로 임한 것이 히어텍스트 대회에서 큰 도움이 된 것 같아요. 순위표가 공개되지 않았기 때문에 우리의 성적이 충분한지 알기 어려웠습니다. 그래서 우리는 현재 점수에 만족하지 않았습니다. 대신 내부 리더보드를 만들어 내부 점수를 뛰어넘는 것을 지속적으로 목표로 삼았습니다. 이 전략 덕분에 2위와의 격차가 크게 벌어졌다고 생각합니다.

김다현: 저에게는 '한 걸음 더'라는 말이 대회 기간 내내 마음에 와 닿았습니다. IHTR과 HierText 대회 모두 마지막까지 성능 향상을 위해 스스로를 채찍질했습니다. 앞으로 끊임없이 변화하는 환경에서 최선의 선택을 하는 데 도움이 될 매우 중요한 경험이었다고 생각합니다.

Q. 이번 대회에 참가하면서 얻은 교훈이 있다면 공유해 주시겠어요?

김윤수: 캐글과 마찬가지로 대회 목표가 명확하고 직관적이어서 재미있고 집중하기 쉬웠습니다. 또한 업스테이지가 세계 유수의 기업들과 어깨를 나란히 할 수 있는 기술 경쟁력을 갖췄다는 것을 재확인한 의미 있는 경험이었어요.

김다현: 회사와 팀원들의 지원이 있었기에 이런 성과가 가능했고, 업스테이지의 인프라가 얼마나 우수한지 알 수 있었습니다. 기술적으로는 회사 업무에서는 사용하지 않는 다양한 데이터 전처리 기법을 적용해볼 수 있었고, 그 장단점을 직접 경험할 수 있어서 좋았습니다.

Q. 앞으로의 계획과 꿈에 대해 듣고 싶어요!

김윤수: ChatGPT가 그 가능성을 보여줬던 것처럼, 저는 LLM 교육이나 AutoGPT와 같이 훈련된 LLM을 활용한 프롬프트 프로그래밍과 같은 분야를 연구할 계획입니다. 사람들에게 정말 유용한 모델이나 애플리케이션을 만들고 싶어요.

김다현: 대회 기간 동안 다양한 기술을 활용해 보니, 앞으로 제품을 개발할 때 현재의 기술 한계를 뛰어넘는 도전을 해보고 싶다는 의욕이 생겼습니다.

[VQAonBD]
동료들과 함께하면 무엇이든 이룰 수 있습니다!

Q. 만나서 반갑습니다! 자기소개 부탁드립니다.

신수원입니다: 안녕하세요, 업스테이지에서 자연어 처리 연구원으로 일하고 있는 신수원입니다.

Q. 참가하신 VQAonBD 대회에 대해 소개해 주시겠어요?

신수원 비즈니스 문서에 대한 시각적 질의응답의 약자로, 일반적으로 문서 이미지에서 힌트를 얻어 자연어로 설명된 질의에 답변하는 것을 목표로 합니다. 이때 테이블은 대부분 숫자로 구성되어 있습니다. 질문의 유형은 크게 세 가지로 나눌 수 있습니다. 첫 번째 유형은 질문에서 행 또는 열에 대한 정보를 식별한 다음 해당 셀에서 직접 값을 추출하는 것입니다. 두 번째 유형은 두 값 사이의 비율을 계산해야 하는 문제입니다. 마지막 유형은 특정 행 또는 열에 있는 모든 값의 최대, 최소, 평균, 중앙값 또는 누적 합계와 같은 값을 찾는 것입니다. 예를 들어 재무 제표가 주어지고 2017년 한 해 동안 가장 높은 값을 찾으라고 요청받을 수 있습니다.

Q. ICDAR에서 VQAonBD 카테고리를 선택한 이유는 무엇인가요?

신수원: ICDAR의 다양한 업무 중에서도 특히 문서 자동화를 위한 정보 추출을 담당하는 문서 AI 팀의 업무와 관련이 깊습니다. 언젠가는 해결해야 할 과제라고 생각했습니다. 회사의 전폭적인 지원 덕분에 NLP-Engine 팀의 거의 모든 구성원이 대회 준비에 참여했습니다. 대회 마감일이 미뤄졌음에도 불구하고 우리는 대회 기간 내내 집중할 수 있도록 배려를 받았습니다. 3월 중순부터 5월 중순까지 전념했고, 그 노력의 결실로 좋은 결과를 얻게 되어 기쁘게 생각합니다.

Q. VQAonBD 작업의 방법론은 어떻게 개발했나요?

신수원: NLP-Engine 팀원 모두가 열심히 참여해서 몇 가지 효과적인 방법론을 도출해냈습니다. 각자 아이디어를 구현하고, 성능을 테스트하고, 회의를 통해 다듬어 나갔습니다. 이 과정을 반복하여 최종적으로 제출할 최고의 방법론을 선택했습니다.

저희 팀원 강민수 님을 빼놓고는 최고의 방법론을 논할 수 없습니다. 군사 훈련으로 3주 동안 자리를 비웠음에도 불구하고 민수 씨는 매우 효과적인 방법론 두 가지를 제공했습니다. 첫 번째는 모델에 표를 해석하는 방법을 가르치는 것이었고, 두 번째는 엄청나게 인기 있는 ChatGPT를 활용하여 기존 데이터를 모델이 더 이해하기 쉬운 형식으로 변환하는 것이었습니다. 이 두 가지 방법은 다른 모든 팀원들이 방법론을 개발할 때 사용하는 탄탄한 토대를 제공했습니다.

이 두 가지 접근 방식을 기반으로 복잡한 질문을 단순화하여 모델이 더 쉽게 학습할 수 있도록 하는 방법론을 선택했습니다. 그런 다음 이렇게 단순화된 질문에 대한 추론된 답변을 결합하여 최종 결과를 도출했습니다.

Q. 업스테이지가 ICDAR에서 4개 부문을 수상하는 놀라운 성과를 거둘 것이라고 예상했나요?

신수원: 처음 대회를 시작했을 때는 팀원들 모두 실력이 뛰어나서 우승할 수 있을 것 같다는 생각에 은근히 희망이 있었습니다. 대회 중반에 순위표가 실시간 업데이트되면서 실시간으로 순위를 확인할 수 있었고, 2위 팀과 상당한 격차로 앞서고 있다는 것을 알 수 있었습니다. 이대로만 열심히 하면 우승할 수 있겠다는 자신감이 생겼습니다. 결국 훌륭한 동료들이 있었기 때문에 가능했다는 기대감이 성공으로 이어진 것이죠.

Q. 이번 대회에서 업스테이지 웨이에서 가장 중요하게 생각한 점은 무엇인가요?

신수원: 업스테이지 방식에서 가장 핵심적인 부분은 '원팀 '이라는 점입니다. 같은 목표를 공유하고 서로 의지할 수 있다면 어떤 도전도 어렵지 않고 훌륭한 제품을 만들 수 있다고 믿습니다. 저는 어려운 문제가 발생했을 때 다른 사람들이 이를 해결하도록 돕기 위해 노력합니다.

**Q: 대회 참가 소감과 앞으로의 계획에 대해 말씀해 주시겠어요?**

**신수원** 훌륭한 동료들과 함께라면 무엇이든 가능하다는 것을 배웠습니다! 처음으로 팀을 관리해본 경험이었는데, 개선해야 할 부분이 많다는 것을 깨달았습니다. 이번 경험을 성장의 발판으로 삼아 더욱 발전할 수 있도록 노력할 생각입니다. 또한 이번 대회를 통해 얻은 교훈을 바탕으로 더 좋은 제품을 만드는 데 집중하고 싶습니다.

[IHTR]
OCR 전문 지식으로 인도 10개 언어 마스터하기

Q. 만나서 반가워요, 현수님!

하현수: 안녕하세요! 저는 업스테이지에서 엔지니어링 및 리서치 업무를 담당하고 있는 하현수입니다.

Q. IHTR에 대해 소개해 주시겠어요?

하현수: 인도는 10개 언어 (벵골어, 데바나가리, 구자라트어, 구루무키어, 칸나다어, 말라얄람어, 오디아어, 타밀어, 텔루구어, 우르두어)가 공식적으로 표준 문자로 인정되는 등 언어적 다양성이 풍부한 것으로 유명하죠. 저희의 임무는 이러한 언어의 필기 텍스트를 정확하게 인식할 수 있는 OCR 기술을 개발하는 것이었습니다. 이 언어들은 몇 가지 유사점을 공유하지만 고유한 특징도 가지고 있습니다. 게다가 왼쪽에서 오른쪽으로 쓰이는 우르두어는 한글과 상당히 다르기 때문에 작업의 난이도가 한층 더 높았습니다. OCR 전문 기업으로서 업스테이지에 있어 이 프로젝트는 도전적이면서도 흥미로운 프로젝트였습니다.

Q. 이렇게 어려운 일을 맡게 된 이유는 무엇인가요?

하현수: 업스테이지의 OCR 기술은 결국 글로벌 시장으로 진출해야 한다고 생각합니다. 그래서 가장 어렵다고 생각되는 '인도어'를 도전하기로 결정했습니다. 솔루션 개발 등 다른 업무도 많았지만, 팀원들이 대회에 집중할 수 있도록 배려해줘서 대회 준비에 전념할 수 있었습니다.

Q. 한 번도 사용해 본 적 없는 언어로 어떻게 고성능 모델을 구축하고 1위를 달성할 수 있었나요?

하현수: 1년 반 동안 쌓은 OCR 관련 노하우가 가장 큰 도움이 된 것 같아요. 기존에 존재하지 않는 데이터를 결합해 학습에 활용함으로써 일반 모델의 성능을 향상시키는 합성 데이터 기술과 업스테이지의 AI 솔루션인 Document AI의 자동화된 학습 파이프라인이 잘 구축되어 있었습니다. 이를 통해 다양한 반자동 실험을 빠르게 진행할 수 있었고, 비교적 생소한 분야에서 좋은 결과를 얻을 수 있었습니다. 대회 기간 동안 2,400개에 달하는 다양한 실험을 진행했습니다. 훈련 데이터 세트와 테스트 데이터 세트 간의 이미지 품질과 색상 차이를 직접 관찰하고 고려한 점, 다양한 증강 방법을 적용한 점, 다양한 모델 앙상블 기법을 구현하기 위해 방대한 수의 모델을 효과적으로 사용한 점이 가장 큰 영향을 미쳤습니다.

Q: 업스테이지 방식이란 무엇이며, 실질적인 노하우를 공유할 수 있나요?

하현수: 항상 "한 걸음 더 "를 위해 노력하는 것이 이번 대회에서 가장 좋은 방법이었다고 생각합니다. IHTR의 경우, 지난 한 주 동안 순위표 상위권을 차지하기 위한 경쟁이 매우 치열했습니다. 일부 언어 그룹에서는 0.1%의 차이도 최종 순위에 영향을 미칠 만큼 중요했습니다. '한 걸음 더'라는 정신으로 한 걸음이라도 더 나아가기 위해 실험을 계속하겠다는 결심과 노력이 결정적이었다고 생각합니다.

Q. 이번 대회를 통해 얻은 교훈이 있다면 말씀해 주세요.

하현수: '좋은 동료들이 서로 응원하면 불가능이 가능으로 바뀐다', '외국어를 못해도 마음만 먹으면 외국어 OCR을 만들 수 있다'는 것을 깨달았습니다.

Q. 앞으로의 계획과 포부는 무엇인가요?

하현수: 인디언 언어에 대한 경험을 바탕으로 문서 AI 모델의 언어 기능을 확장하기로 결정했습니다. 머지않아 우리 회사의 Document AI API가 다양한 언어로 OCR을 제공할 수 있게 될 것입니다! 대회는 학술대회보다 더 큰 규모의 글로벌 대회인 Kaggle과 같은 대회에서 우승하고 싶어요. 앞으로 업스테이지의 행보를 지켜봐 주시면 감사하겠습니다.

👉 Experience the Power of Our Leading Document AI Now!

ICDAR 2023: AI 스타트업, 4개 부문 휩쓸며 돌풍을 일으키다 - [스타뷰 8호]

[HierText-1/2] 경쟁에 참여하고 집중하는 것은 큰 즐거움입니다!