OCR을 통한 문서 구조 이해 - LLM을 위한 문서 AI 기술
2023/12/05 | 작성자: 루시 박 (업스테이지 CSO)
LLM 개발 및 활용을 위한 디지털 자산화의 필요성
작년부터 LLM(대규모 언어 모델)에 대한 관심이 특히 뜨거웠습니다. ChatGPT와 같은 상용 모델과 LLaMA와 같은 오픈소스 모델을 통해 널리 알려진 바와 같이, LLM은 학문적 의미를 넘어 상업적 응용 분야에서도 그 가능성을 보여줬습니다. 특히 이름에서 알 수 있듯이 언어, 즉 텍스트 데이터를 처리하는 데 탁월합니다.
많은 조직에서 다양한 애플리케이션에서 LLM을 활용하려고 시도하고 있습니다. 하지만 전 세계 대부분의 문서가 표, 그래프, 단락 종속성 같은 시각적 요소를 포함해 일반 텍스트 이상으로 복잡하게 구성되어 있다는 점이 문제입니다. 학계에서 VRD(시각적으로 풍부한 문서)라고 부르는 이러한 문서에는 텍스트만 추출할 경우 중요한 정보가 크게 손실되어 의도한 결과를 달성하는 데 어려움을 겪을 수 있다는 독특한 문제가 있습니다. 이러한 점을 고려할 때, LLM의 성공적인 개발과 적용을 위해서는 철저한 디지털 자산화의 중요성이 분명해집니다.
LLM 개발 및 활용을 위한 디지털 자산화 프로세스
VRD를 사용하여 LLM을 개발하거나 활용하려면 다음 절차를 따르며, 1-2단계는 디지털 자산화 과정의 일부입니다:
문서 구조 분석(레이아웃 분석): 이 단계는 문서에서 표나 이미지와 같은 중요한 요소의 위치, 구조, 종속성을 파악하는 가장 중요한 단계입니다. (1) 포함할 요소와 (2) 제외할 요소를 명확하게 정의하는 것이 중요합니다. LLM에 구조 분석을 사용하려는 많은 조직은 표는 포함하되 머리글과 바닥글 같은 부수적인 문서 정보는 제외하는 것을 선호합니다.
마크다운화: 요소를 인식한 후 다음 단계는 LLM을 위해 요소를 순서대로 배열하고 정보를 기계가 쉽게 사용할 수 있는 형식으로 변환하는 것입니다.
벡터화: 마크다운으로 변환된 정보는 청크(의미 있는 단위로 나눈 것)화되어 원하는 형식으로 데이터베이스에 저장됩니다. 마크다운 텍스트는 그대로 저장하거나 벡터 형태로 저장할 수 있습니다.
쿼리 임베딩 및 LLM 추론: 마지막으로 사용자로부터 받은 쿼리를 임베드하고 데이터베이스의 관련 항목을 연결하여 최종 결과를 반환합니다.
LLM을 위한 디지털 자산화 방법
많은 조직에서 LLM을 겨냥한 디지털 자산화를 위해 OCR 소프트웨어를 사용합니다. 또한 디지털로 생성된 원본 문서의 경우 PDF 파싱을 위한 pdf-to-text 또는 PyPDF2와 같은 오픈 소스 소프트웨어를 사용합니다. 그러나 일반적인 OCR 또는 PDF 파싱 소프트웨어는 텍스트 추출에는 성공하지만 가장 중요한 정보가 포함된 표나 그래프와 같은 중요한 항목은 추출하지 못하는 경우가 많습니다. 핵심 요소에 대해 규칙 기반 추출을 시도할 수 있지만 표준화된 문서를 다루지 않는 한 다양한 입력 형식으로 인해 정확도가 떨어질 수밖에 없습니다.
표준 OCR 또는 PDF 구문 분석 소프트웨어는 표나 그래프와 같은 중요한 항목의 위치나 구조를 의미 있게 추출하지 못합니다.
반면, 문서 구조 분석 전용 소프트웨어는 표와 그래프와 같은 필수 항목을 추출합니다. 또한 일부 소프트웨어는 구조 분석 후 마크다운 변환을 수행하여 한 단계 더 나아갑니다. 많은 LLM이 학습 과정에서 마크다운 형식의 데이터에 노출되어 있기 때문에 문서를 마크다운으로 변환하면 LLM 사용에 적합해집니다.
문서 구조 분석 전용 소프트웨어는 표와 그래프와 같은 주요 항목을 추출하고, 고급 소프트웨어는 마크다운 변환을 수행하여 LLM이 더 쉽게 사용할 수 있도록 합니다.
업스테이지에서는 문서 구조 분석 서비스도 출시할 계획입니다. 어떤 문서든 API로 전송하여 마크다운으로 변환된 결과를 받아볼 수 있습니다. 이 서비스 이용에 관심이 있으신 분들은 업스테이지 영업팀에 문의해 주세요.