Case Study: RAG-based natural language question response

2024/04/11 | 작성자: 전영훈
 

검색 증강 생성(RAG)은 검색 결과를 통합하여 응답을 생성하는 프로세스 및 기술을 포괄하는 언어 패러다임입니다. 대규모 언어 모델(LLM) 내에서 외부 데이터 소스를 통합하여 응답 정확도를 높이는 역할을 합니다, 사용자 프롬프트 입력이 이루어질 때, 지식 데이터베이스 내에서 쿼리가 시작되고 검색 결과 통합을 통해 후속 프롬프트 증강이 수행되는 방식입니다. 이는 시스템 및 사용자 프롬프트와 외부 지식을 통합하여 LLM의 입력 프롬프트를 구성함으로써 사용자의 기대에 부합하는 응답을 쉽게 생성할 수 있도록 합니다.

RAG는 다양한 측면에서 필요성이 대두되고 있으며, 세 가지 목표를 주로 다룹니다. 첫째, 상황에 맞는 학습을 통해 LLM 내 환각 현상을 완화하여 잘못된 응답 사례를 줄입니다. 둘째, 동적 데이터 업데이트를 위해 외부 검색 엔진을 활용하여 원활한 실시간 정보 업데이트를 촉진합니다. 마지막으로, 지식 업데이트와 관련된 재정적 부담을 완화하여 기존의 파인튜닝(미세 조정) 방식에 대한 비용 효율적인 대안을 제공합니다.

업스테이지에서는 독점적인 LLM 모델을 제공하는 것 외에도 고객 사양에 맞춘 맞춤형 RAG 시스템으로 서비스를 확장하고 있습니다. 이러한 시스템은 업스테이지의 최첨단 검색 및 쿼리 엔진과 고객 중심 최적화 기술을 통합하여 다양한 산업 분야에서 상당한 수요를 보이고 있습니다. 특히, 업스테이지는 실시간 뉴스 기사를 기반으로 사용자의 자연어 쿼리에 문맥에 맞는 답변을 제공할 수 있는 정교한 검색 엔진을 개발하여 RAG 구현의 효율성을 입증한 바 있습니다.

도전 과제

기존의 뉴스 검색에서는 키워드 기반 쿼리에 의존하는 것이 일반적이었기 때문에, 사용자의 자연어 기반 문의를 처리하기가 쉽지 않았습니다. 생성형 AI의 등장은 이 문제의 해결책이 될 수 있을 것으로 생각되었지만, 뉴스 검색에서 정확한 정보를 제공해야 하는 것은 LLM에 내재된 환각 현상으로 인해 쉽지 않은 문제였습니다. 또한 뉴스 플랫폼에 실시간으로 업로드되는 수많은 기사가 끊임없이 유입되면서 기존 범용 LLM의 성능을 뛰어넘는 서비스 개발이 필요하게 되었습니다.

이러한 문제를 극복하기 위해 한국언론진흥재단은 업스테이지에 "빅카인드 AI"라는 새로운 뉴스 검색 서비스 설계를 맡겼습니다. 업스테이지는 RAG 시스템을 활용하여 이 문제를 정면으로 해결했습니다. 자연어 쿼리에 응답할 수 있는 생성형 AI의 속성을 활용하여 기존 뉴스 검색 엔진에 비해 크게 향상된 사용자 환경을 설계했습니다. 이 이니셔티브를 통해 뉴스 플랫폼 내 기사 검색 트래픽이 눈에 띄게 급증했습니다. 업스테이지에서는 뉴스에 특화된 제너레이티브 AI 솔루션을 구축하여 오타에 대한 우려 없이 실시간 뉴스 기반 검색 및 응답을 수행할 수 있는 시스템을 구축했습니다.

Solution

업스테이지는 한국언론진흥재단에서 제공하는 약 8,200만 건의 기사 데이터셋을 활용해 RAG 시스템을 개발했습니다. 이후 업스테이지에서는 자연어 질문 기반 검색 및 QA, 실시간 데이터 업데이트 지원, 공공기관 구축에 적합한 정밀도와 안정성 등 고급 기능을 통합한 빅카인드 AI를 출시했습니다. 시간 제한 검색 기능, 소스 어트리뷰션, 다양한 자연어 질의 의도 처리 등의 기능이 추가되었습니다.

빅카인즈 AI는 2단계 검색을 통해 대규모 데이터 세트를 효율적으로 관리하여 최적의 리소스 활용과 고품질 검색 결과를 보장합니다. 사용자 프롬프트를 수신하면 시스템은 쿼리 엔진을 통해 검색 의도를 파악하고, 검색 매개변수를 분석하고, 핵심 쿼리를 추출했습니다. 이후 단계에서는 후보 응답 생성 및 정밀도 순위를 통해 사용자에게 관련성 높은 검색 결과를 제공했습니다.

고성능 및 고품질 쿼리/검색 엔진 구축 프로세스

또한 공공 기관의 특정 요구 사항을 충족하기 위해 전문화된 프롬프트 엔지니어링을 맞춤화했습니다. 프롬프트 엔지니어링 및 최적화에 대한 업스테이지의 광범위한 전문 지식을 활용하여 고객 우선순위에 맞게 시스템을 미세 조정하고 어조를 개선했으며, 의도 분류 프롬프트, 가드레일 프롬프트, 어조 개선 프롬프트 및 사용자 프롬프트를 통합했습니다.

그 후, 고객 서비스의 고유한 특성에 맞게 맞춤형 검색 및 색인 알고리즘을 구현했습니다. 고객 시스템과의 통합을 통해 데이터 파이프라인을 원활하게 연결하고 고객 선호도에 따라 실시간 인덱싱이 가능해졌습니다. 또한 최신성이나 정확성 등의 요소에 초점을 맞춘 맞춤형 검색 알고리즘을 구성하여 최적화된 검색 결과를 생성할 수 있도록 했습니다.

모든 서비스는 업스테이지의 반복적인 피드백 루프를 통해 엄격한 테스트를 거쳤습니다. 평가 프로세스에는 사전 정의된 기준과 평가 요소에 대한 합의에 따라 고객 평가 그룹과 Upstage의 전문 평가 팀이 동시에 평가했습니다. 업스테이지의 전문 평가자들은 신뢰할 수 있는 평가 데이터 세트를 꼼꼼하게 작성하여 편향되지 않은 테스트 결과를 보장했습니다. 그 후 테스트 결과를 개발팀과 공유하여 반복적인 개선을 추진했으며, 신속한 피드백 루프를 활용하여 안정적이고 효율적인 배포를 촉진했습니다.

업스테이지 피드백 루프

기술 파트너 활용

업스테이지에서는 한국언론진흥재단과 협력하여 AWS EC2 클라우드 컴퓨팅 리소스와 S3 데이터 스토리지를 활용하여 RAG 시스템을 구축했습니다. 이를 통해 고객의 자연어 쿼리 의도에 따라 기사를 동적으로 색인하고 벡터화할 수 있었습니다.

EC2 컴퓨팅 성능은 챗봇 실행, 서버 배포, 백엔드 작업 처리 등에 이상적인 다목적 가상 컴퓨팅 환경을 제공합니다. 강력한 연산 능력으로 복잡한 자연어 처리 작업의 실행을 간소화하며, EC2 인스턴스를 활용하여 사용자 쿼리에 대한 신속한 실시간 응답을 보장합니다.

또한 S3 클라우드 스토리지를 활용하면 자연어 처리 모델 학습과 효과적인 모델 데이터 관리에 필수적인 광범위한 데이터 세트를 원활하게 저장하고 검색할 수 있습니다. S3의 안정적이고 신속한 데이터 리포지토리를 활용하면 버킷 및 개체 수준에서 액세스 제어를 포함한 강력한 데이터 보안 조치가 유지되어 안전한 데이터 거버넌스를 보장합니다.

결과 및 이점

빅카인즈 AI는 최종 품질 평가 점수 86점으로 고객의 벤치마크 점수인 80점을 뛰어넘는 결과를 발표했습니다. 이 성과는 엄격한 품질 관리에 대한 업스테이지의 노력을 강조할 뿐만 아니라 업스테이지의 자체 평균인 82.5점을 상회하는 92.2점의 고객 평균 점수를 통해 고객 만족도를 입증한 결과이기도 합니다. 또한 업스테이지가 실시한 내부 평가 결과, 고객 데이터에 대한 전문성이 부족한 다른 업체들이 제공하는 일반 서비스에 비해 현저한 성능 우위를 보인 것으로 나타났습니다.

고객 및 사내 프로젝트 평가 결과

이처럼 업스테이지는 한국언론진흥재단과 협력하여 고객 중심의 RAG 시스템을 성공적으로 구축했습니다. 업스테이지에서는 고성능 검색 및 쿼리 엔진을 활용하여 고객 서비스의 고유한 요구사항에 맞춰 RAG의 사전 응답 기능을 향상시키고 검색 알고리즘을 최적화했습니다. 신속한 엔지니어링 기술을 활용하여 서비스 성능 품질을 더욱 개선하고 시스템 안정성을 강화하기 위한 다양한 기능을 도입하고 전용 평가 시스템을 구축하여 고객에게 신뢰를 심어줄 수 있었습니다.

또한, 특정 사용 사례에 맞춘 맞춤형 추론 파이프라인을 도입함으로써 업스테이지의 기술적 숙련도를 입증하였습니다. 기존의 RAG 방법론과는 다른 이 접근 방식은 임베딩 모델, 순위 재지정 모듈, 검색 및 대화 엔진과 같은 핵심 구성 요소를 맞춤화할 수 있어 탁월한 유연성과 성능 최적화 기능을 제공한 사례입니다.

이전 게시물
이전 게시물

업스테이지, 시리즈 B 펀딩으로 7,200만 달러 투자 유치

다음
다음

Case Study: Client-specific Large Language Model