콴다, KT와 함께 개발한 업스테이지의 수학 맞춤형 LLM은 MS ToRA 13B와 ChatGPT를 능가하는 뛰어난 수학 해결 능력으로 글로벌 AI 벤치마크를 재정의하고 있습니다.

서울, 2024년 1월 8일 - 업스테이지가 수학 문제 해결 영역에서 13B 파라미터 대규모 언어 모델(LLM)의 뛰어난 성능을 선보이며 마이크로소프트(MS)의 ToRA 13B와 ChatGPT를 모두 능가하고 주요 벤치마크에서 최첨단(SoTA) 등급을 획득했다고 밝혔습니다.

이 과제를 위해 업스테이지는 AI 기반 학습 플랫폼인 콴다, 모델 학습용 GPU를 공급하는 국내 주요 통신사인 KT와 협력하여 수학적 추론과 문제 해결을 위해 특별히 설계된 언어 모델을 구축했습니다. 업스테이지에서는 콴다의 고품질 수학 데이터 세트를 활용하여 자연어 추론과 프로그램 기반 수학적 처리를 원활하게 통합했습니다.

결과: 업스테이지-칸다 13B 모델은 GSM8K 및 MATH 벤치마크 데이터 세트 모두에서 MS ToRA 13B보다 뛰어난 SoTA 성능을 달성했습니다. 특히 이 모델은 다양한 벤치마크 테스트에서 ChatGPT의 평균 성능을 넘어섰으며 , 심지어 MATH에서 48.8%의 놀라운 정확도로 GPT-4를 능 가하여 업계 최고의 모델과의 경쟁력을 입증했습니다.

* *MS ToRA 논문 기준* (link)
** GSM8K 및 MATH 이외의 데이터 세트 포함(12월 22일 기준).

MATH 및 GSM8K 데이터 세트 모두에서 SoTA 성능을 달성하는 것은 매우 드문 일이지만, Upstage는 모델 훈련 및 미세 조정을 위한 최적의 데이터 세트 코호트를 큐레이팅하는 고유한 데이터 중심 방법론을 채택하여 차별화했습니다. 그 결과 수학적 추론(Chain-of-Thought)에서 자연어 추론의 장점과 정밀한 계산(Program-of-Thought)에서 코드 기반 알고리즘 기술을 통합하여 복잡한 수학적 문제를 해결하는 모델의 능력을 크게 향상시켰습니다.

"이번 성과는 업스테이지에게 중요한 이정표가 될 것이며, 세계 최고의 도메인별 언어 모델을 만드는 데 있어 업스테이지의 독보적인 가능성을 재확인하는 계기가 될 것입니다."라고 업스테이지의 CEO인 성 김이 말했습니다. 이어 "앞으로 업스테이지의 대표 LLM인 '솔라'는 글로벌 AI 환경에서 다양한 애플리케이션으로 확장하는 데 중심이 될 것"이라고 덧붙였다.

연구 방법론과 분석을 포함한 자세한 내용은 곧 심층 연구 논문을 통해 공개될 예정입니다.

수학적 추론에서 MS ToRA와 ChatGPT를 이긴 업스테이지 13B LLM

2024년에 주목해야 할 오픈 소스 LLM 상위 5가지

2023 회고: 대규모 언어 모델의 세계로 진입한 CTO의 인사이트