2023/12/18 | 작성자: 송지은(피플 경험), 박성민(콘텐츠 매니저)

업스테이지, 한국 LLM 생태계에 활력 불어넣다 "'오픈 Ko-LLM'이 더 많은 사람들이 탐구하고 즐기는 놀이터가 되길"

한국어 대규모 언어 모델(LLM) 평가 리더보드인 'Open Ko-LLM'에 등록된 모델 수가 3개월여 만에 600개를 돌파했습니다. 이 놀라운 소식은 지난 9월부터 업스테이지가 한국정보화진흥원(NIA)과 함께 구축해 운영 중인 'Open Ko-LLM' 리더보드에서 나왔습니다!

영어 위주의 기존 평가 시스템에서 벗어나 '한국어' 데이터를 기반으로 한 이 리더보드는 학계와 업계 모두의 주목을 받고 있습니다. 누구든지 자신의 한국어 학습 결과를 등록하고 다른 모델과 경쟁할 수 있습니다.

LLM의 시대가 활짝 열리고 있는 지금, '오픈 코엘엘엠 리더보드'는 한국 LLM 생태계의 밑거름이자 힘이 되고 있습니다. 2023년 스타뷰의 마지막 주인공으로 '오픈 Ko-LLM 리더보드'를 구축하는 데 중추적인 역할을 담당한 LLM팀의 박찬준 팀장과 김현우 팀장을 소개합니다.

Q: 만나서 반갑습니다. 자기소개 부탁드립니다.

박찬준입니다: 안녕하세요, 현재 LLM팀에서 테크니컬 리더로 근무하고 있는 박찬준입니다. LLM과 관련된 데이터와 평가를 중심으로 데이터 중심 LLM 파트를 이끌고 있습니다. 1T 클럽, 오픈 Ko-LLM 리더보드 등 LLM 데이터와 관련된 다양한 사내 프로젝트를 이끌고 있습니다.

김현우: 안녕하세요, LLM팀의 김현우 리서치 엔지니어입니다. 저는 MathGPT 개발과 오픈 Ko-LLM 리더보드 등 LLM과 관련된 다양한 프로젝트에 참여하고 있습니다.

질문: 오픈 Ko-LLM 리더보드를 만들게 된 동기는 무엇인가요?

박찬준: 연구 결과를 투명하게 공유하고 숨어 있는 LLM 인재를 발굴할 수 있는 '오픈 Ko-LLM 리더보드'를 통해 한국형 LLM 평가 생태계를 구축하고자 했습니다. 한국형 LLM의 저변을 확대하는 것이 목표였습니다.

머신러닝 시대가 본격화되면서 가장 중요한 키워드는 '생태계'라고 생각합니다. 오픈AI의 GPT 시리즈와 앱 빌더 출시, 허깅페이스의 자연어처리 대중화, 네이버의 생성형 인공지능 생태계 조성 등이 이를 잘 보여줍니다. 저희도 한국형 자연어처리 데이터 및 평가 생태계를 구축하여 이러한 흐름에 동참하고 싶었습니다.

한국정보화진흥원(NIA)과의 파트너십을 통해 한 달 만에 리더보드를 출시할 수 있었습니다. 영어 LLM 벤치마크로 공신력을 인정받고 있는 OpenLLM 리더보드와 동등한 수준의 과제와 플랫폼을 재현하는 데 집중했습니다. 상식적인 문제를 더 깊이 파고들기 위해 고려대학교 임희석 교수 연구팀과 협업하여 KoCommonGen V2를 리더보드 과제로 채택했습니다.

리더보드를 성공적으로 운영하기 위해서는 강력한 인프라가 필수입니다. KT는 과감하게 GPU 관련 요구사항을 지원하기로 결정했고, 최근에는 허깅페이스가 CPU 업그레이드를 아낌없이 제공했습니다. 글로벌 자연어처리(NLP) 기업인 허깅페이스와 직접적인 소통 채널을 구축하고, 항상 새로운 시도를 모색하며 긴밀한 관계를 유지하고 있다는 점도 고무적입니다.

질문: 허깅페이스의 기존 시스템과 비교했을 때 오픈 Ko-LLM 리더보드의 강점은 무엇인가요?

박찬준: 기본적으로 허깅페이스는 영어 기반의 벤치마크 데이터를 채택하고, 우리는 한국어 벤치마크 데이터를 채택합니다. 중요한 차이점은 테스트 세트를 공개하지 않는다는 점입니다. 영어 리더보드에는 2021년부터 공개된 벤치마크 데이터 세트를 사용하는 공개 테스트 세트가 있습니다. 하지만 한국어 리더보드의 경우 모든 데이터를 처음부터 새로 구축해 완전히 비공개로 운영합니다.

이를 공개하면 연구에 큰 영향을 미치고 벤치마크의 가치를 높일 수 있지만, 이 리더보드의 경우 테스트 세트 오염을 제거하고 공정한 비교를 위해 비공개로 운영하기로 결정했습니다.

또 다른 강점은 공신력 있는 기관이 운영에 참여한다는 점입니다. 업스테이지 외에도 한국정보화진흥원, KT, 고려대학교 등의 기관이 참여하여 신뢰성을 더하고 있습니다.

김현우: 찬준 님이 말씀하신 것처럼 한국형 벤치마크를 통해 한국형 LLM 모델의 성능을 평가할 수 있다는 점이 가장 큰 장점입니다. 또한 매월 LLM 우승자를 선정해 리더보드에 공개함으로써 참가자들이 자격을 쌓을 수 있도록 돕고 있습니다.

11월 우수 개발자 시상식 - 오픈 코-엘름 리더보드 '이달의 엘름' (출처: 인공지능신문)

질문: 오픈 Ko-LLM 리더보드는 출시 이후 어떻게 진행되고 있나요?

박찬준: 리더보드가 개설된 지 3개월여 만에 600명이 넘는 모델이 참여했습니다. 당초 연말까지 200개 정도의 모델을 예상했는데, 실제 참여율이 예상을 뛰어넘어 많은 분들이 참여해주셔서 감사하게 생각합니다. 특히 이번 대회에는 개인 연구자부터 KT, 롯데정보통신, 마인드AI, 42마루, 한국전자통신연구원(ETRI), 카이스트, 고려대학교 등 다양한 기관에서 참가해 눈길을 끌었습니다. 주목할 만한 순간은 KT의 '믿음 7B' 모델이 7B 이하 모델 부문에서 1위를 차지하며 누구나 이용할 수 있게 된 것입니다.

이에 비해 오리지널 허깅 페이스 리더보드의 경우 현재 2200개 이상의 모델이 운영되고 있습니다. 두 달 만에 그 4분의 1 수준에 도달했다는 것은 상당히 고무적인 결과입니다. 마지막으로 Open Ko-LLM은 허깅 페이스와 직접 소통할 수 있는 채널을 구축하여 연구 협력의 기반을 마련하고 실제 CPU 인프라를 지원받았습니다.

김현우: 기업부터 개인에 이르기까지 참여도가 매우 높습니다. 첫 주에는 50개 미만의 작품이 제출되었지만, 꾸준히 증가하여 가장 많은 작품이 제출된 주에는 100개가 넘는 작품이 제출되었습니다.

참가자 개개인의 성과도 인상적이었고, 리더보드가 홍보의 장이 되어 참가자들이 소셜 미디어에 자신의 성취를 공유하는 모습도 기억에 남습니다. 개인적으로 리더보드가 많은 사람들에게 좋은 기회가 된 것 같아 기쁘고, 이는 우리가 바랐던 바로 그 결과입니다.

질문: 오픈 Ko-LLM 리더보드의 평가 기준은 무엇인가요?

박찬준: 오픈 Ko-LLM 리더보드에서는 이 다섯 가지 유형의 평가 방법을 채택하고 있습니다:

ARC(AI2 추론 챌린지):

이 시험은 과학적 사고와 이해를 평가합니다. 과학적 문제를 해결하는 데 필요한 추론 능력을 측정합니다.
복잡한 추론, 문제 해결 능력, 과학 지식에 대한 이해도를 평가하는 데 사용됩니다.

헬라스웨그:

상황 이해 및 예측 능력을 평가합니다.
주어진 상황에서 가장 가능성이 높은 다음 시나리오를 예측하는 능력을 테스트합니다.
상황에 대한 모델의 이해와 추론을 나타내는 지표 역할을 합니다.

MMLU(대규모 다중 작업 언어 이해):

다양한 주제와 영역에 걸쳐 언어 이해도를 평가합니다.
이 테스트는 모델이 다양한 영역에서 얼마나 잘 작동하는지 보여주는 종합적인 테스트입니다.

진실성 QA(환각현상방지):

모델의 진실성과 사실의 정확성을 평가합니다.
진실한 답변을 제공할 수 있는 능력이 중요한 기준입니다.

KoCommonGEN V2:

특정 조건이 주어졌을 때 LLM이 상식에 부합하는 한국어 결과물을 생성할 수 있는지 평가합니다.

질문: 오픈 Ko-LLM 리더보드의 향후 계획은 무엇인가요?

박찬준:

우선 과제를 확대하는 것이 목표입니다. 현재 5개 과제를 운영하고 있지만, 윤리적 측면과 사실적 근거에 대한 보다 정밀한 평가가 필요합니다. 다양한 기업 및 학술기관과 협력하여 과제를 더욱 확대할 계획입니다.

둘째, 평가 대상의 확대입니다. 한국어를 넘어 다른 언어까지 확대할 계획이며, 코드 데이터의 중요성이 커지고 있는 점을 고려해 코드 언어 모델에 대한 평가도 운영할 계획입니다.

셋째, 새로운 평가 방법을 모색하고자 합니다. 정적인 평가 방법 대신 동적인 모델 평가 방법을 고려하고 있습니다. 현재 리더보드 모델은 실제 시나리오를 고려할 때 여러 가지 한계가 있다고 생각합니다:

오래된 데이터: SQUAD, KLUE와 같은 데이터 세트는 시간이 지남에 따라 구식이 되어가고 있습니다. 데이터는 DNA처럼 지속적으로 진화하고 발전합니다. 하지만 기존의 리더보드는 특정 시대에 머물러 있어 현실 세계에서 매일 수백 개의 데이터 포인트가 생성되는 현재 상황을 제대로 반영하기 어렵습니다.
정적 데이터: 데이터는 항상 정적입니다. 이는 데이터 중심 AI에서도 마찬가지입니다. 변동이 있을 수 있지만 이는 한정된 범위 내에서 발생합니다. 외부 데이터를 사용할 수 있는 리더보드가 있긴 하지만, 불공정하다는 비판에 직면하는 경우가 많습니다. 현실 세계에서 데이터는 고정되어 있지 않습니다. 데이터는 계속 축적되고, 모델은 지속적인 학습을 통해 진화합니다.
현실 세계를 반영하지 못함: 기업이 B2B 또는 B2C 서비스를 수행하면 사용자나 산업을 통해 데이터가 지속적으로 축적되고, 엣지 케이스나 이상값이 끊임없이 등장합니다. 이에 효과적으로 대응하는 것이 진정한 기업 경쟁력이지만, 현재의 리더보드 시스템에는 이러한 역량을 측정할 수 있는 방법이 부족합니다. 실제 데이터는 끊임없이 생성, 변화, 진화하고 있습니다.
진정으로 의미 있는 경쟁인가? 많은 모델이 테스트 세트에 최적화되어 있기 때문에 해당 테스트 세트 내에서 또 다른 형태의 과적합이 발생할 수 있습니다. 현재의 리더보드 시스템은 실제 세계 중심이 아닌 리더보드 중심 방식으로 운영됩니다.

이러한 문제를 완화하기 위해 매일 지속적으로 데이터를 추가하는 자체 복제형 리더보드 데이터 세트인 새로운 패러다임의 리더보드 운영을 고려하고 있습니다.

또한, 리더보드의 노하우를 정리한 논문을 작성하는 것도 좋을 것 같습니다. 마지막으로 새로운 계획보다는 연속성이 중요하다고 생각합니다. 이 부분에 대해서는 내부적으로 계속 고민해 보겠습니다.

Q: 국내 LLM 생태계를 활성화하기 위한 업스테이지 팀의 계획은 무엇인가요?

박찬준: 제가 이끄는 데이터 중심 LLM 조직에서는 모델 중심 및 데이터 중심 접근 방식을 넘어 가치 중심 LLM을 달성하는 것이 목표입니다. 우리는 LLM을 통해 가치와 생태계를 창출하는 데 집중하고 있습니다. 우리는 다음을 관리하고 있습니다. Up 1T Club 을 운영하고, 한국형 LLM 평가를 위한 오픈 Ko-LLM 리더보드를 운영하며, 한국형 데이터 전처리 생태계 구축을 위한 오픈소스 프로젝트인 데이터버스를 운영하고 있습니다. 도구로서 LLM을 활용해 가치를 창출할 수 있는 방법을 고민하고 있습니다.

김현우: 팀 내에서 우수한 한국어 모델을 개발하기 위해 지속적으로 노력하고 있으며, 이러한 전문성을 논문으로 정리할 계획입니다. Ko-LLM 리더보드 외에도 다양한 과제에 대한 리더보드도 운영할 계획입니다.

Q: 다가오는 2024년에 대한 계획은 무엇인가요?

박찬준: 2024년을 목표로 세운 계획은 급격한 변화로 인해 조정이 필요할 수도 있습니다. 그럼에도 불구하고 연말까지의 목표는 변화에 빠르게 적응할 수 있도록 업무의 기초를 탄탄히 다지고 내실을 다지는 것입니다. 데이터 부문의 리더로서 연말까지 고품질의 한국어 데이터 구축을 완료하고, 다국어 확장 및 멀티모달 프로젝트 등 다음 단계로 나아갈 수 있도록 준비하겠습니다.

2024년에는 LLM을 통해 국내에서 가장 많은 수익을 창출하는 것은 물론, 글로벌 확장을 추구하는 것이 목표입니다. 전 세계에서 인정받고 신뢰받는 LLM을 개발하는 것이 목표입니다. 궁극적으로는 글로벌 진출과 수익 극대화를 넘어 고객이 만족할 수 있는 LLM을 개발하는 것이 목표입니다.

개인적으로는 Open Ko-LLM과 같이 한국 LLM 생태계에 기여하고 싶습니다. 많은 사람들이 참여하고 즐길 수 있는 놀이터를 만드는 것이 개인적인 목표입니다.

김현우: 단기적으로는 수학 리더보드에서 최상위권(SOTA) 성적을 달성하고 후속 계약을 확보하는 것을 목표로 콴다와 공동으로 수학GPT 개발 프로젝트를 진행하고 있습니다. 현재는 수학에 집중하고 있지만, 다른 분야로 확장하고 융합해 다양한 분야에 능통한 LLM을 양성할 계획입니다.

작년 이맘때쯤 스타뷰에서 추천서 공모전에서 좋은 성적을 거두고 논문을 쓰는 것이 목표라고 밝혔는데, 그 목표를 달성했습니다. 내년에는 현재 진행하고 있는 LLM 주제에 대해 깊이 있게 연구하고 논문을 쓰는 것이 목표입니다.

Q: 업스테이지 방식이란 무엇이며, 실질적인 노하우를 공유할 수 있나요?

박찬준: 공유의 관점에서 '한 번에 해결한다'는 문화를 정착시키고 있습니다. '한계라고 생각되면 한 걸음 더 나아가자'는 마음가짐으로 일하고 있습니다. 업스테이지에서 생태계를 조성하는 데 앞장서는 것은 흥미진진하면서도 보람 있는 일입니다. 어려운 일이지만 상황을 긍정적으로 해석하고 일을 즐기는 것이 중요합니다. 불가능해 보이는 일에 직면했을 때에도 판단하기 전에 시도해 보는 것이 중요합니다.

김현우: 공유와 원팀이 되는 것이 중요합니다. 업스테이지 문화의 가장 큰 장점은 노션이나 업스퀘어를 통해 다른 사람들이 하는 일을 투명하게 볼 수 있다는 점입니다. 모두가 망설임 없이 서로를 기꺼이 도와주며, 이는 매우 고무적인 일입니다. 우리는 매일 또는 주말에 작업과 실험 결과를 공유하려고 노력하며, 제가 도움을 받은 만큼 다른 사람에게 도움을 주려고 노력합니다.

Q: 동료 업스테이지 스타들에게 전하고 싶은 메시지!

박찬준입니다: 모두들 열심히 일하고 계신데, 일하면서 건강도 잘 챙기셨으면 좋겠습니다. 긍정적인 마인드를 가지고 일에서 즐거움을 찾을 수 있으면 좋겠습니다. 힘든 상황에서도 모든 터널은 결국 끝이 있다는 것을 기억하세요. 포기하지 말고 인내심을 가지고 함께 앞으로 나아갑시다!

김현우: 요즘 날씨가 쌀쌀해지면서 감기에 걸리는 분들이 많다고 들었습니다. 감기 조심하시고 건강 잘 챙기세요. 모두들 프로젝트에서 좋은 결과를 얻기 위해 열심히 노력하고 있는 것으로 알고 있는데, 그 노력이 모두 성공으로 이어지길 진심으로 기원합니다!

'오픈 Ko-LLM 리더보드'로 국내 인공지능 경쟁력 강화 - [스타뷰 10호].