LLM 성과 세계 1위 달성 - [스타뷰 9호]
2023/09/07 | 작성자: 송지은(People eXperience), 박성민(콘텐츠 매니저)
업스테이지가 제너레이티브 AI의 깃허브라고 불리는 허깅페이스에서 '오픈 LLM 리더보드 세계 1위'라는 타이틀을 획득했습니다.
올 상반기 전 세계를 휩쓴 화두를 꼽으라면 단연 ChatGPT로 대표되는 생성형 AI 기술의 등장을 꼽을 수 있을 것입니다. 자연어 처리 기술에 대한 관심이 높아지면서 많은 AI 기업들이 자체 개발 및 학습한 자연어 처리 기술을 선보이거나 오픈소스를 기반으로 제너레이티브 AI를 구축하고 관련 서비스를 출시하며 시장을 점차 확장해 나가고 있습니다.
이러한 발전 속에서 업스테이지가 세계 최대 오픈소스 AI 모델 플랫폼인 허깅 페이스(Hugging Face)의 오픈 LLM 리더보드에서 1위를 기록했습니다. 허깅 페이스는 AI 분야의 '빌보드 차트'라고 할 수 있습니다. 전 세계 기술 기업 및 연구 기관에서 개발한 300개 이상의 글로벌 AI 모델이 업데이트되며 치열한 성능 경쟁을 벌이는 플랫폼입니다.
업스테이지의 이번 오픈 LLM 리더보드 세계 1위 달성은 LLM 시장에서 독보적인 기술 리더십을 확립하는 중요한 이정표가 될 것입니다. 업스테이지의 밝은 미래를 기대하며 스타뷰 9회에서는 허깅페이스의 오픈 LLM 리더보드 1위를 달성한 주역인 김상훈 대표와 송원호 부대표를 만나 이야기를 들어보았습니다.
Q. 만나서 반갑습니다. 자기소개 부탁드립니다.
김상훈: 안녕하세요, LLM 엔진팀에서 파운데이션 모델 파트를 담당하고 있는 기술 리더 김상훈입니다.
송원호입니다: 안녕하세요, LLM 엔진팀에서 모델 개발을 담당하고 있는 송원호라고 합니다.
Q. LLM TF의 구성과 허깅 페이스에 도전하게 된 동기가 궁금합니다.
김상훈: 올해 6월부터 한국인 LLM을 자체적으로 양성할 수 있는지 검증하는 것을 목표로 LLM TF가 시작되었습니다. 이 과정에서 허깅페이스의 오픈 LLM 리더보드에 참여하기로 결정했습니다.
메타의 LLaMA, LLaMA-2, 알파카, 비쿠나, 위저드LM, Stability.ai의 LLM 등 다양한 모델이 순위 경쟁을 벌이는 오픈 LLM 리더보드는 오픈소스 언어 모델을 추적, 순위, 평가하는 플랫폼으로, 현재 최신 모델의 객관적인 척도를 제공합니다. 따라서 이 대회에서 1위를 달성한 것은 당사의 기술력을 보여주는 중요한 지표입니다.
송원호: LLM은 큰 물결이었고, 많은 기업이 그 물결에 뛰어들었습니다. 저희는 이 파도에 즐겁게 올라타기 위해 TF를 준비했습니다. 어떻게 하면 빠르고 효과적으로 온보딩할 수 있을지 고민했어요. 저희 모두 대회 경험이 있었고, 대회를 통해 많은 것을 빠르게 배울 수 있다는 것을 알고 있었기 때문에 허깅페이스의 순위표에서 1위를 목표로 도전하게 되었습니다. 이왕 도전할 거라면 세계 정복을 목표로 해야 한다고 생각했습니다!
Q: 허깅 페이스 챌린지에 함께 참여한 팀원들이 궁금합니다.
송원호 저와 이활석 CTO, 민지, 상훈, 윤수, 덕이, 찬준, 클로이 등 8명이 모여서 TF를 발족했습니다. CTO와 민지가 주로 관리를 맡았고, 모델 개발을 주도한 상훈이가 모델 개발의 대부분을 맡았습니다. 저와 윤수, 덕이는 상훈이와 함께 모델 개발에 힘을 합쳤습니다. 찬준은 기술적 심의에 크게 기여했고, 클로이는 다양한 토론에 참여하며 모델링을 풍부하게 만들었습니다.
Q. 30B의 경량 모델로 빅 테크의 유명 하우스들을 제치고 놀라운 성과를 거두었습니다. 모델에서 파라미터의 역할과 이 성과가 갖는 의미에 대해 자세히 설명해 주시겠어요?
"지난 7월 업스테이지가 허깅페이스를 통해 공개한 300억 개(300B) 파라미터 모델은 평균 67점을 기록했습니다. 이 점수는 같은 날 공개된 메타의 'LLaMA 2' 700억 개 파라미터 모델을 뛰어넘는 수치로, 국내 LLM 최초로 1위를 달성하는 쾌거를 이뤘습니다.
이후 업스테이지가 최신 LLaMA 2 700억 개(70B) 파라미터 모델을 기반으로 더 많은 데이터로 미세 튜닝한 모델을 선보이며 글로벌 리더로서의 입지를 공고히 했습니다. 그 결과, 새롭게 공개한 업스테이지 70B 모델은 리더보드에서 72.3점을 획득하며 LLaMA 2 출시 이후 1위를 차지했던 미국 Stability AI의 'Stable Beluga 2' 모델(71.4점)을 제치고 세계 1위 자리를 탈환했습니다.
특히 업스테이지의 최신 모델은 ChatGPT의 기반이 되는 GPT-3.5의 벤치마크 점수(71.9점)를 뛰어넘는 전례 없는 쾌거를 달성했습니다. 이는 국내 스타트업의 소형 LLM이 생성형 인공지능 모델의 대명사로 불리는 GPT-3.5의 점수를 넘어선 첫 사례로, 국내 스타트업이 개발한 소형 LLM도 글로벌 빅테크 기업의 초대형 모델과 동등하게 경쟁할 수 있다는 것을 입증한 것"이라고 말했다.
- 업스테이지, ChatGPT를 제치고 '세계 최고의 LLM'으로 자리매김하다 (23.08.01)
김상훈: 오픈AI는 2020년에 발표한 논문에서 '스케일링 법칙'을 언급했는데, 이는 파라미터의 수와 학습 데이터의 양이 증가할수록 모델의 성능이 향상되는 원리를 말합니다.
처음 도입한 30B 모델은 Meta의 LLaMA-1을 미세 조정한 것입니다. 이후에는 LLaMA-2에서 70B 모델을 미세 조정하여 175B 크기의 GPT-3.5를 뛰어넘었습니다. 이는 중요한 의미를 가집니다. 고품질 데이터와 최적화된 훈련 방법을 사용하면 더 작은 모델도 대형 모델의 성능을 능가할 수 있다는 것을 보여줍니다. 향후에는 더 작은 LLM이 ChatGPT의 성능을 능가할 것으로 예상됩니다.
Q. 자체 모델 제작을 시작한 지 두 달 만에 허깅 페이스 오픈 LLM 리더보드에서 1위를 달성할 수 있었던 원동력은 무엇인가요?
김상훈: 업스테이지가 국내 최고 수준의 캐글 경쟁자들을 보유하고 있고, 수많은 국제 컨퍼런스에서 논문을 발표한 멤버들이 있다는 점이 가장 큰 원동력이었습니다. 멤버들의 배경과 경험이 성공에 큰 기여를 한 것 같습니다.
왼쪽부터 업스테이지의 역대 캐글 수상 내역과 '데이터 중심 AI' 분야 최고 권위의 국제 머신러닝 학회인 ICML 2023에서 수상한 업스테이지의 논문 'DMOps'.
송원호: 팀원들 간에 점수를 높이기 위한 건전한 경쟁을 유도하기 위해 Kaggle 스타일의 사내 리더보드를 만들었습니다. 이러한 접근 방식을 통해 모델을 빠르게 개발할 수 있는 원동력을 얻었습니다. 데이터 세트, 하이퍼파라미터, 모델 개발 아이디어를 공유하여 고성능 모델을 빠르게 만들 수 있었습니다. 또한 많은 사람들이 최신 연구를 공유하고 다양한 의견을 제시하여 대화를 더욱 풍성하게 만들었습니다. 다양한 아이디어가 모여서 좋은 결과가 나온 것 같습니다.
Q: 다양한 실험을 진행하는 동안 가장 중점을 둔 부분은 무엇인가요?
김상훈: 리더보드 점수를 높이기 위해 추론 과제(ARC), 상식 추론(HellaSwag), 멀티도메인 지식 테스트(MMLU), 답변의 진실성('AI 환각'이라고도 함, TruthfulQA ) 등 4가지 주요 지표를 고려해야 했습니다. 그러나 미세 조정 전의 LLM은 AI 환각 완화 점수가 40점대로 매우 낮아서 개선의 여지가 상당히 많았습니다. 모델이 학습 데이터와 너무 가깝게 정렬되면 AI 환각률이 급격히 감소하므로 이를 방지하기 위해 하이퍼파라미터 튜닝에 더욱 집중했습니다.
송원호: LLM은 대규모 말뭉치로 사전 학습을 하고, 그 과정에서 다양한 유형의 지식을 학습합니다. 저는 실험에서 어떻게 하면 이전에 학습한 데이터의 검색을 극대화할 수 있을지 고민했습니다. 간단히 말해서, 현재 모델은 많은 것을 알고 있지만 제대로 '말하는' 방법을 모를 수 있습니다. 그래서 저는 이미 알고 있는 것을 잊지 않고 '말하는' 방법을 효과적으로 가르치는 방향으로 개발을 추진하는 데 집중했습니다.
Q: 최근 업스테이지에서 한국 데이터를 위한 '1T 클럽'을 출범시켰습니다. 한국의 LLM 독립을 위한 첫걸음이라고 할 수 있는 이 프로젝트에 대해 소개해 주시겠어요?
김상훈: 메타의 LLaMA의 성능을 보면 최소 1T, 이상적으로는 2T의 학습 데이터가 필요하다는 것을 알 수 있습니다. 2T의 영어 데이터는 온라인에서 구할 수 있지만, 충분한 한국어 데이터를 확보하는 것은 라이선스 문제 등으로 인해 큰 어려움이 있습니다. 이것이 바로 1T 클럽을 출범하게 된 주된 이유입니다. 1T 클럽. 이 클럽을 통해 충분한 한국어 데이터를 수집하고 ChatGPT에 버금가는 성능의 한국어 LLM을 학습시키는 것이 목표입니다.
송원호: LLM을 학습시키기 위해서는 먼저 대규모 말뭉치를 사전 학습에 사용하는데, 이때 1T, 2T와 같은 페타바이트 단위의 토큰이 필요합니다. 데이터의 품질이 매우 중요합니다. 예를 들어, 세 살짜리 아이에게 읽기를 가르칠 때 고전 문학 작품과 유튜브 댓글 중 어느 것이 더 좋을까요? 저는 고전문학을 선택하겠습니다. 마찬가지로 양질의 데이터로 LLM을 훈련시키는 것이 중요하며, 이러한 맥락에서 보면 1T 클럽 은 다른 어떤 LLM보다 더 스마트한 모델을 만들기 위한 첫걸음입니다.
Q: 올해 하반기 계획은 무엇인가요?
김상훈: 올해는 주로 한국형 LLM을 개발하는 데 집중할 계획입니다. 우선 메타의 LLM인 LLaMA를 한국어 버전으로 재학습하는 것이 목표입니다. 이 과정에서 최적의 데이터셋, 하이퍼파라미터, 전처리 방법 등을 연구해 궁극적으로는 완전히 새로운 한국어 LLM을 학습시킬 계획입니다.
송원호: 현재 영어에 능통한 LLM은 많지만 한국어를 잘하는 사람은 소수에 불과합니다. 한국어에 가장 적합한 LLM은 ChatGPT나 GPT-4를 꼽을 수 있습니다. 저희의 단기적인 목표는 ChatGPT보다 한국어 성능이 훨씬 뛰어난 LLM을 개발하는 것입니다. 특히 한국어만 잘하는 것이 중요한 것이 아니라 한국어와 영어 모두에 능통한 LLM을 개발하는 것이 중요합니다. 우리가 성공한다면 민간 한국어 LLM 시장에 지각변동을 일으킬 수 있을 것 같아 기대가 큽니다!
업스테이지의 업무 방식, 업스테이지 방식
Q: 여러분이 실천하는 중요한 업스테이지 방식과 실무 노하우를 공유해주세요.
김상훈: 저의 주요 업스테이지 방법은 '한 걸음 더'와 '공유 '입니다. 리더보드에서 우승하는 것을 목표로 하는 캐글 대회 참가자로서 '한 걸음 더'를 통해 모델의 성능을 지속적으로 향상시키고 있습니다. 또한 팀원들과 아이디어를 조합하여 더 높은 성능의 모델을 만들고, 이를 위해 모델 아이디어를 공유하는 것을 목표로 합니다. 효과적인 공유를 위해 리더보드의 모델 카드에 최대한 많은 내용을 기록하려고 노력합니다.
송원호: 제가 생각하는 업스테이지 방식에서 가장 중요한 것은 '한 걸음 더 '입니다. 모델 개발에서는 사소한 디테일 하나하나가 모델 성능에 차이를 가져올 수 있고, 이 성능은 궁극적으로 AI 서비스의 생존 여부를 결정합니다. 따라서 끊임없이 개선 방법을 고민하고 논의하는 것이 중요한데, '한 걸음 더'라는 사고방식이 이를 가능하게 해줍니다.
실험을 끝냈다면 거기서 멈추지 마세요. 다양한 변수를 고려하고 추가 실험을 계속하는 것이 중요합니다. 단순히 '한 걸음 더'가 아니라 이 걸음들을 '한 걸음 더'로 연결하는 것이 중요합니다. 이를 위해서는 흔들리지 않는 강력한 동기가 필요합니다.
저는 회사의 성장과 제 개인의 성장을 일치시키려고 노력합니다. 이러한 노력 덕분에 제가 취하는 추가 조치가 저와 회사에 변화를 가져온다는 것을 알고 있습니다.
질문: 업스테이지의 다른 스타들에게 전하고 싶은 메시지가 있나요?
김상훈: 업스테이지에는 재능 있는 인재들이 가득하고, 모든 스타들에게서 배울 점이 있습니다. 스타들의 열정과 전문성은 제 개인적인 성장에 큰 도움이 되었습니다. 앞으로도 계속 함께 일할 수 있기를 기대합니다!
송원호: 업스테이지에서 훌륭한 동료들과 함께 일하게 되어 매우 기쁩니다. 업스테이지가 시작되기 전에 안전벨트를 빨리 매세요. 별을 향해 날아오르자!