LLM 생태계 확장을 위한 업스테이지의 여정: #오픈소스 #해커톤 #스쿨투어

2024/06/12 | 작성자: 박성민
 

소개

AI의 세계는 모든 기술 혁신과 함께 진화하면서 우리의 업무 방식을 바꾸고 있습니다. 대규모 언어 모델(LLM)이 AI 제품 개발에 미치는 혁신적 영향은 비즈니스 영향력을 극대화하는 게임 체인저가 되었습니다. 이것이 바로 우리가 LLM 에코시스템의 경계를 확장하여 혁신을 주도하고자 하는 이유입니다.

우리는 여러 글로벌 컨퍼런스와 커뮤니티 이벤트에서 다양한 산업 분야에서 활용되는 LLM의 영향력을 느낄 수 있었습니다. 지난 3월에는 GTC 2024에 참가하여 자체 부스를 운영하고 스타트업 피칭에 참여하여 전 세계 잠재 고객과 사용자에게 업스테이지의 풀스택 LLM 에코시스템과 Solar LLM을 선보였으며, 또한 LLM과 관련된 커뮤니티 행사에 참석하여 잠재적인 비즈니스 기회를 모색하고 LLM 연구 및 애플리케이션에 대한 깊은 이해를 얻고자 노력했습니다.

저희는 많은 사람들이 AI 도입의 효율성을 높이기 위해 맞춤형 풀스택 LLM 생태계를 구축하는 데 큰 관심을 가지고 있다는 사실을 발견했습니다. 저희의 목표는 A부터 Z까지 AI 도입 여정 전체를 아우르는 풀스택 LLM 에코시스템을 개발하여 전 세계 LLM 커뮤니티 내에서 LLM 애플리케이션 개발의 발전을 촉진하는 것입니다.

사진은 미국과 베트남을 비롯한 전 세계 각지에서 열린 LLM 커뮤니티 행사에 참여한 업스테이지의 모습



LLM 생태계의 부상

LLM 생태계가 왜 이렇게 빠르게 성장하고 업계에서 주목받고 있는지 궁금하신가요? 그 이유는 LLM이 고급 AI 애플리케이션을 개발하고 사용하는 방식을 완전히 변화시켜 다양한 비즈니스 요구사항에 매우 유용하게 활용되고 있기 때문입니다.

이러한 변화의 중심에는 방대한 양의 데이터를 효율적으로 처리하고 복잡한 기계 학습 모델 개발을 촉진하며 복잡한 작업을 쉽게 실행할 수 있는 시스템을 배포하는 데 중추적인 역할을 하는 LLM 에코시스템이 있습니다. AI의 빠른 발전 속도를 고려할 때, 언어 학습 프로세스를 적절히 지원하고 LLM의 잠재력을 최대한 활용하기 위해서는 활기찬 LLM 생태계를 유지하는 것이 필수적입니다.

LLM의 개발에 대해 자세히 알아보기 전에 핵심 구성 요소를 파악하는 것이 중요합니다. 여기에는 모델을 위한 강력한 운영 환경을 구축하는 데 필수적인 하이퍼스케일 클라우드 인프라와 슈퍼컴퓨팅 기능, 하이퍼스케일 데이터 센터가 포함됩니다. 또한 비용 효율적인 적용을 위해서는 백본 모델과 튜닝 기술이 필요합니다. 마지막으로, 모델의 성능을 구축하고 미세 조정하려면 대량의 고품질 학습 데이터가 필수적입니다.

업스테이지 풀스택 LLM 에코시스템

이러한 구성 요소를 통해 LLM을 생성하는 프로세스에는 pre-training, supervised fine-tuning, alignment의 세 단계가 포함됩니다. 이 프로세스를 효과적으로 수행하기 위해 포괄적인 LLM 프레임워크에 필요한 네 가지 필수 구성 요소, 즉 LLM 데이터 처리를 위한 오픈 소스 ETL 솔루션(Dataverse), 깊이별 스케일링을 통한 LLM 확장 및 지속적인 사전 학습(Depth Up Scaling), 단계별 직접 환경 설정 최적화(sDPO), 오픈 소스 LLM 평가 솔루션(Evalverse). 이러한 기본 요소는 LLM을 성공적으로 개발하는 데 필수적이며, 다양한 애플리케이션에서 모델이 뛰어난 성능을 발휘하도록 보장합니다. 또한 활발한 LLM 생태계 지원의 일환으로 LLM 성장을 촉진하기 위한 'Up 1 Trillion Token Club '과 한국어 대규모 언어 모델의 성능을 평가하는 'Open Ko-LLM 리더보드 '를 출시했습니다.

당사의 핵심 LLM 에코시스템은 다양한 언어 기반 작업에서 최적의 성능과 다용도성을 달성할 수 있도록 LLM을 향상하도록 설계되었습니다.




모두를 위한 오픈 소스 LLM

앞서 언급한 오픈 소스 LLM은 접근성, 투명성, 비용 효율성이라는 특징으로 인해 AI 시장에서 더 많은 관심을 받고 있습니다. 유니티는 모두에게 도움이 되는 오픈 소스 LLM을 개발하여 활기차고 혁신적인 생태계를 조성하기 위해 노력하고 있습니다. 아래에서 최근 출시된 오픈소스 프로젝트 4가지를 소개합니다.


솔라 미니는 업스테이지에서 개발한 사전 학습된 대규모 언어 모델(LLM)로, 특히 미세 조정을 통해 다양한 기업 사용 사례에 맞게 쉽게 커스터마이징할 수 있도록 설계되었습니다. 허깅 페이스의 오픈 LLM 리더보드에서 1위를 차지하며 그 우수성을 인정받았습니다. 번역, 수학 풀이, 분류 등 여러 작업에서 탁월한 성능이 입증되어 GPT4의 성능을 뛰어넘는 결과를 가져왔습니다. 이 모델은 Apache 2.0 라이선스에 따라 사용할 수 있으며, 콘솔 또는 Amazon SageMaker JumpStart, AWS Marketplace, LangchainBentoML과 같은 플랫폼을 통해 강력하고 목적에 맞게 훈련된 LLM에 쉽게 통합할 수 있습니다.

데이터버스는 Python을 사용해 추출, 변환, 로드(ETL) 프로세스를 간소화하도록 설계된 무료로 액세스할 수 있는 오픈 소스 프로젝트입니다. LLM 영역에서 강력한 데이터 전처리 기술의 중요성은 과소평가할 수 없습니다. 활기찬 오픈소스 생태계를 조성하기 위해 Upstage는 진화하는 데이터 엔지니어링 기술을 공유함으로써 커뮤니티의 격차를 해소할 뿐만 아니라 한 번의 큐로 쉽게 액세스할 수 있도록 하는 것을 목표로 하는 Dataverse를 출시했습니다.


Evalverse는 LLM(대규모 언어 모델) 평가 요구를 지원하기 위해 설계된 무료로 액세스할 수 있는 오픈 소스 프로젝트입니다. AI 연구 엔지니어와 과학자의 요구를 충족하는 다양한 평가 방법론을 통합하여 LLM 평가를 간소화하도록 설계되었습니다. 또한 LLM 작업 경험이 적은 사람들을 위해 노코드 평가 프로세스를 지원하며, 사용자는 평가 결과를 요약한 수치가 포함된 잘 정리된 보고서를 받을 수 있습니다.

오픈 Ko-LLM 리더보드는 한국어 대규모 언어 모델(LLM)의 성능을 객관적으로 평가하는 것으로, 5가지 평가 방법을 채택하고 있습니다: ARC(AI2 추론 챌린지), HellaSwag, MMLU(대규모 다중작업 언어 이해), TruthfulQA, KoCommonGEN V2. 연구자들은 리더보드에서 자신의 결과를 공유할 수 있으며, 이를 통해 활발한 한국 LLM 평가 생태계의 투명성을 촉진할 수 있습니다. 가장 큰 장점은 한국어 벤치마크를 통해 한국어 LLM 모델의 성능을 평가할 수 있다는 점입니다. 또한, 참가자들은 오픈 Ko-LLM 리더보드에서 '이달의 LLM'을 수상함으로써 자격을 쌓을 수 있습니다.

글로벌 LLM 애플리케이션 개발을 새로운 차원으로 끌어올리다

저희는 사람들이 사용할 수 있는 도구와 LLM 애플리케이션 개발을 위한 새로운 기회를 열어주는 등 기술에 대한 접근성을 민주화하기 위해 노력함으로써 모두에게 진정으로 유익한 AI를 만들고 있습니다.

한국, 미국, 베트남 등 다양한 국가에서 해커톤을 개최하는 것은 전 세계로 LLM 생태계를 확장하기 위한 노력의 일환입니다. 학생, 연구원, 개발자들이 풀스택 LLM 기술을 직접 체험하고 기술적인 아이디어를 마음껏 펼칠 수 있는 기회가 될 것입니다. 이러한 이벤트의 운영이 LLM 생태계의 성장에 기여할 것으로 믿습니다.

업스테이지의 풀스택 Solar LLM을 활용한 AGI House SF의 해커톤 프로젝트.

6월 1일 샌프란시스코에서 열린 RAG 애플리케이션 구축 및 파인튜닝을 위한 Gen AI 해커톤 현장 사진.6월 1일 샌프란시스코에서 열린 RAG 애플리케이션 구축 및 파인튜닝을 위한 Gen AI 해커톤 현장 사진.

6월 1일 샌프란시스코에서 열린 RAG 애플리케이션 개발 및 파인튜닝을 위한 Gen AI 해커톤 현장 사진

우리는 지난 6개월 동안 해커톤과 학교 투어를 포함한 8개의 글로벌 투어 프로그램을 성공적으로 주최했습니다. 이러한 행사를 통해 사람들의 일상을 크게 개선할 수 있는 수많은 귀중한 아이디어를 발굴할 수 있었습니다. 예를 들어, Solar를 이용해 교육용 동영상을 제작하는 아이디어, 레이아웃 분석기로 기술 개념을 다이어그램으로 변환할 수 있는 API를 제안하는 아이디어, 백혈병 환자가 회복 기간 동안 면역력을 높이는 맛있는 식사를 즐길 수 있도록 돕는 앱 프로젝트 등이 있습니다. 이러한 이니셔티브는 글로벌 LLM 생태계 내에서 혁신을 촉진하기 위한 노력의 일환입니다. 다음 단락에서는 그간의 노력과 더 많은 글로벌 투어 이벤트를 개최하기 위한 계획을 간략하게 설명합니다. 또한, 다가오는 해커톤 투어는 베트남, 일본, 태국에서도 개최할 계획을 갖고 있습니다.

<Upstage's Global Tour for Expanding the LLM Ecosystem>

대규모 언어 모델의 미래 형성

미래를 열어가는 최첨단 기술을 접할 수 있는 모든 기회에 감사하고 있습니다. 이번 행사는 저희의 여정의 시작에 불과하며, 업무 효율성을 높이기 위해 글로벌 업계와 더 많은 협업과 기여를 도모 할 수 있게 되어 기쁩니다. 계속해서 개선해나가고 있는 풀스택 LLM과 활기찬 LLM 생태계의 무한한 가능성을 기대해 주세요.

저희의 작업과 솔루션에 관심이 있거나 비즈니스에 Solar LLM을 활용하고 싶으시다면 아래 링크를 통해 문의해 주시기 바랍니다. 함께 소통하고 인사이트를 공유하며 AI의 미래를 함께 만들어갈 수 있는 방법을 모색해보고 싶습니다.

이전 게시물
이전 게시물

LLM 트렌드 보고서(2024년 2분기)

다음
다음

업스테이지, 인텔 코어 울트라 프로세서를 위한 대규모 언어 모델 최적화