Solar LLM with Predibase: The Best LLM for Fine-Tuning that beats GPT-4

2024/06/18 | 이 글은 공동 작성된 블로그 게시물입니다:
- Kasey Roh, Lucy Park, Junyeop Lee at Upstage - Arnav Garg, Will Van Eaton at Predibase
 

도메인별 데이터와 사용 사례가 있는 조직의 경우, 파인튜닝은 프로덕션 애플리케이션에 맞게 LLM을 조정하는 가장 성능과 비용 효율적인 방법 중 하나입니다. 특정 사용 사례에 맞게 소규모 LLM을 파인튜닝함으로써 팀은 다음과 같은 사용 사례에 대해 대규모 일반 모델(예: GPT-4)을 능가하는 성능을 달성할 수 있습니다:

특정 사용 사례에 맞게 소규모 LLM을 미세 조정하여 이점을 누릴 수 있습니다.

그러나 모든 LLM이 파인튜닝에 똑같이 효율적인 것은 아닙니다. 각 모델이 서로 다른 설계 철학(예: 광범위하고 일반적인 사용 사례에 적합하도록 설계된 모델과 특정 애플리케이션에 맞게 맞춤 설계된 모델)으로 개발되었기 때문에 일부 모델은 다른 모델보다 파인튜닝에 더 적합합니다.

Predibase는 작업별 LLM을 파인튜닝하고 제공하는 가장 빠르고 효율적인 방법이며, 광범위한 오픈 소스 LLM과 파인튜닝에 이상적인 소규모 독점 LLM을 미세 조정한 풍부한 경험을 보유하고 있습니다. 업스테이지와 프레디베이스는 작업별 LLM을 보다 빠르고 효율적으로 파인튜닝하고 제공할 수 있는 방법을 찾기 위해 협력했습니다.

약 500번의 파인튜닝 실험을 실행한 결과, 업스테이지의 Solar LLM이 파인튜닝에 가장 적합한 모델이라는 것을 정량적으로 입증할 수 있었으며, 이제 팀에서 Solar LLM을 파인튜닝하여 Predibase에서 서비스할 수 있게 되어 기쁘게 발표합니다.

Solar LLM이 파인튜닝에 탁월한 이유와 더불어 개발자가 Solar 모델을 더욱 쉽게 파인튜닝 할 수 있도록 설계된 플랫폼에 대해 알아보세요.

[→ 무료로 시작하기]




업스테이지의 Solar LLM을 소개합니다.

  • 업스테이지가 Solar LLM을 구축한 이유

    업스테이지는 금융 서비스, 의료, 공급망, 법률 등 다양한 산업 분야의 글로벌 기업에 강력한 맞춤형 문서 처리/LLM 솔루션을 제공한 검증된 실적을 보유한 선도적인 엔터프라이즈 AI 회사입니다.

    엔터프라이즈 AI 분야에 깊은 뿌리를 두고 있는 업스테이지에서는 기업이 보안 이슈에 대한 우려 없이 내부용 데이터로 모델을 쉽게 학습하고 사내에서 안전하게 호스팅할 수 있도록 더욱 뛰어난 성능과 활용 목적에 맞게 학습 가능한 LLM 솔루션을 제공하기 위해 Solar LLM을 개발했습니다.

    기본 모델로서 단일 GPU에서 실행되도록 의도적으로 작고 가벼운 크기로 설계되어 우수한 성능(정확도 및 속도)과 가격 경쟁력을 제공하며, 파인튜닝을 통해 더 나은 성능을 제공할 수 있습니다.

태양광 LLM 설계 철학

파인튜닝을 통해 Upstage는 번역, 수학 풀이, 분류 등 여러 작업에서 성능이 더욱 향상되어 GPT4의 성능을 뛰어넘는 결과를 얻었습니다.

  • Solar LLM이 파인튜닝에 효과적인 이유

    추가 커스터마이징을 염두에 두고 Solar LLM은 미세 조정을 통해 특정 다운스트림 작업의 성능을 개선하도록 사전 학습되었습니다. 특히 업스테이지에서는 사전 학습 및 인스트럭션에 사용되는 데이터 세트의 균형을 최적화하는 데 상당한 노력을 기울였으며, 기업의 다양한 미세 조정 시나리오를 수용하기 위해 도메인 배포를 균일하게 조절했습니다.

    이 접근 방식은 일반적인 사용 사례를 위해 설계된 모델이기 때문에 미세 조정으로 성능이 크게 향상되지 않을 수 있는 다른 범용 LLM과는 다릅니다.


프레디베이스의 파인튜닝 및 추론 기술

어떤 플랫폼이 빠르고 안정적이며 비용 효율적인 서비스를 제공하는지 알아보고 싶으신가요?

Predibase는 LLM을 파인튜닝하고 제공하기 위한 선도적인 개발자 플랫폼입니다. 처음부터 빠르고 안정적이며 비용 효율적일 수 있도록 설계된 Predibase는 동급 최고의 파인튜닝 환경을 구축했습니다. Predibase는 파인튜닝에 필요한 컴퓨팅 리소스를 관리하므로 팀은 메모리 부족(OOM) 오류에 대해 걱정할 필요가 없으며 작업에 적합한 서버리스 GPU 하드웨어가 사용된다는 것을 신뢰할 수 있습니다.

또한 프레디베이스는 짧은 지연 시간(첫 토큰까지 0.20초)과 초고속 처리량(초당 200개의 토큰)으로 추론 기능을 제공합니다. 또한, 팀은 Predibase에서 개발한 오픈 소스 서빙 프레임워크인 LoRA eXchange (LoRAX)를 통해 하이엔드 A100, H100 또는 상용 A10G 등 단일 GPU에서 수백 개의 미세 조정된 LLM을 제공할 수 있으므로 Predibase는 파인튜닝된 LLM을 제공하기 위한 가장 비용 효율적인 플랫폼 중 하나가 됩니다.


평가 결과

Solar-Mini-Chat을 평가하기 위해 비슷한 등급의 13개 인기 오픈 소스 LLM과 2개의 폐쇄 소스 기본 모델과 파인튜닝된 작업별 성능을 비교하기로 결정했습니다: GPT-3.5 Turbo와 GPT-4.

  • 높은 수준의 실험 방법론

실험 설정에 대한 간략한 개요는 다음과 같습니다:

  1. 데이터 세트 선택: 자연어 이해, 코딩, 지식, 추론, 수학 등 5개 카테고리에 걸쳐 31개의 다양한 데이터 세트를 꼼꼼하게 선정했습니다.

  2. 데이터 세트 준비: 31개의 데이터 세트는 각각 훈련 세트와 홀드아웃 평가 세트로 나누어 강력한 평가를 보장했습니다.

  3. 모델 훈련: 기본 모델을 선택하고 각각의 인스트럭트/챗 템플릿을 활용하여 각 데이터 세트에 대해 훈련시켰습니다. 이 과정은 이 실험에 포함된 모든 기본 모델에 대해 반복되었습니다.

  4. 배치 평가: 교육 후, 보류된 평가 세트에 대해 미세 조정된 LoRA 어댑터를 사용하여 일괄 평가를 실시했습니다. 작업 유형에 따라 정확도, ROUGE, HumanEval 등 다양한 메트릭을 사용하여 성능을 효과적으로 측정했습니다.

  5. 결과 비교: 마지막으로 결과를 취합하고 모델을 비교 분석하여 최고의 성과를 거둔 모델을 식별했습니다.


  • 결과

    이러한 모든 결과를 표로 정리한 결과, Solar-Mini-Chat이 ~11B 매개변수 모델 가중치 등급에서 가장 성능이 뛰어난 모델로 대부분의 다른 오픈소스 모델을 크게 앞서는 것으로 나타났습니다.

    위의 관찰을 뒷받침하는 두 가지 지표를 자세히 살펴보세요.


  • 슬라이스 1: 파인튜닝한 Solar의 전반적인 성능

    이 지표는 특정 모델이 주어진 작업에 대해 다른 모든 모델과 비교하여 가장 높은 점수를 얻는 빈도를 정량화합니다. 이 빈도는 31개 작업 전체에 걸쳐 합산되어 각 모델의 전반적인 효율성을 평가합니다. 즉, 모델 X가 모든 작업에서 다른 모델보다 우수한 성과를 거둔 횟수를 측정합니다.


    Solar 파인튜닝이 31개 과제 중 16개(약 51.6%)에서 가장 높은 점수를 받아 선두를 차지했습니다. 그 뒤를 이어 Phi-3, 라마-3-8B, 제퍼-7b, GPT-4(베이스)가 31개 과제 중 각각 3개(약 9.7%)의 점수를 획득하며 공동 2위를 차지했습니다.

  • 슬라이스 2: 미세 조정된 Solar의 정면 대결 성능

    슬라이스 2는 다른 기본 모델의 파인튜닝과 비교하여 우수한 결과를 달성하는 빈도를 정량화하여 Solar 파인튜닝의 경쟁력 있는 성능에 대한 통찰력을 제공합니다. 각 백분율 값은 Solar 파인튜닝이 경쟁 모델보다 우세한 작업의 비율을 나타냅니다.

예를 들어, Phi-2와의 승률이 83.87%라는 것은 Solar 파인튜닝이 약 83.87%(26/31)의 작업에서 Phi-2보다 더 나은 성능을 보였다는 것을 의미합니다. 흥미롭게도 Zephyr-7b-beta는 Solar-Mini-Chat과 가장 근접한 경쟁을 펼친 반면, Solar-Mini-Chat 파인튜닝은 거의 항상 기본 gpt3.5 터보를 이겼습니다.

실험 설정 및 결과에 대한 자세한 내용은 문서와 Predibase의 파인튜닝 인덱스를 참조하세요.

파인튜닝을 위한 완벽한 선택인 Solar로 여러분의 맞춤형 LLM을 구축하세요.

맞춤형 LLM을 파인튜닝하고 생성하는 데 있어 Solar LLM과 Predibase의 탁월한 성능에 감명을 받으셨나요? 빠르고 안정적이며 비용 효율적인 Predibase의 Solar 모델 파인튜닝 결과를 경험해 보세요! 이미 다양한 산업과 서비스에서 업스테이지의 Solar LLM을 활용하고 있습니다.

단일 GPU를 사용하여 100개의 미세 조정된 LoRA 모델을 동적으로 서비스하는 프레디베이스의 프레임워크인 LoRAX를 사용하면 단일 전용 LLM 배포 비용으로 31개의 미세 조정된 Solar-Mini-Chat LoRA 어댑터를 모두 서비스할 수 있습니다.

비용 절감을 위해 24GB VRAM이 장착된 A10G 정도의 작은 하드웨어에 구축할 수 있습니다. 그러나 매우 높은 요청량(초당 쿼리 수로 측정)을 처리하고 2배 빠른 처리량을 얻으려면 A100으로 확장해야 합니다.

LoRAX를 사용한 응답 지연 시간을 느껴보려면 미세 조정된 모델과 LoRAX의 데모인 LoRA Land를 확인하세요. 또한 훈련 시 메두사를 통한 추측 디코딩을 통해 미세 조정 모델 성능 저하 없이 미세 조정 모델의 추론 처리량이 최대 3배까지 빨라지는 것을 경험할 수 있습니다.

업스테이지의 Solar와 프레디베이스에 대해 자세히 알아보려면 다음 리소스를 확인하세요.
7월 11일에 예정된 웨비나에서는 미세 조정된 Solar LLM이 어떻게 AI 이니셔티브를 혁신하고 프로덕션으로 가는 길을 가속화할 수 있는지 살펴볼 수 있는 가이드를 제공할 예정입니다.

이전 게시물
이전 게시물

SAAS - 대규모 언어 모델에서 향상된 수학적 추론을 위한 해결 능력 증폭 전략

다음
다음

LLM 트렌드 보고서(2024년 2분기)