2024년에 주목해야 할 오픈 소스 LLM 상위 5가지

2024/01/12 | 작성자: 박성민 (콘텐츠 매니저)
 
2024년에 주목해야 할 오픈 소스 LLM 상위 5가지

오픈 소스 LLM 사용의 이점

제너레이티브 AI에 대한 관심이 높아지면서 다양한 오픈소스의 등장으로 AI 시장이 변화하고 있습니다. 올해에는 10개 이상의 대규모 언어 모델(LLM)이 출시될 예정입니다. 오픈소스 LLM은 접근성, 투명성, 비용 효율성으로 인해 주목받고 있습니다. 기업은 투명성 덕분에 특정 요구사항에 맞게 커스터마이징할 수 있습니다. 오픈소스 프로젝트를 미세 조정하면 방대한 양의 데이터를 학습하거나 자체 시스템을 개발할 필요 없이 새로운 모델을 빠르게 개발할 수 있습니다. 이로 인해 업계에서는 AI 기술 발전을 위해 건강한 오픈소스 생태계를 조성해야 한다는 목소리가 커지고 있습니다. 아래 단락에서 오픈 소스 LLM을 사용하면 어떤 이점이 있는지 살펴보겠습니다.

  • 혁신 및 개발

    • 협업 기여: 커뮤니티 협업을 통해 기술 발전을 장려합니다.

    • 빠른 반복: 커뮤니티 주도의 개선과 버그 수정으로 신속한 개선이 이루어집니다.

  • 접근성 및 사용자 지정

    • 비용 부담 없는 액세스: 기술 도입에 대한 재정적 장벽을 제거합니다.

    • 커스터마이징을 위한 유연성: 다양한 요구 사항을 충족하도록 소프트웨어를 수정하고 확장할 수 있는 기능을 제공합니다.

  • 교육 및 연구 기회

    • 학습 플랫폼: 학생과 연구자가 학습하고 실험할 수 있는 리소스를 제공합니다.

    • 투명성: 알고리즘과 데이터 처리 방법에 대한 이해와 연구를 용이하게 합니다.

  • 경제적 이점

    • 비용 절감: 개발 비용을 절감하고 잠재적으로 투자 수익률(ROI)을 높일 수 있습니다.

    • 기업가 정신과 혁신: 스타트업과 기업이 더 낮은 비용으로 새로운 제품과 서비스를 개발할 수 있도록 지원합니다.

  • 기술적 신뢰성

    • 보안 강화: 공개적으로 사용 가능한 소스 코드를 사용하면 보안이 강화되고 신뢰도가 높아질 수 있습니다.

    • 지속 가능한 지원: 오픈소스 커뮤니티의 장기적인 지원 및 유지보수 가능성을 제공합니다.

지난 몇 년간 도입된 LLM 모델 수의 추이입니다. (출처: 대규모 언어 모델에 대한 종합적인 개요)

오픈 소스 LLM 열풍은 2023년 2월 Meta가 LLaMa를 학계에 공개하면서 시작되었으며, 이후 이를 활용한 수많은 'sLLM '(소규모 대규모 언어 모델)이 등장했습니다. sLLM은 일반적으로 60억 개에서 100억 개 사이의 파라미터를 가지고 있으며, OpenAI의 'GPT-4' 파라미터가 약 1조 7천억 개로 추정되는 것을 고려하면 훨씬 작은 규모로 저비용 고효율 효과를 얻을 수 있다는 것이 가장 큰 장점입니다.

그렇다면 2024년에 주목해야 할 최고의 오픈 소스 LLM 5가지는 무엇일까요?


2024년 최고의 오픈소스 LLM 5가지

1. 라마 2

라마 2

출처: 메타 AI

라마 2는 메타 AI에서 개발한 오픈 소스 LLM으로, 가장 인기 있는 오픈 소스 LLM 중 하나입니다. 라마 2는 라마의 첫 번째 상용 버전으로 2023년 7월 18일에 출시되었습니다. 70억에서 70억 사이의 네 가지 크기를 제공하며, 라마 2의 사전 학습 데이터는 라마 1보다 더 큰 2조 개의 토큰으로 구성되어 있습니다.

표준 트랜스포머 아키텍처를 활용하는 라마 2는 RMSNorm(루트 평균 제곱 레이어 정규화) 및 RoPE(회전 위치 임베딩)와 같은 새로운 기능을 적용합니다. 라마 2 채팅은 감독된 미세 조정으로 시작하여 RLHF(인간 피드백을 통한 강화 학습)를 통해 개선됩니다. 라마 1과 동일한 토큰화기인 바이트쌍 인코딩(BPE) 알고리즘과 SentencePiece를 사용합니다. 또한, 중요한 문제인 진실성, 독성, 편향성에 대한 우려를 해소하기 위해 안전성 검사에 상당한 주의를 기울이고 있습니다. Azure와 Windows를 비롯한 다양한 플랫폼에서 미세 조정이 가능하도록 확장되어 다양한 프로젝트에 유용합니다.

인간 피드백을 통한 강화 학습(RLHF)과 보상 모델링을 통해 양방향 대화에 최적화된 Llama-2-Chat.

인간 피드백을 통한 강화 학습(RLHF)과 보상 모델링으로 양방향 대화에 최적화된 라마2챗(Llama-2-Chat). (출처: Meta AI)



2. 2. 미스트랄

미스트랄 AI

미스트랄-7B는 미스트랄 AI에서 출시한 기본 모델로, 맞춤형 트레이닝, 튜닝 및 데이터 처리 방법을 기반으로 합니다. Apache 2.0 라이선스에 따라 제공되는 오픈 소스 모델입니다. 실제 앱을 위해 설계되어 효율성과 고성능을 제공합니다. 최고의 오픈 소스 13B 모델 중 하나인 Llama 2와 비교했을 때, Mistral 7B는 출시 당시 평가된 모든 벤치마크에서 더 나은 성능을 보였습니다. 수학, 코드 생성 및 추론을 포함한 다양한 벤치마크에서 뛰어난 성능을 발휘합니다.

다양한 벤치마크에서 미스트랄 7B 및 다양한 라마 모델의 성능.

다양한 벤치마크에서 미스트랄 7B 및 다양한 라마 모델의 성능. (출처: 미스트랄 7B)

복잡한 계산이 필요 없는 대규모 배치 처리 작업의 경우 Mistral-7B를 포함한 Mistral-Tiny 모델이 적합한 선택입니다. 애플리케이션을 위한 가장 비용 효율적인 엔드포인트입니다. 미스트랄-소형(미스트랄 8x7B Instruct v0.1)은 5개 언어(영어, 프랑스어, 이탈리아어, 독일어, 스페인어)를 지원하며 코드 생성에 탁월합니다. 미스트랄-중형은 GPT-3.5보다 성능이 뛰어난 고성능 프로토타이핑 모델을 사용하는 것으로 유명합니다. 고품질 애플리케이션에 적합합니다.


3. 3. 태양열

업스테이지 솔라 LLM

Solar는 업스테이지에서 출시한 사전 학습된 LLM입니다. 107억 개의 파라미터가 탑재된 솔라 10.7B는 계산 효율을 유지하면서 필수적인 자연어 처리 작업에서 라마 2, 미스트랄-7B 등 기존 모델보다 뛰어난 성능을 발휘하는 최신의 최고 오픈 소스 LLM입니다. 2023년 12월에는 세계 최대 머신러닝 플랫폼인 허깅페이스가 운영하는 '오픈 LLM 리더보드'에서 1위를 달성했습니다. 이 성과는 Solar가 300억 개 미만의 매개변수(30B)로 세계 최고 성능의 모델로 인정받으며 소규모 LLM(SLM) 표준을 충족한다는 점에서 중요한 의미를 갖습니다.

업스테이지에서는 더 작은 솔라 모델의 성능을 최적화하기 위해 뎁스 업스케일링 방법을 활용하여 성능이 좋은 대형 13B 모델과 지적 한계가 있는 소형 7B 모델의 장점을 결합했습니다. 전문가 혼합(MoE)과 달리, 심층 업스케일링은 훈련과 추론에 복잡한 변경이 필요하지 않습니다. Solar의 기본 모델은 미스트랄 7B에서 사전 학습된 가중치가 있는 32층 라마 2 아키텍처입니다. Solar는 방대한 커뮤니티 리소스 풀을 활용하는 동시에 기능을 향상시키기 위해 새로운 수정 사항을 도입하여 이를 활용합니다.

또한 사전 학습 및 미세 조정 단계에서 리더보드 벤치마킹 데이터 세트 대신 자체적으로 구축한 데이터를 사용했습니다. 이는 벤치마크 세트를 직접 적용하여 리더보드 점수를 높이는 모델과 달리 비즈니스 애플리케이션의 다양한 실제 작업에 대한 Solar의 다용도성을 강조합니다.

다른 최고 성능 모델과 함께 SOLAR 10.7B 및 SOLAR 10.7B-Instruct에 대한 평가 결과. (출처: SOLAR 10.7B: 간단하면서도 효과적인 뎁스 업스케일링으로 대규모 언어 모델 확장)

다른 최고 성능 모델과 함께 SOLAR 10.7B 및 SOLAR 10.7B-Instruct에 대한 평가 결과. (출처: SOLAR 10.7B: 간단하면서도 효과적인 뎁스 업스케일링으로 대규모 언어 모델 확장)

4. Yi

YI 오픈 소스 LLM

Yi-34B는 8개월 만에 10억 달러 이상의 가치를 인정받으며 유니콘 기업으로 성장한 중국 스타트업 01.AI가 개발했습니다. Yi 시리즈는 고품질 3T 다국어 말뭉치로 학습된 이중 언어 모델을 목표로 하며, 언어 이해력, 상식 추론, 독해력 등에서 가능성을 보였습니다. 6B 및 34B 크기의 모델을 제공하며 추론 시간 동안 32K까지 확장할 수 있습니다.

Yi의 깃허브에 따르면, 6B 시리즈 모델은 개인 및 학술용으로 적합하고, 34B 시리즈 모델은 상업용 및 개인, 학술용으로 적합하다고 합니다. Yi 시리즈 모델은 LLaMA와 동일한 모델 아키텍처를 사용하므로 사용자는 LLaMA의 에코시스템을 활용할 수 있습니다. 01.AI는 올해 개선된 모델을 출시하고 상용 제품을 확대하여 선도적인 제너레이티브 AI 시장과 경쟁할 계획입니다.

5. 팔콘

팔콘은 아랍에미리트(UAE)의 기술혁신연구소에서 출시한 생성형 대규모 언어 모델입니다. 180B, 40B, 75B, 1.3B 매개변수 AI 모델을 제공합니다. Falcon 40B는 연구자와 상업 사용자 모두 로열티 없이 사용할 수 있는 혁신적인 AI 모델입니다. 11개 언어와 잘 작동하며 특정 요구 사항에 맞게 미세 조정할 수 있습니다. Falcon 40B는 GPT-3 및 친칠라 AI보다 훈련 컴퓨팅을 덜 사용하며 양질의 훈련 데이터에 집중합니다. 180B 모델은 1,800억 개의 파라미터와 3조 5,000억 개의 토큰으로 훈련된 뛰어난 성능을 자랑합니다.

오픈 소스 LLM을 통한 AI의 미래 가속화

결론적으로, 오픈소스 LLM의 성장 가능성은 AI 시장의 광범위한 성장을 촉진할 수 있다는 점에서 매우 중요합니다. LLM은 AI의 다양한 영역과 상호 연결되어 새로운 아이디어와 기술의 탄생을 가능하게 합니다. 또한 LLM의 오픈소스 생태계는 그 성장을 가속화할 것입니다. 오픈소스는 누구나 참여하고, 개선하고, 학습할 수 있는 생태계를 제공하여 모두에게 새로운 기회를 창출합니다. 우리는 이러한 변화를 예측하고, 그 성장을 모니터링하며, 함께 성장하기 위해 노력해야 합니다.

이전 게시물
이전 게시물

비즈니스 혁신을 위한 대규모 언어 모델 활용하기

다음
다음

수학적 추론에서 MS ToRA와 ChatGPT를 이긴 업스테이지 13B LLM