Upstage

원본 보기

LLM 평가 파트1. 벤치마크 데이터세트란 무엇인가요?

2024/02/01 | 작성자: 최유정 (테크니컬 라이터)

들어가는 말

벤치마크 데이터셋이 필요한 이유는 무엇인가요?

2022년 말부터 대중이 이용할 수 있는 새로운 대규모 언어 모델(LLM)이 급증하고 있습니다. 여기저기서 새로운 LLM이 늘어나면서 어떤 모델이 좋은지 알아가기도 점점 더 어려워지고 있습니다. 그렇다면 어떤 모델이 정 좋은 모델인지, 어떻게 알 수 있을까요?

벤치마크 데이터셋이란 무엇인가요?

벤치마크 데이터 세트는 LLM의 수능과 같습니다. 모델의 품질을 평가하기 위한 고정적이고 표준화된 접근 방식입니다. 이러한 학습 모델이 받은 점수를 통해 학습 모델의 성능을 파악하고 비교할 수 있으며, 더 나아가 학습 모델이 어떤 과목에 능숙한지 파악할 수 있습니다. 언어 처리 능력이 가장 뛰어난 무작위 모델 대신 특정 작업에 수학적 추론에 능숙한 모델을 사용하는 것이 더 현명할 수 있습니다.

벤치마크 데이터셋에 대한 모든 것

전통적인 지표: Perplexity & BLEU
기본적으로 언어 모델을 평가할 때에는 언어 모델의 핵심 능력인 "다음 단어를 예측하는 능력"을 봐야 합니다.

그 중 하나는 perplexity이며, 다음에 올 텍스트를 예측하는 모델의 능력을 측정합니다. Perplexity는 직역하면 "난해함의 정도"로 볼 수 있으며, 점수가 낮을수록 예측 정확도가 높음을 의미합니다. 이는 다음 단어를 예측하는 모델의 숙련도를 반영합니다. Perplexity는 훈련 중 모델의 진행 상황을 모니터링하고 출력의 기본 품질을 확인하는 데 유용하지만, 모델에 대한 종합적인 평가 지표로 볼 수는 없습니다.

또 다른 측정 지표는 BLEU (이중 언어 평가 연구) 점수입니다. 이 점수는 언어모델의 출력이 사람이 작성한 텍스트에 얼마나 가까운지 평가하는 데 사용됩니다. 인간 참조 텍스트 (Human reference text)에 포함된 단어 수를 전체 단어 수로 나누어 계산하면 이 지표를 확인할 수 있습니다. BLEU 점수는 0에서 1까지이며, 점수가 1에 가까울수록 사람이 작성한 텍스트와 유사성이 높다는 것을 나타냅니다. 그러나 BLEU는 텍스트의 문맥을 고려하지 않기 때문에 한계가 있습니다. 예를 들어, 일상적인 문자 메시지와 공식적인 뉴스 기사는 서로 다른 언어적 접근 방식이 필요한데, BLEU 지표는 이 둘을 다르게 평가하지 않습니다. 따라서 기존의 평가 지표들만으로는 모든 영역과 업무에 걸쳐 언어모델을 평가하기는 어렵습니다.

Big 6 벤치마크 데이터셋 소개 :
ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k

그렇다면 우리는 LLM 모델들을 어떻게 제대로 평가할 수 있을까요? 대규모 언어 모델(LLM)이 막 자라나는 청소년이라고 상상해 보세요. 언어모델은 경제와 정치를 포함한 기본적인 세계 지식을 파악하고, 상식과 추론 능력을 갖추고, 잘못된 정보를 감지하고, 간단한 수학 문제를 풀 수 있어야 합니다. 이러한 능력들을 다각도로 평가하기 위해 다양한 데이터셋이 존재하며, 그 중 Hugging Face Open LLM Leaderboard 순위에 영향을 미치는 벤치마크 데이터셋 6가지를 소개합니다. 이중 앞 4개의 데이터셋은 전문적으로 한국어로 번역되어 업스테이지와 NIA(한국지능정보사회진흥원)가 공동 주최하는 Hugging Face Open Ko-LLM Leaderboard에 소개되었습니다.

업스테이지와 NIA가 공동 주최하는 Hugging Face Open Ko-LLM Leaderboard

각 벤치마크 데이터셋이 의미하는 바와 그 이유

1. ARC (AI2 Reasoning Challenge)

  • 목적: 추론 능력 평가
    ARC는 광범위한 일반 지식과 심도 있는 추론 능력을 요구하는 추상적 추론을 테스트하기 위해 초등학교 과학 문제에 대한 LLM을 평가합니다.

  • 예시: 과학 문제가 나오면 네 가지 옵션 중에서 정답을 골라 추론 능력을 보여줘야 합니다.

출처 : Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

2. HellaSwag

  • 목적: 상식 추론
    HellaSwag는 미완성된 구절을 LLM으로 하여금 완성하게 합니다. 문맥에 따라 텍스트를 이해하고 예측하는 능력을 테스트함으로써 LLM의 상식 추론을 평가합니다.

  • 예시: 불완전한 구절이 주어지고, 주어진 문맥에서 논리적으로 이어지는 결말을 LLM이 생성해야 합니다.

출처 :HellaSwag: Can a Machine Really Finish Your Sentence

3. MMLU (Massive Multitask Language Understanding)

  • 목적: 종합적 이해도 평가 (General Understanding)
    MMLU는 기술과학 (STEM)에서 사회과학 분야까지 이르는 57개의 다양한 과제에 대한 LLM의 일반적 지식을 측정하여 다양한 주제와 난이도에 대한 이해와 적응력을 평가합니다.

  • 예시: LLM은 다양한 영역의 질문을 접하게 되며, 폭넓고 다양한 이해를 반영하여 정확한 답변을 제공하기 위해 다양한 지식을 적용해야 합니다.

출처 :Measuring Massive Multitask Language Understanding

4. 진실성 QA (환각현상방지)

  • 과제: 허위 정보 인식
    TruthfulQA는 LLM이 일반적인 오해에 기반하여 잘못된 답변을 내뱉는지 테스트합니다.

  • 예시: 흔하게 오해하기 좋은 상식들에 대해 객관식 또는 서술형으로 답해야합니다.

출처 : TruthfulQA : Measuring How Models Mimic Human Falsehoods

5. WinoGrande

  • 과제: 문맥 기반 추론
    WinoGrande는 자연어 처리를 기반으로 문맥을 올바르게 파악하는 LLM의 능력을 테스트하기 위해 두 개의 가능한 답이 있는 거의 동일한 문장 쌍의 형태를 취합니다. 정답은 촉매로 쓰이는 트리거 단어에 따라 달라집니다.

  • 예시 : 대명사가 가리키는 단어를 정확하게 식별하려면 LLM이 문장 문맥을 이해해야 합니다.

출처 : WINOGRANDE : An Adversarial Winograd Schema Challenge at Scale

6. GSM8k

  • 목적: 수학적 추론
    GSM8k는 기본적인 수학 연산을 사용하여 다단계 수학 문제를 해결하는 능력을 테스트합니다. GSM8k는 2단계에서 8단계까지 풀어야 하는 초등학교 수준의 수학 문제를 통해 모델의 수학적 추론 및 문제 해결 능력을 측정합니다.

  • 예시: LLM은 자연어로 설명된 수학 방정식을 풀어서 질문에 답해야 합니다.

출처 : Training Verifiers to Solve Math Word Problems

한계 및 대안

한계점

현재 사용 중인 벤치마크 데이터셋 만으로는 대규모 언어 모델(LLM)의 안전성을 평가할 수 없다는 점에서 눈에 띄는 한계가 있습니다. OpenAI 모더레이션 API가 안전 문제를 해결하려고 시도하고 있지만, 포괄적인 솔루션을 제공하기에는 부족합니다. 또한 이러한 벤치마크에는 통합된 프레임워크가 없기 때문에 평가가 여러 플랫폼에 흩어져 있는 파편화된 평가 환경도 현재의 한계점입니다.

대안적 평가방법

대안으로는 LLM의 결과물을 사람이 직접 비교 평가하는 방법들이 있습니다. 이 방법을 활용하는 대표적인 플랫폼은 사용자가 익명의 LLM 두 명과 대화에 참여하는 Chatbot Arena입니다. 사용자는 몇 차례의 대화를 기반으로 더 나은 성능을 보여준다고 판단하는 LLM에 투표하고, 이러한 투표는 리더보드에서 모델의 순위를 매기는 ELO 등급에 기여합니다. 또한 Thumbs up Ratio는 직접 피드백 메커니즘을 제공하여 사용자가 LLM의 결과물을 바로 평가할 수 있습니다. 아래 이미지에서는 사용자가 GPT-3.5보다 Upstage의 대규모 언어 모델인 Solar에 더 높은 엄지 척도를 부여한 것을 볼 수 있습니다. 위의 방법들과 더불어 성능이 검증된 강력한 LLM을 사용하여 다른 LLM 을 평가하는 다중 턴 질문셋인 MT-Bench도 있습니다.

결론

이번 글에서는 대규모 언어 모델(LLM)을 평가하는 이유와 방법에 대해 자세히 살펴봤습니다. 특히 6개의 벤치마크 데이터 세트를 분석하여 그 한계와 현재 평가 방법론의 대안들에 대하여 알아봤습니다. LLM 평가 시리즈의 2부에서는 이러한 평가가 수행되는 방법의 실제적인 측면과 평가 프로세스와 관련된 다양한 문제를 해결하는 방법에 대해 소개해보겠습니다.

원본 게시물에서 이 양식 보기