2024/02/23 | 작성자: 최유정 (테크니컬 라이터)

들어가는 말

평가가 중요한 이유는 무엇인가요?

2022년 말부터 우리 모두는 새로운 대규모 언어 모델(LLM)이 급증하는 것을 목격했습니다. 이러한 모델은 전례 없는 기회를 열어주며 다양한 분야의 산업을 혁신할 수 있는 잠재력을 암시하고 있습니다. 그러나 LLM 활용의 핵심 과제는 동일한 프롬프트가 다양한 결과물로 이어질 수 있다는 확률론적 특성에 있습니다. 이러한 가변성은 애플리케이션에서 사용할 수 있도록 LLM으로 생성된 콘텐츠의 안전과 품질을 어떻게 보장할 수 있을지에 대한 중요한 질문을 제기합니다. 또한 여기저기서 새로운 LLM이 등장하면서 사람들이 어떤 것이 새로운 큰 문제인지 알아차리기가 점점 더 어려워지고 있습니다. 그렇다면 어떤 것이 내 작업에 적합한 성능을 제공하는지 어떻게 알 수 있을까요?

이 과정에서 벤치마크 데이터 세트는 어떻게 사용되나요?

1부에서 소개한 것처럼 벤치마크 데이터 세트는 LLM의 수능과 같은 역할을 하며, 모델의 기능을 평가하는 고정적이고 표준화된 방법을 제공합니다. 이러한 평가는 서로 다른 LLM의 성능을 측정하고 쉽게 비교할 수 있도록 도와줍니다.
하지만 점수는 정확히 어떻게 계산하나요? 평가는 객관식 문항으로만 이루어지나요, 아니면 주관식 문항도 포함되나요? 그렇다면 이러한 모델은 정확히 어떻게 점수를 매기며 답안지는 어떻게 구성되나요? 또한 리더보드에서 이러한 모델의 순위를 어떻게 매기나요?

모델 출력 점수 매기기

객관식 문제에 대한 자동 채점

자동 채점을 통해 LLM을 평가하는 대표적인 예는 대규모 멀티태스크 언어 이해력(MMLU) 벤치마크에서 찾아볼 수 있습니다. MMLU는 STEM에서 사회 과학에 이르는 57개의 다양한 과제를 통해 LLM에 대한 전반적인 이해도를 평가하도록 설계되었습니다. 이러한 과제는 다양한 주제와 난이도에 걸쳐 모델의 이해도와 적응력을 테스트합니다. 객관식 시험인 MMLU는 개방형 문제가 있는 시험에 비해 벤치마킹에 대한 간단한 접근 방식을 제공합니다.

평가 대상 모델에는 텍스트 문자열(즉, "프롬프트")이 주어지며, 이 문자열은 모델 설계에 따라 토큰(단어, 하위 단어 또는 문자)으로 분류되어 모델에 입력됩니다. 그러면 모델은 어휘에서 다음 토큰의 확률 분포를 예측하여 가장 가능성이 높은 연속을 선택할 수 있습니다. 이 과정을 반복하여 프롬프트에 토큰을 추가하고 후속 토큰을 생성하여 완전한 문장 또는 일련의 문장이 형성될 때까지 이 과정을 반복할 수 있습니다.

각 질문에 대해 제공된 답 중 하나만 정답입니다. 다음은 예시입니다:

모델에 출력을 생성하라는 메시지를 표시한 후 모델에서 정보를 추출하고 평가하는 두 가지 주요 방법이 있습니다.

확률 비교: 특정 토큰 그룹이 주어진 프롬프트의 논리적 연속일 확률을 평가한 다음, 이 확률을 미리 정의된 선택지와 비교합니다.
텍스트 생성 비교: 설명한 대로 토큰을 반복적으로 선택하여 모델에서 텍스트를 생성하고 이렇게 생성된 텍스트를 미리 정의된 다양한 선택 항목의 텍스트와 비교합니다.

주관식 질문들은 어떻게 평가할까요?

주관식 문제에 대한 자동 채점

수많은 LLM과 그 주관식 텍스트를 수동으로 평가하는 것은 불가능하고 비현실적입니다. 유망한 자동화된 솔루션으로는 고성능 LLM인 GPT-4를 판정자로 활용하여 다양한 모델의 응답을 비교하는 MT-Bench가 있습니다. 이 접근 방식은 GPT-4가 통제된 사람의 판단과 크라우드소싱된 사람의 판단을 80% 이상 일치시켜 사람 사이의 일치도를 반영하는 등 효과가 입증되었습니다. 이러한 자유형 답변 채점 자동화를 통해 객관식 질문에 답하는 대신 장문의 텍스트 답변을 제공하는 모델의 능력을 강조하여 실제 사용자 요청과 밀접하게 일치하는 보다 실용적인 평가가 가능해졌습니다.

*출처 :* MT-Bench 및 챗봇 아레나를 통한 LLM 심사위원 심사

인적 자원을 투입한 평가

사람이 직접 실행하는 평가는 애플리케이션이 출시되기 전에 애플리케이션의 결과물을 평가하는 데 중요한 역할을 합니다. 이 과정에는 종종 특별히 구성된 테스트 데이터셋을 사용하여 애플리케이션의 응답을 평가하는 인간 어노테이터의 사용이 포함됩니다. 평가 기법에는 답변 점수 매기기, A/B 테스트 수행, 정답인 "golden set"과 답변 비교 등이 포함됩니다. 또한 사용자의 좋아요 응답 비율을 분석하는 등 실제 피드백 메커니즘을 통해 배포 후 성과를 모니터링할 수 있습니다. 이러한 접근 방식은 실제 사용 시나리오에서 모델이 사용자의 기대치를 얼마나 잘 충족하는지에 대한 인사이트를 제공합니다.

리더보드의 순위 매기기

리더보드에서 모델의 순위는 일반적으로 다양한 벤치마크 데이터 세트에서 얻은 평균 점수를 기반으로 하며, 이를 총점(예: H6, H4 등)이라고 합니다. 이 접근 방식은 단일 평가 기준에 과도한 가중치를 부여하지 않고 모든 벤치마크를 동등하게 취급하여 단순한 기계적 평균을 계산합니다.

현재 평가 방법의 전반적인 한계점

LLM을 평가하고 순위를 매기는 구조화된 접근 방식에도 불구하고 이러한 모델을 실제 상황에 적용하면 몇 가지 한계가 분명해집니다:

오래된 데이터: 데이터 환경이 끊임없이 변화하고 매일 새로운 정보가 생성됨에 따라 평가 벤치마크는 빠르게 구식이 될 수 있습니다. 그러나 리더보드는 종종 스냅샷으로, 시간이 고정되어 있고 데이터의 지속적인 진화를 반영하지 못하기 때문에 시간이 지날수록 관련성이 떨어집니다.
현실 세계의 복잡성을 반영하지 못함: 모델의 진정한 가치는 실제 문제에 효과적으로 적응하고 대응할 수 있는 능력에 있습니다. 여기에는 주어진 형식에 따라 신뢰할 수 있는 출력을 생성하는 능력, 즉 함수 호출 능력에 대한 LLM의 평가가 포함됩니다. 또한 이러한 모델이 유해한 콘텐츠 생성을 유도하거나 학습 데이터에서 개인 정보를 추출하는 등 사용자의 탈옥 (Jailbreaking) 시도를 어떻게 방지하는지 평가하는 것도 중요합니다. 또한 모델이 정책에 따라 유용한 답변을 제공하는 것과 정치적으로 편향된 답변을 피하는 것 사이의 미묘한 균형을 어떻게 유지하는지도 확인해야 합니다.
경쟁의 의미에 대한 의문: 모델이 특정 테스트셋에 지나치게 최적화되어 실제 적용 가능성보다 리더보드의 성공을 우선시하는 일종의 과적합으로 이어질 위험이 있습니다. 이러한 상황은 모델이 실제 시나리오에서 진정으로 효과적인지 확인하기보다는 순위를 올리는 데 더 중점을 둔다는 것을 시사합니다.

벤치마크를 뛰어넘기 위한 노력

더 나은 벤치마크

앞으로는 벤치마크에 포함되는 작업의 범위를 넓히는 것이 필수적입니다. 벤치마크는 단순히 기본적인 언어 기능을 평가하는 것을 넘어 사용자에게 신뢰성을 보장하기 위해 LLM의 신뢰성을 엄격하게 평가해야 합니다. 여기에는 금지된 콘텐츠를 유도하려는 사용자의 탈옥 (Jailbreaking) 시도를 차단하거나 답변이 사실에 근거한 것인지 확인하는 등의 작업이 포함되어 모델의 신뢰성과 유용성을 향상시킵니다.

평가 언어의 범위와 다양성을 확대하는 것은 언어 모델(LM)의 다국어 역량을 발전시키는 데도 중요하며, 영어와 한국어의 한계를 넘어 더 넓은 스펙트럼의 언어를 포용하는 것이 중요합니다. 이러한 포용성은 문화적 다양성으로 언어 모델 개발을 풍성하게 하고 언어 간 이해의 폭을 넓혀줍니다.
또한 모델의 프로그래밍 언어 이해 및 생성 능력 평가는 추론 능력을 평가하는 데 중요한 측면으로 부상하고 있습니다. 한 연구에서는 코드 체인(CoC) 접근 방식을 채택한 연구에 따르면 작업을 시뮬레이션된 의사 코드로 표현하는 것이 LLM 능력을 개발하는 데 도움이 되는 것으로 나타났습니다.

평가에서 업무, 언어, 코딩 능력을 다양화하면 이러한 요소의 상호 연결성을 강조할 수 있습니다. 이러한 총체적인 측정 방식을 채택함으로써 LLM의 전반적인 역량에 대한 포괄적인 잠재력을 평가하는 데 중요한 진전을 이룰 수 있습니다.

평가하는 다른 방법

벤치마크는 실제 온라인 환경에서 가치를 평가하는 좋은 방법이지만, 벤치마크 기반 평가가 아닌 실제 온라인 환경에서의 평가는 매우 의미가 있습니다. 예를 들어 챗봇 아레나는 실제 온라인 환경에서 LLM을 평가할 수 있는 좋은 방법 중 하나입니다. 한 가지 재미있는 예는 상담원에게 가격을 흥정하여 자원을 나누라는 지시를 내리는 NegotiationArena입니다. 여기서 LLM 에이전트는 교활하면서도 절박해 보이는 등의 전략을 채택하여 향상된 협상 기술을 보여주었습니다. 이는 실제 시나리오에서 LLM을 평가하여 그들의 능력과 한계를 제대로 이해하는 것이 얼마나 중요한지를 강조합니다.

나가는 말

이 글에서는 자동화된 메트릭과 사람의 주석을 통해 LLM을 평가하는 기본 메커니즘을 살펴보고, 현재 방법의 한계와 유망한 대안에 대해 자세히 알아보았습니다.

지금까지 논의한 내용은 광범위하지만, 코드 실행이나 정보 추출과 같은 특정 작업에는 여기서 다루지 않은 맞춤형 접근법이 도움이 될 수 있다는 점을 인식하는 것이 중요합니다. 또한, 각 평가 방법의 고유한 함정을 고려하여 그 한계를 이해하고 접근 방식을 선택하는 것이 편견 없는 평가를 수행하는 데 필수적입니다.

기존의 방법론을 보완하고 LLM의 신뢰성을 높일 수 있는 방법론을 찾기 위한 여정은 아직 끝나지 않았습니다. 탐색은 계속됩니다!

감사

이 블로그 게시물에서 유용한 제안을 해주시고 제 모든 질문에 답변해 주신 김지후, 박철영 님께 감사드립니다.

LLM을 시작하려면 다음을 사용해 보세요. 업스테이지의 Solar API.

LLM 평가 파트2. LLM 채점 시스템의 메커니즘