Embedding 모델로 업무를 혁신하기
16/May/2024 | 작성자: 전영훈, 클로이 이현주, 정승원, 박준현
Solar Embedding-1-large를 소개합니다!
OpenAI의 성능(text embedding-3-large)을 뛰어넘은 것은 시작에 불과합니다. 우리는 보다 어려운 문제를 해결해 가고 있습니다. 새로운 Embedding 모델로 검색 시스템을 혁신하고 놀라운 성능의 차이를 직접 경험해 보세요.
성능이 얼마나 우수한가요?
영어, 한국어, 일본어에 대해 벤치마킹한 결과, 3개 언어 모두에서 OpenAI의 Embedding 모델(text-embedding-3-large)보다 우수한 성능을 보였습니다. Solar Embedding-1-large의 뛰어난 성능을 합리적인 가격대로 경험해 보세요.
Embedding이란 무엇인가요?
RAG 알아보기
Embedding을 이해하려면 RAG를 미리 파악해야 합니다. RAG에 대한 자세한 설명은 이전 콘텐츠에서 확인하실 수 있습니다. 더 자세한 내용은 여기에서 확인하세요.
요컨대, RAG는 문서 내 증거 기반 대응을 대폭 강화하여 LLM의 지속적인 환각 문제를 해결합니다. 쉬운 이해를 돕는 아래 그림을 살펴보세요.
Embedding 모델 살펴보기
그렇다면 Embedding은 RAG에서 어떤 역할을 할까요? Embedding은 데이터를 컴퓨터가 이해할 수 있는 숫자 형식으로 변환합니다. 기본적으로 사람이 읽을 수 있는 정보를 컴퓨터가 이해할 수 있는 형식으로 변환하여 데이터를 LLM에 쉽게 전달할 수 있도록 합니다.
과거에는 단어 Embedding이 일반적이었지만 자연어 이해에 필수적인 문맥 정보를 전달하지 못했습니다. Solar Embedding-1-Large와 같은 텍스트 Embedding은 문맥 정보를 통합하여 여러 문장과 긴 텍스트를 이해하는 데 탁월합니다.
Embedding에 대해 자세히 알아보기!
임베딩 모델에 대해 자세히 살펴보겠습니다. Solar 임베딩 API에는 두 가지 모델이 있습니다, solar-embedding-1-large-query
사용자 쿼리 및 solar-embedding-1-large-passage
문서 임베딩을 위해 통합 벡터 공간 내에서 성능에 중점을 두고 텍스트 처리 작업을 향상시키도록 설계되었습니다.
검색 엔진 또는 검색 시스템을 구축하는 개발자용입니다, solar-embedding-1-large-passage
는 검색 가능한 콘텐츠를 처음에 임베드하는 데 이상적입니다. 사용자 쿼리 제출 시에는 solar-embedding-1-large-query
는 쿼리와 임베디드 콘텐츠를 효율적이고 정확하게 매칭하여 정보 검색 프로세스를 최적화합니다.
사용 가능한 모델 및 매개변수에 대한 자세한 목록은 여기에서 업스테이지 개발자 문서를 참조하세요.
구체적인 성능이 궁금하신가요?
MTEB 검색 섹션과 MIRACL을 사용하여 임베딩-1-Large를 평가했습니다. MTEB는 영어 성능을 측정하는 데 일반적으로 사용되는 다양한 텍스트 임베딩 작업을 다루는 포괄적인 데이터 세트입니다. MIRACL은 다국어 검색 벤치마크의 대표적인 역할을 합니다. 두 벤치마크를 모두 활용한 성능 평가에서 놀라운 결과를 얻었습니다.
당사는 널리 사용되는 임베딩 모델보다 성능이 뛰어날 뿐만 아니라 특히 까다로운 작업을 처리하는 데 탁월합니다.
상위 1% 정확도는 하나의 선택지 중에서 정답을 선택할 확률을 나타냅니다. 상위 4는 4개의 후보 중에서 정답이 포함될 확률을 나타냅니다. 그림에서 볼 수 있듯이 과제의 난이도가 높아질수록 우리의 우월성은 더욱 두드러집니다.
요약해 봅시다!
LLM 성능은 빠르게 발전하고 있으며, 다양한 NLP 작업에서 놀라운 결과를 보여주고 있습니다. LLM의 잠재력을 효과적으로 활용하려면 우수한 임베딩 모델이 필수적입니다. 텍스트 데이터의 복잡한 구조와 의미를 숫자 벡터 공간에 매핑함으로써 언어의 미묘한 뉘앙스를 포착하는 데 능숙한 솔라 임베딩-1-large는 전 세계적으로 경쟁력 있는 솔루션입니다. 뛰어난 성능과 효율성을 보장하는 RAG 구성을 위한 최적의 선택이 될 것입니다.
임베딩은 이미 준비되었습니다. 이제 이 모델을 활용하여 차세대 AI 서비스를 구축할 차례입니다. 여러분이 어떤 혁신을 가져올지 기대가 됩니다. 혁신적인 제품으로 세상을 놀라게 하세요!
[주의] 현재 기존 임베딩 모델을 사용 중인 동료는 영어(MTEB)가 4.91점, 한국어(Ko-miracl)가 7.84점 대폭 개선된 새로운 모델로 마이그레이션해 주시기 바랍니다. 기존 임베딩 모델은 6월 15일에 더 이상 사용되지 않습니다.