2023/04/12 | 작성자: 박찬준

💡 자동차가 움직이기 위해서는 연료가 필요하고 음식을 만들기 위해서는 레시피에 재료가 필요한 것처럼 인공지능 시스템에도 데이터라는 연료와 재료가 필요합니다. 이 블로그를 통해 실제 세계에서 데이터가 어떻게 활용되는지 살펴보세요.

데이터 중심 AI란 무엇인가요?

인공 지능은 우리 일상 곳곳에 존재합니다. 우리는 매일 웹사이트에서 정보를 검색하고 언어 장벽에 부딪혔을 때 번역기를 사용합니다. 또한 무엇이 우리의 관심을 끄는지 잘 알고 있는 듯한 YouTube 시스템이 추천하는 동영상에 빠져들기도 하고, 다양한 작업을 위한 편리한 도구로 ChatGPT를 사용하기도 합니다. 일상 생활에서 항상 다양한 AI 시스템을 접하고 사용한다는 점이 놀랍습니다!

그렇다면 우리 일상에 깊숙이 자리 잡은 이러한 AI 시스템을 구성하는 요소는 무엇일까요? 모든 AI 시스템의 핵심은 기본적으로 데이터와 코드로 구성되어 있습니다. 첫 번째 단계는 AI 시스템을 계획하고 설계하는 것(설정)입니다. 두 번째 단계는 연료 역할을 하는 관련 데이터를 수집하는 것입니다. 세 번째 단계에서는 모델을 학습시키는 데 필요한 코드를 작성하고, GPU 하드웨어를 사용하여 개발자가 원하는 내용을 AI 시스템에 가르칩니다. 마지막 단계는 사용자나 고객이 실제로 모델을 사용할 수 있도록 시스템에 서비스를 제공하는 것입니다.

AI 시스템의 수명 주기는 배포와 함께 끝날까요? 전혀 그렇지 않습니다! 사람이 성장하기 위해 균형 잡힌 영양소를 섭취해야 하는 것처럼, AI 시스템도 지속적인 개선이 필요합니다. 그렇다면 AI 시스템을 고도화하려면 어떤 접근 방식이 필요할까요? 궁극적으로 코드와 데이터 중 하나를 개선하는 것이 필수적입니다. 데이터 중심 AI는 모델링이나 코드를 통해 성능을 향상시키는 것이 아니라 데이터의 품질을 향상시키고 데이터의 품질 관리를 통해 모델의 성능을 높이는 데 중점을 둡니다. 즉, 데이터 중심 AI는 단순히 코드를 수정하는 것이 아니라 데이터를 수정하는 것입니다!

ChatGPT에 데이터 중심 AI가 무엇을 의미하는지 물어본 결과, 다음과 같은 답변을 받았습니다.

응답을 살펴본 결과, 데이터 중심 AI는 데이터 혁신을 통한 성능 향상을 강조하는 데이터에 초점을 맞춘 AI 시스템을 의미한다는 것을 알 수 있었습니다. 데이터 중심 AI는 크게 두 가지로 요약할 수 있습니다:

예를 들어, 데이터 관점에서 성능 개선을 고려하는 연구 방법론(코드/알고리즘을 일정하게 유지)이 있습니다:
- 데이터 관리(새 데이터 수집)
- 데이터 증강(데이터 세트 보강)
- 데이터 필터링(데이터 세트 구체화)
- 합성 데이터(인공 데이터 만들기)
- 라벨 일관성(라벨링 방법 표준화)
- 데이터 일관성
- 데이터 도구(라벨링 도구)
- 데이터 측정 및 평가
- 커리큘럼 학습
- 능동적 학습
2. 모델을 수정하지 않고 모델의 성능을 향상시키는 방법을 탐구하는 연구 방법론:
- 다른 모델을 찾아야 하나요?
- 데이터를 이해하고 해당 정보를 사용하여 모델을 개선하는 AI 알고리즘입니다.

데이터 중심 AI를 실제 환경에 적용하는 방법

기업들이 실제 환경에서 데이터 중심 AI를 어떻게 적용하고 있는지 궁금한 적이 있나요? 여러 가지 접근 방식이 있지만, 가장 주목할 만한 것 중 하나는 '데이터 플라이휠' 프로세스입니다. B2B 기업이든 B2C 기업이든 AI 기반 서비스가 제공되면 서비스 로그가 축적됩니다. 많은 기업이 이렇게 쌓이는 데이터를 활용해 서비스를 개선합니다.

예를 들어, YouTube의 추천 모델은 로그 데이터를 모델에 통합하여 사용자 만족도를 향상시키기 때문에 우리의 요구를 잘 반영하고 있습니다. 우리가 포털 사이트에서 검색하는 키워드와 검색 여정은 플랫폼에 축적되는 데이터의 한 형태입니다. 이렇게 기업이 서비스를 운영하며 데이터가 쌓이면 이를 모델의 학습 데이터로 가공합니다. 모델의 학습에 지속적으로 데이터를 추가함으로써 자연스럽게 모델의 인식 성능을 향상시키는 것이 바로 데이터 플라이휠의 본질입니다.

즉, 모델과 데이터 간의 상호 작용을 여러 번 반복함으로써 모델과 데이터의 품질이 모두 향상됩니다. 이것이 바로 데이터 중심 AI를 현실 세계에 적용하는 실질적인 방법입니다.

실제 세계에서 데이터를 만드는 방법

데이터 플라이휠이 현실 세계에서 데이터 중심 AI의 전부이자 끝일까요? 그렇지 않습니다! 현실 세계에서도 우리는 데이터를 처음부터 만들어냅니다. 하지만 AI 연구는 모델 연구에 집중하는 경우가 많았음에도 불구하고 데이터 개발 수명 주기에 대한 구체적이고 구조화된 프로세스가 없었습니다. 그 결과 누가 데이터를 생성하는지, 무엇이 좋은 데이터를 구성하는지, 어떻게 데이터를 생성하는지에 대한 관심은 상대적으로 적었습니다. 이러한 프로세스의 필요성을 인식한 업스테이지에서는 현재 데이터 팀을 중심으로 프로세스를 설계하기 위한 노력을 기울이고 있습니다.

Facebook은 고품질 데이터를 생성하고 파이프라인을 개선하는 방법을 더 잘 이해하기 위해 데이터 생성의 A부터 Z까지 전체 프로세스에 대한 연구를 진행하고 있습니다. DMOP(데이터 관리 운영 및 레시피)라는 이름의 연구에는 이 주제에 대한 논문 발표가 포함되어 있습니다.

이 역량은 AI 모델링 및 서비스 역량과 구별되며, 이러한 분야의 전문성을 갖춘 팀을 구성하면 기업에 상당한 경쟁 우위를 제공할 수 있습니다. (이 주제는 시리즈의 두 번째 파트에서 다룰 예정입니다.)

학습 데이터 생성을 위한 파이프라인 구조(출처: https://arxiv.org/pdf/2303.10158.pdf)

데이터 중심 AI의 다양한 하위 도메인은 데이터 개발 프로세스의 수집, 라벨링, 준비, 축소 및 증강 단계에서도 기여합니다.

데이터의 양과 품질

데이터를 생성할 때 양에 우선순위를 둘 것인지, 아니면 질에 우선순위를 둘 것인지에 대한 의문이 생깁니다. 실제 데이터를 다루는 제 경험상 데이터의 질에 더 많은 비중을 두어야 한다고 생각합니다. 학계의 많은 기존 데이터 중심 AI 연구는 데이터 증강이나 합성 데이터 생성 같은 방법을 통해 데이터 양을 늘리는 데 초점을 맞추고 있지만, 실제 세계에서는 라벨 일관성이 중요하다는 것을 알게 되었습니다.

데이터를 만들 때 양을 우선시할지, 품질을 우선시할지 결정해야 합니다. 실제 데이터에 대한 저의 경험을 바탕으로 저는 데이터 품질을 우선시해야 한다고 주장합니다. 데이터 중심 AI 분야의 수많은 학술 연구에서 데이터 증강이나 합성 데이터 생성과 같은 기술을 통해 데이터의 양을 늘리는 것을 강조하지만, 실제 적용에서는 라벨 일관성이 필수적이라는 것을 관찰했습니다.

라벨 일관성을 달성하기 위해서는 각 데이터 유형의 특성에 따라 주석 작성자에게 일반적인 규칙을 제공하여 개인의 주관적인 판단이 데이터에 편향되지 않도록 해야 합니다. 또한 데이터 측정을 통해 라벨 일관성을 평가하고 이러한 평가를 바탕으로 가이드라인을 개선하는 것이 필수적입니다.

제가 보기에 더 바람직한 데이터 플라이휠은 데이터 양뿐만 아니라 데이터 생성 프로세스 지침과 프로세스가 모델 성능을 기반으로 점진적으로 개선되는 데이터-모델 양방향 선순환을 포함합니다. 이 접근 방식은 단순히 데이터의 양을 늘리는 것이 아니라 데이터 품질을 개선하는 것을 목표로 합니다. 오류가 발생하기 쉬운 데이터를 더 많이 수집하고 모호한 레이블을 지속적으로 개선하는 데 집중함으로써 모델 성능에 의미 있는 영향을 미칠 수 있습니다.

양방향 데이터 플라이휠: 단순히 데이터의 양을 늘리는 단방향적 접근 방식이 아니라, 모델의 결과에 따라 데이터 생성에 대한 지침과 프로세스가 점진적으로 개선되는 긍정적 피드백의 구조입니다.

고품질 데이터를 만들려면 주석 도구(데이터 도구)를 개발해야 합니다. 이러한 도구는 어노테이터의 작업을 효율적으로 만들고 라벨 일관성을 보장하는 기능을 포함하도록 설계되어야 합니다. 업스테이지에서는 고품질 데이터 생산을 향상시키기 위해 '라벨링 스페이스'라는 데이터 도구를 개발하여 내부 데이터 파이프라인에 성공적으로 구현했습니다. 이 도구는 고품질의 데이터를 생성하는 동시에 데이터 생산에 소요되는 시간과 비용을 크게 줄이는 데 핵심적인 역할을 하고 있습니다.

AI에 좋은 데이터란 무엇인가요?

좋은 데이터를 만드는 데 필요한 요소에 대해 살펴봤습니다.

그렇다면 좋은 데이터란 정확히 무엇일까요? 학계에서는 모델의 성능을 객관적이고 확실하게 측정할 수 있는 벤치마크 데이터와 공개적으로 사용 가능한 고품질 학습 데이터를 좋은 데이터로 간주합니다. 그러나 현실 세계에서는 이러한 기준에 반드시 부합하지 않을 수도 있는 다양한 방식으로 좋은 데이터를 정의할 수 있습니다.

<Real-World Criteria for Good Data>

메타 데이터는 얼마나 유익한가요?
데이터의 양은 충분하며 비용은 합리적인가요?
작업자가 불필요한 비용 없이 정당한 비용으로 데이터에 라벨을 붙이고 있나요?
버전 관리 시스템이 잘 갖추어져 있나요?
데이터 저장 폴더 구조가 직관적이고 깔끔한가요?
불필요한 데이터가 포함되어 있나요?
데이터 요약에 명시된 요구 사항을 충족하나요?
데이터 편향, 왜곡, 오염 또는 윤리적 문제가 존재하나요?
데이터 라벨링이 일관되고 정확하게 이루어지고 있나요?

위에서 언급했듯이 데이터의 품질은 다양한 요소에 따라 평가할 수 있습니다. 이는 당연해 보일 수 있지만 좋은 데이터를 만드는 데 있어 필수적인 요소입니다. 이러한 요소들은 학계에서는 좋은 데이터로 간주되지 않을 수 있지만, 현실에서는 반드시 고려해야 할 중요한 요소입니다. 즉, 학계에서 정의하는 좋은 데이터와 업계에서 고려하는 좋은 데이터에는 차이가 있습니다.

현재 학계의 데이터 연구를 보면, 모델을 위한 데이터를 만들기보다는 데이터를 위한 데이터를 만들고 있는 것 같습니다. 학계의 많은 데이터 중심 연구는 모델과의 시너지를 고려하기보다는 데이터 고유의 특성에 따라 데이터를 필터링하는 데 초점을 맞추고 있습니다. 하지만 왜 좋은 데이터를 만들려고 하는가에 대한 질문을 던지면 좋은 모델을 만들기 위해서라고 답할 수 있습니다. 따라서 좋은 데이터와 나쁜 데이터를 구분하는 기준은 모델의 성능을 고려할 때 매우 타당하다고 생각합니다.

앞서 언급했듯이 AI 시스템은 코드와 데이터로 나뉩니다. 성능을 빠르게 향상시킬 수 있는 부분이 데이터인 것은 분명하지만, 코드를 간과해서는 안 됩니다. 따라서 코드를 이정표로 삼는 데이터 중심의 연구가 필요합니다. 즉, 모델 기반의 데이터 중심 AI가 이루어져야 합니다.

진정한 좋은 데이터는 모델러와 함께 여러 번의 반복 작업을 거치고, 그 결과를 바탕으로 모델의 성능을 개선하기 위해 지속적으로 클린징을 거친 데이터라고 생각합니다. 모델을 통해 오류를 발견하고 이를 사람이 정리하는 휴먼 인 더 루프 사이클이 중요합니다. 지속적인 사이클을 통해 오류가 없을 뿐만 아니라 모델의 결과와 잘 일치하는 데이터를 확보하여 모델이 정확한 예측을 할 수 있도록 정보성이 높고 유용한 데이터를 확보하는 것이 필수적입니다. 즉, 데이터 중심 AI를 다시 살펴볼 필요가 있습니다. 진정한 데이터 중심 AI는 데이터에만 초점을 맞추는 것이 아니라 위에서 언급한 요소들과도 호환될 수 있어야 합니다.

좋은 데이터를 위해 가장 중요하다고 생각하는 것을 요약하면 다음과 같이 정리할 수 있습니다:

1) DMOps에 의해 수행되는 체계적인 프로세스

2) 주관이 개입되지 않은 인간 어노테이터에 의한 라벨 일관성을 위한 가이드라인 설정

3) 데이터를 쉽고 효율적으로 생산할 수 있는 도구

4) 모델의 결과를 방향성으로 삼아 지속적인 정리 과정을 거친 데이터

이처럼 데이터 품질, 가이드라인, 모델 성능이 정제 과정을 통해 개선되는 상호 선순환 구조를 기반으로 만들어진 데이터는 좋은 데이터로 정의할 수 있습니다. 그리고 그 가치는 시장에서 모델을 통해 평가받게 될 것입니다. 궁극적으로는 인공지능 기업이라고 해도 모델과 데이터 모두에서 뛰어난 기업이 미래에는 성공할 것이라고 생각합니다.

결론(업스테이지는 어떻습니까?)

Upstage는 모델과 데이터 모두에 뛰어난 회사입니다. 업스테이지의 '업스테이지 AI 팩'은 실제 데이터 중심의 AI 기술을 사용자 친화적인 올인원 패키지에 결합한 제품입니다. 이 패키지는 이 분야를 처음 접하는 사람도 쉽게 AI 시스템을 만들 수 있도록 설계되었습니다. AI 팩을 사용하면 좋은 데이터뿐만 아니라 실제 시나리오를 반영하는 훌륭한 데이터를 만들 수 있습니다. 다음 포스팅에서는 DMOps와 데이터 관리에 대해 자세히 다룰 예정이니 기대해 주세요.

👉 Try Upstage's LLM products in our playground!

현실 세계에서의 데이터 중심 AI