[AI와 저작권법] AI 모델의 데이터 사용은 저작권법을 준수하나요?

2023년 2월 14일 Hailey(박성민) .

2023/02/14 | 작성자: 박성민

ChatGPT, Midjourney와 같은 생성형 AI가 최근 화두가 되면서 AI 저작권에 대한 관심도 함께 높아지고 있습니다. AI 모델을 만들 때 사용하는 다양한 데이터는 저작권법을 준수하고 있을까요?

이 콘텐츠에서는 교육 환경 밖에서 서비스형 인공지능 모델을 합법적으로 제작하기 위해 알아야 할 저작권법을 소개합니다. 특히 NLP(자연어 처리) 기술을 기반으로 AI 모델용 데이터를 만드는 과정에서 흔히 접할 수 있는 사례와 궁금증을 살펴봅니다.

저작권법, 왜 알아야 할까요?

좋은 AI 모델은 좋은 데이터에서 나온다

학교와 같은 교육 환경에서 AI 모델을 개발할 때는 보통 교사나 커리큘럼 관리자가 저작권 문제 없이 데이터와 과제를 준비합니다. 하지만 개인이 직접 제작하는 경우 원하는 문제를 해결하는 모델을 만들기 위해서는 적절한 데이터를 찾아서 만들어야 합니다. 단순하게 생각하고 무분별하게 웹에서 데이터를 가져와 모델 학습에 활용하면 자신도 모르게 저작권법을 위반할 수 있습니다. 따라서 인공지능 모델 개발에 필요한 데이터 생산에 앞서 저작권법에 대한 지식이 선행되어야 합니다.

마찬가지로 학계에서도 저작권과 라이선스에 대한 관심이 높아지고 있습니다. 이 블로그에서는 논문의 내용이나 데이터 수집 방법이 지적재산권을 침해하는지 여부를 다루고 있으므로 학계 종사자라면 저작권에 대한 올바른 이해와 활용이 필요합니다.

학계에서 주목받는 저작권 (출처: 자연어 처리 국제 공동 컨퍼런스, ACL-IJCNLP 2021 )

주의를 기울여야 할 필요성: AI와 크리에이터를 염두에 둔 긍정적인 법 개정의 필요성

저작권에 대해 우려해야 하는 두 번째 이유는 많은 저작권법이 아직 AI 모델의 발전을 고려하지 않고 있기 때문입니다. 이는 역설적으로 보일 수 있지만 AI의 긍정적인 발전을 위해 반드시 주의가 필요한 부분입니다. 우수한 AI를 만들기 위해서는 대량 학습이 필수적이지만, AI 학습에 데이터를 사용할 때 저작권 침해에 대한 명확한 기준이 없습니다.

저작권법 제1조(목적)를 살펴보면 "이 법은 저작자의 권리와 이에 인접하는 권리를 보호하고 저작물의 공정한 이용을 도모함으로써 문화 및 관련 산업의 향상과 발전에 이바지함을 목적으로 한다."라고 명시되어 있습니다. 보시다시피 저작권법은 아직 "인공지능 산업"을 고려하지 않고 있습니다. 이 법이 제정될 당시에는 AI의 성능이 지금처럼 뛰어나지 않아 지금처럼 많은 주목을 받지 못했습니다.

2020년부터 저작권법 개정안에 AI 분야를 다루는 새로운 저작권 면책 조항이 포함되었습니다. 이는 현재의 트렌드와 발전을 반영하기 위해 추진되고 있지만, AI와 창작자 모두를 염두에 둔 긍정적인 법 개정을 위해 지속적인 관심이 필요합니다.

저작권법이란 무엇인가요?

그렇다면 저작권이란 정확히 무엇일까요?

저작권: 사람들의 생각과 감정을 표현한 결과물(저작물)에 대해 창작자에게 주어지는 권리. '창작성'이 포함된 경우 별도의 등록 절차 없이 자연스럽게 발생합니다.
(예시: 그림의 저작권은 당연히 작가에게 있습니다.

저작권법에서는 저작물에 대해 어떻게 설명하나요?

작업: 작업: 개인의 생각과 감정을 표현한 결과물

소설, 시, 논문, 강연, 연설, 시나리오 및 기타 문학 작품
뮤지컬 작품
드라마, 무용, 무언극 및 기타 연극 작품
회화, 서예, 조각, 판화, 공예, 응용 예술 작품 및 기타 예술 작품
건물 및 건설용 모델 및 설계 도서, 기타 건축 작품
사진 작품(유사한 방식으로 제작된 작품 포함)
비디오 작업
지도, 차트, 청사진, 회로도, 모델 및 기타 그래픽 작품
컴퓨터 프로그램 작업

저작권에는 위에 열거한 것과 같은 다양한 유형이 있으며, 특히 텍스트 및 이미지 저작권에 대해 많이 들어보셨을 것입니다. 문학, 음악, 영상, 사진 등 AI 모델 개발에 필요한 요소는 저작권으로 보호됩니다.

그러나 저작권법의 보호를 받지 못하는 저작물도 있습니다.

저작권법에 의해 보호되지 않는 저작물
- 헌법, 법률, 조약, 명령, 조례 및 규칙
- 주 또는 지방 정부의 통지, 공고, 지침 및 기타 유사한 사항
- 법원의 판결, 결정, 명령, 판결, 행정심판 및 기타 결의 및 결정 등.
- 국가 또는 지방자치단체가 작성한 제1호부터 제3호까지에 규정된 내용을 편집 또는 번역한 경우
- 사실에 대한 진술에 불과한 보고

주로 국가 및 지방자치단체가 작성한 저작물에 적용되며, '창작물'로 분류하기 어려운 시사 보도도 포함됩니다.

지금까지 살펴본 내용을 바탕으로 실생활에서 발생할 수 있는 저작권에 대한 몇 가지 우려 사항을 검토해 보겠습니다.

[사례 1]
Q. 판례 검색 서비스를 제공하는 모델을 만들어 배포하려고 합니다. 이것이 적절한가요?

A. 맞습니다. 판례는 저작권법의 보호를 받지 않는 저작물로 규정되어 있으므로, 이를 기반으로 상업적 서비스를 하거나 연구 목적으로 이용하는 것은 저작권법에 위반되지 않습니다.

[사례 2]
Q. 업스테이지 블로그 콘텐츠가 너무 인상적이어서 댓글을 남겼습니다. 이 댓글의 저작권은 제가 소유하나요?

A. 댓글의 내용에 따라 다릅니다. '너무 좋았다'는 누구나 보편적으로 쓸 수 있는 문장이므로 저작권으로 보호되지 않습니다. 그러나 '창의성'이 인정되는 문장은 저작권이 보호됩니다.

헤밍웨이의 6단어 소설의 경우 창작성이 인정되어 헤밍웨이에게 저작권이 부여됩니다.

저작권은 창의성이 인정되는 저작물에 대해 자연스럽게 발생합니다. 이 지식을 바탕으로 AI 모델 학습에 데이터를 올바르게 사용하는 방법에 대해 자세히 살펴보겠습니다.

합법적으로 데이터를 사용하는 방법

1. 저자와의 상담

출처 한국저작권위원회 저작권 표준계약서

위의 계획을 해석해 보겠습니다.

(1) 저작권에 대한 독점적/비독점적 라이선스

독점 라이선스: 작성자는 계약된 개인에게 자신의 데이터를 사용할 수 있는 "독점적" 권리를 허용합니다.
비독점적 라이선스: 저작자는 계약된 개인과 추가적인 데이터 활용 계약을 체결할 수 있습니다.

(2) 저작자 재산권의 전부 또는 일부의 양도

자연적으로 발생한 저작권의 전부 또는 일부를 양도할 수 있는 권리입니다. 저작권의 전부 또는 일부를 인수할 수 있으며, 일정 기간 동안만 인수할 수도 있습니다.

계약을 맺는 것 외에 다른 방법은 없나요? 사용자와 작성자 모두에게 효율적인 방법인 "라이선스"가 있습니다.

2. 라이선스

합법적으로 데이터를 활용하는 두 번째 방법은 저작자가 명시한 사용 조건, 즉 '라이선스'를 이용하는 것입니다. 라이선스는 공식적인 허가 요청 없이도 특정 조건이 충족되면 개인이 저작물을 활용할 수 있도록 허용하는 규정입니다.

다양한 기관에서 라이선스를 발행하고 있지만, 그 중 가장 유명한 것은 크리에이티브 커먼즈라는 비영리 단체에서 발행하는 'CCL', 즉 크리에이티브 커먼즈 라이선스입니다. 우리나라에서도 문화체육관광부에서 제작한 '공공누리'가 비슷한 기능을 제공합니다.

CCL의 의미
- BY: 어트리뷰션
- ND: 파생상품 없음
- NC: 비상업적
- SA: ShareAlike

국제적으로 사용되는 CCL(출처: 크리에이티브 커먼즈 홈페이지)

CC-BY-NC-SA의 대표적인 예는 '나무위키'입니다. AI 모델 개발을 위한 나무위키 데이터는 다음과 같은 조건으로 사용할 수 있습니다.

[사례3]
Q. 나무위키 데이터를 검색하여 MRC(기계독해, 인공지능 알고리즘이 문제를 분석하고 최적의 해결책을 찾아내는 기술) 데이터셋을 만든 후 개인 Github을 통해 배포할 수 있나요?

A. 예. 교육과 관련된 것이라면 비영리 목적으로 간주됩니다. 그러나 배포할 때는 반드시 CC-BY-NC-SA 라벨, 원본 데이터의 라이선스, 원본 데이터의 출처를 첨부하고 명시해야 합니다.

다른 예를 살펴봅시다: CC-BY-ND. 이는 BY, 저작자표시, ND, 파생물이 없는 라이선스를 결합한 라이선스입니다. 'KorQuAD'라는 데이터셋이 이 라이선스에 따라 배포되고 있습니다.

[사례 4]
Q. KorQuAD의 문제만 변경하여 새로운 MRC 데이터셋을 만든 후, 개인 GitHub에 배포할 수 있나요?

A. KorQuAD의 지문, 문제, 답안 쌍은 변경이 금지되어 있으므로 변경 및 공개하는 것은 적절하지 않습니다.

뉴스 데이터 사용

현재 한국언론진흥재단은 대부분의 언론사의 저작권을 위탁받아 관리하고 있습니다. 따라서 뉴스 기사를 합법적으로 이용하기 위해서는 해당 기사를 제공하는 언론사가 한국언론진흥재단에 저작권을 위탁한 경우 재단에 직접 문의해야 합니다. 또는 해당 언론사에 콘텐츠 사용 범위와 계약 조건에 대해 문의할 수도 있습니다. 그러나 주요 언론사는 한국언론진흥재단에 저작권을 위탁하지 않고 자체적으로 관리하는 경우가 많습니다. 아주 드물게 위키트리와 같은 언론사에서는 CCL을 적용하는 경우도 있으므로 사용 목적에 따라 각각의 저작권을 확인하는 것이 중요합니다.

간혹 한국데이터거래소(KDX)에서 뉴스 데이터를 무료로 공개하는 경우가 있습니다. 하지만 이 데이터를 어느 정도까지 사용할 수 있을까요?

[사례 5]

Q. 구매한 데이터를 0원에 사용할 수 있나요?
A. 이 경우 데이터 판매자가 정한 이용약관에 따라 다릅니다.

출처: KDX 한국데이터거래소

KDX는 아래 나열된 조항 A, B, C의 공통 사용 범위 내에서만 사용할 수 있습니다. 판매자의 추가 조건이 있는 경우 공통 사용 범위를 벗어난 사용은 불가능할 수 있습니다. 주의 깊게 확인하시기 바랍니다.

출처: KDX 한국데이터거래소

뉴스 기사 제목

헤드라인만 보고 뉴스 기사가 어떤 카테고리에 속하는지 예측하는 모델을 구축하려는 경우 이 데이터를 합법적으로 사용할 수 있습니다.

공정 사용

- 교육, 기타
- 법원 소송 등에서의 중복 문제
- 정치적 연설 등의 사용
- 학교 교육 목적 등으로 사용
- 시사 보도용으로 사용
- 게시된 저작물 사용
- 비영리 공연/방송
- 사적 사용을 위한 복제
- 라이브러리 등에서의 복제
- 시험 문제로 복제
- 시각 장애인을 위한 복제 등
- 임시 녹화 및 방송 녹화
- 예술, 사진 또는 건축 작품의 전시 또는 복제
- 번역 등으로 사용
- 화제성 있는 기사 및 사설의 복제
- 역방향 프로그램 코드 분석

저작권법에서 많은 부분이 규제되고 있는 것처럼 보이지만, 인공지능과 관련된 법은 아직 갈 길이 멀다. 최근 화두가 되고 있는 ChatGPT로 생성된 데이터도 저작권이 있는 저작물로 인정받을 수 있을까요? 그렇다면 ChatGPT가 생성한 데이터에 어떤 라이선스를 부착해야 할지는 아직 결정되지 않았습니다. 또한, 뉴스 기사를 기반으로 새로운 결과를 생성하는 AI 모델의 저작권은 어떻게 되는지, 사용 가능 범위는 어디까지인지도 고려해야 합니다.

Upstage