학습 위해 수백만 권 구매·스캔·폐기해
‘파나마 프로젝트’…지식 무단 추출
인류의 저작물, AI 산업의 땔감이 되다
“전 세계 모든 책을 스캔해 AI를 학습시킨다.” AI 기업의 야심이 한계 없는 질주를 하며 작가와 출판계를 넘어 충격을 안겨주고 있다. 이른바 ‘파나마 프로젝트’이다. 해당 기업은 대형언어모델 기반 AI인 ‘끌로드’(Claude)를 만든 앤트로픽이다. 특히 엔트로픽과 더불어 메타 등 여러 AI 기업들이 해적판 복사본을 다운로드하는 등 작가들 모르게 대량으로 도서를 확보하는 방법을 모색한 것으로 드러났다.
지난달 27일, <워싱턴포스트>는 「AI 스타트업이 수백만 권의 도서를 스캔하고 폐기하는 계획을 세우다」라는 분석 기사를 보도했다. 미국 법원에 제출된 서류에 따르면, AI 기업들이 채팅봇에 공급할 자료를 확보하기 위해 수백만 권의 도서를 구매, 스캔, 폐기하는 등 경쟁적으로 움직였다. 약 1년 동안 앤트로픽은 수천만 달러를 들여 수백만 권의 책을 구입하고 책을 잘라낸 후 페이지를 스캔했다. 그 후 인기 챗봇 클로드와 같은 제품의 AI 모델에 더 많은 지식을 공급했다.
파나마는 조세회피처의 상징처럼 여기지는 곳이다. 파나마 프로젝트로 명명한 것은 분명 저작권료를 회피하려는 의도가 있는 것으로 해석된다. 앤트로픽은 투자자들로부터 1천830억 달러(약 265조 원)의 가치를 인정받은 기업이다. 책의 저자들은 이 기업을 상대로 저작권 소송을 벌였다. 그 와중에 파나마 프로젝트와 관련된 4천 페이지가 넘는 문서들이 공개됐다. 엔트로픽은 집요하게 도서 수집을 해왔다. 결국, 엔트로픽은 지난해 8월 15억 달러(약 2조 1,700억 원)를 저자들에게 지급하기로 합의하며 소송을 종결한 바 있다.
구글, 마이크로소프트, 챗지피티 개발사 오픈AI 역시 유사한 주장을 제기하는 도서 작가들로부터 저작권 소송을 당하고 있다. 코넬 공과대의 제임스 그리멜만 교수(디지털·정보법)는 “이 소송들이 제기하는 문제들은 아직 법적으로 해결되지 않은 상태”라고 말했다. 특히 그는 AI 기업들이 저작권이 있는 데이터를 사용하면서 “자신들을 오류에 빠뜨렸다”라고 말했다. 그리멜만 교수는 챗지피티와 유사한 도구의 기술적 돌파구는 학술 연구에서 시작됐으며, 훈련을 위해 저작권이 있는 자료를 사용하는 것은 일반적으로 허용된다고 설명했다. 그러나 연구자들은 AI 모델이 상용화되는 과정에서도 이 관행을 계속 이어갔다고 덧붙였다.
그런데 초기 두 판결에서 법원은 AI 모델 훈련을 위해 책을 사용하는 행위가 자료를 변형적으로 활용하는 ‘공정 이용’에 해당할 수 있으며 글쓰기 교육과 유사한 성격을 지닌다고 판단했다. 김현철 한국인공지능협회 회장은 <교수신문>과 인터뷰에서 “이번 보도는 AI 기업들이 ‘전 세계의 책’을 사실상 무제한 데이터로 간주하며, 저작권 질서의 비용을 회피하려는 유혹이 어디까지 치닫는지를 보여준다”라며, “고성능 AI의 선점이 곧 승자독식의 주도권으로 연결되는 구조에서, 기존 규범이 저절로 지켜질 것이라는 기대는 현실을 놓치기 쉽다”라고 지적했다.

노대원 제주대 교수
“빅테크 기업들의 만연한 무단 데이터 동원”
노대원 제주대 교수(국어교육과·인공지능융합교육 전공)는 <교수신문>과 인터뷰에서 “앤스로픽이 방대한 책 스캐닝을 통해 AI 모델을 학습한 일에는 여러 시각이 존재할 수 있다”라며 “먼저, 앤스로픽뿐만 아니라 오픈AI의 챗지피티 등 여타 대형 언어 모델(LLM: large language model)을 개발하는 테크 기업들 역시 문헌의 저자나 소유자에게 정당한 대가 없이 방대한 문헌과 데이터를 AI 학습에 동원해 왔다는 점에서, 빅테크 기업들의 만연한 무단 데이터 동원 행태가 다시 한번 수면 위로 드러났다”라고 지적했다. 노 교수는 “클로드의 문장 생성 능력 이면에는 오프라인 텍스트들의 대규모 무단 스캐닝이 있었다는 사실도 부정할 수 없다”라고 덧붙였다.
아울러, 노 교수는 “근본적으로 LLM과 생성형 AI 개발사들은 창작자 개인의 소유권을 협의 없이 AI 모델의 학습에 활용함으로써 사적 권리를 침해한다”라며 “나아가 이 기업들은 인류 공동의 문화 자산이라고 할 수 있는 문헌과 창작물을 제국주의적으로 약탈하고 추출해 소수만의 사적 이익을 극대화한다”라고 비판했다. “빅테크들이 과거의 문화적 원천과 자원을 포획하여 얻은 이익과 잠재력을 사회적으로 공유하는 데 인색했다는 문제가 더 심각하다. 이 점에서 개인의 저작권 침해를 감시하는 데에서 나아가, LLM의 기술적·문화적 잠재력을 사회적으로 사용하기 위한 방안과 문헌의 저자들에게 적절히 보상하기 위한 데이터 배당 등 혁신적인 아이디어가 필요하다.”
노 교수는 다음과 같이 질문했다. “개별 사용자의 저작권 위반에는 엄격한 법적 잣대를 들이대면서도, 기업 단위의 대규모 데이터 포획에는 기술 혁신이라는 명분으로 면죄부를 부여하는 이중잣대를 이번 기회에 바로잡아야 한다. 저명한 SF 작가 테드 창이 날카롭게 지적하듯이, AI를 만드는 기업이 윤리적이지 않은데 AI 윤리라는 말이 무슨 의미가 있나?” 그래서 그는 “한편으로는 국가 단위의 기정학적(Techno-politics, 기술-지정학적) 패권 경쟁의 일환인 ‘독자적 파운데이션 모델’ 개발에만 사회경제적 노력을 기울이는 것을 넘어서, 소외된 지역과 소수자를 위해 데이터 보호에 힘쓰고 ‘작지만 윤리적인 AI 모델’ 개발에도 힘써야 한다”라고 당부했다.

이광석 서울과학기술대 교수
“상업적 목적 위해 저작물을 대거 무단 수취”
이광석 서울과학기술대 교수(IT정책전문대학원)는 인터뷰에서 세 가지를 지적했다. 첫째, ‘공정 이용’ 권리 해석의 불분명성이다. 이 교수는 “여전히 엔트로픽의 행위가 과연 ‘공정 이용’인지는 의문”이라며 “보통 미국에서 공정이용은 ‘개인(사적), 비상업적, 교육 목적의 이용’이라는 전제를 두고 저작권 적용의 제한을 둔다고 알고 있다”라고 말했다. “이를 미국 재판에서는 AI 교육과 유사한 것으로 얘기하며 엔트로픽의 행위를 정당화하고 있으나, 이 회사가 상업적 목적을 위해 저작물을 학습용 데이터로 대거 무단 수취해 쓴다는 점에서 사기업의 행위를 비상업적 교육 현장과 동일한 것으로 비교하는 것은 넌센스라고 본다.”
둘째, 특정 지식의 응축물인 지식 저작권의 무단 스캔 및 학습용 데이터 추출 문제이다. 이 교수는 다음과 같이 강조했다. “미국 저작권법상 책을 구매하면, 구매와 동시에 종이로 이뤄진 물성의 책 자체에 대한 소비에 대한 권한은 그 책을 돈 주고 산 소유자의 권리로 여겨진다. 그에 따라 책 자체에 밑줄을 긋거나 분철하거나 하는 등 책을 구입한 이가 책을 갖고 행할 수 있는 모든 행위에서 배타적 자유를 가진다고 볼 수 있다. 하지만, 그 지적 산물로서 텍스트 콘텐츠를 AI에 학습용 데이터로 스캔해 추출하는 행위는 책의 물성을 소유하는 것과 다른 저작물의 사용이자 활용으로 볼 수 있고 저작권 위배 사항이라 할 수 있다. 다시 말해 원 텍스트 저작자의 동의없는 문서화된 지식의 학습용 데이터로의 추출은 당연히 불법이라 볼 수 있다. 이는 ‘리브젠’ 등으로부터 무단으로 텍스트를 다운받아 학습용 데이터로 쓰는 것과 함께, 앞으로 저작권 위배 소지가 크다고 본다.”
셋째, 지식 합성물의 자동 생산을 위해 엔트로픽이 취한 AI 데이터 학습 방식의 문제이다. 이 교수는 “궁극적으로, 저작권 보호를 받는 지식 생산물을 AI 학습용 데이터로 무단 ‘땔감화’하는 것이 가장 심각한 문제로 보인다”라며 “결국, 이는 엔트로픽 AI 기업들이 지식인의 고유한 지적 산물을 일종의 AI를 위한 데이터 수준으로 격하시키면서, 지적인 전문 창작 산물에 대한 시장 가치를 한낱 AI 학습용 자원 정도로 평가절하하거나 원저자의 흔적을 거대 언어모델의 공간 안에서 지워나가면서 자동화된 AI 지식 생성 시장의 풍토를 가속화할 것”이라고 우려했다.

AI는 왜 전 세계의 책을 노리나
이번에 공개된 문서와 AI 기업을 상대로 제기된 다른 저작권 소송의 기존 제출 자료들은 AI 기업들의 극단적 수단을 드러냈다. 즉, 앤트로픽, 메타, 구글, 오픈AI 같은 기술 기업들이 소프트웨어를 훈련시키기 위한 방대한 데이터 저장고를 확보하기 위해 얼마나 공격적인 수단을 동원했는지 보여주는 셈이다.
하지만 초기 두 건의 판결에서 판사들은 기술 기업들이 저자나 출판사의 허가 없이 AI 모델 훈련에 책을 사용하는 행위가 저작권법상의 ‘공정 이용’ 원칙에 따라 합법적일 수 있다고 판단했다. AI 모델 훈련에 책을 사용하는 것은 ‘변형적’ 방식으로 자료를 처리하기 때문에 합법적 권리 범위 내에 있다는 것이다. 즉, 학생들에게 글쓰기를 가르치는 것과 마찬가지라는 시각이다. 또한 메타 관련 소송에서는 책의 저자들이 해당 기업의 AI 모델이 자신들의 책 판매에 해를 끼칠 수 있다는 점을 입증하지 못했다고 판결이 난 적도 있다.
앤트로픽 사건은 작가, 예술가, 사진작가, 언론사들이 AI 기업들을 상대로 제기한 소송 물결의 일부였다. 소송 서류들은 주요 기술 기업들이 인류의 집대성된 저작물을 확보하기 위해 때로는 은밀하게 벌인 광란의 경쟁을 보여준다.
AI 기업들은 책을 인류의 핵심적인 성과물로 간주했다. 저질 인터넷 용어를 모방하는 대신 잘 쓰는 법을 가르칠 수 있다고 믿는 것이다. AI 기업들끼리 경쟁하는 데도 책은 필수적이라고 인식하고 있다.
엔트로픽은 공동 창립자인 벤 멘이 2021년 6월, 11일 동안 ‘리브젠’(LibGen)이라는 도서와 기타 저작권 침해 콘텐츠의 ‘그림자 도서관’에서 소설과 논픽션을 대량으로 개인적으로 다운로드했다고 밝혔다. 법원 서류에 포함된 그의 웹 브라우저 스크린샷에는 파일 공유 소프트웨어로 파일을 다운로드하는 모습이 담겼다. 1년 후인 2022년 7월에도 맨은 ‘해적 도서관 미러’(Pirate Library Mirror)라는 불법 복제 사이트의 출시를 환영한 바 있다.
또한, 책의 저자들은 소송에서 메타 고위 관계자들이 AI 모델 훈련용 도서 구매를 고려했으나, 결국 온라인 불법 복제를 용이하게 하는 ‘토렌트’ 플랫폼에서 수백만 권의 도서를 무료로 다운로드하는 방식을 선택했다고 주장했다. 앤트로픽과 협력한 한 공급업체의 프로젝트 제안서에는 이 AI 기업이 “6개월 동안 50만 권에서 200만 권의 도서를 변환할 수 있는 경험 많은 문서 스캔 서비스 공급업체를 찾고 있다”라고 명시돼 있다. 그래서 앤트로픽은 책을 구매해 스캔하는 프로젝트 파나마를 시작할 때, 실제로 실리콘밸리 베테랑을 찾았다. 바로 구글 임원 톰 터비였다. 그는 20년 전 검색 분야의 거대 프로젝트였던 ‘구글 북스’ 창설을 도왔던 인물이다. 유명인이지만 법적 논란을 빚은 바 있다.
그러나 AI 기업들은 도서 수집 방식에 따라 여전히 법적 문제를 겪을 수 있다. 앤트로픽의 경우 도서 스캔 프로젝트는 승인받았으나, 판사는 프로젝트 파나마 시작 전 수백만 권의 불법 복제 도서를 무료로 다운로드한 행위가 저작권 침해에 해당할 수 있다고 판단했다.
김현철 한국인공지능협회 회장은 이번 사건에 대해 “공정 이용 여부를 둘러싼 법적 판단과 별개로, 은밀한 대량 수집·불법 복제 같은 방식은 신뢰를 붕괴시키고 생태계를 소모시킨다”라고 강조했다. 그는 “결국 필요한 것은 도덕적 공방이 아니라, 학습 데이터의 출처와 사용을 투명화하고 창작자 보상과 산업 혁신을 동시에 담보하는 치열한 고민과 시행착오를 감내할 도전적 룰을 설계하는 일”이라고 덧붙였다.
김재호 기자 kimyital@kyosu.net
번역 제공
