AI국내윤리.규제법가이드

AI 학습데이터 규제 사각지대, 한국은 얼마나 허술한가

mynote7230 2025. 7. 13. 08:00

최근 AI 기술, 특히 생성형 인공지능(Generative AI)의 폭발적인 발전은 사람들의 삶을 급격히 변화시키고 있다. 누구나 버튼 하나로 에세이를 쓰고, 디자인을 만들며, 음성을 합성할 수 있는 시대가 도래했으며, 이 모든 것이 AI의 ‘학습 데이터’에 기반하고 있다. 하지만 이 기술이 과연 무엇을, 누구로부터, 어떤 방식으로 학습했는지에 대해서는 국내에서는 깊이 있는 논의가 부족한 상황이다.

AI가 문장 하나를 쓰기 위해 수집하는 데이터는 수천만 건에 달하고, 이 중에는 누군가의 지적 재산, 개인 정보, 비공개 데이터도 포함될 수 있다. 실제로 해외에서는 AI 학습에 사용된 데이터 세트가 저작권 침해, 개인정보 유출, 차별 재생산 등의 문제를 일으킨 사례가 빈번히 나타나고 있다. 그러나 한국은 현재까지 이 ‘학습데이터’에 대한 법적 규제 체계를 갖추지 못하고 있으며, 그 결과 AI 기업들이 아무런 제약 없이 방대한 데이터를 수집하고 활용할 수 있는 환경이 조성되어 있다.

AI학습데이터 규제 사각지대, 한국의 현실

 

이러한 법적 공백은 단순히 기술적 이슈를 넘어, 사용자와 피해자 모두를 위험에 노출시키는 구조적인 문제로 연결된다. 본 글에서는 국내 AI 학습데이터 규제가 어떻게 사각지대에 놓여 있는지, 그리고 그로 인해 어떤 문제가 발생하고 있는지를 세 가지 측면에서 구체적인 사례와 함께 분석한다.

1.학습데이터 수집의 무법지대 — 누구의 저작물이 AI에 들어갔는가?

AI는 사람처럼 '배운다'. 그리고 그 학습의 근거는 수많은 텍스트, 이미지, 영상과 같은 콘텐츠다. 문제는 이 콘텐츠가 대부분 인터넷에서 자동으로 수집된 자료들이며, 그 중 상당수가 저작권 보호 대상이라는 점이다. 한국의 저작권법은 원칙적으로 창작자의 동의 없이 저작물을 수집하거나 상업적으로 활용하는 행위를 금지하고 있지만, AI 학습 과정은 이 법망을 우회하고 있다.

예를 들어, 한 국내 스타트업이 영어 작문을 돕는 AI를 개발하며 인터넷의 유명 에세이, 기사, 블로그 등을 무단 수집해 학습시켰다는 사실이 내부 고발로 드러난 사례가 있다. 이 기업은 AI가 만든 결과물은 원저작물과 "다르다"고 주장했지만, 실제로 일부 생성 결과가 특정 작가의 문장과 거의 일치했다는 분석이 나왔다. 문제는 이를 단속하거나 처벌할 명확한 법적 기준이 한국에는 존재하지 않는다는 것이다.

미국의 경우 'Fair Use(공정 이용)' 조항을 두고 AI 학습의 저작권 문제를 논의 중이지만, 한국은 아직 AI 학습 행위 자체에 대한 정의나 허용 범위조차 법령에 명시되어 있지 않다. 이에 따라 국내 AI 기업들은 학습 데이터의 출처나 권리에 대한 고려 없이 모델을 학습시키는 경우가 많으며, 이는 장기적으로 심각한 저작권 분쟁으로 이어질 수 있다.

2.개인정보 유출 위험 — 민감 정보도 학습된다는 불편한 진실

AI가 학습하는 데이터에는 단지 텍스트와 이미지만 아니라, 개인 식별이 가능한 정보도 포함될 수 있다. 예를 들어, 과거 인터넷 커뮤니티, 의료 블로그, 포털 댓글, 뉴스 기사 등에는 특정 인물의 실명, 질병 이력, 주민등록번호 뒷자리 일부 등이 포함된 경우가 있고, 이러한 데이터가 여과 없이 학습되면 AI가 이를 ‘결과물’로 재생산할 수 있다.

실제로 2023년 한 국내 대학의 연구진은 특정 대형 AI 모델이 입력한 질문에 대해 실존 인물의 주민등록 앞자리, 주소 일부, 학력, 직장명 등을 포함한 응답을 생성하는 사례를 확인했다. 이는 명백한 개인정보보호법 위반 가능성이 있는 상황이다. 그러나 해당 AI 모델은 해외 기업이 개발한 것이고, 한국 내에서 직접적인 규제 수단이 없다 보니 피해자는 명확한 법적 대응을 하지 못하고 있다.

문제는 한국의 개인정보보호법이 AI 학습이라는 특수한 과정에 대해 사전적 통제를 하지 못한다는 점이다. 수집된 데이터가 AI 모델 학습에 사용되었는지를 확인하려면 소스 추적이 가능해야 하는데, 대부분의 AI 모델은 ‘되돌릴 수 없는’ 상태로 학습하여 데이터 추적이 불가능하다. 이에 따라 사용자도 모르는 사이에 개인정보가 AI 결과물에 노출될 수 있는 리스크가 커지고 있으며, 이에 대한 법적 대응 체계가 시급하다.

3.차별과 편향의 재생산 — AI는 데이터의 윤리를 모른다

AI는 입력된 데이터를 기반으로 판단을 내리며, 데이터 자체가 가진 편향성과 차별을 그대로 학습한다. 이때 문제가 되는 것은 AI가 의도하지 않게 차별적인 판단을 하거나, 특정 집단에 불이익을 주는 콘텐츠를 생성한다는 점이다. 그리고 그 원인은 대부분 학습데이터의 편향성에 있다.

예를 들어, 국내 한 취업 지원용 AI 챗봇이 여성 지원자에게는 ‘감성적 업무에 어울린다’고 답하면서, 남성에게는 ‘논리적 판단에 강하다’고 응답했다는 사례가 있다. 이는 AI가 기존 채용 포털의 이력서, 자기소개서, 면접 리뷰 등에서 수집한 데이터를 학습하는 과정에서 성별 고정관념을 그대로 흡수했기 때문이다.

또 다른 사례로, 특정 지역 출신에 대한 부정적 언급이 AI 검색 결과나 자동 응답에 포함되는 문제가 있었다. 사용자는 질문에 "부산 출신은 어때?"라고 입력했을 때 AI가 "다혈질이라는 인식이 있다"는 문장을 출력한 것이다. 이는 특정 지역에 대한 편견을 학습 데이터로부터 받아들인 결과이며, 차별금지법이나 지역 차별 금지조항에 저촉될 수 있는 위험이 있다.

이러한 편향적 결과에 대해 AI 개발사는 "AI는 데이터에 기반해 학습할 뿐"이라며 책임을 회피할 수 있다. 하지만 데이터 검증이나 필터링을 소홀히 한 것은 개발자의 책임이고, 이를 제어하지 못한 규제 시스템의 한계 역시 명백하다.

결론: 학습데이터를 규제하지 않는 국가는 AI 윤리와 법적 리스크에 취약하다

생성형 AI의 기술은 빠르게 발전하고 있지만, 그 학습 기반이 되는 데이터에 대한 규제는 그 속도를 따라가지 못하고 있다. 특히 한국은 AI 학습데이터에 대해 명확한 법적 기준, 사전 통제, 피해 구제 절차를 모두 갖추지 못한 상태다. 저작권 침해, 개인정보 유출, 사회적 편향과 같은 심각한 문제가 발생할 수 있음에도 불구하고, AI는 여전히 '무제한 학습'이 가능한 도구로 인식되고 있다.

이러한 상황은 기술 발전을 가속할 수 있는 동시에, 향후 심각한 법적 소송, 사회적 갈등, 사용자 불신을 초래할 수 있는 폭탄이 될 수 있다. 특히 AI가 만든 콘텐츠를 활용하는 블로거나 창작자는 자신도 모르는 사이 법적 책임을 지게 될 수도 있다. 그 책임은 궁극적으로 AI가 아니라, 사람에게 돌아간다.

따라서 한국은 지금이라도 AI 학습데이터에 대한 사전 투명성 확보, 출처 공개 의무화, 피해 구제제도 마련, 데이터 검열 기술 개발 등을 추진해야 한다. 기술이 사람을 넘어서는 세상에서, 사람을 보호하는 최소한의 장치는 ‘데이터 규제’부터 시작되어야 한다. AI가 무엇을 배웠는지 묻지 않는 사회는, 결국 AI에게 책임을 전가 당하는 사회가 될 것이다.