0002399468_001_20251122144615131.png?type=w800

우리 정부가 대통령 직속으로 국가 인공지능전략위원회를 만들어 3대 인공지능(AI) 강국을 목표로 미국 엔비디아 GPU 26만장 구입, 100조 원 AI에 투자, 인재 양성 등 경쟁력 있는 AI 생태계 조성에 총력전을 펼치고 있다. 하지만 AI에 사용할 데이터 확보 방안에 대한 새로운 정책이 보이질 않는다.

데이터는 21세기 원유로 비유되는 핵심 자원이다. 우리나라는 원시데이터 보유 부국이다. 하지만 강력한 개인정보보호법으로 국내 AI 경쟁력을 위해 사용할 수 없는 현실이 안타깝다. 우리가 글로벌IT 서비스를 이용할수록 데이터 자원을 외국에 만들어 주는 것이다. 미국은 자국 데이터를 보호하기 위해 중국 클라우드 서비스인 '틱톡'의 자국내 서비스를 강제적으로 매각시켰다.

AI시대의 국가 데이터 주권은 두 측면이 있다. 첫째, 자국민의 데이터가 국내외에서 오용되는 것을 막는 거다. 둘째, 국가 데이터가 AI 경쟁력에 활력소가 되게 하는 데이터 정책이다.

미국은 데이터를 시장 경제 체계에서 자유로운 거래의 대상으로 보고 연방거래위원회에서 개인정보 정책을 관장한다. 중국은 국가 차원에서 데이터를 관장, 이용 목적에 제한 없이 인공지능 기술 개발에 활용하고 있다. 미국과 중국은 극단적인 방식이지만, AI 기술 개발에 데이터를 자유롭게 활용할 수 있다는 공통점이 있다. 반면 한국과 유럽, 일본은 개인정보 보호 정책을 전담하는 개인정보보호위원회에서 개인정보 보호와 활용 정책을 모두 관장하지만 현실적으로 보호 정책에 중심을 두고 있다.

우리나라가 AI 3대 강국이 되려면 AI원료인 데이터를 원유처럼 유통시켜야 한다. 즉, 원유는 이용 목적 제한 없이 정제 과정과 유통 단계를 거쳐 고품질 석유 상품으로 주유소에서 소비자에게 유통된다. 원시데이터도 이런 원유처럼 유통되게 해야 한다. 즉, 원시데이터를 다양한 가공과 결합을 거쳐 개인 식별이 불가능하게 한 후 부가가치가 높은 융합데이터 상품으로 전환, AI 서비스 개발자에게 공급해야 한다.

이원석 연세대 컴퓨터과학과 교수
다른 분야 데이터와 결합한 융합데이터는 개별 데이터로는 찾을 수 없는 융합 지식을 발견하고 학습시킬 수 있다. 이런 융합데이터 생태계를 구축하면, AI 시대의 새롭고 다양한 일자리가 자생적으로 창출되는 효과도 있다.

정부는 지난 10년간 많은 예산을 투입해 공공데이터플랫폼과 빅데이터플랫폼 등 산업적 활용이 가능한 데이터를 유통하는 과제를 추진했다. 그러나 강력한 개인정보보호법으로 인해 다른 분야 데이터와 결합할 수 있는 '결합키'를 포함하지 않는 데이터만 제공, 융합데이터를 생산할 수 없었다.

2020년 개인정보보호법을 개정해 개인 동의 없이 원시데이터를 가명정보로 가공하면 결합전문기관을 통해 제3자에게 제공할 수 있다. 하지만 이는 개인을 식별할 수 있어 공공이나 통계 작성 등 제한된 목적으로만 사용할 수 있을 뿐 아니라 5년 이내에 폐기해야 한다. 가명정보 결합은 엄격한 법적 행정 절차에 최소 3개월 이상이 필요하다. 이에, 가명정보는 자유로운 산업적 목적으로 이용하기에는 부적합하다.

개인정보위는 개인의 데이터 이동권을 보장하면서 데이터 유통을 활성화하기 위해 마이데이터 제도를 시행하고 있다. 국가가 지정한 마이데이터 사업자에게 개인이 마이데이터 서비스를 동의하면 다른 사업자들이 보유한 해당 개인의 원시데이터를 취합, 한눈에 볼 수 있는 서비스를 제공한다. 사업자는 취합한 원시데이터를 개인 동의 없이 가명정보로 가공해 결합전문기관을 통해 제3자에게 제공, 금전적 이익을 얻을 수 있다. 개인 입장에서는 자신의 원본데이터가 가명정보로 제3자에게 제공된다는 사실을 알지 못해 역설적으로 개인의 데이터 주권을 침해하게 된다.

정부는 지난 5년간 가명정보 유통 활성화에 많은 예산과 정책적인 지원을 투입했다. 하지만 결합전문기관이나 마이데이터 사업자를 반납하는 기관들이 있을 정도로 데이터 활용 성과가 미비하다. 우리나라는 원시데이터가 아닌 가명정보만 이용할 수 있다. 미국과 중국은 아니다. 원시데이터도 이용할 수 있다. 이런 상황에서 미국과 중국을 상대로 인공지능을 경쟁한다는 것은 우리나라는 한 발로 뛰는 것과 같다.

이를 보완하기 위해서는 법적 제약이 없는 익명정보를 이용해야 한다. '익명정보'란 원시데이터에 개별 개인을 식별할 수 없도록 무작위 노이즈를 추가, 훼손시킨 데이터다. 개인을 구별할 수 없게 복수개의 개인식별자 값들을 하나의 익명식별자 값으로 대체, 익명 결합을 수행한다.

익명정보가 아닌 가명정보 활용하는 것은 한계가 있다. 즉, 가명정보를 결합전문기관에서 가명식별자로 결합해 유통하는 방식은 결합할 상대가 있어야 가능한 '물물교환' 방식이다. 이는 AI시대의 데이터 유통에 한계가 있다. AI시대의 데이터 유통은 백화점 매장에 전시된 옷을 피팅룸에서 입어보고 구매하는 것과 같아야 한다. 전시된 다양한 맛보기 익명정보를 자유롭게 익명 결합해보고 익명정보 상품을 구매하는 익명정보 유통 생태계를 만들어야 하는 것이다.

미국과 중국은 우리와 데이터 환경이 다르다. 두 나라는 원시데이터를 산업 목적으로 이용할 수 있으므로 애써 익명정보 기술을 개발할 필요가 없다. 초개인화 사회에서 소버린 AI를 위해서는 국가의 데이터 주권을 지키는 것이 우선이며, 이를 위해서는 미국과 중국에 생소한 우리만의 익명정보 유통 생태계를 법제화하고, 가명정보와 익명정보를 같이 사용하는 '데이터 트윈' 체계를 확립, 우리의 데이터 주권을 지켜야 한다. 더욱이 유럽 등 다른 나라들도 우리와 동일한 상황이므로 우리의 익명정보 유통 생태계를 세계적으로 전파, 국제적 데이터 리더십도 확보할 수 있다. 익명 정보를 활용하면 AI 3대 강국 달성의 발판 마련은 물론 국제적 데이터 리더십도 우리나라가 가질 수 있는 것이다.