ADVERTISEMENT

경주 APEC도 ‘서울’로 안내…왜곡 부르는 한국형 데이터 부족

AI, 한국 문화 왜곡 사례 속출…경주가 서울?
“사라지는 지역 원형 기록이 마지막 자산”

챗GPT를 활용해 제작

[헤럴드경제=김용훈 기자] 한국 인공지능(AI)이 글로벌 경쟁에서 뒤처지는 근본 원인은 기술력이 아니라 ‘한국형 멀티모달 데이터’ 부족이라는 분석이 제기됐다. 한국 고유의 문화·정서·지역성을 담은 영상·음성·이미지·텍스트 자원이 부족해 해외 생성형 AI가 한국을 잘못 인식하는 사례가 적잖다는 것이다.

25일 글로벌 IT·시장조사 전문기관 IDC(International Data Corporation)에 따르면, 한국의 소버린 AI 투자 비중은 27%로 아시아·태평양 평균인 33%보다 낮은 것으로 나타났다. 한국어 데이터의 글로벌 비중도 0.6% 수준에 그친다. 업계에서는 “AI가 학습할 한국형 데이터 자체가 절대적으로 부족하다”는 우려를 내놓는다.

실제 해외 생성형 AI는 한국 문화유산을 잘못 안내하는 사례가 반복되고 있다.

경주의 APEC 개최지를 ‘서울’로 잘못 설명하거나, 석굴암·첨성대를 왜곡된 형태로 그려내는 것이 대표적이다. 전문가들은 “한국 관련 데이터의 양과 접근성이 일본·중국보다 적어 AI가 동아시아 이미지를 일본·중국 중심으로 일반화한다”고 설명한다.

해결책은 지역에서 찾을 수 있다는 분석이 나온다.

전국 232개 지방문화원은 수십 년간 생활사·민속·의례·설화·지명 등을 기록해 왔다. 이 기록은 행정·통계로는 확보하기 어려운 한국 고유의 ‘맥락 데이터’로 평가된다. 특히 지역소멸이 진행되면서 자료 원형과 마지막 기록자들이 빠르게 사라지고 있어 확보 시점도 많지 않다는 지적이다.

한국문화원연합회는 2018년부터 이 자료를 디지털화해 ‘지역N문화(www.nculture.org)’ 포털에서 공개하고 있다.

2022년에는 한국지능정보사회진흥원(NIA) 빅데이터 센터 구축사업에도 참여했다. 다만 현행 개별 사업 예산으로는 멀티모달 정제, 메타데이터 고도화, 품질관리 등 AI 학습용 데이터 구축에 필요한 작업을 수행하기에는 한계가 크다는 평가다.

전문가들은 “지금이 마지막 골든타임”이라고 강조한다. 지역소멸이 빠르게 진행되고 있고, 글로벌 AI 경쟁도 격화되고 있으며, 문화계와 데이터산업이 맞물리는 첫 시기라는 설명이다.

이들은 “문화재청·외교부·과학기술정보통신부 등이 협력해 ‘국가 AI 문화주권 전략’을 마련, 한국형 데이터를 글로벌 AI 기업의 정규 학습 과정에 포함시키는 국제 협력을 추진해야 한다”며 “문화재의 역사적 맥락과 복원 기준 등을 포함한 ‘설명 가능한 데이터셋’을 구축해야 AI 왜곡을 줄일 수 있다”고 강조했다.