몇 달 전만해도 아는 사람들만 알던 Chat GPT는 이제 9시 뉴스에도 등장하는 소재가 되었다. 사람이 입력한 질문에 대해 논리정연한 글로 대답하는 이 인공지능의 출현에 많은 사람들이 호기심을 가졌고, 이내 이 서버스가 굉장한 파급효과를 불러일으킬 것이라는 사실을 직감할 수 있었다. 위기를 느낀 구글이 회의를 열어 대응책을 긴급 모색했을 정도라고 하니 큰 변화를 목전에둔 것은 기정사실이라 하겠다. 나도 작년에 연구원 박사님께 소개를 받아 한번 사용해 봤는데, 결과물로 제시한 답변이 생각보다 높은 수준이라서 깜짝 놀랐던 기억이 남아있다.


아직 초기 단계이지만 조만간 검색엔진의 역할을 모두 흡수해 버릴 것으로 예상되는 ChatGPT. 다양한 방면에서 실로 가늠하기 힘든 변화가 예상되지만, 특별히 나는 이 서비스가 우리의 언어 생활, 특히 문어(文語) 사용 양식에 큰 변화를 야기할 것이라고 생각한다. 마치 인터넷과 휴대전화가 세상에 처음 나온 이후, 언중(言衆)의 글말과 입말 모두 일정한 영향을 받았던 것처럼 말이다. 내가 권위있는 사회언어학자가 아니기에 논리상 오류도 많을 것이고, 또 여기서 언급하는 일들이 실제로 일어나리라는 보장은 없다. 하지만 분명한 것은, Chat GPT를 위시한 인공지능의 발전은 이전의 기술 혁신보다 더 심대한 변화를 유도할 것이라는 사실이다. 


1. 소수 언어의 급격한 사멸 


'구슬이 서 말이라도 꿰어야 보배다.'라는 말은 오늘날 정보화 사회에서도 여전히 유효한 속담이다. 아무리 데이터(구슬)가 많더라도 이를 제대로 엮지 못하면 유용한 정보(보배)가 되지 못하기 때문이다. 그런데 이를 조금 더 확장시켜 보면, 정보(구슬)가 많더라도 이를 제대로 엮지 못하면 유용한 컨텐츠(보배)가 되지 못한다는 뜻으로도 읽힐 수 있다. 현재의 검색 엔진은 기껏해봐야 사용자의 요구에 충실한 정보를 제공해주는 도구에 지나지 않는다. 


물론 빅 데이터 수집과 축적의 결과, 요즘 검색 엔진은 사용자의 취향에 근접한 검색 결과를 '제안' 하는 수준에 이르렀지만 그래봐야 검색 엔진이 내놓는 정보는 우리가 최종적으로 획득하는 컨텐츠의 한 단면일 뿐이다. 물론 오늘 원/달러 환율이 어떤지, 기상청의 내일 날씨 예보라든지, 영단어 language의 뜻이 무엇인지는 단 한 번의 검색으로 해결 가능하다. 하지만 단한번의 검색만으로 모든 것을 해결했다고 생각하는 사람은 드물다. 적어도 두 페이지 정도는 추가로 확인하는 교차검증도 진행한다. 


게다가 저녁은 무엇을 먹을까, 다음달 뉴욕 여행 일정을 어떻게 짤 것인가, 세종대왕은 왜 고추장이 들어간 떡볶이를 드셔보지 못했을까, 이런 내용들은 다수의 웹페이지를 검색해야 해결될 수 있는 것들이다. 그리러니 대다수 인터넷 검색 이용자들의 궁극적 과제는 여러 정보를 모아 뚜렷한 결론을 가진 컨텐츠를 내재적으로 생산 및 저장하는 것이라 할 수 있다. 


그렇다면 이렇게 만들어 낼 수 있는 컨텐츠의 양은 언어에 따라 어떤 차이가 있을까? 통계에 따르면, 현재 웹에 등록된 웹페이지의 56.9%가 영어로 쓰인 글이라고 한다. 이에 반해 한국어로 구성된 웹페이지는 전체의 0.7% 정도라고 한다. 그런데 웹페이지는 컨텐츠 구성을 위한 재료에 해당한다. 컨텐츠는 이 웹페이지로부터 획득한 정보들을 알맞은 순서와 논리로 재구성하여 생산되는 법이다. 단순 계산으로 569개의 영어로 구성된 정보로부터 3개만 추려 순서를 고려하지 않고 컨텐츠를 구성한다고 하면 569C3=30,541,644개의 컨텐츠가 만들어질 수 있다. 반면 7개의 한국어로 구성된 정보로부터 컨텐츠를 구성한다면 7C3=35 개가 생산가능하다. 정보의 개수는 81배 차이지만 생산가능한 컨텐츠의 개수는 87만배 이상 차이가 난다. 게다가 영어로 쓰인 정보로부터는 생산 가능한 컨텐츠가 한국어로는 생산 불가능한 경우도 꽤 많아짐을 알수 있다. 물론 실제로 의미있는 정보인지 여부, 중복된 정보의 존재, 그리고 그렇게 제작된 컨텐츠가 유용한지 아닌지는 별개의 문제이긴 하다. 하지만 영어 컨텐츠의 1/10,000 만이 질 좋은 컨텐츠라 하더라도 이미 한국어가 생산할 수 있는 양보다 많다. 따라서 컨텐츠의 일반적인 품질 역시 영어가 우위를 차지한다. 


자, 당신이 지금 시베리아 어딘가에서 공부하는 청년이라고 가정해보자. 학교에서 내 준 숙제를 하기 위해 인터넷에 접속했다. 자기네 공화국에서 주로 쓰는 지역 언어가 분명 존재하지만 십중팔구 인터넷을 통해 정보를 검색하려면 러시아어를 활용하는 것이 합리적인 선택이다. 소수 언어로 제작된 웹페이지는 양 측면에서 크게 뒤떨어지기 때문이다. 그런데 ChatGPT를 통해 질문을 한다면? 인공 지능은 기존에 인간들이 생성한 정보를 기반으로 학습했기 때문에 소수 언어로 구성한 컨텐츠보다는 러시아어로 구성한 컨텐츠가 더 방대할 뿐만 아니라 품질도 우수하다. 안 그래도 사용자 수도 적어 소수 언어로는 소통할 수 있는 사람 수도 적으니, 더 많은 사람들이 점점 자신의 동네 언어보다는 러시아어로 인터넷 생활을 하게 될 것이다. 이런 상황들이 심화되어가는 상황에다가 주민들의 이동이 빈번히 이뤄진다고 하면? 소수 언어는 사멸의 위기에 금방 놓이게 될 것이다. 


실제로 정보의 바다라고 일컫는 ㅡ 심지어 이 말마저 무척 예스럽다. ㅡ 인터넷이 등장하면서 언어 사멸 속도는 가속화되었다고 한다. 이게 단순한 문제가 아닌 것이, 한 언어가 사라지는 것은 그 언어가 담고 있던 문화가 사라지는 것이고, 그 문화가 축적해 놓은 지식이 사라지는 것이다. 태평양의 어느 부족은 어획을 위한 기기묘묘한 전통 도구들의 이름들을 개별적으로 가졌고, 캐나다 북부의 어떤 이누이트들은 내리는 눈의 종류를 세세히 구분할 수 있었다고 한다. 한국어에서도 이런 측면들을 확인할 수 있는데 바로 색채와 관련된 것이다. 예를 들어 '노랗다, 누렇다, 노르스름하다, 누리끼리하다, 샛노랗다'와 같은 단어들은 한국어에서나 가능한 것이고, 이것을 다른 언어로 번역하면 사전적 의미에는 부합하게 바꿀 수는 있겠지만, 그 단어가 가지는 특별한 어감과 감정은 소실될 수밖에 없다. 이러한 측면에서 언어의 사멸은 인류 공통 자산의 큰 손실인 셈이다. 


그런데 한 가지 주목할 것은 한국어가 결코 지구상에서 적게 쓰이는 언어가 아니라는 점이다. 한국어 화자 수는 거의 8천만명에 육박하며 점차 많은 사람들이 학습하고 있다. 또한 일찍부터 인터넷 사용이 활발했던 대한민국의 특성상, 온라인에서 한국어로 구성된 컨텐츠는 결코 적지 않다. 그리고 무엇보다 중요한 것은 독자적인 문자와 어법을 갖추고 나름 역사가 깊은 문학세계도 구축해 놓았다. 따라서 인공지능이 참조할 만한 문헌들은 꽤 많이 있는 편이고, 비록 주요 언어들의 영향력이 점차 높아지는 상황일지라도 한국어는 여전히 살아남을 가능성이 높다. 


문제는 이런 체계적인 온라인상 구조를 갖추지 못한 소수 언어들이다. 구전과 커뮤니티 내에서의 전통적인 학습법에 의존해야 하는 언어는 방대한 양의 정보가 시시각각 쏟아져 들어오는 주요 언어들과 경쟁하기 힘들다. 게다가 그 주요 언어들을 실어 나르는 컨텐츠 중에는 사람의 감성도 충분히 만족시켜줄 수 있는 다양한 방식을 활용하고 있기에 침투력이 월등하다. 그렇기 때문에 소수 언어의 보존을 위한 다양한 온라인 아카이브 제작이 선행되지 않으면 이들은 영원히 잊힐 가능성이 높다. 아니, 정확히는 해당 언어의 원어민으로부터도 배제당할 가능성이 높다. 


물론 인공지능의 번역 능력이 탁월하다면 소수 언어는 여전히 보존될 수는 있을 것이다. 하지만 지층 가운데 흔적으로 남은 화석과 미케네 문명 유적지에서 발견된 점토판에 기록된 선문자들 역시 보존되어 있기는 매한가지이다. 동시대를 살아가는 사람들의 입말에 활용되지 않은 언어는 그 자체로 죽은 것이다. 우리는 조만간 인터넷에서 그 많던 언어들의 무덤을 보게 될 것이다.



For the sake! Of the call!

-fluorF-