챗GPT는 생성용으로(Generative) 사전 학습된(PreTrained) 트랜스포머(Transformer)이다. 학습을 통해 문장을 생성한다는 평이한 설명에, 생소한 트랜스포머라는 어휘가 나온다. 트랜스포머는 기름 냄새 풍기는 용어이지만 전압을 낮추는 변압기도 트랜스포머이니 생활 세계에도 제법 들어와 있다.
똑똑한 최초 인공지능은 알파고와 그림을 인식하는 딥러닝 기술이었지만 딥러닝을 다른 분야로 확장하자 한계가 드러났다. 딥러닝은 사물의 윤곽선을 잘 파악하지만 언어 능력은 별로였다. 번역에 특출한 인공지능을 찾다보니 트랜스포머까지 왔다.
트랜스포머는 다음에 나올 어휘를 잘 예측한다고 소개되어 있다. 실제 챗GPT에 “나는 학교에”의 다음 단어를 물어보면 ‘다닌다’, ‘간다’, ‘있다’를 추천하여 준다. 그런데 주제에 알맞는 글과 긴 문장을 구사하는 챗GPT는 어떻게 설명할 것인가? 단순한 어휘 예측으로는 설명이 미흡하다. 미국의 언어학자 촘스키도 생후 몇 년만 지나면 다양한 문장을 만드는 아기의 능력에 감탄을 했다. 아이들의 언어습득 과정과 트랜스포머 개발에는 공통점이 있을 수밖에 없다.
인공지능은 약 2000억 개의 연결 고리를 지녀 어휘 ‘나는’, ‘학교’, ‘에’가 어느 연결고리에 존재하는지 알 수 없다. 마찬가지로 국어사전에 수록된 10만 개의 어휘가 인간 뇌 어느 부위에 할당되어 있는지도 모른다. 이를 밝히려는 연구가 인공지능이나 뇌에서도 진행 중이다. 어휘가 자리 잡은 뇌의 주소는 아직 모르지만 해부학적 뇌기관인 전두엽, 측두엽, 해마 등이 언어 구사능력의 엔진임은 밝혀졌다.
뇌와 유사하게 트랜스포머도 여러 층으로 구성되어 있다. 가령 색인 층은 어휘의 품사 정보를 지녀 명사, 동사. 형용사, 부사를 구별하고 문법에 맞는 문장을 만든다. 순서 층은 문장 속의 어휘를 인식하여 대명사 ‘그것’에 해당되는 명사를 찾아낸다. 시제 층은 ‘어제’에 합당하게 과거형 동사로 변환한다. 동의어 층은 ‘사랑’에 비슷한 어휘를 제시하고 반의어 층은 반대말을 저장하고 있다. 트랜스포머는 문법을 별도로 배우지 않지만 수많은 문장을 학습하여 숨겨진 문법을 알아간다.
딥러닝에서 진화되어 왔듯이 트랜스포머도 여전히 진화될 수 있다. 기술자들은 적은 자료로도 학습이 되는 효율적이고 창의적 인공지능을 찾고 있다. 이는 언어 문법을 뛰어넘어 인간이 포착하지 못한 층을 찾을 때 가능하다. 잠재적인 후보로는 장르, 학문, 이념 층일 수도 있다.
이미 챗GPT가 진영 논리에 세뇌당했는지 시험 삼아 광개토대왕비문 해석을 부탁했다. ‘百殘新羅, 舊是屬民, 由來朝貢. 而倭以辛卯年, 來渡□破, 百殘□□新羅, 以爲臣民.’ 챗GPT는 광개토대왕의 비문임을 즉시 알아챈다. 인공지능은 마모된 글자인 □에 적당한 한자를 추천하며 다음과 같이 해석한다.
“백제와 신라는 옛날부터 고구려에 속한 백성이었고, 계속 조공을 바쳐왔다. 그런데 왜는 신묘년에 물을 건너와 침략하여 백제와 신라를 공격하고, 이들을 신민(臣民)으로 삼았다.” 당대 상황을 모르니 뭐라고 판단하기 어렵지만 트랜스포머도 역사 층으로도 무장될 듯싶다. 피할 수 없는 흐름이라면 트랜스포머가 민족적 역사의식보다는 인류적 역사의식으로 무장되기를 바랄 뿐이다.