코난테크놀로지가 저비용, 고성능, 보안성까지 높인 대규모언어모델(LLM) ‘코난 LLM’로 B2B(기업간 거래) B2G(기업과 정부간 거래) 시장을 공략한다. 코난테크놀로지가 17일 선보인 코난 LLM은 기업 전용 온프레미스 LLM으로 보안 우려를 줄이고 벡터 검색기반의 코난 서치를 적용해 잘못된 정보를 내놓는 할루시네이션(환각)을 최소화하는데 방점을 뒀다.
김영섬 코난테크놀로지 대표는 이날 서울 여의도 콘래드 서울에서 열린 기자간담회에서 “25년 간 인공지능 연구를 하면서 몇 번의 겨울을 감내하며 생성형 AI에 선도적으로 대응하고자 LLM 개발에 매진해왔다”며 “코난LLM이 그 결실로 국내 AI 시장 발전에 이바지하겠다”고 했다.
코난테크놀로지는 △국내 최다 학습 토큰 △20억 건에 달하는 양질의 문서기반 데이터 △백터검색 기술을 코난 LLM의 차별화 요소로 꼽았다. 코난 LLM은 거대언어모델의 고비용 이슈를 해결하기 위해 학습 토큰은 늘리고, 파라미터(매개변수) 크기는 줄이는 방식을 택하며 비용 효율성을 달성했다.
임완택 코난테크놀로지 전략기획본부 상무는 “코난 LLM의 토큰 규모는 국내 최대 수준으로 전체 토큰은 4920억 개, 한국어 토큰 2840억 개를 학습했다”며 “전체 토큰은 네이버 하이퍼클로바보다 크고 오픈소스 기반의 라마2보다 한국어를 270배 많이 학습했다”고 강조했다.
코난테크놀로지가 11월에 내놓을 모델에는 전체 학습 토큰이 7000억 개, 한국어 토큰은 3220억 개를 학습하겠다는 계획이다. 현재 업계 추산 네이버의 하이퍼클로바의 한국어 토큰 학습량이 5690억 개, 카카오의 코GPT2.0이 2000억 개, 챗GPT 5억7000만 개, 메타의 오픈소스 AI 라마2가 12억 개 수준이다.
파라미터는 이번에 선보인 코난13.1B가 131억 개, 11월에 선보일 41.0B가 410억 개로 제공된다. 오픈 AI의 챗GPT3.5가 1750억 개, 네이버의 하이퍼클로바X가 2040억 개인 것과 비교했을 때 현저히 적은 수준이다. 파라미터 사이즈를 줄여 고객의 운영 부담을 낮추고 토큰을 늘려 LLM의 품질을 향상시키겠다는 전략이다.
임 상무는 양질의 자체 데이터를 보유하고 있는 것을 코난테크놀로지의 장점으로 꼽았다. 그는 “LLM을 개발하기 위해서는 GPU 서버, AI 전문 개발인력과 더불어 최소 1000억 개 이상의 토큰을 확보할 수 있는 양질의 문서, 데이터가 있어야 한다”며 “코난테크놀로지는 2007년부터 국내외 데이터를 실시간으로 수집, 분석해 온라인 미디어 심화 분석 서비스 펄스케이를 통해 약 205억 개 문서를 자체 확보했다”고 했다.
1999년 설립한 코난테크놀로지는 자연어 처리 사업을 시작으로 AI의 원천기술인 비정형 빅데이터 분석 기술력을 가진 기업으로 전체 임직원 225명 중 연구개발 인력이 67%(149명)를 차지하고 있다.
현재 공공기관과 현대차, 삼성전자, SK텔레콤, 한국항공우주(KAI) 등 대기업을 포함해 2500곳이 넘는 고객사를 보유하고 있으며 SK텔레콤과 KAI의 경우 각각 코난테크놀로지 지분 20.77%, 7.82%를 보유해 2대, 3대 주주에 오르며 긴밀한 협업을 추진 중이다.