오픈소스란 소스 코드를 무료로 제공하고 누구나 수정하고 배포할 수 있는 소프트웨어로 AI 분야에서 활발하게 사용되고 있다. 파이토치, 텐서플로, 케라스 등의 딥러닝 프레임워크부터 허깅페이스, 엔엘티케이 등의 자연어 처리 라이브러리까지 다양한 오픈소스 소프트웨어가 AI 개발자들에게 제공되고 있다.
이러한 오픈소스 소프트웨어들은 AI 기술과 알고리즘을 빠르게 접할 수 있게 하고, 새로운 아이디어와 창의성을 발휘할 수 있게 한다. 또한 오픈소스 소프트웨어들은 전 세계의 개발자들이 서로 협력하고, 지식과 경험을 공유하며, 문제를 해결할 수 있는 커뮤니티를 제공한다.
오픈소스 AI는 AI 연구자들뿐만 아니라 IT 기업들, 비영리 단체들, 대학 연구자들 등 다양한 주체들이 참여하고 있다. 이 중에서도 특히 두 회사가 오픈소스 AI의 선두주자로 주목받고 있다. 바로 자연어처리 분야 최대 오픈소스 플랫폼을 운영하는 프랑스의 스타트업 허깅페이스와 한국의 대표 AI 스타트업 업스테이지다.
허깅페이스는 2016년에 설립된 NLP 전문 스타트업으로, 오픈소스 AI의 선도적인 기업으로 전 세계의 AI 연구자들과 협력하고 있다. 허깅페이스 오픈LLM 리더보드는 다양한 언어의 LLM 모델의 성능을 평가하고 비교할 수 있다. LLM은 텍스트 데이터를 학습해 다양한 언어 작업을 수행할 수 있는 AI 모델이다.
허깅페이스는 AI 민주화를 모토로 AI 기술의 접근성과 투명성을 높이고, 다양한 응용 분야와 도메인에서 AI를 활용할 수 있게 하고자 한다. 허깅페이스는 지난 8월 2억3500만 달러(약 3100억 원)의 펀딩을 유치하며, 기업가치를 45억달러(약 6조 원)로 평가받았다. 투자자로는 구글, 엔비디아, 아마존, 퀄컴, 세일즈포스, 인텔, AMD, IBM 등 AI 개발에 열을 올리는 빅테크 기업들이 포함되어 있다.
허깅페이스는 오픈소스 AI의 선도적인 기업으로 전 세계의 AI 연구자들과 협력하고 있다. 허깅페이스는 자연어 처리(NLP)를 위한 최신의 딥러닝 모델과 알고리즘을 구현한 오픈소스 라이브러리인 트랜스포머(Transformers), NLP를 위한 대규모의 고품질 데이터셋을 모아놓은 오픈소스 라이브러리인 데이터셋(Datasets), NLP를 위한 고속의 텍스트 토큰화 도구인 토크나이저(Tokenizers), NLP를 위한 산업 수준의 오픈소스 라이브러리인 스페이시(Spacy) 등 다양한 서비스와 제품을 통해 오픈소스 기반 AI 모델을 쉽게 개발하고 실행할 수 있는 플랫폼으로서 글로벌 AI 발전에 큰 영향을 미치고 있다.
허깅페이스의 클렘 델란지 CEO는 지난 6월 미국 하원 공청회에 참석해 오픈소스 AI가 미국 가치관과 국익에 합치한다고 증언하기도 했다. 그는 AI의 발전은 오픈소스 및 오픈 사이언스에 의해 이뤄지고 있으며, 파이토치, 텐서플로, 케라스 등의 오픈소스 소프트웨어가 없었다면 미국은 주요 AI 개발국이 될 수 없었을 것이라고 주장하기도 했다.
해외에 허깅페이스가 있다면 국내 오픈LLM 플랫폼으로는 업스테이지의 오픈 코(Open Ko)-LLM 리더보드가 있다. 업스테이지는 2020년에 설립된 국내 대표 AI 전문 스타트업으로, 허깅페이스 오픈LLM 리더보드에서 오픈LLM 사상 최초로 GPT-3.5의 벤치마크 점수를 넘는 솔라 모델을 개발해 글로벌 관심을 모으기도 했다. 업스테이지는 솔라를 활용, 다양한 산업군과 도메인에 맞는 프라이빗 AI 서비스를 제공하고 있다.
업스테이지는 한국에서 데이터 공유와 오픈소스 AI 생태계 확장을 위해 1T클럽 Open Ko-LLM 리더보드를 개설했다. 1T클럽은 한국어 데이터 부족 문제를 해결하고 콘텐츠 제공자들의 권익을 보호하면서도 한국어 고성능 거대언어모델을 구축하기 위한 프로젝트이다. 1T클럽은 1조 개 토큰의 한국어 데이터를 확보하고, 이를 바탕으로 세계 최고 수준의 한국어 LLM을 개발해 다양한 산업에서 활용하고 데이터 제공자들에게 그 이익을 돌려주는 선순환 구조를 만드는 것이 목표다.
최근 출범한 업스테이지의 오픈 코-LLM 리더보드는 NIA와 공동 주최로 한국어 LLM의 성능을 평가하고 비교할 수 있는 리더보드이다. 오픈 코-LLM 리더보드는 한국어의 특성과 문화를 반영한 고품질의 데이터와 상식생성 기준을 추가해 한국어 특화 리더보드로서의 강점을 자랑한다.
업스테이지는 오픈 코-LLM 리더보드를 통해 한국어 LLM 연구의 수준과 경쟁력을 높이고, 한국어 데이터의 양과 질을 개선하며, 한국어 LLM의 국제적 인지도를 제고하고자 한다. 오픈LLM 리더보드를 기반으로 국내의 다양한 연구자들의 결과를 공유하고 공동 연구 및 협력을 촉진할 수 있으며 이를 통한 성능 수준의 향상과 산업 분야 확대에도 기여하는 출발점을 만든 것이다.
뿐만 아니라 업스테이지는 한국어 데이터를 기반으로 리더보드가 개설 됨으로써 공개 연구결과의 투명성과 신뢰성을 확보함은 물론 국제적 인지도를 제고, 다양한 언어 연구 활성화의 시작점으로 글로벌 차원의 주목도도 높아질 것으로 기대한다.