“인공지능 학습용 데이터 170종 4억8000만 건 본격 개방”

입력 2021-06-18 10:00

  • 작게보기

  • 기본크기

  • 크게보기

674개 기업ㆍ기관과 4만여 국민 참여 결과…6월 말까지 순차 개방

(사진제공=과학기술정보통신부)

한국어 음성과 헬스케어, 자율주행 등 170종의 인공지능(AI) 학습용 데이터가 본격 개방된다. 1년여에 걸쳐 674개의 기업ㆍ기관과 4만여 명의 국민이 참여해 구축한 결과물이다. 정부는 6월 말까지 데이터를 순차 개방하고 활용을 촉진해 AI 서비스 개발을 가속한다.

과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 국내 인공지능 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종, 4억8000만 건을 인공지능(AI) 허브(aihub.or.kr)를 통해 18일부터 개방한다고 밝혔다.

2020년에 구축해 이번에 개방하는 데이터는 △음성ㆍ자연어(한국어 방언 등 39종) △헬스케어(암 진단 영상 등 32종) △자율주행(도로주행영상 등 21종) △비전(스포츠 동작 영상 등 15종) △국토환경(산림수종 이미지 등 12종) △농축수산(가축행동 영상 등 14종) △안전(노후 시설물 이미지 등 19종) △기타(패션상품 이미지 등 18종) 8대 분야 170종이다.

데이터 구축은 인공지능ㆍ데이터 전문기업은 물론 주요 대학(서울대, KAIST 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업ㆍ기관이 참여했다. 또 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여 명의 국민이 참여했다.

과기정통부는 중소기업이나 스타트업뿐 아니라, 대기업도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 AI 산업계에서 가장 큰 걸림돌로 꼽은 문제인 ‘데이터 갈증’을 어느 정도 해소할 수 있을 것으로 전망했다. 특히 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 ‘한국형 인공지능 학습용 데이터’가 대폭 확충돼 국민이 체감할 수 있는 AI 서비스 개발이 가속할 것으로 기대했다.

예를 들어 30일까지 순차적으로 공개될 자율주행 데이터(21종)는 국내 도로주행 영상뿐 아니라 주차 장애물ㆍ이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공해 자율주행차 개발을 한층 앞당길 것으로 기대되고 있다. 활용성 검토 결과 특수 차선, 장애물, 포트홀 등 다양한 객체가 포함된 점은 대표적인 장점으로 꼽힌다.

(사진제공=과학기술정보통신부)

과기정통부는 인공지능 학습용 데이터의 대규모 개방과 함께 데이터 활용 촉진과 성과 확산 등을 위해 이날 ‘인공지능(AI) 데이터 활용협의회’ 출범식을 갖고 데이터를 실제로 활용하는 기업ㆍ기관들의 의견을 수렴했다. 협의회는 데이터 품질관리 전문기관인 정보통신기술협회(TTA)와 170종 데이터의 활용성 검토에 참여한 기업ㆍ기관을 중심으로 구성됐다.

NIA는 참여를 희망하는 기업 및 기관을 중심으로 협의회를 지속해서 확대한다. 또 본인인증 한 번만으로 데이터에 대한 접근 및 활용을 할 수 있도록 회원가입 시스템을 개선하고, 하반기에는 데이터 검색체계를 과제명 중심에서 자동차, 표지판 등 사물ㆍ객체 중심으로 개편하는 등 AI 허브 활용환경도 조성한다.

과기정통부와 NIA는 이날 60종을 시작으로 6월 말까지 순차적으로 개방할 예정이다. 특히 헬스케어 데이터 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 30일 개방할 계획이다.

개선점을 찾기 위해 9월 말까지 3개월간의 참여형 데이터 집중 개선 기간을 운영한다. AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, 전문기관(TTA, KISA 등)과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF를 운영한다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0
주요뉴스
댓글
0 / 300
e스튜디오
많이 본 뉴스
뉴스발전소