도시경제채널

과기정통부, ‘옛 데이터’ 생성형 AI용으로 재가공…총 30억원 투입: 박준범 기자 / 기사승인 : 2026-05-07 20:14:19

2022년까지 구축된 LLM·피지컬 AI 중심 30종 선정

[도시경제채널 = 박준범 기자] 과학기술정보통신부는 기존 AI허브 데이터를 최신 생성형 AI 기술 환경에 맞게 재가공하는 ‘AI 학습용데이터 업사이클링’ 사업을 진행한다고 7일 밝혔다.

한국지능정보사회진흥원과 공동 추진하는 이번 사업은 총 30억원을 투입해 LLM(대규모 언어 모델)과 피지컬 AI 분야를 중심으로 30종의 데이터셋을 재가공한다.

재활용 대상 데이터는 지난 2022년까지 구축된 AI 허브 데이터 가운데 생성형 AI 데이터로의 확장 가능성이 있는 30종을 최종 선정했다.

LLM 데이터 분야에서는 질문부터 답변 확정까지의 추론 과정을 포함해 답을 제시하도록 데이터를 재구성한다. 특히 동일한 문제에 대해 복수의 추론 경로를 구성하고, 근거 기반 판단과 오류 수정 과정을 담아 복잡한 문제 해결이 가능한 추론형 AI 학습 기반을 마련할 계획이다.

피지컬 AI 분야에서는 기존 이미지·영상 데이터를 토대로 시각 정보, 언어 명령, 행동 및 제어를 통합할 수 있도록 데이터를 고도화한다. 이를 통해 로봇 등의 피지컬 AI가 단순 객체 인식을 넘어 시간 흐름에 따른 상황 변화와 객체 간 상호작용을 이해하고, 목표 기반 행동을 수행할 수 있는 수준으로 데이터를 확장할 방침이다.

최동원 과기정통부 인공지능인프라정책관은 “이번 사업을 통해 적은 비용으로도 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것으로 기대한다”며 “이미 축적된 데이터가 낭비되지 않도록 활용 가치를 끌어올리겠다”라고 말했다.