「방송영상 AI 학습용 데이터 구축」 컨소시엄 선정
AI 요약
다음은 대한민국 정부 부처에서 발표한 보도자료를 바탕으로 작성된 상세하고 포괄적인 요약입니다.
「방송영상 AI 학습용 데이터 구축」 컨소시엄 선정 보도자료 요약
1. 핵심 요약
과학기술정보통신부(이하 과기정통부)와 한국전파진흥협회는 2025년 8월 8일, 「방송영상 인공지능(AI) 학습용 데이터 구축」 사업의 지원 대상으로 총 4개의 컨소시엄을 최종 선정했다고 발표했습니다. 이 사업은 2025년 1차 추경을 통해 신규 추진되며, 선정된 문화방송(MBC), 엠비씨충북(지역MBC), 케이티이엔에이(KT ENA), 한국방송공사(KBS) 컨소시엄에는 각각 48.3억 원씩, 총 193.2억 원이 지원됩니다. 이를 통해 저작권 문제가 해결된 국내 방송영상 원본 총 42,000시간을 활용하여 약 21,000시간 분량의 고품질 AI 학습용 데이터가 구축될 예정이며, 이는 국내 독자적인 AI 모델 개발 및 방송 제작 효율성 증대에 크게 기여할 것으로 기대됩니다.
2. 주요 내용
- 총 4개 컨소시엄 선정 및 대규모 예산 지원: 과기정통부와 한국전파진흥협회는 「방송영상 AI 학습용 데이터 구축」 사업의 지원 대상으로 문화방송(MBC), 엠비씨충북(지역MBC 총 15개사), 케이티이엔에이(KT ENA), 한국방송공사(KBS) 등 총 4개 컨소시엄을 선정했습니다. 선정된 각 컨소시엄에는 48.3억 원씩, 총 193.2억 원의 예산이 지원되어 사업 추진의 동력을 확보하게 됩니다.
- 고품질 AI 학습용 데이터 21,000시간 구축 목표: 선정된 4개 컨소시엄은 저작권 문제가 해결된 국내 방송영상 원본 총 42,000시간을 활용하여, 인공지능(AI)이 학습하고 발전하는 데 필요한 고품질의 방송영상 AI 학습용 데이터 총 21,000시간을 구축할 예정입니다. 이 데이터는 영상, 이미지, 텍스트, 3D 모델 등 다양한 형태로 가공되어 AI 모델 개발에 활용됩니다.
- 높은 경쟁률을 통한 우수 컨소시엄 선정: 이번 사업에는 총 12개 컨소시엄이 지원하여 3:1의 높은 경쟁률을 보였습니다. AI 및 데이터 분야 전문가로 구성된 심사위원회의 엄격한 평가를 통해, 우리나라 고유의 가치와 특성이 반영된 방송 콘텐츠를 기반으로 한 AI 학습용 데이터 구축 및 활용 계획, 그리고 AI 기술 역량이 우수한 4개 컨소시엄이 최종 선정되었습니다.
- 데이터 품질 전주기 관리 및 검증 시스템 도입: 과기정통부는 구축되는 데이터의 품질을 보장하기 위해 데이터 품질검증 전문기관을 활용하여 전주기적인 관리 및 검증 시스템을 운영합니다. 이는 데이터 품질 기준 설정, 단계별 품질 관리 및 컨설팅, 그리고 최종 품질 기준 달성 여부 검증 등을 포함하며, 고품질 데이터 확보를 위한 핵심적인 과정입니다.
- 구축 데이터의 다각적 활용 및 개방 계획: 구축된 AI 학습용 데이터는 각 컨소시엄이 방송 제작 현장에 필요한 특화 AI를 개발하고 적용하는 데 우선적으로 활용됩니다. 또한, 「독자 AI 파운데이션 모델」 프로젝트에 선정된 정예팀의 요청 시 제공되며, AI 허브 내 '안심존' 등을 통해 연구 및 교육용 AI 개발을 위해 약 10~35% 이상 개방될 예정입니다. '안심존'은 보안이 강화되어 민감한 데이터를 안전하게 활용할 수 있는 공간을 의미합니다.
- 방송영상 AI 데이터 활용을 위한 협의체 운영: 구축된 방송영상 AI 학습용 데이터의 활용도를 높이고 거래를 활성화하기 위해 협의체가 운영될 예정입니다. 이 협의체에는 선정된 컨소시엄, AI 및 데이터 전문가, 그리고 데이터 수요 기업 등이 참여하여 데이터 구축 현황을 공유하고, 데이터 거래 기준 및 체계 등을 논의함으로써 데이터 유통 생태계를 조성하는 데 기여할 것입니다.
- 컨소시엄별 특화된 데이터 구축 목표:
- 문화방송 컨소시엄: 보도, 시사·교양, 예능, 드라마 등 10,000시간의 원본 영상을 활용하여 버추얼 스튜디오 등 다양한 방송 콘텐츠 제작 환경에서 사용될 고정밀·고품질 배경영상 생성 AI 학습용 데이터 총 5,000시간 분량(영상 3,633시간, 이미지 49.2만 건 등)을 구축합니다.
- 엠비씨충북 컨소시엄 (지역MBC 총 15개사): 보도, 시사·교양, 다큐 등에서 각 지역의 다양한 자연·풍경, 생활·문화, 역사·사회 등과 관련된 12,000시간의 원본 영상을 활용하여 우리나라 각 지역의 고유한 문화와 생활양식을 반영한 이미지 및 영상 생성 AI 학습용 데이터 총 5,940시간 분량(영상 3,600시간, 이미지 84.24만 건 등)을 구축합니다. 참여 지역MBC는 MBC충북, MBC강원영동, 광주MBC, MBC경남, 대구MBC, 대전MBC, 목포MBC, 부산MBC, 안동MBC, 울산MBC, 원주MBC, 여수MBC, 전주MBC, 제주MBC, 포항MBC입니다.
- 케이티이엔에이 컨소시엄: 예능, 시사·교양, 다큐 등 10,000시간의 원본 영상을 활용하여 감정이 표현되는 우리나라 인물, 우리나라 배경, 예능 자막 등을 생성하는 AI 학습용 데이터 총 5,000시간 분량(영상 3,600시간, 이미지 50.4만 건 등)을 구축합니다.
- 한국방송공사 컨소시엄: 보도, 예능, 다큐, 스포츠 등 10,000시간의 원본 영상을 활용하여 촬영 구도 및 편집 자동화, 사극 및 시대극에서 활용되는 소품(의복, 무기, 유물 등)을 3D로 생성하는 등 방송 콘텐츠 제작에 필요한 AI 학습용 데이터 총 5,067시간 분량(영상 4,500시간, 3D 데이터 1,500건, 이미지 20만 건 등)을 구축합니다. 여기서 3D 데이터는 길이, 너비, 높이의 3차원 공간 정보를 담아 사극 소품의 입체 형상과 구조를 디지털로 표현한 것을 의미합니다.
3. 배경 및 목적
이번 「방송영상 AI 학습용 데이터 구축」 사업은 인공지능(AI) 기술 발전의 핵심 동력인 '데이터'의 중요성이 갈수록 커지는 상황에서 추진되었습니다. 특히, 영상 등을 생성하는 AI 모델 개발을 위해서는 방대한 양의 고품질 학습용 데이터가 필수적입니다. 우리나라의 방송 콘텐츠는 인물, 사회, 역사, 자연 등 한국 고유의 가치와 특성을 풍부하게 담고 있어, 독자적인 한국형 AI 모델을 개발하는 데 최적의 '핵심 연료'가 될 수 있습니다.
이러한 배경 아래, 본 사업의 주요 목적은 다음과 같습니다. 첫째, 방송 영상을 활용하여 고품질의 AI 학습용 데이터를 구축함으로써 국내 AI 모델 개발을 적극적으로 지원하는 것입니다. 둘째, 방송사들이 AI 기술을 자사의 제작 과정에 다양하게 접목하여 제작 효율성을 높이고, 궁극적으로 고품질의 방송 서비스를 시청자들에게 제공할 수 있는 기반을 마련하는 것입니다. 셋째, 국내 방송 콘텐츠를 기반으로 한 AI 데이터 생태계를 조성하고, 이를 통해 한국형 AI 기술 경쟁력을 강화하는 데 기여하는 것입니다. 이 사업은 2025년 1차 추가경정예산(추경)을 통해 신규로 반영되어 추진되는 국가적 중요 사업입니다.
4. 세부 추진 내용
본 사업은 방송법에 따른 방송사업자(주관기관)와 AI 및 데이터 전문 기업·기관(참여기관)으로 구성된 컨소시엄을 대상으로 공모를 진행했습니다. 총 12개 컨소시엄이 지원하여 3:1의 높은 경쟁률을 보였으며, AI 및 데이터 분야 전문가로 구성된 심사위원회의 엄격한 평가를 거쳐 최종 4개 컨소시엄(문화방송, 엠비씨충북, 케이티이엔에이, 한국방송공사)이 선정되었습니다.
선정된 4개 컨소시엄에는 각각 48.3억 원의 정부 지원금이 배정되어 총 193.2억 원이 투입됩니다. 이 자금을 바탕으로 각 컨소시엄은 저작권 문제가 해결된 국내 방송영상 원본 총 42,000시간을 활용하여 총 21,000시간 분량의 고품질 AI 학습용 데이터를 구축하게 됩니다. 데이터 구축 과정에서는 데이터 품질검증 전문기관이 참여하여 품질 기준 설정, 단계별 품질 관리 및 컨설팅, 그리고 최종 품질 기준 달성 검증 등 데이터 품질을 전주기적으로 관리하고 검증하여 데이터의 신뢰성과 활용성을 극대화할 예정입니다.
각 컨소시엄은 다음과 같은 특화된 AI 학습용 데이터를 구축합니다:
- 문화방송 컨소시엄: 보도, 시사·교양, 예능, 드라마 등 다양한 장르의 원본 영상 10,000시간을 활용하여 버추얼 스튜디오 등 제작 환경에 필요한 고정밀 배경영상 생성 AI 학습용 데이터 5,000시간을 구축합니다.
- 엠비씨충북 컨소시엄: 지역MBC 15개사가 참여하여 보도, 시사·교양, 다큐 등 지역 특색이 담긴 원본 영상 12,000시간을 활용, 지역 고유의 문화와 생활양식을 반영한 이미지 및 영상 생성 AI 학습용 데이터 5,940시간을 구축합니다.
- 케이티이엔에이 컨소시엄: 예능, 시사·교양, 다큐 등 원본 영상 10,000시간을 활용하여 감정이 표현되는 인물, 한국 배경, 예능 자막 등을 생성하는 AI 학습용 데이터 5,000시간을 구축합니다.
- 한국방송공사 컨소시엄: 보도, 예능, 다큐, 스포츠 등 원본 영상 10,000시간을 활용하여 촬영 구도 및 편집 자동화, 사극 소품 3D 생성 등 방송 제작에 필요한 AI 학습용 데이터 5,067시간을 구축합니다. 여기서 3D 데이터는 사극 소품의 입체 형상과 구조를 디지털로 표현한 것으로, AI가 3차원 객체를 인식하고 생성하는 데 활용됩니다.
5. 기대 효과
이번 「방송영상 AI 학습용 데이터 구축」 사업을 통해 기대되는 효과는 매우 광범위합니다. 첫째, 각 컨소시엄은 구축된 데이터를 활용하여 방송 제작 현장에 특화된 인공지능(AI) 기술을 개발하고 적용함으로써, 방송사의 제작 효율성을 획기적으로 높일 수 있을 것입니다. 이는 인력 및 시간 절감뿐만 아니라, 새로운 형태의 콘텐츠 제작 가능성을 열어줄 것입니다. 둘째, 구축된 고품질 방송영상 AI 학습용 데이터는 국내 '독자 AI 파운데이션 모델' 개발 프로젝트에 참여하는 정예팀에게 제공되어, 한국형 거대 AI 모델의 성능 향상에 핵심적인 역할을 할 것입니다. '파운데이션 모델'은 다양한 분야에 적용될 수 있는 기반이 되는 대규모 AI 모델을 의미합니다. 셋째, AI 허브 내 '안심존' 등을 통해 구축 데이터의 10~35% 이상이 연구 및 교육용으로 개방됨으로써, 국내 AI 연구 생태계 활성화와 미래 AI 인재 양성에도 크게 기여할 것입니다. 넷째, 데이터 거래를 위한 협의체 운영을 통해 데이터 수요 기업과 공급 기업 간의 연결을 강화하고, 방송영상 AI 데이터의 유통 및 활용 생태계를 조성하여 새로운 비즈니스 모델 창출을 촉진할 것으로 기대됩니다. 궁극적으로 이 사업은 우리나라 방송 산업의 디지털 전환을 가속화하고, 고품질의 AI 기반 서비스를 제공하는 기반을 마련하며, 나아가 국가 AI 경쟁력을 강화하는 데 중요한 역할을 할 것입니다.
6. 향후 계획
선정된 4개 컨소시엄은 2025년 8월 8일 발표 이후 본격적으로 방송영상 AI 학습용 데이터 구축 사업에 착수합니다. 각 컨소시엄은 할당된 예산을 바탕으로 저작권이 확보된 방송영상 원본을 활용하여 고품질의 AI 학습용 데이터를 체계적으로 구축해 나갈 것입니다. 이 과정에서 데이터 품질검증 전문기관의 전주기적인 관리와 컨설팅을 통해 데이터의 신뢰성과 활용성을 지속적으로 확보할 예정입니다.
데이터 구축이 완료되면, 각 컨소시엄은 이를 활용하여 방송 제작 현장에 필요한 특화된 AI 기술을 개발하고 실제 적용을 추진할 계획입니다. 또한, 구축된 데이터는 '독자 AI 파운데이션 모델' 프로젝트에 선정된 팀들에게 요청 시 제공될 예정이며, AI 허브 내 '안심존'을 통해 연구 및 교육 목적으로도 일정 비율 이상 개방되어 국내 AI 연구 활성화에 기여할 것입니다. 더불어, 선정된 컨소시엄과 AI·데이터 전문가, 데이터 수요 기업 등이 참여하는 협의체를 지속적으로 운영하여 데이터 구축 현황을 공유하고, 데이터 거래 기준 및 체계를 논의함으로써 방송영상 AI 데이터의 활용도를 높이고 관련 산업 생태계를 활성화하는 데 주력할 것입니다. 과학기술정보통신부는 이번 사업을 통해 방송영상이 AI 데이터로 적극 활용되어 방송사가 AI 기술을 다양하게 접목하고 제작 효율성을 높임과 동시에 고품질 서비스를 제공하는 기반이 마련되기를 기대하며, 관련 정책 지원을 이어나갈 방침입니다.
보도자료 내용
보도자료 본문은 첨부파일을 참조하세요.