한국엠씨엔협회

컬럼/매거진

HOME 정보센터 컬럼/매거진

[칼럼] 인공지능은 미디어 산업을 어떻게 바꿀 것인가?

등록일 : 2017.08.17 조회수 : 1,758

스마트폰의 등장으로 촉발된 모바일융합 현상은 이미 일상에서 ‘모바일 퍼스트’에서 ‘모바일 온리’세상으로 나가는 초석이 되었다. 최근 알파고가 던져준 충격으로 다시금 인공지능(Artificial Intelligence: AI)이 화두인데, AI 뒤에는 기계학습인 딥러닝이 있다.

알파고의 알고리즘 기반이 되는 딥러닝은 이제 이론 뿐만 아니라 실제적으로 적용 가능해 졌으며, 기존 연구된 알고리즘을 통해 다른 분야(예로 딥마인드의 구글 데이터센터 전력량 절감)에도 활용 가능하면서 AI의 타산업 활용도가 높아지고 있다.

필자는 이전 기고문들에서 CES 2017과 MWC 2017 전시회 관람 경험의 가장 큰 결과물로 AI에 대해 강조한 바 있으며, 상용화된 대표 제품으로 아마존의 알렉사를 예로 들었다.

알렉사는 AI의 대표적 활용 사례이며, 미디어산업과의 연계성이 높다. 우리나라만 보면, 통신기업들의 AI 스피커가 글로벌 수준은 아니지만 이미 출시되었고, 카카오는 올해 3분기 중에 AI 스피커인 ‘카카오미니’를 출시하겠다는 계획을 밝혔는데, 이는 기 보유한 다양한 미디어 서비스를 발판으로 강자로 부상할 수 있는 가능성을 보여준다. 카카오는 모든 AI 스피커 제품의 기본 탑재가 되는 음원 스트리밍과 정보 검색서비스를 갖추고 있는 상태이기 때문이다.‘멜론’을 통해 음악을 듣고, ‘다음’을 통해 정보를 찾을 수 있는 것이다.

스마트폰에 음성인식 AI 비서가 탑재되지만, 글로벌 애플리케이션 분석업체 버토 애널리틱스의 보고서에 따르면, 애플 아이폰에 내장된 AI 비서 ‘시리’를 사용하는 미국인은 지난해 4,870만 명에서 올해 4,140만 명으로 줄었다. 시리에 이어 두 번째로 많은 사용자를 갖고 있는 삼성전자의 ‘S보이스’도 1년 새 이용자가 160만 명 줄었다. 이에 비해, AI 스피커 ‘에코’를 앞세운 아마존의 AI 비서 ‘알렉사’ 이용자는 지난해 80만 명에서 올해 260만 명으로 전년 대비 300% 이상 증가했다. 사용자의 참여도 역시 지난해보다 2배 이상 증가한 것으로 나타났다.

AI 스피커 시장의 선구자인 ‘에코’의 경우를 보면, 이용자가 AI 스피커를 선택하는 이유가 미디어산업과 연계됨을 알 수 있다. 에코는 아마존의 쇼핑서비스 외에 영화·음악·전자책 등 미디어콘텐츠를 연결해 출시됐다. 스마트폰에서는 개별 앱으로 나뉘어 있는 서비스를 집 안의 스피커 하나로 손쉽게 이용 가능하다.

아직 AI 플랫폼 세계가 어떻게 발전할 지에 대해 쉽게 가늠하기는 쉽지 않으나, 이미 글로벌 인터넷기업들의 이를 둘러싼 기술 경쟁은 막을 올린 상황이고, AI에 기반을 둔 차세대 ICT융합 리더가 되기 위해 AI 스피커들이 여기저기서 출시되고 있음이 CES 2017과 MWC 2017에서 목격되었다. 본고는 딥러닝 기술의 진전으로 급부상한 ICT융합 핵심인 AI에 대해 간단히 살펴보고 미디어산업의 기회와 활용 영역을 제시해보고자 한다.

AI로 인한 ICT산업 생태계의 진전

역사적으로 융합은 통신과 방송, 인터넷 등 서로 다른 패러다임의 융합이 진전되면서 나타난 현상이며 앞으로도 또 다른 기술로 진전될 것이다. 전화의 처음 용도가 전보(電報)의 효율성 제고였다가 음성통화 기술이 개발되면서 전보와 전화는 공존하다가 전화 이용이 보편화되면서 전보서비스가 1997년 중단된다.

통신시장에 경쟁이 도입되면서 통신기업들은 1990년대 초 비디오시장 진입을 시도하게 되고, 놀란 케이블TV 기업들의 케이블 망 업그레이드가 시작되면서 통신과 방송이 융합된다.

이후 무선통신 분야에도 경쟁이 도입되면서 월평균 사용료가 낮아지면서 휴대전화가 대중화되더니 보편적인 통신 수단으로 자리잡으면서 유무선 통합이 일어난다. 2007년 아이폰(iPhone)으로 촉발된 스마트폰 경쟁으로 데이터서비스 이용도 증가하게 된다. 결국, 2010년대 모바일융합이 진전되고, 유무선망 통합과 저장기술의 발달에 기인한 기기의 다양화에 따른 이동성 확대가 진행된다.

이러한 일련의 융합 현상을 거치면서 전반적으로 ICT(Information and communications industry)산업 가치사슬(Value chain)은 느슨해지는 과정을 거친다. 다시 말해, 기술과 서비스, 산업, 사업자 간 경계가 붕괴되고 산업 내, 산업 간 시장구조 변화로 인해 관련 기업들의 경영전략이 복잡해지면서 전통적 경영이론으로 설명되지 않은 파괴적 혁신(Disruptive innovation), 플랫폼(Platform) 같은 새로운 이론과 전략 용어가 등장한다. 특히 모바일융합 시대가 되면서 애플과 구글이 창출한 개방형 생태계가 본격화되면서 생태계 내 플랫폼의 역할이 주목을 받는다.

인터넷이 발전하면서 통신, 방송, 인터넷 간 경계가 붕괴되면서 ICT산업 가치사슬보다는 수평적 관계를 지향하는 생태계가 매우 중요해지고 있음에 이의를 제기할 사람은 이제 없을 것 같다.

이미 ICT산업 가치사슬 CPND(Content-Platform-Network-Device) 칸막이식 구조의 의미가 희석된 지 오래다. 생태계와 플랫폼은 불가분 관계에 있다.

특히 모바일융합 과정에서 애플리케이션(Application: 이후 앱)들은 여러 분야, 다양한 기업을 통해 생태계 형성의 주인공들이 되었다.

스마트폰 제조사, 운영시스템(OS) 제공사, 그리고 단순 앱에서 서비스플랫폼이 된 SNS 앱 등 다양한 분야의 기업들이 각자 영역을 구축하면서 ICT산업 생태계를 형성하였고, 이를 통해 시장은 더욱 성장하였다. AI도 이러한 ICT산업 생태계에서 여러 기업들 간 관계 형성을 주도하고 도와주는 데 중심이 될 것이다.

AI가 플랫폼 역할을 하는 배경은 크게 두 가지이다. 하나는, 앞의 모바일융합이 그러했듯이, AI의 3대 기술 축인 ‘데이터(Data), 알고리즘(Algorithm), 인프라(Infrastructure)’제공이 플랫폼 기업을 통해 가능하며, 다양한 기업들의 생태계 참여를 통해 시장이 형성될 것으로 기대되기 때문이다.

AI는 하나의 목적을 위한 개발에 그치지는 않을 것으로 보이며, 스마트미디어, 스마트홈, 스마트카 등 다양한 산업 분야에 활용될 것 같다. IBM이 먼저 개발한 왓슨(Watson)은 자연어 형식으로 된 질문에서 정보를 추출, 가공한 뒤 필요한 정보를 제공하는 AI로 의학 분야에 활용되었다. 구글의 딥마인드(Deepmind)도 바둑에 활용되었고, 여기에 상대방의 정보가 제한적으로 제공되는 실시간 게임에 활용되면서 그 영역이 넓어지고 있다.

다른 하나는 이들 기술기업들의 AI 서비스의 개방이다. 앞서 아마존의 알렉사 사례를 언급했는데, 구글의 AI 서비스 중 하나인 대화형 UI인 ‘구글어시스턴트(Google Assistant)도 다양한 서비스와 디바이스 결합을 보여준다. 스마트폰 뿐만 아니라 AI스피커‘구글 홈’, 스마트워치 등에 탑재되어 교육, 지역 정보, 일정 관리, 스마트홈, 쇼핑, 음악, 비디오 등과 같은 서비스를 하고 있다. 중요한 것은 제3자 개발자들이 이를 활용할 수 있도록 API(application programming interface, 서비스 및 애플리케이션 개발을 위한 프로그램)를 개방했다는 점이다.

그림 1은 ‘구글어시스턴트’의 파트너사 서비스 현황이다. 국내 기업인 네이버도 ‘클로바(Clova)의 클로바인터페이스커넥트(Clova Interface Connect)와 클로바익스텐션킷(Clova Extension Kit)을 제공 중이다.

▲ 그림 1. 구글의 ‘구슬어시스턴트’ 파트너사 서비스 현황

(출처: 장원열, 2017. 6. 19)

AI 등장에 따른 미디어산업의 기회

콘텐츠 매스터링(Mastering), 배포 및 광고 등을 포괄하는 미디어산업이 디지털화하면서 발전하려면 AI를 활용할 수 있는 많은 기회를 창출해야 한다. 이러한 디지털 미디어산업의 대표 기업들로 넷플릭스나 구글, 아마존이 있다. 넷플릭스는 이미 이용자 데이터 마이닝의 선두주자이고 최근에는 이러한 많은 노력들이 기존의 데이터 마이닝에서 AI 주도로 바뀌고 있다. 통찰력과 추천엔진을 사용해 가입자 이탈률을 줄이고 있는 대표 주자이다.

구글은 AI 세계에서 주로 자율주행 차량 연구에 대한 투자에 집중하면서 2014년 영국의 딥마인드를 인수하더니 가장 강력한 AI 플랫폼 중 하나에 액세스 할 수 있게 되었다. 현재 가장 앞서 있다고 평가받는 구글은 3대 축인 데이터와 알고리즘, 인프라를 무기로 AI 플랫폼화를 구축 중인데, 데이터는 이미 온라인/모바일 서비스를 통해서 다양하게 축적되어 있지만, 제 3자 개발자에게 공개하고 있지는 않다.

하지만, 자체 개발한 AI 알고리즘 및 M&A를 통해 확보한 머신러닝 알고리즘인 ‘딥마인드’, 챗봇에 적용 가능한 자연어처리(NLP, Natural Language Processing) 기능을 가진 ‘API.AI’, 기업이 제시한 문제를 받아 경쟁을 통해 데이터분석가들이 문제를 해결하게 하는 플랫폼인 ‘캐글’ 등을 통해 다양한 분야에 활용하게 할 목적으로 제 3자 개발자들에게도 일부 공개 제공하고 있다. 인프라에서도 구글은 이미 클라우드 서비스 중 IaaS와 PaaS에서 아마존, MS와 함께 시장을 형성 중이다.

아마존도 전통 미디어기업으로 분류될 수는 없지만 많은 시장에서 빠르게 성장하는 콘텐츠 가입 비즈니스를 추진 중이다. 아마존은 특히 AWS가 제공하는 클라우드 서비스를 통해 AI 공급업체가 되었다.

이들 모두는 IBM, 마이크로소프트, 엔비디아(Nvidia)와 같은 파트너들과 함께 행동을 인식할 수 있는 추상 모델을 만들 수 있는 AI의 장점들을 보유한 기업들이 되었다. 이 플랫폼들은 딥러닝 등 기본 알고리즘들을 누구나 쉽게 구현할 수 있도록 모듈화ㆍ라이브러리화하고, 직관적 인터페이스를 제공한다.

미디어산업의 AI 활용 영역들

AI 기술 알고리즘을 구현하는 기반 플랫폼을 구축하는 것은 구글 등 글로벌 인터넷기업의 역할이다. 하지만 그 기반으로 다양한 환경에서 AI 기술을 구현하는데 제 3자 개발자, 즉 스타트업의 역할이 필수적이다. 이는 모바일융합 생태계에서 이미 경험한 바 있다.

딥러닝 등 AI 기술들은 그 기본적인 기법이나 원리가 공통적으로 광범위하게 활용 가능하며 일반적인 개발 툴이 모든 AI 문제 해결에 적용 가능하다. 대표적인 AI 활용이 스피커 열풍에서 감지되고 있은 가운데, 미디어산업에서 AI 변화가 예상되는 10개 영역이 오범(OVUM) 보고서에서 표 1과 같이 제시되어 소개한다.

10대 미디어의 기회, 즉 활용 영역은 댁내 개인맞춤화(CPE personalization) 및 추천서비스, 서비스의 개인화 및 추천, 콘텐츠 커미셔닝(Content commissioning; 미디어플랫폼 기업이 제작사의 프로젝트에 대해 투자와 편성 결정을 하는 것이며, 커미셔닝 에디터는 프로젝트의 스토리라인과 캐릭터, 소재의 설득력, 완성도를 담보할 수 있는 제작 경력 등을 판단해 프로젝트의 방송 효과를 예측하여 투자 여부 결정), 콘텐츠 제작, 권리 협상, 사진 및 비디오 자동태깅, 자동 자막과 동시 통역, 저작권 침해 조사, 홍보 마케팅, 이용자 경험 극대화를 위한 비디오 게이밍(Video Gaming) 등이다. 각각에 대해 간단히 소개한다.

▲ 표 1. AI가 활용되는 디지털 미디어 관련 10개 영역 (출처: Jackson, P. (2017.3.20). OVUM 보고서)

첫 번째 활용 영역은 댁내 개인맞춤화(CPE per-sonalization) 및 추천 서비스이다. 지금까지의 개인 맞춤화 서비스 대부분은 AI 기반이 아닌, 단순한 큐레이션이나 패턴 매치 수준이다.

AI는 유료TV 기업의 관심사이라기 보다는 뉴미디어인 OTT동영상 기업의 ‘코드 쉐이빙(Cord shaving)’과정에 활용된다. 셋톱박스 제조사들에 의해 아직 의미있는 AI 활용이 실현되지 않은 상태에서 넷플릭스, 그레이스노트(Gracenote) 같이 풍부한 데이터를 보유한 미디어기업들에 의해 클라우드 기반의 AI 활용이 가능해질 것이다.

두 번째 활용영역은 서비스의 개인화 및 추천이다. 보다 고급화된 개인화가 가능한데, 대표적인 예로 아마존이 있다. 이 기업은 처음부터 구매 추천을 시작 했으며,‘캐더브라(Cadabra)’라는 기본 알고리즘을 기반으로 한다. 넷플릭스도 소비자 행동에 대한 광범위한 데이터를 사용해 추천한다.

세 번째 활용영역은 콘텐츠 커미셔닝이다. 대본에 의한 쇼와 리얼리티 쇼의 증가는 아마존과 넷플릭스 같은 새로운 미디어기업들에게서 시작된다. 이들은 오리지널 편성에 더 많은 투자를 하고, 쇼타임(Showtime)이나 HBO 등 채널들의 아웃풋보다 개선하려는 노력을 더 하게 된다. TV쇼는 ‘고위험 고소득’ 특성을 가지며, 수십 개의 시리즈가 단 한 번의 시즌만 거치는 것이 다반사이며, 그중 일부는 단 한 번의 시즌에서도 몇몇 에피소드 중에 취소되는 경험을 하기도 한다.

따라서, 이론적으로 딥러닝 알고리즘이 콘텐츠 제작자 및 커미셔너로 하여금 프로그램을 선정하는데 도움을 줄 수 있다. 풍부한 데이터와 추세를 분석해 히트작이 될 확률을 높이는 것이다.

네 번째 활용영역은 콘텐츠 제작이다. AI가 프로그램 컨셉을 선정할 수 있다면, 더 나아가 AI가 콘텐츠를 쓸 수 있지 않을까에 관심 갖게 된다. 이미 훈련된 AI가 오리지널 음악을 생성할 수 있는 단계에 와있다.

구글이 2016년 6월 공개한, 예술창작 AI인‘마젠타(Magenta)’프로그램은 짧은 피아노 작품을, 소니 연구원들이 개발한 ‘플로머신(Flow Machines)’은 팝송을 생성할 수 있으며, ‘딥바하(DeepBach)’는 바하(Bach) 악곡을 생성한다.

한편, 대본 작성은 이보다는 더 복잡해, 거대한 양의 기존 작품들에서 나온 유형을 모방하는 것 그 이상의 오리지널 제작이어야 한다. 대표적인 예는 AI에 의해 제작되어 2016년 6월 공개된 단편영화인 ‘선스프링(SunSpring)’이다. 이는 실리콘밸리의 토마스 미들디치(Thomas Middleditch) 주연으로 ‘벤자민(Benjamin)’이라는 AI에 의해 제작되었다.

이 외에, AI를 사용해 인기있는 테마 및 트렌드를 인간인 작가에게 알려주는 것도 있다.‘그린라이트에센셜(Greenlight Essentials)’의 접근이 대표적인데, 킥스타터(Kickstarter) 펀드를 받은 영화인 ‘임파서블씽즈(Impossible Things)’가 있다. 여기엔 몇 가지 흥미로운 소비자 지향 도구들이 등장하는데, 대표적으로 ‘프리스마(Prisma)’는 가장 유명한 화가들(반 고흐, 피카소 등)의 아트 스타일들을 AI를 사용한 이용자의 사진에 적용시킨다.

다섯 번째는 권리 협상이다. 콘텐츠 제작자와 소비자 사이에 콘텐츠를 모아 이 둘을 연결해주는 플랫폼 기업이 존재한다. 기존에는 방송사 또는 음반사가 그런 기업이었지만, 융합이 진전되면서 점차 애플과 같은 디바이스 제조업체나 통신기업들이 그 역할을 대신 하게 된다. 그런데 이들 기업들 상당수는 자체 매체를 가지고 있지 않아 타 매체에 대한 권리를 협상하는 경험이 거의 없다. 이때 딥러닝이 유효하다.

시청자 행동이나 사용자의 지불의도 같은 요인들에 대한 충분한 데이터가 주어지면, 훈련된 알고리즘은 X 영화나 Y TV의 권리에 가치를 부여 할 수 있다.

여섯 번째는 사진 및 비디오 자동 태깅이다. 페이스북은 하루 3억 건의 사진 업로드를 보는 반면, 유튜브는 매분 300시간 분량의 동영상을 업로드한다. 그리고 콘텐츠 일부에 메타데이터 같은 정보가 태깅된다. 사진 안 랜드마크나 사람, 지역에 태그를 붙이려는 기업들에 의해 여러 솔루션들이 출시되고 있다. 더 나아가 비디오들의 주제와 콘텐츠를 구축할 수도 있다.

예를 들어 페이스북은 사진으로 얼마 동안 이것을 해왔는데, ‘레코그니션(Rekognition)’이라 불리는 AWS 서비스로 패키지된다. 이는 아마존의 ‘프라임포토(Prime Photos)’서비스와 같은 것이다.

MS도 ‘캡션봇(CaptionBot)을 가지고 있으며, 유튜브는 다수의 특허를 신청했으며 ‘클래리파이(Clarifai)와 같은 신생기업이 있다.

일곱 번째는 자동 자막 및 동시 통역이다. 그동안 전통적인 방송 시대에는 수동으로 자막을 추가하거나 화면 수화, 프로세스를 사용해 이용 접근성을 처리했다. 기업들은 이제 자동 태깅 수준을 넘어 다음 단계로 넘어 가고 있다. 콘텐츠에 자막 및 주제 설명을 추가하는 등이다. 예를 들어 ‘페이스북 자동 대안 텍스트(Facebook Automatic Alternative Text)’는 시각장애 사용자가 설명된 이미지를 가질 수 있게 해준다. 구글의 ‘딥마인드(DeepMind)’는 인간의 입술 판독기보다 훨씬 높은 정확도로 입술을 읽을 수 있게 하는데, AI로 수행되는 오디오 음성 녹음보다 성공률은 아직 낮다.

또한, 유튜브는 수십억 개의 자동 캡션 비디오를 가지고 있는데, 그 정확도가 비약적으로 증가하고 있다.

아홉 번째는 홍보 및 마케팅이다. 사용자 행동 분석을 기반으로 한 광고 최적화와 마찬가지로 상위 수준의 마케팅 캠페인에 AI의 인사이트가 사용된다. 이를 통해 잠재고객이 공감할 캠페인을 결정할 수 있다. 소니픽처스(Sony Pictures)는 순전히 홍보용을 위해 AI 챗봇을 사용한다. 소셜미디어에 ‘레지던트 이블(Resident Evil)’의 레드퀸 (Red Queen)을 풀어 이 영화 시리즈의 최신 정보를 홍보한다.

IBM의 왓슨이 제작한 공포영화인 ‘모간(Morgan)’의 예고편도 유사한 접근 사례이다. 이 예고편은 다소 일관성이 없고 홍보 스턴트에 가깝지만, 이러한 짧은 형식이 미래에 AI에 의해 전편 비디오로부터 어떻게 조립될 수 있는지를 보여준다.

마지막은 비디오 게이밍이다. 이는 오랫동안 최첨단 또는 프로세서 집약적 기술에 대한 시험장이었고, 3D 그래픽, 적응형 오디오 및 매치메이킹 알고리즘 같은 다른 미디어에서 구현 되었다.

비디오 게이밍에서 유망한 네 가지 영역의 AI 앱은 멀티 플레이어와 플레이어 대 플레이어 게임을 위한 매치메이킹, 믿을 만한 AI 상대 창출, 적응적 난이도 곡선의 허용, 그리고 멀티 플레이어 게임의 사기꾼 단속 등이다.

본 연구는 미래창조과학부 및 정보통신기술진흥센터의 정보통신·방송 연구개발 사업의 일환으로 수행하였음. [R0190-15-2027, 고신뢰 사물지능 생태계 창출을 위한 TII(Trusted Information Infrastructure) S/W 프레임워크 개발]

글/송민정 교수 한세대학교 미디어광고학과

본 고는 저자의 허락을 받아 MCNA 공식 칼럼으로 인정하여 홈페이지에 게재합니다.