[GSCT 콜로키움] 05.11 (화) | 한경순 (건국대 조형예술학과 교수)
[GSCT 콜로키움] 4.27 (화) | 이준환 (서울대 언론정보학과 교수)
[GSCT 콜로키움] 4.13 (화) | 고건혁 (붕가붕가레코드 대표)
[GSCT 콜로키움] 4.6 (화) | 주재걸 (KAIST AI대학원 교수)
[GSCT 콜로키움] 3.30 (화) | 민세희 (국민대학교 겸임교수)
[GSCT 콜로키움] 3.23 (화) | 이대원 (중앙대학교 예술공학대학 교수)
[GSCT 콜로키움] 3.16 (화) | 김종욱 (OpenAI)
[GSCT 콜로키움] 3.9 (화) | 김미리 (대전 MBC 국장)
[GSCT 콜로키움] 12.8 (화) | 김정화 (서울공예박물관장)
[GSCT 콜로키움] 12.1 (화) | 도영임 (카이스트 문화기술대학원 교수)
[GSCT 콜로키움] 05.11 (화) | 한경순 (건국대 조형예술학과 교수)
일시 : 2021. 5. 11. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : 한국 사찰벽화의 보존
연사 : 한경순 (건국대 조형예술학과 교수)





학력

  • 국립 상트페테르부르그 헤르젠대학교 예술학 박사 졸업 (2005)
  • 고려대학교 미술학 석사 졸업 (1999)
  • 국립 로마 문화재 보존학교 보존학 석사 졸업(1994)
  • 인하대학교 미술학 학사 졸업 (1989)
  •  

경력

  • 대한민국 문화재위원 (2017.05-Present)
  • 충청북도 문화재위원 (2012.01-Present)
  • 건국대학교 교수 (2005.03-Present)
  • 경주대학교 교수 (2000.03-2005.02)
  • C.N.R Con. Lab 연구원 (1991.02-1994.11)
  • 조계종 성보보존위원회 위원(문화재보존) (2004.03-Present)
  • 문화재청 전문위원(회화보존) (2004.04-2016.04)
  • 국무총리실 자문위원(문화재보존) (2004.03-2005.02)
  • 문화재청 감정위원(회화분야) (2000.04-2004.03)

 

강연 소개

 종교적 행위로서 파생되는 불교 예술품은 매우 다양하겠으나, 시각적인 효과를 구체화시키는 불교벽화는 종교적 표현 의지로서 고대부터 끊임없이 제작되고 변화해온 대표적인 종교적 산물이라고 볼 수 있겠다. 사찰벽화는 불교 표현 매체로서의 시각적 효과와 함께 예배의 공간과 함께 공존한다. 또한 역사적 증거와 학술적 미술사적 자료를 제공해 주는 사찰벽화는 우리와 선대에 있어 종교적 지식 전달의 매개체인 중요한 위치에 있다고 볼 수 있다. 

 한국 사찰벽화는 다른 유물에 비해 벽화가 위치한 산지가람의 급격한 온, 습도 변화와 같은 환경적 요소와 건물에 귀속된 관계에서 발생하는 목조건축의 변형으로 인한 물리적 파손, 그리고 사찰벽화 자체가 가지고 있는 재료적 한계성으로 인해 오랜 세월을 유지하기에 많은 어려움이 따르게 된다. 이러한 요인들로 인해 한국 사찰벽화는 다른 문화재들과는 그 수량이 상대적으로 적은 편이며, 보존 및 관리 그리고 지속적인 보존방안과 그에 관한 연구 등이 절실히 요구되고 있다.
[GSCT 콜로키움] 4.27 (화) | 이준환 (서울대 언론정보학과 교수)
일시 : 2021. 4. 27. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : Media, AI 그리고 HCI
연사 : 이준환 (서울대 언론정보학과 교수)





학력

  • School of Computer Science, Carnegie Mellon University 박사 졸업 (2008)
  • School of Design, Carnegie Mellon University 석사 졸업 (2000)
  • 서울대 산업디자인 및 시각디자인과 학사 졸업 (1995)


경력

  • Associate Professor, Department of Communication & Information Science and Culture, Seoul National University (2011.03-Present)
  • CIO & Director of Mobile Service Division of NEOWIZ INTERNET / NEOWIZ LAB. (2010.03-2011.02)
  • Director of Music Service Division in NEOWIZ BUGS CO. (2009.06-2010.03)
  • Post-Doctoral Research Fellow in Carnegie Mellon University (2008.07-2009.05)
  • Taught “Graduate Design Seminar II (51-702)” and “Introduction to Computing in Design (51-741)” in Carnegie Mellon University (2000.07-2008.05)
  • Summer Intern in IBM T.J. WATSON Research Center (2000.05-2000.07)
  • Manager of Interface Design Team in NEOWIZ CO. (1997.05-1998.06)
  • Project Manager and Interface Designer in IMAGEDROME (1995.10-1997.05)
  • Creative Director in ALCHEMIST (1994.12-1995.08)


강연 소개
 신문, 방송 등으로 대표되는 전통적인 미디어는 디지털 환경에서 큰 변화에 직면하고 있다. 로봇저널리즘과 자동화된 팩트체킹 등은 이러한 변화의 좋은 사례이다. 정보의 생성과 전달과정에 사람이 아닌 AI가 개입하게 된 로봇저널리즘은 전통적인 미디어가 가진 여러 문제를 해결하게 해준다. 그러나 AI 가 정보를 생성하는 것만이 중요한 것은 아니다. 미디어는 정보서비스 플랫폼이 되었으며 이러한 상황에서 사용자의 요구를 어떻게 담아내야할지가 중요한 이슈로 떠올랐다. 본 세미나에서는 로봇저널리즘과 자동화된 팩트체킹, 대화형 에이전트 연구를 소개하며 미디어와 커뮤니케이션 환경에 AI가 어떻게 활용될 수 있는지를 살펴본다.

자기소개
서울대학교에서 공업디자인을, CMU에서 Computer Science를 전공하며 Information Visualization 와 HCI를 연구하였고, 현재는 서울대학교에서 언론정보학과와 hci+d 랩에서 학생들을 지도하고 있습니다. 현재 소셜 컴퓨팅 관련 연구 토픽을 다루고 있으며, 로봇저널리즘, 알고리즘 기반의 팩트체킹과 휴먼-로봇 인터랙션 관련 연구를 진행하고 있습니다.
 
<로봇저널리즘 연구>
로봇저널리즘 소개
로봇저널리즘은 기사 작성에 필요한 데이터의 수집에서 분석, 처리, 기사의 핵심 내용 발견 및 기사 본문 작성, 배포에 이르는 전 과정에 관여하며 자동으로 뉴스 기사를 생성하는 분야입니다. Northwestern 대학교의 StatsMonkey 프로젝트로 시작된 로봇저널리즘은 현재 국내에서는 서울대학교 HCI+D 연구실에서 최초로 한글 기반의 로봇저널리즘 뉴스 기사 만들기 시작하였습니다.
 
KBO 프로야구 뉴스 기사와 같이 현재 로봇저널리즘을 통해 데이터 수집과 분석을 통해 기대 승률을 예측하기도 하고, 기사 작성이 가능합니다. 2군 야구 경기 기사 개발과 같이 데이터만 있으면 투수/타자 관점에서의 서로 다른 기사 생성이 가능합니다. HCI+D 랩에서 시스템 개발을 맡아서 하고 있으며, 기존의 언론사가 인력의 문제로 하기 어려운 일들을 하고 있습니다. 이는 데이터를 텍스트 기반의 내러티브로 만드는 개념이고, 한국어/중국어/영어/프랑스 등 다양한 언어로 동시에 기사를 생성하는 것이 가능합니다. 초반 야구기사 작성을 위해 개발되었으나 다른 분야의 기사 또한 활용되고 있습니다.
 
대용량의 데이터를 빠르고 정확하게 처리할 수 있다는 장점이 있습니다.  리포터나 편집자보다 빠르게 데이터, 잡음 속에서 신호, 즉 유용한 정보를 찾아내는 역할을 하게 될 것입니다. Quakebot 과 같은 유용한 사례 또한 존재하며, 로봇 기자가 사람과 협업하는 사례 또한 많이 보입니다. 영어권에서는 이미 기자의 손을 거치지 않은 알고리즘에 의해서 기사를 내보내고 있고, 빅데이터 분석, 자연어처리, 기계학습 등 다학제적인 접근이 필요합니다.
 
로봇저널리즘 프레임워크는 데이터 수집에서부터 의미 생성, 기사 작성까지 5단계로 구분됩니다. 첫 번째 데이터 수집의 경우 API, 공공 데이터 등 활용하여 데이터 크롤링, json 형태로 저장하는 단계이며, 그 다음 이벤트 추출의 경우 의미 있는 이벤트 추출 과정, sense making 데이터 해석하는 과정입니다.
 
중요한 이벤트가 무엇인지 찾아내는 작업은 세 번째, 주요 이벤트 검출 (Key Event Detection) 단계에서 수행합니다. 데이터를 분석해서 의미 있는 데이터의 패턴을 찾아내는 중요한 작업입니다. 예를 들면, 야구 경기의 작은 이벤트 데이터마다 기대승률 변화가 큰 지점(peak-point finding)을 찾고, 이 지점을 고득점으로 점수를 매깁니다(scoring). 이 점수를 바탕으로 중요한 이벤트를 판별할 수 있습니다.
 
네 번째, 무드 판단 (Mood Detection) 단계에서는 앞에서 찾은 데이터 패턴을 통해 경기의 흐름을 파악합니다. 이렇게 파악한 ‘무드’는 다음 단계에서 뉴스 기사의 분위기를 결정하고, 분위기에 맞는 표현을 만들어주기 위해 사용됩니다.
 
마지막 단계는 뉴스 기사 생성 (News Article Generation) 단계입니다. 보통은 자연어 생성(Natural Language Generation) 기술로 뉴스 기사를 작성한다고 생각하실 텐데요, 이 기술을 로봇저널리즘에서 현실적으로 활용하기에는 어려움이 있었습니다. 자연어 생성을 하려면 언어 모델(Language Model)을 사용해 다음 단어를 계속 예측해 나가야 하는데, 이러한 방식이 뉴스 기사처럼 완결된 형태의 문장과 단락 구조를 만들기에는 적합하지 않았던 것입니다. 그래서 고안한 다른 방법은, 패턴에 따른 템플릿을 보유하고 있다가 뉴스의 무드에 따라서 해당 템플릿 안에 있는 문장들을 최적화(선택)하여 뉴스를 생성하는 것입니다. 이렇게 템플릿을 사용할 때 예상할 수 있는 문제는 글이 단조로워진다는 점인데, 이를 극복하기 위해 탄력적으로 문장을 배열하여 기사를 생성하고 있습니다.
 
가중치 매트릭스 (weight matrix) 기법
주식 기사는 항상 대형주 위주로 작성되고 있습니다. 이와 달리 독자의 주식을 중심으로 써주는 ‘개인화된 기사’를 만들어 주면 좋겠다고 생각했습니다. 개인화 및 다양화된 기사를 생성하기 위해서 이벤트 점수(event score)를 상황에 따라 다르게 설정하고자 했고, 이를 위해 가중치 매트릭스(weight matrix)라는 기법을 사용하였습니다.
 
가중치 매트릭스란, 이벤트의 고유한 가중치를 매트릭스로 구성하고, 이벤트 간의 상대적 중요성을 판단의 기준으로 삼는 방법입니다. 프로야구를 예로 들면, 일반적인 상황에서는 1점 홈런보다 2점 홈런이 중요도가 높습니다 (고정 가중치). 하지만 8회 초 0:0인 상황에서 1점 홈런이 일어난 이벤트와 7:2인 상황에서 이기는 팀의 2점 홈런 이벤트를 비교하면 1점 홈런이 더 중요도가 높을 것입니다 (변동 가중치). 이렇게 이벤트마다 고정 가중치와 변동 가중치를 구성하고, 고정 가중치와 변동 가중치의 곱으로 이벤트 점수를 계산합니다. 점수가 높은 이벤트가 기사의 ‘야마(기자 용어)’가 될 수 있습니다.
 
이런 식의 접근으로 템플릿 방식의 한계를 극복하고 있습니다. 템플릿에서 용어만 끼워 넣는 게 아니라, 템플릿 안에서도 주요 구성요소를 바꿔갈 수 있습니다. 중요한 이벤트를 토대로 기사 제목을 선정하고, 기사의 중요도를 결정할 수도 있으며, 독자의 컨텍스트에 맞는 기사를 결정해줄 수 있게 됩니다.
 
독자의 컨텍스트를 고려한 기사 생성
웨어러블 기기의 보편화, 사물 인터넷 발달을 배경으로 이런 태스크가 가능해졌습니다. 기사를 보는 사람의 컨텍스트에 맞게 실시간으로 기사를 생성해주는 것입니다. 예를 들면, 운전 중이라는 시나리오가 있을 수 있습니다. 이런 상황에서는 짧은 길이의 기사를 만들어 줄 수 있습니다.
 
로봇저널리즘에 대한 사용자 평가
여러 매체에서 로봇저널리즘 알고리즘으로 다양한 튜링 테스트를 수행하고 평가를 내렸습니다. 사실 튜링 테스트가 로봇저널리즘의 평가에 있어 그다지 유의미한 것은 아닙니다. 순수한 자연어 생성이 아니라 템플릿을 활용한 방식이기 때문에, 생성된 뉴스의 문장들이 완성도 있을 수밖에 없기 때문입니다. 그래도 사람들이 응답한 내용에서 흥미로운 점은, 사람이 작성한 기사가 완성도는 더 높지만, 정보량의 측면에서는 로봇이 작성한 기사가 더 높은 점수를 얻었다는 것입니다. 사람의 경우 특정한 정보만을 선택적으로 필터링하여 기사를 작성하기 때문에 상황에 따라 집중하는 정보가 달라지는 반면 인공지능의 경우 알고리즘에 따라 일관되게 선택하기 때문에 위와 같은 결과가 나온 것으로 생각됩니다.
 
로봇저널리즘의 의의 및 가치
 인간사에서 정보 전달의 역사는 매우 깁니다. 인쇄술과 기계의 발달은 정보의 증가와 확산을 이끌었고, 폭발적으로 증가한 정보의 양은 곧 ‘검증된 정보’에 대한 요구로 이어졌습니다. 이것이 바로 저널리즘이 탄생한 배경입니다. 이후 등장한 컴퓨터와 인터넷의 발달은 정보의 홍수 속에서의 저널리즘의 역할을 더욱 대두시켰습니다.
 이러한 흐름 속에서 등장한 로봇저널리즘은 중요한 정보를 정확하고 빠르게 전달하고, 개인적인 요구를 고려한 정보 전달, 곧 기사를 개인의 영역으로 가져온다는 점에서 그 가치를 가집니다. 또한, 단순 반복 업무가 요구되는 데이터 기반의 리포트를 알고리즘이 대신 작성함으로써 사람의 불필요한 노동력 소모를 줄일 수 있게 되었습니다.
그러므로 로봇저널리즘은 정보의 홍수 속에서 필요한 정보를 어떻게 잘 전달할 수 있을지에 대한 정보의 전달적 관점에서 그 가치를 가진다고 볼 수 있습니다.
 
로봇저널리즘의 활용
 실제로 로봇저널리즘의 활용되는 예시를 살펴보겠습니다. 지난 19대 대통령 선거 보도를 위해 SBS와 협력하여 개발한 ‘인공지능 로봇 기사’는 선거 개표 시간 동안 총 250여 개의 단순 정보 전달 목적의 기사, 곧 ‘스트레이트 기사’를 생성하여 전달하였습니다. 이 중 SBS에서는 170여 개 기사를 선별하여 발행하였습니다.
 이때 생성되는 기사는 미리 여러 개의 텍스트를 작성해두고 그때그때 상황에 맞춰 삽입하는 방식으로 이루어졌습니다. 그런데 실제 발행 시에는 데이터를 포함한 문단은 그대로 둔 채 바로 이 템플릿 문장만 다듬어 전달한 것입니다. 이 과정에서 약 5~8분 정도 소요되었습니다.
인상 깊은 것은 저희가 보도 속도에 중점을 두어 알고리즘을 짰음에도 불구하고 방송국에서는 비교적 시간을 소요하더라도 직접 사람이 개입하여 다듬었다는 것입니다. 곧 로봇은 초안을 제공하고 사람은 이에 더해 가공하는 방식으로 협업을 한 것입니다. 이는 아직 로봇이 사람의 역할을 완전히 대체하지 않았다는 것을 말해줍니다.
 저희는 이러한 방식의 협업을 참고하여 PINGS이라는 새로운 시스템을 개발했습니다. 이 기술은 인간과 로봇이 협업하는 방식의 로봇저널리즘 시스템으로 알고리즘이 데이터를 기반으로 먼저 기사의 전체적인 프레임을 제공하면, 인간이 여러 가지 데이터 옵션 등을 선택하여 기사를 완성하는 방식으로 기사를 작성합니다. 즉, 사람이 직접 변동가중치를 조정하여 기사의 강조점과 메시지를 수정하도록 한 것입니다.
  텍스트뿐만 아니라 주제에 적합한 배경 이미지를 합성하여 카드 뉴스를 제작하는 새로운 시도도 진행하였습니다. 이때, 텍스트를 읽어주는 내레이션에 경우 네이버의 TTS(Text-To-Speech) 기술을 접목하여 활용하였습니다. 실제 지난 선거 때 이 기술을 사용하여 시도된 SNU 카드 뉴스 로봇은 입력한 정보에 따라 그리고 개인의 별도 설정에 따라 다양한 형태의 카드뉴스를 생성하는 결과를 보여주었습니다.
 
<대화형 에이전트 - 로봇기자>
대화형 로봇기자
 그러나 이러한 기술들이 사용자의 관심을 밀접하게 따라가지 못합니다. 선거에 경우 점차 시청자의 관심이 줄어들고 관심을 가지는 후보자들도 줄어드는 데 반해 로봇의 경우 한번 정해진 알고리즘을 따라 이미 아는 정보도 계속 전달하는 오류가 발생하기 때문입니다.
 이를 극복하기 위해 고안한 것이 바로 대화형 로봇 ‘챗봇’입니다. 21대 국회의원 선거 보도를 위해 개발된 챗봇 ‘나래봇’은 키워드를 입력하면 여러 가지 정보를 실시간 대화형식으로 전달하였습니다. 예를 들어 ‘000 후보 당선 확률’을 입력하면 해당 후보의 실시간 득표수와 당선확률을 제시하는 방식입니다. 흥미로운 점은 중간에 서버가 다운되어 챗봇이 대답하지 못한 때도 사람들은 계속해서 질문을 던졌다는 것입니다. 이것을 HCI 용어로는 ‘KaRS framework’라고 합니다.  곧, 사람들이 agent나 AI가 사람이 아닌 걸 알면서도 사회적 행위자로 인식을 하고 이에 따라 마치 사람을 대하는 것처럼 행동하는 것을 말합니다.
 앞으로 사용자 의도에 맞게 데이터를 내러티브로 변환하는 지능형 정보 시스템이 대두되는 한편, 알고리즘이 정보 전달 과정에 깊숙이 개입하게 될 것입니다. 또한 개인에게 필요한 정보를 맞춤형으로 전달하게 될 것으로 기대됩니다.
 
<팩트체킹>
알고리즘 팩트체킹
 가짜 뉴스의 범람 문제가 있습니다. 정보의 생성과 확산이 빨라지고 정보를 유통할 수 있는 채널이 다양해지면서 가짜뉴스가 사회적인 문제가 되고 있습니다. 따라서 뉴스 기사의 팩트체크 필요성이 대두되고 있습니다. 그러나 가짜뉴스는 정의하기가 어렵습니다. 단순히 정보가 틀렸다고 해서 가짜뉴스라고 부르지는 않습니다. 칼로 바와 피셔(Karl ova & Fisher)에 따르면 가짜뉴스는 기만성을 가져야 하는데, 이는 사람을 의도적으로 속이고자 하는 속성을 말합니다.
 펙트체킹 알고리즘은 정보 생성자의 의도까지 파악하기는 어렵습니다. 그래서 Fact Verification으로 방향이 맞춰지고 있습니다.
 
팩트체킹의 세 가지 접근 방법

  1. 전문가 팩트체킹
: 저널리즘 전문가에 의한 팩트체킹을 말합니다. 퀄리티가 좋지만, 실시간 및 다량의 팩트체킹 은 불가능하고, 비용이 많이 듭니다.
  1. 크라우드소싱 팩트체킹
: 일반인의 집단지성을 활용한 팩트체킹입니다. 소위 쓰레기 기자라고 불리는 기자들을 거르는 과정입니다. reportrash.com 웹사이트를 참고하시면 됩니다. 이 방식의 단점은 quality에 의문이 가고, 정파성에 오염될 수 있다는 것입니다.
  1. 알고리즘 팩트체킹 = Automatic Fact Checking
: 신속한 펙트체킹을 위해 알고리즘을 활용합니다. 총 3단계로 접근이 가능합니다. Find claims -> Find evidences -> Fact verification. 이는 팩트체크를 위한 주장을 선별하는 방법으로서 검증 가능한 주장인지 아닌지 찾아내는 과정입니다. 정치인의 디베이트를 분석해서 특징을 찾아내서, 특징 벡터를 만든 후 사실적 주장인지 아닌지 판별해 내는 과정입니다.
 
Claim Buster 논의
 사실적 주장이 무엇인지 검증하는 기술로서 이미 검증된 주장 저장소와의 비교를 통해 이루어집니다. 이는 수치에 근거한 사실을 말합니다.
 
한국어 팩트체크 데이터 세트 구축
 현재 한글 기반의 팩트체킹을 위한 데이터가 없습니다. 우리 연구팀에서는 데이터를 2만 개 구축했습니다. 올해는 8만 개 더 만들 예정입니다.
 각 주장 당 5개의 근거 문장을 만들고, 이것을 이용해서 베이스라인 모델을 만듭니다. 베이스라인 모델의 학습 단계에서는 데이터 세트는 문장, 참/거짓 여부, 근거의 위치가 기록되어 있습니다. 판단을 위한 모델을 만듭니다. 그 모델을 이용해서 위키피디아 문서에서 근거 문장을 자동으로 찾아내서 참/거짓 판단하게 됩니다. 문장을 베이스라인 모델에 넣어서 참/거짓을 예측하게 됩니다. 베이스라인 모델의 정확도 측정 결과, 판단 정확도(BLEU)가 63.84% 나왔습니다. 데이터 세트가 작았지만, 레퍼런스로 찾는 위키피디아도 작았습니다. 그래서 판단 정확도가 높게 나온 거고, 위키피디아 전체를 대상으로 하면 많이 떨어질 것으로 예상됩니다.
 
팩트체킹 연구의 의의
 새로운 시도를 하는 연구라서 가능성이 많이 있지만, 한계도 많이 있습니다. 데이터 세트를 구축해서 다른 연구자도 이런 연구를 할 수 있도록 방향이 마련되어 있습니다. 본 연구를 통해 인공지능 기반 팩트체크 실현화 가능성을 확인할 수 있었습니다.
 그러나 사실, 한계가 더 많은 단계입니다. 주장의 의미를 파악하는 팩트체킹이라기 보다는 기존 데이터 아카이브를 통해 주장이 확인되는지를 검증하는 팩트 검증에 해당합니다. 따라서 팩트 검증의 소스가 되는 신뢰도 있는 레퍼런스 데이터베이스가 확보되어야 한다는 어려움이 있습니다. 빅 카인즈와 같은 뉴스의 경우 역시 신뢰도에 의문이 듭니다. 예를 들어, “AZ 백신이 혈전을 일으켰다”는 것에 대해 검증할 수가 없습니다. 현실적인 어려움이 있습니다.
 
 
 
<Q&A>
질문 1: 학생 1
우리나라 언론을 다룰 때 있어서 전파성을 빼놓을 수 없습니다. 말씀하신 스포츠 기사의 경우 가치 중립적이기때문에 전파성의 개입이 적다고 보는데, 칼럼이나 사설 같은 언론사의 전파적 관점이 반영되는 글이 많습니다. 로봇저널리즘이 한국의 언론 전파성에 영향을 준다며 어떻게 흘러갈지, AI가 자동으로 기사를 생성하는 방향으로 갈게 될지, 아니면 객관적 사실에 맞춘 걸로 방향이 흘러갈지가 궁금합니다.
답 1
전파성을 가지고 알고리즘을 만들어 텍스트를 형성하면 전파성이 강화됩니다. 다만, 이 기술이 이것을 구현하는 것은 매우 어려울 거라 생각하고, 이 기술이 나온다고 해서 전파성이 바뀔 거라고 보기엔 매우 어렵습니다. 기사가 편향적으로 가는 것을 막기 위해 정보 시각화와 같은 방법으로 기사가 얼마나 편향 되어있는지 보여주는 연구들이 있는데, 이와 같이 사용자가 자신이 지금 어떻게 정보를 소비하고 있는지 깨닫게 하는게 전파성을 극복하는데 더 큰 도움이 될 것이라고 봅니다.
 
 
질문 2: 학생 2
전반적인 강의를 보니, 개인화된 언론을 얘기하시는 것으로 느껴집니다. 개인화된 언론으로 갔을 때 지금 언론이 하고 있는 역할이 궁극적으로 어떻게 변해야 하는지 궁금합니다. 제 질문은 앞선 질문과 관련이 있는데, 얼마전 기사에서 인공지능과 변호사가 대결을 하여 인공지능이 매우 높은 점수로 이겼습니다. 개인적으로는 객관적 판단에 있어서는 인간이 배제되어야 한다고 생각하고, 언론은 객관적이어야 하는데 그럼 언론의 역할이 미래에 바뀌어야 하는건지, 이에 대해 교수님께서 가지고 계신 생각이 궁금합니다.
답 2
기본적으로 알고리즘이 기자의 역할을 대신하진 않을 거라고 봅니다. 새로운 기술을 활용한다면, 기자들이 할 수 있는 역할이 커지고, 독자들이 접하는 기사의 폭도 넓어질 거라고 봅니다. 그러나 앞선 질문과 지금의 질문도 이해는 갑니다. 현재 언론의 신뢰도와 같은 문제들이 있기 때문에 이런 알고리즘이 변화를 가져올 수 있을 거라고는 봅니다. 기사의 역할이나 방향 등을 결정하는 것은 기자들의 역할이라고 봅니다. 다만, 포털이 등장한 후에 기자들이 굉장히 ‘자극적’이고, 주관적인 표현이지만 ‘편파적’인 부분들이 생겨났고 이는 포털의 영향이 크다고 생각합니다. 포털에서의 클릭 수에 의해 기사의 가치가 평가가 되니까 다른 기사를 요약하거나, 궁금증을 일으키는 데에만 집중하여 클릭 수를 높이려는 기사들이 남발되고 있습니다. 이런 현상은 연예에서 정치까지 확대되고 있습니다. 알고리즘의 기여를 생각했을 때, 기자의 역할이 달라지는 게 아니라, 기자의 본분을 지키는 방향으로 가도록 돕지 않을까 합니다.
 
 
질문 3: 남주한 교수님
현재 우리나라의 기사와 언론들이 정치적인 성향을 다분히 띠고 있습니다. 각 언론사에서 이 알고리즘을 사용할 때에, 자신들에게 맞게 사용할 거 같은데, 이 경우 좀 더 편향성이 증폭되지 않을까 우려됩니다. 또한, 개인들도 자신이 보고 싶은 기사만 보게 될 것 같습니다. 결국 기술을 어떻게 사용할까의 문제긴 하지만, 이러한 부분들을 어떻게 막을 수 있을까요?
답 3
실제로 한 기자가 연락하여 같은 질문을 저에게 한 적이 있습니다. 그때 제가 한 답변이 ‘사람이 만들어낸 편향성’은 어떻게 생각 하냐고 역으로 질문 드렸습니다. 계속 나오는 얘기지만, 인간 기자가 만들어내는 편향성도 굉장히 위험합니다. AI가 등장하면서 등장하는 많은 이슈들 중 언론, 미디어 분야에서도 알고리즘의 공정성에 대해 많이 얘기하고 있습니다. 그리고, 알고리즘이 어떻게 운영되고 있는지 파악해야 한다는 움직임이 커지고 있습니다. 즉, Data literacy와 관련된 것인데, SNS에서도 마찬가지지만 이 부분이 좀더 널리 퍼져야 한다고 생각합니다.
 
 
질문 4: 학생 3
  1. 저널리즘의 역할이나 균형을 생각해봤을 때, 정보 전달뿐만 아니라 공동의 관심사에서 논평과 해설도 중요한 것 같습니다. 개인의 가치 판단이 개입하는 부분에 있어서, 알고리즘에 가치를 더하는 것에 우려를 가지고 있는데, 교수님은 어떤 생각을 가지시는지 궁금합니다.
  2. 요즘 뉴스 소비자들과 독자들이 뉴스와 미디어를 소비하는 형태가 많이 바뀌고 있는데, 넥스트 저널리즘은 어떤 변화를 가질 필요가 있는지 궁금합니다.
답 4
  1. 저도 연구 처음부터 고민해온 것입니다. “결과에 가치판단을 가지지 않는다.” 가 제 기준이다. 사실 정치보다 경제, 특히 증시부분에 중점을 둘 때 더 와 닿을 것 같은데, 어떤 주식이 굉장히 성장하고 있기 때문에 매매하는 것을 추천한다고 할 수 있는데, 이것이  굉장히 위험합니다. Information Visualizatoin은 판단을 돕는 도구이지, 판단을 내려주는 것은 아닙니다. 따라서 가치판단 부분을 가능한한 배제하고, 이것이 사람들이 판단을 내리는데 도움을 주길 바랍니다.
  2. HCI 수업에서 ‘미디어의 미래’라는 주제로 수업 중입니다. 미디어의 미래는 ‘어떤 정보를 어떻게 전달 하느냐’도 중요하지만, ‘어떤 기술들이 어떻게 활용될 지’도 매우 중요하다고 봅니다.

재미있는 사례를 하나 들어드릴게요. 챗봇 연구를 한다고 했었는데, 챗봇이 Moderator 역할을 하는 것에 대해 연구를 했었습니다. 즉, 챗봇이 누구는 말을 많이 하고, 누구는 적게 하는데, 말을 많이 한 사람의 말을 어떤 내용인지 파악, 정리하고 말을 적게 한 사람에게 ‘너는 어떻게 생각해?’라는 식으로 모더레이팅을 하는 것입니다. 이 연구에 참여한 학생이 재밌는 아이디어로 CHI에 연구를 제출했습니다. 미팅에서 상대와 뻘쭘해서 대화가 잘 안될 때 상대방의 인스타와 같은 SNS에서 정보를 수집해서 ‘상대가 좋아하는 뮤지션’과 같이 모데레이션을 해주는 챗봇인 ‘블라블라봇’을 연구로 제시하였습니다. 실제로 미디어 환경에서 이런 식의 접근이 있을 것 같습니다. 중간에 AI Agent들이 정보를 매개하거나 큐레이션 해주는 것이 있을 것 같습니다. 즉, 로봇저널리즘처럼 데이터를 가공하는 것보다도 정보를 소개해주는 것에 사용되는 것이 큰 의미를 가질 것 같습니다.
 
 
질문 5: 학생 4
기존의 로봇저널리즘은 기존에 있던 데이터를 기반으로 뉴스를 만들어주는 것인데, 이것은 결국 정보를 가지고 기사를 재생산하는 것과 비슷하다고 보여집니다. 마치 현재 연예분야에서 기사를 찍어내는 것과 같이, 공정성과는 거리가 먼 느낌이 강하게 듭니다. 그리고, 로봇이 기사를 만들고, 사람이 다시 발행한다고 하면 기사의 주체는 누가 되는 것이고, 로봇이 생산한 기사라고 표기하는 게 맞을지도 궁금합니다.
답 5
연예뉴스를 마구 찍어내는 로봇이 실제로 있었습니다. 인스타그램과 같은 연예인의 SNS에 방문해 특정 연예인이 무엇을 했다는 내용의 기사를 찍어내는 Abusing Machine이었습니다. 로봇저널리즘이 Abusing Machine으로써 활용될 수도 있지 않냐는 의견이 있었고, 실제로 그런 부분도 있습니다. 윤리와 같은 부분은 중요하기 때문에, 저희도 처음에 말했던 것처럼 어떤 정보를 중요하게 생각하는지 결정하게 됩니다.
 
저희는 기사를 재생산하는 것이 아니라, 데이터를 가지고 기사를 작성하는 것입니다. 즉, 기존의 데이터를 그저 복사, 붙여넣기 하는 것이 아니라, 데이터 속에서 의미를 도출하는 데 중점을 두고 있습니다. 아마도 이 부분에 초점을 두어서 계속해서 공정성과 관련된 문제들을 돌파해 가야하지 않을까 생각합니다.
 
기사를 누가 썼는지를 밝히는 것은 곧, 책임 소재를 밝히기 위한 것이다. 로봇이 썼으면 로봇이 썼다고 해야합니다. 기자가 이름을 밝히는 건 그 글에 책임을 지겠다는 거고, 협업을 헀으면 로봇과 기자 자신의 이름도 모두 밝혀야한다고 봅니다.
 
 
질문 6: 남주한 교수님
교수님이 속해 있는 과는 언론학과인데, 하시는 연구는 자연어 처리분야 같고, 이는 CS연구 같은데, 현재 연구실에 학생들이 어떻게 구성되어 있는지 궁금합니다. 문과 출신 학생들은 어떻게 지도하는지도 궁금합니다.
답 6
저희 연구실은 언론학과 학생만 있는 건 아니고, 전공별로 보면 이공계는 3분의 1, 사회과학은 50%, 나머지는 디자인과도 있고, 농대도 있고, 굉장히 다양합니다. 저희 학생들은 기본적으로 데이터를 다루는 기술은 갖춰야 해서, Social Computing 수업을 듣는데, Python Language에 익숙해지고, NLP하고, 좋은 라이브러리를 활용해서 데이터를 분석하는 것을 배웁니다. 이 분야의 백그라운드 지식 없이도, 관심을 가지며 모두 잘하고 있습니다. 한 학생도 이 분야의 지식을 전혀 모르는 상태에서 Python, NLP를 배웠는데, 시작은 버벅대면서 공부하다가 지금은 데이터 분석 쪽으로 굉장히 잘하는 학생이 되었습니다.
요즘은 도구가 좋아져서 Computational method를 문과 학생들도 활용하는데 전혀 문제가 없다고 생각합니다.
의견: 남주한 교수님
저도 최근에 보면 사회과학 쪽도 그렇고, 다양한 툴을 많이 쓰는 것 같습니다. 예시로, 불어교육학과에서도 자연어 처리 기반 연구하시는 분들이 계셨습니다. 코딩이나 기술적인 부분을 활용하는 건 어떠한 학과를 가도 다 해야 하는 것 같습니다.
의견: 이준환 교수님
저는 카네기멜론 대학교를 나왔는데, 그 당시에도 카네기멜론의 영문과는 프로그래밍을 잘해서 텍스트 분석을 하고 있었습니다. 현재는 모든 학과가 다 기술적인 부분을 다뤄야하는 그런 시대가 된 듯합니다.

[GSCT 콜로키움] 4.13 (화) | 고건혁 (붕가붕가레코드 대표)
일시 : 2021. 4. 13. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : 음악 산업의 현재와 미래: 스포티파이와 스트리밍 생태계
연사 : 고건혁 (붕가붕가레코드 대표)



학력:

  • KAIST 문화기술대학원 박사 졸업 (2016)
  • 서울대학교 심리학과 학사 졸업 (2006)

경력:

  • 명지대학교 미래융합대학 겸임교수 (2021.03-Present)
  • 한양대학교 ERICA 소프트웨어 융합대학 겸임교수 (2020.09-Present)
  • 매직스트로베리㈜ 플랫폼 기획 (2018.05-Present)
  • ㈜붕가붕가레코드 대표 (2005.02-Present)
  • 명지대학교 문화예술대학원 객원교수 (2017.03-2018.08)

주요 프로젝트:

  • 음반/음원 제작
    • So!YoON! (황소윤) [So!YoON!] (정규. 2019.05)
    • 술탄 오브 더 디스코 [Aliens] (정규. 2018.10)
    • 새소년 [여름깃] (EP. 2017.10)
    • 실리카겔 [실리카겔] (정규. 2016.10)
    • 술탄 오브 더 디스코 [The Golden Age] (정규. 2013.01)
    • 강산에, 강허달림, 씨없는수박 김대중 외 [블루스 더, Blues] (컴필레이션. 2012.10)
    • 장기하와 얼굴들 [장기하와 얼굴들] (정규. 2011.06)
    • 장기하와 얼굴들 [별일 없이 산다] (정규. 2009.02)
    • 장기하 [싸구려 커피] (싱글. 2008.05)
    • 브로콜리 너마저 [앵콜요청금지] (EP. 2007.10)
    • 상기 타이틀 외 정규/EP 44개, 싱글 71개 제작
  • 공연 기획/제작
    • 새소년 [2020/NEON] @ YES24 Live Hall (단독. 2019.12)
    • 술탄 오브 더 디스코 [GRAND SULTAN NIGHT 2018] @ YES24 Live Hall (단독. 2018.11)
    • 선우정아, 술탄 오브 더 디스코 외 [레이블 무브먼트] @ 서울, 부산 (투어. 2016.08)
    • 강산에 강허달림 외 [블루스 전국시대] @ 대전, 대구, 부산, 서울 (투어. 2014.11)
    • YB, 언니네이발관, 빈지노 외 [Jeju Experience Tour and Festival (JET Fest)] @ 제주 청소년 야영장 (페스티벌. 2013.10)
    • 장기하와 얼굴들 [일단락] @ 악스 코리아 (단독. 2011.11)
    • 상기 공연 외 약 200 회 공연 기획 제작

 

강연 소개:

 1999년 이후 절반 이하의 규모로 급격하게 축소되어 왔던 음악 산업은 2014년을 저점으로 다시 성장세로 돌아섰다. 이러한 반전을 만들어낸 것은 스웨덴 태생의 스타트업인 스포티파이가 성공적으로 만들어 낸 새로운 비즈니스 모델, 즉 월 1만원을 내면 무제한으로 원하는 음악을 끊김없이 들을 수 있는 스트리밍 서비스다. 이후 애플, 아마존 등의 IT 공룡들이 속속 유사한 서비스를 출시하며 2011년 1300만명에 불과했던 유료 스트리밍 구독자는 2020년 현재 4억명에 달하고 있다. 정액 구독 모델이 음악 뿐만 아니라 영상, 도서 등 엔터테인먼트 산업 전체를 변화시키고 있는 지금, 스포티파이와 음악 스트리밍 생태계의 사례를 통해 그 현재와 미래를 살펴보려 한다.
 

강연 요약

1 자기소개

  • 저는 곰사장 고건혁입니다. 2005년 ‘지속가능한 딴따라질’을 모토로 독립음반제작사 붕가붕가레코드를 설립하여, 지금까지 대표로 있습니다. 2007년 ‘브로콜리 너마저’의 EP ‘앵콜요청금지’, 2008년 ‘장기하와 얼굴들’의 EP ‘싸구려 커피’, 2009년 ‘장기하와 얼굴들’ 1집 ‘별 일 없이 산다’를 출시하면서 주목을 받게 되었고, 이후로는 ‘술탄 오브 더 디스코’, ‘실리카겔’, ‘새소년’ 등의 아티스트들과 함께 음악 제작을 해왔습니다. 2019년부터는 인디 레이블 매직 스트로베리와 함께 IT 기반의 플랫폼 사업을 구상하는 일을 하고 있습니다. 2006년 문화기술대학원에 입학한 이후로 꾸준히 관심을 가져온, 데이터 기반으로 아티스트의 잠재성을 평가하는 연구를 비즈니스 모델로 실현해보고자 합니다.
 
2 음악 스트리밍
  • 음악 자체는 창작자와 팬을 중심으로 만들어지고 소비되어 왔지만, 음악 산업, 음악으로 돈을 버는 일은 미디어 기술과 비즈니스 모델을 중심으로 변화해 왔습니다.
  • 음악 산업은 CD가 주요 매체였던 90년대에 최대 규모로 성장했습니다. 그러나 00년대 들어 인터넷을 통해 디지털 음원이 유통되기 시작하면서 음악 시장은 90년대 대비 40% 규모까지 축소되었습니다. 많은 디지털 음원이 불법으로 유통되었고, 합법적인 디지털 음원 시장은 기존의 CD 기반의 음원 시장만큼 성장하지 못했습니다. 많은 이들이 음악 산업은 사양 산업이라고 생각했습니다.
  • 이러한 배경에서 음악 스트리밍 서비스가 생겨났습니다. 스트리밍 서비스는 압축 기술을 이용하여 자료를 작은 용량의 여러 조각으로 쪼개어 전송하여 사용자가 실시간으로 자료를 감상할 수 있게 하는 서비스입니다. 따라서 자료 전체를 전송받지 않아도 그때 그때 원하는 자료를 지연 없이 바로 감상할 수 있습니다.
  • 이러한 스트리밍 서비스는 사용자에게는 수 백만 곡의 노래에 즉각적으로 접근할 수 있고, 원하는 곡을 원할 때 찾아 들을 수 있다는 엄청난 편리함을 제공합니다.
  • 공급자들은 기존의 DRM과 같은 불편한 방식에서 벗어나 편리하게 사용자에게 디지털 음원을 공급할 수 있게 되었고, 스트리밍 서비스를 기반으로 한 정액 구독 방식의 비즈니스 모델이 정착되었습니다.
  • 결과적으로 2000년을 기점으로 계속 축소되던 음악 산업의 매출은 정액 구독 모델이 등장한 이후로 회복세로 돌아서서, 2019년 기준으로 전성기의 약 70% 규모까지 성장하였습니다.
 
3 스포티파이
  • 스트리밍 서비스의 선구자로서 2006년 스웨덴에서 설립되어 ‘어디서든 음악을 끊김없이 들을 수 있도록 한다’라는 비전 하에 기술 기반으로 2008년부터 서비스를 진행했습니다. 기본적인 성장 모델은 ‘freemium’입니다. 유료 구독 회원과 함께 무료로 듣는 대신 광고를 듣게 하는 무료 요금제를 설정하여 사용자에게 경험을 먼저 제공하고 수익화는 그 이후 도모하겠다는 사업 전략을 취했고, 오늘날 구독 플랫폼의 표준이 되었습니다.
  • 구독 매출이 광고 매출의 8배에 달하기 때문에 무료 회원을 어떻게 유료로 전환할까 고민하던 중 내놓은 서비스 전략이 플레이리스트입니다. 기존에 앨범 단위로 듣던 음악을 플레이리스트 단위로 해체하여 재구성하여 새로운 가치를 창출하고자 했습니다.
  • 또한 사용자 개인 맞춤형으로 음악을 추천해주는 방법들을 고안했습니다. 디스커버 위클리는 취향 프로필과 협업 필터링을 활용해 매주 월요일마다 맞춤형으로 30곡의 노래를 추천하여 고객의 꾸준한 유입을 유도하는 음악 추천 기능입니다. 또다른 음악 추천 기능인 릴리즈 레이더는 매주 금요일 사용자 취향에 맞는 신곡들로 플레이리스트 생성합니다. 또한 사용자의 활동 및 특정 시점과 연관된 사건, 분위기 등에 따라 맥락에 맞는 음악을 구성 및 추천하는 맥락 기반 플레이리스트 시스템도 개발하여 운영하고 있습니다.
  • 스포티파이는 음악을 듣는 경험을 넘어 아티스트를 위한 플랫폼 혹은 레이블 서비스. 아티스트를 위한 생태계를 구축했습니다. 아티스트가 스포티파이의 기능을 활용해 자신의 음악을 홍보할 수 있는 플랫폼으로 거듭나고자 한 것입니다. 스포티파이는 레이블을 통하지 않고 직접 저작권을 취해 음악을 공급하고자 했으나, 메이저 레코드 레이블들의 압력으로 중단되었습니다. 현재는 이러한 메이저 레코드 레이블들이 스포티파이 주식 지분의 10%를 차지하고 있고, 2020년 7월에는 유니버설 뮤직 사와 라이선스 계약을 체결하는 등, 서로 견제하면서도 공생하는 관계를 이어나가고 있습니다.
  • 스포티파이는 음악 뿐만 아니라 소리로 이루어진 모은 콘텐츠를 다루는 오디오 플랫폼으로 나아가고 있습니다. 오디오의 넷플릭스가 되기 위해 팟캐스팅 회사 ‘Gimlet’과 ‘Anchor’를 인수하며 팟캐스트 시장에도 우위를 차지하고 있으며, 음악과 팟캐스트를 섞어 사용자 맞춤형 라디오를 제공하고 있습니다.
  • 현재 약 3억명의 사용자가 스포티파이를 이용하고 있고, 그 중 1.5억명이 무료 사용자, 1.5억명이 유료 사용자입니다. 사용자 수는 늘고 있지만 GDP가 작은 국가에 대해서는 더 저렴한 비용으로 월정액 요금을 책정하기에 사용자당 평균 수입(Average Revenue Per User, ARPU)는 꾸준하게 감소하고 있습니다. 그렇기에 새로운 사업인 팟캐스트에서 수익을 발생시켜야 하는 상황이고 여기서 정액제 구독 모델의 한계점에 직면하고 있는 상황입니다.
     
4 스트리밍 생태계: 스포티파이의 경쟁자들
  • 스포티파이의 경쟁 회사들은 애플뮤직, 아마존 뮤직, 판도라, 구글플레이 등이 있습니다. 경쟁 회사의 점유율을 합쳐보면 약 35% 정도의 크기이며, 스포티파이는 약 32%의 점유율을 가지고 있습니다. 1위인 스포티파이와 2위인 애플뮤직의 점유율 차이가 꽤 크긴하지만 압도적인 차이를 보이고 있진 않습니다. 이는 기업의 시가 총액을 비교했을때 대략 20배 이상 차이나는 것을 보면 알 수 있듯, 경쟁 회사들이 초 거대 기업이기 때문입니다.
  • 스포티파이의 경쟁회사들에 대해 알아보도록 하겠습니다. 우선 2위인 애플뮤직에 대해 설명하겠습니다. 애플뮤직은 음악 다운로드 서비스의 선구자지만 스트리밍 서비스에서는 후발주자입니다. 스티브잡스는 생전, 애플뮤직의 스트리밍 서비스에 대해 회의적이었습니다. 특히 스포티파이가 처음 스트리밍 서비스를 시작하려 했을 때, 스티브잡스가 직접 서비스 런칭을 방해 할 정도로 부정적인 시선을 가지고 있었습니다. 하지만 스티브 잡스가 사망한 2015년, 결국 애플뮤직은 다운로드 서비스를 포기하고 스트리밍 서비스를 시작하게 됐습니다. 이 과정에서 애플뮤직은 메이저 레이블과의 담합이나 플랫폼 소유자의 지위를 남용해서 스포티파이를 견제하는 등 여러가지 만행을 저질렀습니다. 다만 하드웨어에 집중하는 애플의 특성 상, 전체 수익에서 애플뮤직이 차지하는 파이가 크지 않기에 때문에 투자나 마케팅적인 한계가 존재하고, 이에 여전히 스포티파이와의 격차를 줄이지 못하고 있습니다.
  • 3위는 아마존입니다. 아마존은 2007년에 ‘아마존 MP3’ 서비스로 음악산업에 뛰어들어 2014년 아마존 뮤직을 서비스 하는 등 현재까지 꾸준히 서비스를 제공하고 있습니다. 아마존은 ‘아마존 프라임’이라는 서비스를 통해 빠른 배송, 책,비디오, 음악 구독 서비스를 번들로 제공하고 있습니다. 전체 아마존의 수익에서 구독이 차지하는 비율은 약 6% 정도로 크진 않지만 장기적 발전 가능성을 보고 투자를 진행하고 있습니다. 이렇게 기업들이 번들 서비스를 제공하여 기업의 생태계에 대한 사용자의 의존을 높이는 방식은 애플 원이나, 네이버플러스 멤버십, 쿠팡 등 여러 기업들이 사용하고 있습니다. 이렇게 얻어진 강력한 사용자 풀을 바탕으로 아마존은 2위인 애플뮤직을 빠르게 추격하고 있습니다.
  • 스포티파이가 스트리밍 서비스의 1등이라고 하지만 실제로는 유튜브가 1등이라 말할 수도 있습니다. 구글의 스트리밍 서비스인 ‘플레이 뮤직’은 2011년 런칭했지만 3%미만의 시장 점유율로 존재감이 없다가 2020년 유튜브 뮤직으로 통합됐습니다. 유튜브 뮤직은 5% 미만의 점유율을 가지고 있지만, 많은 비율의 사용자들은 유튜브 뮤직이나 다른 스트리밍 서비스가 아닌 아닌 유튜브 영상 서비스로 음악을 듣고 있습니다. 하지만 유튜브는 일반 스트리밍 서비스와 다르게 광고 기반을 통해 무료로 음악을 제공하고 있습니다. 유튜브 측에서는 광고를 통해 얻은 수익금의 일부를 음악 업계에 지급했다고 하지만, 전체 음악 소비 시간에 비하면 미미한 수준입니다. 유튜브의 핵심적인 기술은 저작권이 있는 오디오 및 비디오를 찾아낼 수 있는 ‘컨텐츠ID’입니다. 유튜브는 이런 강력한 기술들을 기반으로 광고 수익을 공유할 수 있는 모델을 만들어, 다양한 컨텐츠를 확보하는 동시에 저작권자들의 문제제기를 피해갈 수 있었습니다. 하지만 유튜브는 국제 저작권 법의 허점을 이용하여 스트리밍 업계에서 가장 낮은 수준의 로열티를 지불하고 있습니다. 최근에는 모든 컨텐츠에 광고를 붙이는 등, 콘텐츠 수입을 증가시키기 위한 방법을 모색하고 있습니다.
 
 
5 스포티파이의 대안: 밴드캠프
  • 아티스트들은 스포티파이가 주는 돈이 적다고 말합니다. 한 아티스트가 한국에서 월 평균 노동자 임금인 336만원 가량의 수입을 거두기 위해선 약 80만 회의 스트리밍 수를 발생시켜야 합니다. 이것은 굉장히 어려운 숫자입니다. 한 번 들을 때마다 4.7원 정도인데, 상위 1%의 아티스트가 전체 시장의 90%를 차지하고 있고, 상위 10%의 아티스트가 전체 시장에 99.4%를 차지하고 있습니다. 하위 90%의 아티스트들이 전체 시장의 0.6%를 가지고 아둥바둥 하고 있는 것이 현재의 스트리밍 생태계입니다. 이러한 환경에서 아티스트의 생존이 가능한가에 대한 질문들이 제기되고 있습니다.
  • 그렇다면 스트리밍 서비스가 창작자에게 더 많이 지불하게 하는 대안은 무엇이 있을지 생각해 봅시다. 첫번째는 분배율을 달리하는 것입니다. 현재는 플랫폼이 30-40%, 아티스트가 60-70% 정도의 수익을 가져가는데, 여기서 플랫폼에 할당되는 값을 더 줄이는 것입니다. 하지만 현재 60-70%의 분배율도 이전의 80% 수준에서 점점 낮아진 것이고, 스트리밍 플랫폼의 영향력이 점점 강해지는 상황이라 쉽지 않아 보입니다. 두번째는 구독료를 높이는 것입니다. 지난 10년간 구독료는 9.99 달러로 변동이 없는데, 그 사이 물가는 약 10% 올랐습니다. 가격이 10% 떨어진 셈입니다. 하지만 3만원을 내고 옷을 사고 술을 먹으면 ‘잘 샀다’, ‘잘 먹었다’고 느끼지만, 구독료로 3만원을 내라고 하면 ‘기둥 뿌리 뽑을 일 있느냐’라고 대답한다는 유머 자료가 만들어질 정도로, 구독료에 대한 소비자들의 가격 저항은 매우 높습니다. 이런 상황에서 구독료를 인상시키는 것에는 한계가 있습니다.
  • 그래서 또다른 대안으로 생각하는 것이 바로 ‘밴드캠프’와 같은 서비스입니다. 밴드캠프는 2008년 설립된 회사로, 이 곳의 핵심 아이디어는 ‘음악을 발견하고, 그 것을 만든 아티스트를 후원해라’입니다. 스트리밍 서비스 같은 경우 월 10달러로 업로드 된 모든 곡을 들을 수 있다면, 밴드캠프에서는 아티스트들이 본인의 음악을 직접 업로드하고 가격을 설정할 수 있고, 소비자는 개별 곡을 구매하여 음악을 감상하게 됩니다. 이렇게 개별 곡에 대한 과금을 하기 때문에  아티스트 입장에서는 기존의 구독모델 보다 더 많은 수익을 얻을 수 있습니다. 팬들은 더욱 직접적으로 좋아하는 아티스트를 후원할 수 있게 됩니다. 현재 수십만의 아티스트와 3000개 이상의 레이블이 밴드캠프를 이용하고 있고, 2012년에 손익분기점에 도달했으며 팬들이 아티스트의 음악을 구매한 매출이 6억 3천만 달러에 달할 정도로 작지 않은 규모의 서비스라는 것을 입증했습니다.
  • 코로나19로 인해 공연 산업이 중단된 이후 밴드 캠프는 이틀간 10-15%의 수수료를 받지 않는 ‘밴드캠프 데이’를 통해 아티스트를 지원하였습니다. 이때 두번째 밴드캠프 데이에 아티스트들에게 총 1천 140만 달러가 정산되었다고 합니다. 한 밴드는 이 밴드캠프 데이에서 하루동안 얻은 수익이 스포티파이에서 지난 5년간 얻은 수익과 맞먹는다고 말했습니다. 그만큼 밴드캠프라는 플랫폼에서 아티스트에게 주는 가치가 스포티파이라는 플랫폼에서 주는 가치보다 큰 것이죠.
  • 스포티파이와 밴드캠프는 이런 차이를 보입니다. 스포티파이는 더 큰 사업, 더 큰 수익 모델을 위해서 음악뿐만 아니라 팟캐스트와 오디오 사업까지 진출하고 있습니다. 밴드캠프는 어디까지나 아티스트 중심의 플랫폼이라는 위치를 유지하고 있습니다. 사업보다는 생태계 유지에 집중하고 있는 것이죠. 아티스트와 플랫폼의 이해관계가 일치한다라고 볼 수 있겠습니다. 물론 구독자 수와 다운로드, 스트리밍 수를 비교해 보았을 때, 밴드캠프는 전체 시장에 대한 영향력에서 스포티파이와 비교할 수 없습니다. 하지만 상위 1%가 아닌 개별 아티스트들의 수입 측면에서 보면 밴드캠프가 더 유리합니다. 그것은 정액 구독 모델이 가진 한계 때문이고, 개별 과금 모델을 구축을 해야 개별 아티스트가 생존할 수 있다고 생각합니다.
 
 
6 음악 스트리밍 서비스와 음악 산업의 미래
  • 마지막으로 음악 산업 전체의 미래, 그리고 스트리밍 서비스가 가지고 있는 함의에 대해서 설명드리겠습니다. 빌 게이츠는 96년도에 ‘컨텐츠는 왕이다’라는 이야기를 했습니다. 방송에서 수익을 창출한 것은 컨텐츠였고, 그래서 인터넷이 만들어낼 것은 결국 컨텐츠, 특히 인터넷은 무제한으로 복제될 수 있기에 컨텐츠를 잘 만들면 성공할 수 있다는 것이 그의 생각이었습니다. 하지만 최근에는 플랫폼이 왕이라는 말이 나오고 있습니다. 즉 Apple Music 에서 BTS가 음원을 발매한다고 해도 사용자를 lock-in하지 못하게 되었다는 의미입니다. 이는 특정 음악 컨텐츠를 어떤 플랫폼에서 독점 발매한다고 해서 전체 플랫폼에 전략을 좌지우지 하지 못한다는 의미가 됩니다. 전체 플랫폼의 크기가 커졌기 때문이죠. 그래서 이제는 컨텐츠 확보가 용이해졌고, 큰 매출을 바탕으로 컨텐츠를 생산하는 것도 용이해졌고, 그렇기에 플랫폼이 전체 생태계에서 차지하는 비중이 굉장히 증가했습니다. 어떤 컨텐츠를 잘 만드느냐가 중요한게 아니라, 어떤 플랫폼이 지배를 하고 있는지가 중요한 상황이 된 것입니다.
  • 몇 개의 독점 기업이 전체 생태계를 좌지우지 하는 상황이기 때문에  개별 아티스트의 입장에서는 암울한 상황입니다. 정액 구독 기반의 스트리밍 생태계 내에서 스트리밍 서비스 자체는 계속해서 유저 수를 늘려가며 성장하겠지만, 거기서 과연 개별 아티스트들이 먹고 살 수 있을만한 수익을 창출할 수 있을지는 의문입니다. 그래서 현재의 음악 생태계는 정말 작게 규모로 개별 아티스트가 있는 회사이거나 혹은 큰 규모의 회사이거나, 이런 식으로 양극화 되고 있는 것 같습니다.
  • 저는 이 상황을 비관적으로 바라보고 있습니다. 그래서 요즘 제가 고민하고 있는 것은 바로 플랫폼에 대항할 수 있는 마이크로 커뮤니티입니다. 다시 말해 개별 아티스트의 홈페이지에서 컨텐츠를 서비스하고 대신 그것을 구독하게끔 만드는 것을 생각하고 있습니다.  예를 들어, 본인의 컨텐츠를 알리는 것은 무료 플랫폼인 유튜브에서 알리고, 스포티파이에서 충성 고객을 조금 더 끌어들인 후, 상위 1%의 가장 열성적인 팬들을 자신만의 채널로 모으는 것입니다.
  • 그래서 저는 요즘 NFT를 주목하고 있습니다. 홈페이지를 구축을 하고, 그곳에 구독 모델을 만들고, 컨텐츠에 NFT를 생성하고, 그것을 시장에 올려서 같이 성장시키는 것이죠. 기존의 정액 구독 기반의 대형 플랫폼과 독립된 수익 모델을 자체적으로 구축하는 것이 개별 창작자들에게 중요하고 필요한 시도라고 생각하고 있습니다. 이것은 또한 단순히 음악 뿐만 아니라 모든 엔터테인먼트 영역, 예를 들어 책, 웹툰 그리고 그 밖의 어떤 창작 영역이든 간에 고민을 해야 한다고 생각합니다. 사실 음악 산업은 이것을 10년 정도 일찍 겪고 있는 것이기 때문입니다.
 
7 질문
  • 질문 1: 저는 스트리밍 서비스가 사람들의 음악 취향을 유명한 음악 위주로 편향되게 만든다고 생각합니다. 이러한 의견에 대해 어떻게 생각하시는지, 그리고 편향이 존재한다면 어떤 기술로 이를 해결할 수 있을지 궁금합니다. 
  • 질문 1 대답: 지금 스트리밍 서비스를 통해서 유명한 음악만을 듣는 사람들이 이전에 CD로 음악을 듣던 시절에는 과연 CD를 구매하고 열심히 음악을 찾아 들었을까요? 그렇진 않다고 봅니다. 유명한 음악을 듣고자 하는 사용자들이 늘어난 것은 스트리밍 가격이 낮아지면서 더 많은 사용자가 유입되었기 때문이라고 생각합니다. 음악을 열심히 듣지 않던 사람들도 스트리밍 서비스를 이용하게 된 것이죠. 원래 사람들의 취향은 편향되어 있고, 사용자 군이 넓어지면서 이러한 편향이 통계적으로 드러나게 된 것입니다. 그리고 플랫폼은 이러한 현상을 역전시키고자 하는 것으로 보입니다. 스트리밍 서비스의 입장에서는 상위 1%의 아티스트에 대한 권리를 가지고 있는 메이저 레이블들을 견제할 필요가 있고, 그들의 영향력을 줄이기 위해 계속해서 새로운 음악, 비인기곡을 추천해주면서 다양성을 추구합니다. 스포티파이와 같은 회사에서 지속적으로 추천 기술을 연구하는 것도 이러한 맥락입니다. 추천 기술은 이미 상당히 발전되어 있다고 생각하고, 장기적으로 음악 산업의 다양성을 늘리는 유의미한 변화를 이끌어낼 수 있을 것이라고 생각합니다.
 
  • 질문 2: 앞의 질문에 이어서, 저는 미국 시장과 국내 시장이 많이 다르다고 생각합니다. 미국의 경우에는 소비자들이 라디오를 비롯한 다양한 채널들을 통해 서로 다른 방향성을 추구하는 새로운 음악들을 접할 수 있는 반면, 우리나라의 경우는 소수의 대기업들이 스트리밍 서비스를 소유하고 있고, 기업의 입맛대로 소개하는 음악들을 접하고 취향을 발전시키게 되는 경우가 많은 것 같습니다. 이러한 배경에서 좋은 음악을 만드는 아티스트들이 되려 스트리밍 서비스에 의해 밀려나는 경우도 많다고 생각됩니다. 여기에 대해서 어떻게 생각하시는지, 어떻게 해결할 수 있을지 궁금합니다.
  • 질문 2 대답: 맞습니다. 스포티파이는 메이저 레이블을 견제하기 위해 다양성을 추구할 수 밖에 없습니다. 그러나 한국의 경우 대기업이 최대의 스트리밍 서비스와 유명 엔터테인먼트 레이블을 모두 소유하고 있는 수직계열화된 구조로, 상호 견제와 시장 매커니즘이 제대로 작동하지 않고 있고, 이러한 구조가 차트 위주의 접근, 취향의 편향을 조장했다고 생각합니다. 그리고 그러한 부분에 대해서 우리나라는 정부에서 분배율을 정하고, 특정 플랫폼에서 자사의 컨텐츠를 많이 노출시키면 경고를 주는 등, 사회적인 접근을 통해 해결해나가고 있고, 멜론이 차트를 사이드로 빼고 스포티파이 스타일의 큐레이션 페이지를 메인으로 바꾼것도 회사의 이해관계 보다는 이러한 공공의 압력에 의한 변화라고 생각합니다. 장기적으로 이러한 흐름과 스포티파이의 국내 도입, 유튜브의 성장으로 차트 위주의 편향성은 줄어들 것으로 보입니다. 그러나 그럼에도 불구하고 엔터테인먼트 시장에서 사람들이 원하는 것은 상위 1%가 확실한 것 같습니다. 유튜브의 경우도 차트가 없지만 사람들이 듣는 음악은 어느 정도 정해져있습니다. 상위 1%가 시장의 90%를 차지하게 되는 경향은 어느 나라에서나 나타납니다. 플랫폼이 그러한 편향을 강하게 만들수는 있지만, 편향 자체는 플랫폼 이전에 존재한다고 생각합니다.
  • 질문 3: 그렇다면 그러한 편향을 해결할 수 있는 방법은 없을까요? 새로운 아티스트들은 그러한 편향에 어떻게 대응하여야 할까요? 또 완전히 새로운 장르를 추천하는 방법이 있을까요?
  • 질문 3 대답: 작은 시장에서 최대한의 수익을 거두어낼 수단을 만들어내는 것이 중요하다고 생각합니다. 개별 아티스트가 자기 가게를 차리듯이 독자적인 비즈니스 모델을 만들어낼 수 있다고 생각합니다. 아티스트의 독자적인 비즈니스 모델은 브랜드샵처럼 기능하고, 스포티파이에 노출되는 것은 백화점에 입점하는 것과 비슷합니다. 완전히 새로운 장르를 추천하는 것의 경우에는 결국 휴먼 큐레이션이 들어갈 수 밖에 없을 것 같습니다.
  • 질문 4: 2007년, 라디오헤드가 사람들이 내고 싶은만큼 돈을 내고 앨범을 다운로드 받는 방식으로 새로운 앨범을 공개했었습니다. 저는 이러한 방식이 이상적인 마이크로 커뮤니티의 형태라고 보이는데, 이 사례와 마이크로 커뮤니티의 수익구조에 대한 의견이 궁금합니다.
  • 질문 4 대답: 마이크로 커뮤니티의 경우 구독이 가장 기본적인 형태의 수익 구조라고 생각합니다. 라디오헤드의 경우는 개별 과금이었는데, 개별 과금은 따로따로 결제를 해야하고, 구매 건마다 값어치를 따지게 되는 등 구매 과정이 복잡하다는 문제가 있습니다. 반면 구독은 콘텐츠가 묶음으로 제공되고, 관성적인 측면이 있어, 소비와 후원의 중간적인 포지션을 갖는다는 장점이 있습니다. 그 중에서도 메일링 리스트 구조를 생각하고 있습니다. 메일링 리스트는 확산적인 매체가 아닌, 소수에게 제한적으로 제공되는 프리미엄 콘텐츠라는 인식이 있는 것 같습니다. 홈페이지, 구독, 메일링 리스트, 개별 과금을 복합적으로 이용하는 수익 구조를 생각하고 있습니다.
  • 질문 5: 이전 인터뷰에서 인디 아티스트의 음악이 알려지는 통로는 주로 ‘공연’이라고 말씀하신 적이 있습니다. 스트리밍 및 구독 서비스 시장의 규모가 크게 성장한 지금, 공연의 비중에 대해 어떻게 생각하시는지 알고 싶습니다.
  • 질문 5 대답: 일반적인 디지털 서비스와 달리 공연은 배제성과 경합성을 가진 재화로 여겨집니다. 따라서 인디 신 뿐만 아니라 모든 음악의 중점은 공연이 될 수 밖에 없다고 생각합니다. 그러나 코로나 상황이 길게 이어지는 만큼, 온라인 형태의 공연에 대한 필요성을 느끼는 것 또한 사실입니다.
  • 질문 6: 작은 규모로 굿즈를 만들어 판매하는 것 이외에, 더 많은 팬을 유입하기 위한 전략에는 어떤 것들이 있을까요?
  • 질문 6:  유튜브와 같이 사람들이 많이 보는 매체에 많이 노출되는 것이 중요합니다. 그러기 위해서는 업계에서 평판을 쌓는 것 역시 중요합니다. ‘새소년’의 경우에도 인지도가 높아진 뒤 인디 이상의 브랜드와 미디어까지의 진출로 이어질 수 있었습니다.
  • 질문 7: 뮤지션 ‘염따’의 경우, 음악 활동 이외에 티셔츠 판매로 큰 수익을 얻은 것으로 알고 있습니다. 앞서 말씀하신 영향력 있는 미디어 노출이 아닌, 염따와 같은 수익 창출 방법이 뮤지션에게 유효한 생계 전략이 될 수 있을지 묻고 싶습니다. 또한, 마이크로 음악 커뮤니티를 위한 기술이 무엇이 필요할까요? 마지막으로, 아티스트를 발굴하시는 입장에서 어떤 아티스트를 좋은 아티스트라고 생각하시는지 궁금합니다.
  • 질문 7 대답:  염따의 케이스는 매우 예외적입니다. 염따의 성공에서 유일하게 재현할 수 있는 부분은 꾸준하게 음악을 만들었다는 사실입니다. 또한 협업 등, 창작자 생태계에서의 네트워크의 역할 역시 컸다고 생각합니다. 두번째 질문에 대해서는, 최근 업계에서 새로운 인재 발굴을 위해 데이터 주도적 기술이 도입되는 것을 예로 들 수 있습니다. 딥러닝이 메이저 레이블이 아닌, 예컨대 틱톡이나 유튜브와 같은 마이크로 커뮤니티에서도 새로운 재능을 발굴하는 데 사용될 수 있을 것으로 예상합니다. 마지막 질문에 대해서는, 재능과 노력은 기본이고, 기본적으로 자신의 뚜렷한 비즈니스 플랜을 가지고 있어야 한다고 생각합니다.
  • 질문 8: 비주류 아티스트에게 스포티파이 같은 스트리밍 산업이 이득이 될 수 있는 구조라고 생각하시나요?
  • 질문 8 대답: ‘술탄 오브 더 디스코’의 경우 월 평균 청취 수가 20만 회인데, 이것은 앨범 판매로는 도달할 수 없는 수치입니다. 그만큼 무료 청취자의 비중도 높겠지만, 이처럼 스트리밍 서비스는 더 많은 유저의 접근을 가능하게 하는 인프라로서 유효한 수단이라고 생각합니다. 


 

* 4:00-5:00pm 연사 강연, 5:00-5:30pm Q&A 및 자유토론 (Mandatory)

* CT세미나에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.

* 콜로퀴움의 강연들은 대부분 한국어로 진행될 예정입니다.
[GSCT 콜로키움] 4.6 (화) | 주재걸 (KAIST AI대학원 교수)
일시 : 2021. 4. 06. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : 컴퓨터 비전 분야 영상 합성 모델 및 활용 사례
연사 : 주재걸 (KAIST AI대학원 교수)


 

학력:

-      Georgia Tech Computational Science and Engineering 박사 졸업 (2013)

-      Georgia Tech Electrical and Computer Engineering 석사 졸업 (2009)

-      서울대학교 전기공학부 학사 졸업 (2001)

 

경력:

-      KAIST AI대학원 부교수 (2020.03-Present)

-      고려대학교 인공지능학과 부교수 (2019.09-2020.02)

-      고려대학교 컴퓨터학과 조교수 (2015.03-2019.08)

-      Georgia Tech Research Scientist (2011.12-2015.02)

 

수상실적:

-      IEEE VIS’20 10-Year Test-of-Time Award (2020)

-      ICDM’16 Best Student Paper Award (2016)

-      네이버 신진교수상 (2015)

강연자 소개
영상 및 자연어 처리, 텍스트 및 데이터 마이닝 연구들을 진행하고 있고, HCI와 관련하여 인공지능 모델을 잘 해석할 수 있고, 사용자가 인공지능 기법을 사용하기 용이하도록 하는 인터페이스를 만들고 있습니다. 또한 환자들의 전자 의무기록 데이터로부터 의사들이 환자가 다음에 어떤 질병을 갖고 방문할 것이고 어떻게 처방할 것인지를 인공지능과의 협업으로 분석할 수 있는 시각화 툴도 만드는 등, 다양한 연구들을 하고 있습니다.
 
강연 요약
오늘 강연에서는 GAN (적대적 생성 신경망)에 기반하여 컴퓨터 비전 분야에서 이미지나 비디오 데이터를 자연스럽게 생성하는 모델들을 소개함과 동시에 연구 동향에 관해 말씀드리고자 합니다.
 
1. 적대적 생성 신경망 (GAN)을 기반으로 한 모델들
Recognition Tasks / Generation Tasks
크게 보면 인공지능이 활발하게 적용되는 분야가 자연어 처리와 컴퓨터 비전 분야인데, 세부적으로 인공지능 태스크를 나눈다면 크게 인식(Recognition)과 생성(Generation and Translation)으로 나눌 수 있습니다. 인식은 이미지나 비디오로부터 원하는 정보를 알아내는 태스크입니다. 이와 반대로, 우리가 가진 정보를 입력으로 넣었을 때, 그에 걸맞은 이미지나 비디오를 만들어내는 것은 생성 태스크라고 할 수 있습니다.
 
Translation Tasks: Special Case of Conditional Generation
생성 과정 중에 다양한 입력을 추가로 주었을 때 이를 잘 반영하여 결과물을 만드는 모델이 있는데, 이것이 Conditional model입니다. Conditional이란, 원래 조건부 확률에서 나온 단어지만, 실질적으로 사용자의 관점에서 사용자가 생성 과정 중에 다양한 요구조건을 제시했을 때 원하는 결과물을 내어줄 수 있는 형태의 모델을 말한다고 생각하시면 됩니다. 또한 이와 유사하게 Translation Task는 주어진 이미지를 잘 반영하여 원하는 이미지로 변환해주는 것을 말합니다.
 
Conditional Generation and Translation
기술적으로 생성 과정 중 사용자의 입력을 잘 반영해줄 수 있도록 해주는 GAN 모델의 확장 형태들이 있습니다. 앞서 말씀드린 Conditional GAN이 이러한 경우이고, ACGAN(Auxiliary Classifier GAN)이라는 모델은 학습과정에서 Discriminator가 Generator가 만든 데이터의 진위를 판별하는 것뿐만 아니라, 그것이 어떤 속성(class)인지를 동시에 분류하는 모델입니다.
 
pix2pix: Paired Image-to-Image Translation
이러한 방식으로 이미지를 변환하는 모델의 경우, 다양한 problem setting과 그에 해당하는 대표적인 모델이 있습니다. 첫번째로 pix2pix가 있는데, 이는 paired 된 Image-to-Image Translation이라는 태스크를 대표합니다. Paired 라는 게 상대적으로 쉬운 문제인데, 스케치가 주어졌을 때 자동으로 채색된 이미지를 생성해내는 문제로 예를 들어 말씀드리겠습니다. 먼저 스케치가 입력으로 주어지면 인코더, 디코더로 구성된 네트워크를 거쳐 RGB칼라의 채색된 이미지가 나오게 됩니다. 이때 입력으로 넣어준 스케치는 칼라 이미지로부터 외곽선을 추출한 것으로, 출력으로 나온 칼라 이미지에 대한 정답 이미지라고 할 수 있습니다. 이렇게 정답 이미지가 있을 때 이를 paired setting이라고 합니다. 이 모델은 앞서 말한 CGAN의 구조를 따르고 있습니다. Image translation의 가장 초기모델인 pix2pix는 입력으로 주어진 이미지에 대해 그 정답 이미지가 쌍으로 존재하는 모델로 학습이 아주 용이합니다.
 
StarGAN: Multi-Domain Image-to-Image Translation
가령 사람 얼굴 이미지가 주어졌을 때, 그 인물의 나이를 바꾸거나 성별을 바꾸는 경우 해당 인물이 동일한 포즈를 가지고 다른 조건으로 사진을 찍을 수 없게 됩니다. 이렇게 정답 이미지가 없는 경우를 un-paired setting이라고 부릅니다. StarGAN이 대표적인 사례인데, 이 모델처럼 한 모델이 다양한 translation을 하는 것을 Multi-Domain의 Image Translation이라고 합니다.
 
Multi-Modal Exemplar-Based Image-to-Image Translation
그 외에도 Exemplar-Based image-to-image translation을 수행하는 모델이 있습니다. 가령 호랑이 이미지가 있을 때 그것을 다른 고양이 이미지로 변환하는 태스크가 있을 수 있습니다. 이때 이러한 고양이와 같이 변환이 되었으면 좋겠다고 생각하는 이미지를 추가적인 입력으로 주어 이미지 변환을 수행할 수 있습니다. 이전에 언급한 모델에선 target label 혹은 target attribute 정보를 단순한 형태로 전달해줬다면, 이 경우에는 고양이로 변환하겠다는 정보 외에 어떠한 디테일을 원하는지에 대한 추가적인 정보를 예시라는 형태의 추가적인 입력으로 모델에게 전달합니다.
 
Style Transfer: Earlier Exemplar-Based Image Translation Task
딥러닝 초반에 나왔던 모델 중에 Style transfer라는 태스크를 다루는 모델들이 있었습니다. 이 모델은 예시 이미지를 주면, 예시 이미지의 스타일을 반영해서 변환된 이미지를 생성합니다.
 
StyleGAN
이미지 생성 과정에서 품질을 올리기 위한 여러 연구들도 존재하는데, 그 중에 대표적인 사례로 StyleGAN이 있습니다. 현재는 StyleGAN 버전2까지 나와있습니다. 앞서 생성 모델들 중 어떤 조건에 따라 변환하는 방법이 있었다면, StyleGAN은 트레이닝 데이터와 비슷하지만 다른 패턴을 가지는 다양한 이미지를 자유롭게 생성할 수 있는 모델입니다.
 
2. 생성 모델(Generative model)의 최근 연구 동향
Multimodal 데이터를 이용한 생성 모델 활용: DALL-E, CLIP, StyleCLIP

텍스트, 이미지, 음성 등과 같이 서로 다른 종류의 데이터들을 잘 결합한, multimodal data를 이용하는 생성 모델 기술들이 활발히 연구되고 있습니다.
 
3D modeling 이미지에 대한 생성 모델: NeRF, Putting NeRF on a diet
기존의 CNN 구조를 이용한 연구들은 2D 이미지를 입력으로 받아서 다른 2D 이미지를 만들어내는데, 여기서 3D 효과를 직접적으로 반영하는 것은 어려웠습니다. NeRF 등의 연구들에서는 단일 사진 혹은 여러 각도에서 찍은 적은 수의 사진들이 입력으로 주어지면, 3D 공간 상에서의 여러 회전 각도에서 보여지는 이미지들을 자연스럽게 만들어낼 수 있는 생성 모델들을 다루고 있습니다.
 
Transformer architecture를 이용한 생성 모델: ViT
Transformer 모델은 자연어 처리 분야에서 번역에 많이 활용되는 모델입니다. 지난 수년간 해당 분야에서는 기본적인 딥러닝 모델로 LSTM과 GRU가 활용되었는데, 불과 2~3년 전부터는 Transformer 라는 attention 기반의 모델로 교체되었습니다. 컴퓨터 비전 분야에서도 CNN 대신 해당 모델에서 제안된 핵심 아키텍처를 사용함으로써, 기존 컴퓨터 비전 알고리즘들의 성능을 뛰어넘는 양상을 보여주고 있습니다.
 
3. 참여 연구
Automatic Image Colorization
자동 이미지 채색(Automatic Image Colorization)은, 스케치 이미지를 컬러 이미지로 바꿨던 것처럼 이미지 간의 변환(image-to-image translation) task라고 볼 수 있습니다. 이러한 기법은 애니메이션이나 웹툰 등에서 실질적인 효용성을 보일 수 있는데, 스케치만 하면 해당 스케치에 대해 자동으로 채색해줌으로써 콘텐츠 제작에 들어가는 작업 시간을 줄일 수 있을 것으로 기대됩니다. 좀 더 범용적인 측면에서 보자면, 자가 지도 학습의 task로 활용될 수 있습니다. 이를 활용한 예시로 2018년 6월에 Google AI에서 발표한 “Self-Supervised Tracking via Video Colorization”이 있는데, 이는 자동 채색 task를 학습한 모델을 동영상에서의 물체 추적에 활용한 사례입니다. Full-color 동영상이 주어지면 인접한 두 프레임에서의 이미지들을 쌍으로 가져오고, 첫 번째 프레임의 full-color 이미지에 기반하여 두 번째 프레임의 흑백 이미지를 채색하도록 모델을 학습시킵니다. 이를 물체 추적에 활용하여, 주어진 비디오의 첫 프레임에서 추적하고자 하는 물체에 특정 색을 칠하고, 그 다음 프레임의 이미지는 첫 프레임의 이미지에 기반하여 색을 칠하게 합니다. 그러면 다음 프레임 이미지에서는 해당 물체에만 색이 칠해지고 나머지는 흑백으로 유지되는데, 이를 통해 물체들에 대해 특별한 labeling 작업을 하지 않아도 물체를 구분할 수 있게 됩니다.

Forms of User Inputs (or Conditions) in Generative Models
생성 모델을 통한 자동 이미지 채색을 수행하였을 때, 결과가 사용자의 의도대로 만들어지지 않을 수 있습니다. 이를 위해 사용자와 모델 간의 interaction을 통해 원하는 결과물을 얻을 수 있도록 하는 연구들이 진행되고 있습니다. 그 예시 중 “Petalica paint” 라는 웹사이트가 있는데, 스케치 영상이 주어지면 자동으로 채색된 이미지가 결과물로 나오고, 사용자가 간단한 interaction을 통해 원하는 부분을 편집할 수 있도록 합니다. 사용자의 간단한 scribble만으로도, 모델이 의미론적으로 해당 scribble이 적용된 물체의 경계선을 인식하고, 유연하게 부분적으로 색상을 변경해줍니다. 이렇게 생성 모델이 실제 콘텐츠 제작 과정이나 미술 영역 등에 활용되기 위해서는 사용자 interaction이 다양한 형태로 제공되어야 하고, 사용자의 의도를 잘 파악하고 반영해 줄 수 있는 딥러닝 모델들이 제공되어야 합니다.
 
Reference-based Sketch Colorization
앞선 사례와 유사하게 저희 랩에서 연구하는 기술은 참고 이미지를 기준으로 스케치 이미지에 색을 넣는 방식으로도 활용할 수 있습니다. 해당 연구는 네이버 웹툰의 “유미의 세포들” 작품과 협업하여 진행되었습니다. 이 기술은 참고 이미지에서 색의 위치적인 정보를 학습한 후 채색하고자 하는 이미지에서 같은 위치 정보를 가진 곳을 채색하는 방식으로 구현됩니다. 이와 같은 기술에는 Visual Correspondence가 가장 중요합니다. 웹툰 같은 경우 기존의 Ground-truth 값이 주어져 있었기에 작업을 하기 편합니다. 하지만 실제 이미지들의 경우 기존의 채색된 이미지가 없을 수가 있기에 정보가 더 부족한 상태에서의 대응 관계를 찾기 위한 추가 연구를 진행하게 되었습니다. 해당 연구의 결과로 저희는 하나의 이미지에서 채색이 필요한 스케치만 있는 이미지와 다른 색으로 채색된 이미지를 활용하는 모델을 Transfer 모델의 Attention 개념에 기반하여 개발했습니다. 다른 색으로 채색되는 이미지의 경우 이미지 위치도 조금 변형하여 학습을 더욱 다채롭게 하고자 하였습니다. 이렇게 만든 이미지들을 CNN에 넣어 최종적인 이미지를 얻게 됩니다. 정답 이미지가 이미 있는 상황이기에 다양한 Loss를 활용하여 성능을 더욱 향상시킬 수 있었습니다. 그리고 SCFT(Spatial Crafted Feature Transfer) 모듈을 활용하여 어떻게 이미지가 변형되는지를 자동으로 파악할 수 있어 학습 자체가 잘 이루어집니다. 그리고 모델이 잘 작동하는지 보기 위해 SCFT 모듈만 따로 떼어서 스케치 이미지와 참고 이미지 간의 영역별 대응 위치를 확인하였고 결과가 잘 나온다는 것을 확인할 수 있었습니다. 구체적으로는 생성 모델의 경우 모델의 정량적인 성능평가가 어려운 경우들이 많은데, 이때 활용하는 FID score 등의 점수로 성능을 측정하여 좋은 성능이 나왔다는 것을 알 수 있었습니다. 그리고 SCFT를 그림 이미지가 아니라 레이블이 없는 일반 이미지 자체에 대해서 Semantic Correspondence를 진행해보았더니 레이블이 있는 학습모델 수준까지는 아니어도 준수하게 결과값이 나온다는 것을 확인할 수 있었습니다.
 
Edge-Enhancing Interaction in Automatic Colorization
최근에 진행한 연구들에 대해 더 소개를 해드리면, automatic colorization을 다양한 생성 태스크에 적용하였을 때 실제 colorization에서 모델이 경계를 명확하게 파악하지 못해 색이 번지는 듯한 결과를 내는 등 여러 문제가 발생하는 것을 발견하였습니다. 이러한 생성 결과에서 개선이 필요한 부분들에 대해 사용자가 최소의 노력으로 생성 모델의 결과물을 개선할 수 있도록 하는 추가적인 생성 모델에 대한 연구를 했습니다. 실제로 이미지에 스크리블(scribble)을 적당한 두께로 주면 해당 부분을 추가적인 입력으로 받아 모델의 결과를 개선하는 형태의 연구를 수행했습니다. UI tool도 만들어보았는데 해당 툴을 이용해 흑백 이미지에 자동 채색을 통해 나타난 결과물에 사용자가 직접 scribble을 edge 형태로 적용하면 해당 부분에 색깔 번짐(color bleeding) 효과가 줄어드는 것을 볼 수 있습니다. 해당 모델은 기존의 colorization 모델이 있다고 할 때, 사용자의 interaction을 통해 이미지의 품질이 개선될 수 있도록 후처리적으로 적용될 수 있는 모델로 디자인했습니다. Edge Enhancing Network 부분이 color bleeding을 완화하기 위해 추가한 딥러닝 모듈입니다. 이미지 colorization 모델을 학습시킨 후 흑백 이미지를 주었을 때 colorization된 이미지에서 edge를 추출하는 알고리즘을 실행하게 됩니다. Edge를 추출한 후 ground truth에서 추출된 edge와 비교를 해보면 color bleeding에 의해 edge가 명확하게 추출되지 않은 부분을 발견할 수 있고, 어느 지점에 edge enhancing이 필요한지 알 수 있게 됩니다. 해당 부분을 입력으로 추출하면 사용자가 interaction을 통해 scribble을 적용할 만한 부분을 추출할 수 있고, 이것을 입력으로 받아 추가적인 레이어를 학습하면 원래의 아웃풋에 더해주어야 하는 추가적인 정보를 만들어줄 수 있습니다. 이렇게 네트워크를 학습한 후에는 업데이트 된 형태의 결과물을 얻을 수 있습니다. 이때 사용자 interaction의 형태로 사용자의 요구사항을 최대한 직관적이고 효율적인 방식으로 표현할 수 있도록 scribble 형태로 구현을 했다는 것이 하나의 의미 있는 점으로 생각됩니다.
 
VITON-HD: High-Resolution Virtual Try-On
앞선 자동 채색과는 다르지만 이미지 생성, 합성모델의 또 다른 태스크로 기존의 Virtual try-on의 approach에 대해 고해상도의 이미지를 더 잘 만들어줄 수 있도록 만든 사례가 있습니다. 해당 연구에서 reference Image로 인물 이미지와 해당 인물에 입히고자 하는 옷 이미지가 있을 때 옷의 디테일을 잘 살리면서 옷을 자연스럽게 잘 입는 것을 확인할 수 있습니다. Image translate에 기본적으로 사용되는 인코더, 디코더에서 벗어나 좀 더 복잡한 형태로 모델을 만들어야 했습니다. 이미지 변환을 할 때 레퍼런스 이미지의 포즈(e.g. 사선 응시)와 정면에서 찍힌 옷의 spatial 구조가 잘 맞기 않기 때문에 인물의 포즈를 잘 반영해야 했습니다. 모델의 과정은 다음과 같습니다. Pre-processing과정에서는 기존 이미지에서 입고 있는 옷을 없애야 합니다. Segmentation과 pose extraction을 통해 옷이 없는 이미지를 얻게 되며 이것이 다시 입력으로 들어갑니다. Segmentation generation 과정에서 실제로 옷을 입혔을 때 팔이 어디까지 있는지 등의 segmentation 정보를 얻습니다. Clothes deformation 과정에서는 주어진 옷을 레퍼런스 이미지에 입혔을 때 옷을 어떻게 warp 해야 하는지 등을 고려해 최대한 포즈에 맞도록 변형된 이미지를 얻습니다. Try-on synthesis 과정에서는 위에 과정들을 모두 합쳐 인코더와 디코더 그리고 ALIAS generator를 통과하여 최종 결과 이미지를 얻습니다.
 
Virtual Analytics for Debiasing Image Classification
해당 연구는 User Interface에 관한 연구입니다. 인공지능 모델을 실제 사회에 적용할 때 발생할 수 있는 의도치 않은 차별과 공정성 문제들이 있는데, 이러한 것들을 모델이 가지는 bias라고 합니다. 모델의 bias를 잘 제거하는 태스크가 컴퓨터비전 쪽에서 잘 연구가 되고 있습니다. 학습 데이터를 2d embedding view로 보면, 어떤 데이터들은 제대로 classification이 되고 있고 어떤 데이터는 misclassification이 되고 있습니다. Bias 제거를 위해 image translation를 통해 bias를 무마하도록 데이터 합성을 시켜주고, 합성된 데이터를 학습 데이터로 추가하여 모델을 재학습시켰습니다. 실제로 과일 분류 태스크를 해보았을 때, 초록색 사과는 사과라고 하지 않거나 숫자를 분류해야 하는데 숫자를 보지 않고, 특정 색을 근거로 숫자를 분류해버리는 등 잘못된 근거로 판단을 하는 것을 발견하였습니다. 이에 시각화를 통해 bias가 무엇인지를 확인하고, bias를 무마시키는 학습 데이터를 이용해 재학습을 시켰더니 기존의 모델의 성능을 개선시킬 수 있었습니다.
 
Future Research Directions in User-Driven Generative Models
생성 모델은 다양한 사례를 보여드린 것과 같이 콘텐츠 제작과 문화 예술 분야에서의 활용 가능성이 큽니다. 그러한 관점에서 사용자의 여러 요구 조건이 모델에 잘 반영될 수 있도록 하는 딥러닝 모델과 그것을 잘 서포트하는 직관적인 사용자의 interaction 형태, user interface 및 user experience가 중요하다고 생각됩니다. 관련하여 향후 중요한 연구 주제들로 생각되는 것들은 다음과 같습니다.
  • Fast training and inference method for high-resolution images
  • Support for real-time, iterative, possibly local interactions
  • Reflecting higher-order user intent in multiple sequential interactions
  • Revealing inner-workings and interaction handles
  • Better simulating user inputs in the training stage
  • Incorporating data visualization and advanced user interfaces
  • Leveraging hard rule-based approaches, e.g., following sharp edges
  • Incorporating users’ implicit feedback and online learning
 
질의응답
Q1) 스케치 채색 연구에서 보통 기존의 윤곽선 추출 알고리즘을 쓰지만, 이러한 알고리즘은 사람이 직접 그린 스케치와 차이가 크게 날 수도 있을 것 같습니다. 사람이 직접 스케치한 것 같은 뉴럴 네트워크를 만들면 더 좋은 결과가 나올 수 있다고 생각하시나요?
A1) 스케치 자동 채색 연구에서 윤곽선을 추출하는 알고리즘이 존재합니다. 하지만, 사람이 그린 스케치와 알고리즘으로 스케치한 데이터는 매우 다를 수 있습니다. 그렇기 때문에 추가적인 스케치를 만드는 뉴럴 네트워크를 사용한다면 조금 더 사실적인 결과를 만들 수 있을 것입니다. 하지만 현재 연구 결과로는 아직 좋은 결과를 얻지는 못했습니다. 좋은 결과가 나오지 못한 이유는 여러 가지가 될 수 있는데, 사람이 만든 스케치도 정규화되지 않고 노이즈가 많기 때문에 데이터에서 나오는 문제가 많습니다.
 
Q2) 옷 입히는 연구에서 이미지 워핑을 하는 부분을 설명해 주셨는데, 워핑을 학습을 하나요? 그리고 워핑을 어떠한 방식으로 하는지 궁금합니다.
A2) 워핑도 네트워크에서 학습합니다. 워핑 연산은 사전에 정의한 워핑을 하는데, 현재 연구에서는 thin plate spline transform을 사용합니다.
 
Q3) 옷 입히는 연구에서 바꿔주어야 부분을 segmentation을 통해 찾아 지운다고 말씀하셨는데, 옷의 실루엣이 많이 다른 경우에는 어떻게 처리하나요?
A3) 해당 부분이 생성되는 이미지 품질에 영향을 많이 주었습니다. 긴팔 옷에서 반팔 옷으로 바꾸는 것이 기술적으로 어려웠던 부분인데 옷에 대한 영역 그리고 팔에 대한 영역을 추정함으로써 조금 더 잘 생성을 할 수 있었습니다. 손가락 부분은 생성하기 힘들기 때문에 손가락 부분은 남겨두고 팔만 지움으로써 네트워크가 학습할 수 있었습니다. 추가로, 만약에 원래 반팔을 입고 있는 이미지와 같이 이미 팔이 주어진 경우 해당 부분을 지우지 않고, 이미지로부터 더 가져오면 좋을 것 같다고 생각이 들 수 있는데 현재 연구에서는 네트워크를 self-supervision으로 배우기 때문에 이러한 부분이 artifact를 생성할 수도 있습니다.
 
Q4) 네트워크를 학습하기 위해서 데이터가 많이 필요한데요, 그러한 데이터를 어떻게 획득하였는지 궁금하고, 유미의 세포들의 스케치 데이터의 경우 직접 네이버 측을 통해 얻으셨는지, 혹은 edge detection 알고리즘을 이용해 직접 얻으셨는지에 대해 궁금합니다.
A4) 채색 연구는 네이버와의 산학 과제로 진행이 데이터를 확보할 수 있었고, 다른 방법으로는 이미지 데이터와 윤곽선 추출 알고리즘을 통해서 데이터를 확보했습니다. 옷 입히는 연구는, 온라인 쇼핑 사이트를 크롤링하여 만들었는데, 온라인 쇼핑몰의 경우 모델이 입고 있는 옷과 옷만 찍힌 사진들이 있기 때문에 좋은 방법이 되었습니다. 하지만 초상권 같은 문제가 있기에 데이터를 공개하기는 어렵습니다.
 
Q5) 문화기술대학원에서 하고 있는 연구 중 중요한 키워드가 creative technology인데요, 그런 측면에서 이 기술들이 어떠한 방향으로 가게 될지 creative technology로써의 미래적인 전망, 기대에 대한 교수님의 의견이 궁금합니다.
A5) 이전보다 이미지가 고해상도로 잘 생성이 되고 있어서 creative technology에 많은 기여를 하고 있는 것 같습니다. 실제 창작 활동에 잘 적용된 사례는 아직 찾아보기 어렵지만, 발전 가능성이 크다고 생각합니다. 컴퓨터 비전 기술들은 단순 반복 작업을 많이 해결해줄 수 있기에 앞으로의 발전에 도움이 많이 될 것입니다. 그리고 생성 모델을 사용함으로써 더 다양한 형태의 결과를 제안해주어 아티스트들에게 도움이 될 수 있을 것이라고 생각합니다. 실제 게임 산업에서도 생성 모델을 통해 아티스트들에게 영감이 될 결과를 많이 줄 수 있을 것입니다.


 
[GSCT 콜로키움] 3.30 (화) | 민세희 (국민대학교 겸임교수)
일시 : 2021. 3. 30. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : 데이터 중심 사회 속 ML기반 창작 환경
연사 : 민세희 (국민대학교 소프트웨어융합대학원 인공지능 전공 겸임교수)



학력

2005
Pratt Institute/ 프랫 아트 인스티튜트 컴퓨터 그래픽/ 인터랙티브 미디어 석사, NYC, NY
논문 : “Awake,” 3D 인터랙티브 미디어

1998
Texas Christian University
텍사스 크리스찬 유니버시티 커뮤니케이션 디자인 학사, Fort Worth, TX

경력


2021.03 ~ 현재 국민대학교 소프트웨어융합대학원 인공지능 전공 겸임교수
2020.08 ~ 현재 AI기반 creative tool, Praxis.ai (전 studyGirls) 스타트업 대표
2018.07 ~ 현재 Founder of the data visualization studio, randomwalks.org
데이터 시각화 프로젝트 디렉팅 및 비주얼 소프트웨어 개발
2019.08 ~ 2019.12 서울디자인재단 “서울라이트" 총감독
2018.03 ~ 2020.12 서강대학교 아트 & 테크놀러지 산학협력교수 (데이터 시각화, AI와 창작
강의)
2017.02 ~ 2019.08 판교 스타트업캠퍼스 AI & Creativity 랩 디렉터 및 상근 코치, (사) ARCON
2015.03 ~ 2015.10 시니어 컨설턴트, 삼성 SDS
2011.01 ~ 2015.02 Co-founder of the data visualization studio, randomwalks.org
데이터 시각화 프로젝트 디렉팅 및 비주얼 소프트웨어 개발
SK 텔레콤, intel USA, 청도 신도리코 미디어파사드 등 데이터 시각화
작업 실행
2009.11 ~ 2010.12 도시 정보 디자인 연구원 센서블 시티 랩, MIT
도시 데이터 시각화 소프트웨어 개발. 코펜하겐휠, 트래쉬 트랙, 씨스웜등 다수의 프로젝트 참여.
2008.03 ~ 2009.10 Founder of the data visualization studio, randomwalks.org
데이터 시각화 프로젝트 디렉팅 및 비주얼 소프트웨어 개발
2008년 3월 randomwalks.org 설립 프리랜서 커뮤니티로활동 시작
2009년 4월 1일 개인 사업자 등록
2006.10 ~ 2008. 10 미디어 교육 연구원, 아트센터 나비 미디어 아트/ 디자인 교육 및 전시 기획 등 다수의 프로젝트에 참여. (Bonding Company, OpenSource, OpenCourse 2007 etc )
2005.01 ~ 2005. 12 웹 디자이너, VH1.com / MTV Networks in New York
VH1.com 메인 및 마이크로 사이트 디자인
그래픽 디자이너, Creative Service / MTV Networks in New York
플라이어, 사이니지등 MTV 내부 진행 이벤트를 위한 다수의 편집 디자인 진행.
1999.01 ~ 2000. 05 그래픽 디자이너, McKinney Advertising, Chicago
B2B 위주의 그래픽 디자인 프로젝트 진행

*기타*
2012.01 ~ 2013.12 테드 시니어 펠로우 2012, TED
“Visualizing data for the new age” @ 에딘버러, 영국
2011.01 ~2011.12 테드 펠로우 2011, TED

강연

*visiting lectures
2018 데이터 시각화 / 연세대학교 정보 대학원
2017 데이터 시각화 / 한양대학교 건축 대학원
2017- 제너레이티브 디자인 / 서울시립대학교
2016-17 데이터 시각화 / 연세대학교 정보대학원
2015-16 데이터 시각화 / 패스트 캠퍼스
2014 데이터 시각화 / 연세대학교 커뮤니케이션 대학원
2013 데이터 시각화 / 서울대학교 융합기술 대학원
2013 미디어 디자인 / 건국 대학교 시각 디자인과
2013-15 시니어 프로젝트 / SADI
2012-15 데이터 시각화 / 연세대학교 커뮤니케이션 대학원
2007-12 컴퓨터 그래픽스 / 한국예술종합학교 조형예술원
2011 컴퓨터 프로그래밍 / 한국예술종합학교
2011 인터액션디자인 / 산업디자인 대학원, 홍익대학교
2011 데이터 비주얼라이제이션 / 앨리스온 아카데미
2010 도시환경 데이터 / VSMM 2010
2010 프로테이 _ 기름 유출 / 앨리스온 아카데미
2010 데이터비주얼라이제이션 / 앨리스온 아카데미
2009 프로세싱 (processing)/ 홍익대학교 IDAS 디자인 대학원 디자인 혁신 센터
2008 멀티미디어 디자인 / 계원조형예술학교 임베디드 소프트웨어과
2008 프로세싱 (processing) : 아티스트를 위한 컴퓨터 언어의 이해 중앙대학교
2007-08 프로세싱 (processing) : 아티스트를 위한 컴퓨터 언어의 이해 I, II / 아트센터 나비
2007 멀티미디어 디자인 / 경희대학교 멀티미디어 디자인학과
*selected talks
2021 “기술과 예술 융합주간” 기조연설, 문화예술위원회
2019 “데이터와 창작하는 기계환경” 서울라이트, DDP
2019 “Paradox: Frames and Biases in Art and AI” Carnegie Mellon University, USA
2018 “인공지능시대의 예술과 디자인" K-Art Conversation, KIAFF
2017 “데이터, 시각화, 학습하는 기계환경" 어도비 맥스, 코리아
2017 “2017 “데이터, 시각화, 그리고 학습하는 기계환경" IBM Korea
2017 데이터, 시각화, 그리고 인공지능, 도시데이터 사이언스 연구소
2017 미래 건축, 도시 건축 국제 비엔날레
2016 “Visualizing data for the new age“ ,Data for Life conference, 자카르타,
인도네시아
2015 “Data Arts “ 토탈 뮤지움, 서울
2014 “Visualizing data for the new age “ 하이데라바드, TEDx, 인디아
2012 “DATA, think and act “ Quantities Self, 베이징
2012 “DATA, 인식과 변화 “ 시멘틱 웹 컨퍼런스, 서울
2012 “DATA, 인식과 변화 “ 융복합 컨퍼런스, 서울, Seoul
2012 “DATA, visual and physical “ TEDGlobal 2012, 에딘버러, 영국
2011 영 리더스 포럼, ICISTS-KAIST 2011, KAIST, 한국
2011 “DATA : a powerful instrument for our awareness”

TECH PLUS, the Korea Institute for Advancement of Technology, Korea
2011 “DATA : a powerful instrument for our awareness”, xMediaLab, 시드니
2011 “DATA : a powerful instrument for our awareness”, TED 2011
2010 프로테이_기름 유출 / 카이스트 해양시스템공학과
2010 프로테이_기름 유출 / 한국 예술 종합 학
2009 "Data Visualization for sustainable behavior", 센서블시티랩, MIT
2009 "Data and Life", 리프트아시아, 제주
2008 " from DATA to DATA : shareness in media art" , CC코리아, 서울

ADDITIONAL EXPERIENCE
2016 CT 매거진 자문 위원, 한국콘텐츠 진흥원 (KOCCA)
2014 국가정책 R&D 위원, 문화체육관광부
2012 지역문화발굴 사업 멘토, 서울문화포럼
2011 XmediaLab 워크샵 멘토, 시드니
2011 살기좋은도시 정책 위원, 한국산업기술진흥원
2011 청년희망 멘토, 노동고용부

전시 및 프로젝트

2021 ~ 현재 현대자동차 제로원센터 입주작가, 서울, 한국
2019 ~ 현재 “climate change impact filter”, 구글 art & culture 프로젝트, 런던, 영국
2018 “Overfitted Society” NuerIPS 2018 machine learning for design and creativity workshop exhibition
2018 <모두의 인공지능, A.I, entirely on us> 데이터 시각화, 웹기반 작품, SeMA 비엔날레 미디어시티서울 2018 커미션
2017 “What if machines can see music....?” NIPS creativity workshop online exhibition, NIPS 2017, Long Beach, CA AI가 이해하는 음악을 시각화, NIPS 전시
2016 “Optical data and the subjective values”, TechArt Exhibition at Data for Life 2016, 자카르타, 인도네시아
2015 “몰입형 가상공간에서 사용하는 데이터 주도형 3D 마인드맵”, 에트리, 한국
2014 “도시데이터, 서울시 재정정보 시각화”, 국립현대 미술관, 한국
2014 “도시 데이터, 서울시 재정정보 시각화”, 성남 아트 센터, 한국
2013 사운드 시각화 프로젝트, Planet Shiver 콜라보레이션, 아메바후드 콘서트, 한국
2013 “poungru(風樓)-풍루”, 제주, 한국
2012 “intel SNS data visualization”, intel USA, 미국 및 유럽
2012 “informally formal, formally informal”,서울역사 박물관, 한국
2012 “Mobile traffic data visualization” 여수 엑스포, 한국
2011 “DATA Currency”, SKTelecom, 한국
2011 “DATA Currency”, 광주 디자인 비엔날레, 한국
2011 “이웃 효과", 갤러리 팩토리, 한국
2010 "redefined city" 군산 아티스트 레지던시, 한국
2010 "Protei_Oil Spill" at "Blur" exhibition at INDAF, 인천, 한국
2009 "transcend perspective" 디자인 페스티벌, COEX, 한국
2009 "form follows function, emotion follows form" , 리빙 디자인, 서울 아트 센터, 한국
2009 "the Gender Ratio" VDAS 클럽 나이트, 클럽 에덴, 한국
2008 "nowThen.crowded? 헤이리 판 페스티벌, 한국
2008 "nowThen.crowded?" at "Bonding Company" 리프트 아시아 08, 제주, 한국
2008 "intoxication" and "fallen flower" at "Le Voyageur for Jacqueline"

정재형 콘서트, 한국

2008 "classically digitized spot : Guang Yang" , 양 한국 음악 축제, 한국
2008 "21c palace" , "Luxury, Palace" 서울 리빙 아트 페어, 한국
2007 인터랙티브 사운드 비주얼라이제이션, "Smooch, Smooch :

첫눈에 반한 미디어 아트" 네마프, 한국

2007 미디어 아트 쇼, t "Media : at the first sight" 연세대학교, 한국
2007 인터랙티브 미디어 아트 VJing , P.Art.y, 아트센터 나비, 한국
2005 "awake", 3D 인터랙티브 미디어, 프랫 쇼,, 뉴욕, 미국

간행물

2016~17 “창작의 영역에서 만난 인공지능” , 연재 기사, TECHM
2015 “data visualization design and the art of depicting reality”, MOMA 블로그

강연요약

커뮤니케이션과 데이터 비주얼라이징
 2000년대 중반부터 데이터 비주얼라이징 작업을 시작했습니다. 학부 전공은 커뮤니케이션 디자인으로, 커뮤니케이션적으로 디자인을 어떻게 할 것인지에 대해 공부했습니다. 프로그래밍에 대한 지식은 없었지만 데이터 비주얼라이징도 일반적인 미디어 작업이 아니라 대중들에게 무언가를 이야기하고 싶어하는 작업이라는 점에서 커뮤니케이션과의 공통점을 찾을 수 있었는데, 이러한 점에서 데이터 시각화 작업에도 target consumer에 대한 고민이 필요하다고 생각합니다.
 
Randomwalks
2008년부터 randomwalks라는 data visualization studio를 시작했습니다. 7명 정도가 모인 커뮤니티에서 ‘데이터는 무엇인가, 어떻게 시각화할수 있을 것인가’ 등을 공부하면서 시작되었고, 올해부터 ‘project randomwalks’ 라는 프로젝트성 작업도 함께 했습니다. 사운드, 웹, 데이터 아티스트 등으로 구성된 미디어 아티스트 콜렉티브 그룹으로 매년 작업을 진행 중인데, 계속해서 진화하는 기술에 발맞춰 새로운 작업 방식을 가진 사람들과 협업할 수 있는 기회의 장으로서 2021년에는 제로원 레지던시 작가로 선정되기도 하였습니다. 당사 멤버들이 함께 머신러닝 기반 창작 툴 스타트업 Praxis.ai을 최근 오픈하기도 하였습니다.
 
작업을 시작한 계기
 MIT media lab 소속 the aesthetics + computation group의 프로젝트로 ‘Processing’이라는 프로그램이 탄생했는데, 대학원 생활 중 참석한 Processing 워크샵과  ‘Maeda&Media’라는 그래픽 디자인 책을 통해 computational design에 관심을 갖게 되었습니다. DARFUR 유혈사태에 대해 ‘for statement’ 하나로 얼마나 많은 사람들이 죽었는지를 보여준 작업은 Computational design의 가장 좋은 레퍼런스입니다. 기술 하나만으로도 내용을 전달할 수 있다는 것을 알려준 레퍼런스로, 프로그래밍 환경에서 메세지를 가장 잘 전달한 케이스입니다. Computational design에서 기술에 함몰되지 않기 위해 ‘내가 하고자 하는 방향에 이 기술이 얼마나 잘 부합하는가’를 판단해보는 것이 중요할 것이라 생각합니다.
 
데이터 시각화
시각화가 주는 가장 재미있는 부분은 스스로 가진 배경지식에 따라 그를 이해하는 방식이 다르며 경험도 달라지는 것입니다. 예를 들어 Hirosh Koi 의 metrogram 을 볼 때 만약 그래픽을 전공한다면 비주얼 작업 자체서 느껴지는 속도감에 매력을 느낄 것이지만 그렇지 않은 사람은 지하철 노선의 효율성을 떠올릴 수 있을 것입니다.
 Aaron Koblin의 작업 중 flight pattern은 비행기의 비행 노선을 시각화함으로써, 지도가 물리적으로 존재하지 않은 하늘에도 지도가 있음을 보여주는 의미 있는 작업이었는데, 이처럼 데이터가 우리 주변에 항상 존재하며 이를 증명하는 것이 시각화의 매력이라고 생각합니다.
 데이터 비주얼 작업을 하는 작가, 혹은 연구자들은 여전히 같은 직군에 있으나,  아쉬운 점은 백인 남성이 그 분야에서 절대 다수를 차지하고 있다는 점입니다. 또 메시지를 전달하는 입장에서 메시지의 소비자가 단순히 ‘흥미’를 느끼고 끝나는 것에 아쉬움을 느끼는데요, 때문에 만들어진 창작물이 사회의 변화까지 연결되는데 딜레이가 발생하면서 문화 컨텐츠로 변화를 이끄는 것은 어렵다는 것을 알게 되었습니다.
  최근에는 머신러닝 기술의 발전으로 함께 태동하는 ML Feature Visualization 작업을 통해서 네트워크 안에서 모델이 무엇을 어떻게 학습하는가를 시각화하는 작업에 매력을 크게 느끼고 있습니다. 머신러닝에서 자주 쓰는 시각화 알고리즘은 특징을 뽑아내고, 그것을 기반으로 차원을 축소하는 것을 시각적으로 보여주는 것인데, 비주얼 아티스트의 입장에서는 스스로 만들려는 의지로 작품을 만드는 것이 아닌 데이터를 기반으로 형태가 생성되는, 사람이 컨트롤하지 못 한 채로 만들어진 형태에서 아름다움을 느낍니다.
 예를 들어, open AI에서 퍼블리싱된 ‘microscope’ 프로젝트는 이미지 인식 모델에서 각각의 뉴런들이 어떤 정보를 찾고 집중하는지를 보여주는 대표적인 온라인 툴입니다. 이는 연구 분야로써뿐 아니라 비주얼적인 아름다움도 느낄 수 있는 경험이었는데, 개인의 의도가 있다면 편향을 배제하기 위해서 반복되는 행동, 편향을 찾기 쉬울 것입니다. 그러나 그렇지 못한, 습관과 같은 반복적인 행동으로부터 하나의 feature를 발견되어 이에 기반한 결과물을 만드는 과정에서 ML Visualization이 주는 매력이 분명히 있다고 생각합니다.
 이와 같이 데이터 시각화 자체에 관심이 있다면, inceptionism을 쓴 작가들이 현재까지 하고 있는 프로젝트를 한번 보는 것을 추천합니다. 작가들이 진행하는 프로젝트들 모두 공통적으로 웹 기반으로 사람들이 어떻게 이해하는지를 보여주지만, 그것이 가진 한계는 기술에 대한 이해도가 없다면 시작조차 힘든 것입니다
 
프로듀스 101의 분류적 특성을 이용한 우리 자신들의 분류
 이전에 아이돌 오디션 프로그램인 프로듀스 101의 참가자의 얼굴과 등급을 이용하여, 사용자는 과연 무슨 등급을 받을 수 있는지 볼 수 있는 머신러닝 기반의 창작 프로젝트를 진행한 적이 있는데, 제가 이 시스템을 가지고 제일 처음 한 것은 오디션 프로그램 참가자들의 얼굴을 등급 별로 학습시킨 후에 나는 몇 등급의 사람인지 보는 것이었습니다. 이 프로젝트는 어떻게 이 사회 자체가 over-fitted 되어 있는지를 설명하기 위해 진행했고, 이 작업은 웹 버전으로도 만들어서 neurips에서 artwork도 전시했습니다. 이것을 통해 제가 말하고 싶었던 것은, ai가 창작하시는 분들 입장에서 새로운 아이디어를 주는 것은 맞지만 우리가 101을 등급화했던 것처럼 제한적 데이터만으로 학습된 ai는 다양성을 수용할 수 없다는 것입니다.
 
데이터와 인공지능을 활용한 창작
 현재 머신러닝을 활용한 창작은 두 가지가 있는데, 데이터 기반 창작과 생성모델 기반 창작입니다. 이러한 방식들의 문제점은, 기술에 기대어 창작을 하기 때문에 누가 작품을 만들든 똑같은 작품이 나온다는 점이고, 발전하는 기술을 트래킹하는 자체도 어렵다는 것입니다. 이런 방법 외에 feature visualization을 활용한 창작도 생소하지만 재미있는 분야입니다. 이는 Neural network가  학습하는 low level과 high level에서의 정보를 시각화하는 것입니다. 그리고 ai 기술이 가져온 창작의 변화는 기계 해석 (데이터의 유사성)으로 만들어지는 형태입니다. MNIST 데이터의 clustering 이나 구글의 t-SNE map, 그 외에도 IDEO의 fontMap, Pentagram 사의 Covariant 로고가 대표적인 예시입니다.
 
생성모델을 활용한 이미지 생성
 생성 모델을 활용한 이미지 생성은 생성 모델을 활용하여 특징들 간의 전이를 만들어내는 시각 작업들을 의미합니다. 대표적인 예시로 DCGAN을 활용한 Mike Tyka의 작품, mario klingomann의 Memories of Passersby, 알고리즘을 이용한 패션쇼인 Camoflage project 등이 있습니다.
 <Memories of Passersby I, Mario Klingemann>은 카메라가 사람의 얼굴 특성을 기억하게하는 작품으로 새로운 관람객이 오면 기존 학습된 것에 새로운 관람객의 얼굴 특성을 더해 새로운 얼굴을 만들어줍니다. 해당 작품은 우리나라에서 8개월 정도 설치했으며, 작품을 만드는 과정에서 카메라에 가장 많이 노출된 작가의 얼굴이 초창기에는 베이스가 되었습니다. 그런데 이후 시간이 흐르니 우리나라 사람들이 많이 노출되어, 어떤 사람이 와도 우리나라 사람들의 얼굴 형태와 유사한 형태의 얼굴이 많이 도출되기도 했습니다.
 <Entangled II, Scott Eaton>은 맑은 물에 잉크가 퍼지는 것 대신 신체가 텍스쳐로 입혀진 작품으로, 생성모델을 활용하여 이 작품을 만들기 위해서 작가는 신체에 관한 사진을 촬영과 물이 떨어지는 형태 사진을 다 직접 찍어서 데이터를 수집하였다는 점에서 의의가 있습니다.
 국내 작업으로는 <서울라이트 2019>가 있는데, 가장 대표적인 대중적인 컨텐츠 중 하나로, 우리나라의 DDP에서 AI를 기반하여 작업한 빔프로젝트 컨텐츠입니다. 다만 처음에는 신선하나 2번째 볼 때는 상대적으로 비슷해 보이는 것에서 아쉬움이 남는 작업이었습니다.
 
기술이 아닌 내용
<Google Arts & Culture Art Filter>에서는 칸딘스키 전시를 현장, AR, VR, 브라우저에는 머신러닝으로 제작된 음악으로써 다양하게 표현하여, 여러방면에서 칸딘스키와 관련된 내용을 즐길 수 있게 했습니다. 기존에 얼굴을 변환시키는 컨텐츠는 한번하면 이후 쉽게 질려 상대적으로 수명이 짧은 컨텐츠였으나, Google Arts에서는 광고 이해를 통한 미술교육 중 하나로 사용자 얼굴을 광고에 활용하였고, 그 결과 사용자가 흥미를 느낌과 동시에 미술에 대한 이해가 증가하였습니다. <Climate Change Impact Filter>은 72종의 샘물이 기온이 올라갈 때 얼마나 사라지는지 웹 기반 시각화한 작업으로, 머신러닝이 들어간 부분은 수집한 이미지를 처리하는 과정에서만 담겨, 원하는 내용을 위해 머신러닝을 하나의 도구로써 사용한 작품입니다. 마지막으로 <Gringgo Tech>는 쓰레기를 없애기 위한 인도네시아 스타트업으로 모바일 앱을 만들어서 어떻게 쓰레기를 잘 버릴게 할지에 대한 고민을 전달한 광고작업입니다. 해당 광고에서는 인간이 쓰레기라는 개념을 만들어내고, 문제를 해결하기위해 기존과 캠패인들과 달리 쓰레기를 수거해가는 사람들을 지원해야하는 시스템을 필요하다고 말하는 매력적인 부분이 있습니다. 그리고 이 과정에서 내가 픽업하는 쓰레기가 가치가 얼마인지를 확실히 알려주기 위해 머신러닝을 이용하고 있습니다.
 
Creative data
 GAN을 이용하여 이미지를 생성하는 것뿐만아니라 데이터를 직접찍고 보여주는 등 결과물이 만들어지는 과정을 시각화하여 이를 통해 관람객이 해당 작품을 더 잘 감상할 수 있게 합니다.
<NVIDA smartBrush with gauGAN>은 데이터 분할하는 과정을 재밌게 표현하였는데, 이와 같이 결과 뿐만 아니라 데이터를 어떻게 모을지, 어떻게 학습시킬지에 대해서 단순한 augmentation이 아닌 창의적인 방법들을 제고해야 함을 느낄 수 있는 작업입니다.
 2021년 1월 OpenAI에서 공개한 <DALL-E>는 텍스트에서 이미지를 생성할 수 있는 머신러닝 프로그램인데, 이와 같은 머신러닝 시스템인 디자이너들이 썸네일과 같은 창작물을 만드는데 있어 어시스턴트 역할을 해줄 수 있는 영역이 충분하다고 보입니다.          
 
어디서부터 시작할 수 있을까
기존 인공지능 창작 툴의 경우, 대다수의 사람들은 진입장벽이 너무 높고 용어가 익숙하지 않아서 접근성이 떨어지는 현실입니다. 구글 아트&컬쳐에서 제공하는 Teachable Machine은 모델 트레이닝을 시킬 수 있고 트레이닝 된 모델을 스크립트 형태로 뽑을 수 있기 때문에 데이터를 생성해 내어 분류 모델을 만들어서 브라우저에서 사용할 수 있는 반면, 기술에 대한 설명이 부족하며 창작 환경과의 연계는 스스로 해야한다는 단점이 있습니다. 최근 많이 쓰이는 runwayML은 AI에 기반한 창작관련 알고리즘을 클라우드 서비스로 제공하지만, 특별한 교육 프로그램이 없기 때문에 AI 사전지식이 필요하면 진입장벽이 높다는 단점이 있습니다. 결국 최소한의 머신러닝 관련 기본 지식은 있어야 하는 것입니다.
 랜덤웍스에서 제작한 Praxis.ai는 runwayML보다는 더 쉬우며, 창작자들에게 코딩없이 GUI 기반으로 사람들이 데이터를 수집하고 데이터의 특징을 추출하여 visualization 할 수 있는 툴입니다. 창작자가 기존 툴을 사용하면서 어려웠던 점은 직접 데이터를 수집하여 전처리 과정을 거쳐야 하고, ML모델을 이해해서 모델도 직접 선택을 해야 하는데 기술적인 이해가 수반되지 않았기 때문에 결과물에 대한 확신을 가지지 못했다는 단점이 있었습니다. Praxis.ai는 ai 관련 지식이 없는 일반인도 현업에서 AI와 데이터활용을 배우고 프로토타입에 적용할 수 있을 것으로 기대합니다.
 
질의응답
  • Ques) 다양한 분야에서 사용가능하다고 하셨는데 저작도구에서 사용할 수 있다고 말씀하셨습니다.  하지만, 예를들어 포토샵이나 일러스트의 블랜딩 옵션과 같은 기능은 단일한 함수로 적용되지만, AI 방식을 쓰면 단일한 함수가 아니라 계속 바뀌는 함수가 될 것입니다. 만약 툴을 오픈한다면 기능의 어느 부분까지 설명해주는 것이 좋을까요?
  • Ans) 타겟으로 하는 사용자는 기술자가 아니라 일반인을 대상으로 하기 때문에, 기술 자체를 설명해주는 것 보다 사용 방법을 설명해주는 것이 나을 것이에요. 아무런 관련 지식이 없다면, 단어 레벨부터 관련 지식까지 많은 지식을 설명해야 할 것입니다. 따라서 정보전달의 수준을 일반적인 상식의 수준으로 내리는 것을 목표로 합니다.
 
  • Ques) 딥러닝을 이용한 창작활동과 마찬가지로, 교육 목적을 가진 프로그램을 제작할 생각을 하고 계신가요?
  • Ans) 가까운 미래에는 지식을 글로써 배우는 것이 아니라 소프트웨어를 통해서 배우게 될 것 입니다. 곡선을 그려봄으로써 sin, cos함수를 이해하는 것과 같이, 창작하는 것과 지식의 학습이 동시에 일어날 것이에요. 아직은 실험적으로 많은 시도를 해봄으로써 가장 적합한 방법이 무엇인지 찾아보고 있는 과정입니다.
 
  • Ques) 현재 많은 툴들이 생겨나고 일반인들도 사용하기 쉬워지고 있습니다. 따라서 사용자들이 쉬운 툴들을 활용해서 많은 것을 만들 수 있는데요, 사용자들의 능력이 툴을 활용하는 것에 머물러 있을 것으로 예상하시나요, 혹은 툴을 넘어서 더 새로운 것을 만드는 방향으로 갈까요? 또한 툴을 제공함으로써 사회적으로 어떤 도움이 될 것이라고 생각하시나요?
  • Ans) 프로그래밍을 전공하지 않은 디자이너들이 프로그래밍으로 작품활동 하기를 요구받는 경우가 생기고 있어요. 하지만 기술이 고도화됨에 따라 비전공자가 어려운 지식을 이해하는 것은 점점 어려워지고 있는데, 이에 따라 비전공자들이 뒤쳐진다는 느낌을 받는 경우가 생기고 있습니다. Praxis.ai 툴을 통해 기술에 대한 기초지식을 설명하고 활용할 수 있게 함으로써, 비전공자들이 기술에 관심을 가질 수 있게 하고 더 나아가 더 나은 툴을 만들 수 있을 것으로 예상합니다.
 
  • Ques) 쉽게 기술을 사용하게 된다면 사회적으로 좋지 않은 방향으로 툴을 사용하게 될 수도 있습니다. 이것에 대한 장치가 있나요?
  • Ans) 기술 그 자체보다 개발된 기술을 불특정 다수에게 사용할 수 있게 하는 것이 더 책임감이 드는 문제입니다. 아직 특별한 고려를 해보지 않았지만, 기술을 가르치는 단계에서 공정하게 기술을 쓰는 방법 및 윤리적 교육이 필요할 것 같습니다.
 
  • Ques) 제 친구들 중에서 영상작업이나 조각과 같은 예술을 전공하면서 미디어 아트에 관심을 가지게 되는 친구들이 생기고 있습니다. 하지만 코딩을 해본적이 없고 새롭게 시도하는 것을 두려하는데요. 네트워크를 직접 디자인 해주는 툴이 나오지 않을까 기대하고 있습니다. 교수님 생각은 이렇게 좋은 툴이 나오길 기다리는 것이 좋을까요, 혹은 코딩 지식을 배우는 것이 나을까요?
  • Ans) 제 개인적인 생각에는 대작이 나오려면 바닥부터 이해를 해야한다고 생각해요. 간단하게 생각하는 것이 아니라 기술을 즐겁게 경험하고자 하는 거라면 즐겁게 한번 사용해보는 것이 좋을 것 같아요. 만약 대작을 하고자 한다면 바닥부터 이해하는 고행길을 걸을 필요가 있겠죠.  

 
[GSCT 콜로키움] 3.23 (화) | 이대원 (중앙대학교 예술공학대학 교수)
일시 : 2021. 3. 23. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : From Complex Networks to Digital Human
연사 : 이대원 (중앙대학교 예술공학대학 교수)


 

학력

-     한국과학기술원(KAIST) 바이오 및 뇌공학 시스템 생물학 석박사 통합과정 졸업 (2018)

-     중앙대학교 컴퓨터공학(생명과학 부전공) 학사 졸업 (2008)

-     서울고등학교 졸업 (2003)


경력

-      중앙대학교 예술공학대학 컴퓨터예술학부 조교수 (2020.03-Present)

-      ETRI부설 국가보안기술연구소 연구원 (2018.05-2020.02)

-      한국과학기술원 정보전자연구소 박사후연구원 (2018.03-2018.05)


강연요약

-         KAIST에서의 연구 소개
 
중앙대학교에서 컴퓨터 공학을 전공, 생명과학을 부전공했습니다. 그래서 학부 때 컴퓨터와 생물학을 전공을 했는데 졸업할 즈음 돼서 어떤 일을 할 수 있을까 고민을 하다가 두 분야를 융합하고자 하는 생각이 들었고, 그 중 생명 시스템, 세포를 모델링하는 시스템 생물학이라는 분야에 관심이 생겨 카이스트의 시스템생물학 연구실에 들어오게 되었습니다.
 
제가 카이스트에서 했던 연구를 간략하게 소개 드리자면 박사 과정 4년 동안은 Multi-scale modeling을 연구했는데 이는 우리 몸 속의 세포 내의 회로와 같은, 실제 전자회로처럼 동작하는 회로의 동작에 따라 세포가 움직이거나 살고 죽는데, 이것을 multi-scale로 시뮬레이션하는 연구를 진행했습니다. 이후 지도 교수님께서 굉장히 어려운, 도전적인 주제를 주시는데, 세포 내의 생체 회로 혹은 signaling network라고 부르는 이 신호 회로에 의해 세포의 운명이 결정되는데 이러한 회로의 동작 방식을 네트워크의 구조 정보만을 이용해서 예측해 보아라는 문제였습니다. 오늘 발표에서는 2018년도에 출판된 이 논문에 대해서 소개를 해드리려고 합니다.
 
우리나라 사망률 1위인 암 같은 질병이 주로 signaling pathway, Signal Transduction Pathway에 있는 특정한 단백질에 이상이 생겨서 발생하는 경우들이 많습니다. 즉 세포 내의 생체 회로가 고장이 나는 것입니다. 예를 들면, 신호가 전달되어서는 안되는데 돌연변이가 발생한 단백질에 의해 회로가 오작동하는 현상이 있을 수 있고, 이러한 단백질의 돌연변이로 인해 신호가 엉망으로 퍼져나갈 수 있는 것입니다. 이런 signal pathway가 굉장히 복잡하게 얽혀 있기에 이를 signaling network라고 부르고, 복잡계 네트워크 분야에서 다루는 작은 subject 중 하나입니다. Visualization한 결과만 보아도 굉장히 복잡하다는 것을 확인할 수 있는데, 사람이 쉽게 눈으로 분석을 하거나 일일이 나열을 해서 분석 하는 방식이 굉장히 어렵습니다. 그래서 formulation된 문제는 다음과 같습니다. 목적은 어떠한 Mathematical model 혹은 알고리즘을 개발하는 것이고 이 과정에서 experimental data(training data)를 사용하지 않고 네트워크의 구조(topology)만을 이용하라는 것입니다.
 
보통 Biochemical reaction, 생체 내에서 일어나는 수많은 반응들을 네트워크 형식으로 표현을 합니다. 저는 네트워크의 mathematical model을 수많은 실험들을 거쳐서 간단한 선형 차분 방정식으로 표현하기로 결정하였습니다. 문제는 선형 차분 방정식의 weight matrix를 어떻게 결정할 것이냐였습니다. 일반적으로는 실험 데이터를 이용해 weight를 fitting하는 방식을 취하겠지만 제 경우에는 network의 topology만을 이용해야 하기 때문에 data에 기반한 estimation을 할 수 가 없었고, 그래서 Link weight normalization 기법을 활용해 진행하였습니다. Public data를 이용해 실험을 진행하였고 이렇게 개발한 수식을 어떻게 평가할 것인가를 고민하다 결국에는 연구에 큰 제약을 가지고 진행하기 때문에 단순한 평가 방식을 취하자, 어떤 단백질이 활성화/불활성화 되었는지에 대한 방향성을 추정하는 식으로 제약을 가했습니다.
 
이 과정에서 일반적으로 활용하는 네트워크 시각화 도구가 불만족스러운 부분이 있어, Signal Flow Visualization을 하는 시각화 프로그램을 직접 만들었습니다. 시각적으로 보기 불편한, 예를 들면 화살표끼리 겹친 부분이 투명도가 다르게 보이는 등의 부분이 없도록 만들었고, 시각화 프로그램은 GUI for curating graphics of network, Dynamic execution of source code in Python, Interactive programming (REPL) for modifying network으로 구성하였습니다. 네트워크 토폴로지만을 이용했는데, overall accuracy가 0.6~0.8 사이로 나오는 고무적인 결과를 얻게 되었고, 그 중 Randomized structure를 적용했을 때는 예측력이 거의 없는, 0.5에 가까운 수치가 나왔고 hyperparameter를 바꿨을 때는 큰 변화가 없었습니다. 반면 개별적인 experimental result를 확인해보았더니 제대로 perturbation 되지 않은 부분이 상당히 많았습니다. 이를 수정하기 위해서, 기존의 모델에서 신호가 거의 흐르지 않는 링크를 지우고, 일부 다른 링크는 증폭시키는 과정을 거쳤으며 그 결과 이 연구는 Faculty of 1000 Prime(생명과학 분야의 전문가들이 선정하는 좋은 연구)에 선정되었습니다.
 
2016년 KAIST에 Demis Hassabis가 와서 알파고에 대해 강연을 한 적이 있었는데, 이 강연을 계기로 딥러닝을 공부하기 시작했습니다. Vanishing Gradient Problem을 풀 때, Sigmoid 함수를 사용할 때 기울기가 0에 가까워지면서 saturation되므로 back propagation을 하는 데에 문제가 있었고 그에 따라 예측력도 떨어졌는데, Nonlinear 모델을 사용하려고 했으나 예측력이 linear 모델만큼 나오지 않아서 linear 모델을 사용할 수 밖에 없었습니다.
 
-         중앙대학교에서의 연구 소개
 
(발표 영상 재생 후) 중앙대학교에서 자체적으로 개발한 AI 기반 디지털 휴먼의 지능화 모델 ‘SAY’ 에대해서 설명하였습니다. 이는 학부 1,2 학년 학생들과 함께 했었던 프로젝트로서 진행하였습니다. 3D human 스캐너를 통해 실제 학생의 모습을 모델링 하였고 후처리를 통해 실사에 가까운 모델을 뽑을 수 있었습니다. 특히 실시간 상호작용을 위하여 UNREAL 엔진을 이용하여 제작하였습니다. 실제 사용되는 음성과 3D 캐릭터 모델을 매칭 시켜주기 위해서 관련 연구 내용을 소개했습니다.  그 중 하나는 Max Plank Institute에서 발표했었던 Voice Operated Chracter Animation (VOCA)이고, 이는 간단한 네트워크 아키텍처를 가진 딥러닝 모델을 활용하여 음성신호와 캐릭터 표정 애니메이션과 매칭시켜주었습니다.
 고려대학교의 이성환 교수님 연구실에서 나온 Uncertainty-Aware Mesh Decoder for High Fidelity 3D Face Reconstruction 논문은 2D 이미지에서 3D 모델링과 이를 위한 텍스쳐 파일을 함께 생성해주는 딥러닝 연구입니다. 3D 모델링을 추출할 때에 Graph Neural Network(GNN)를 활용하여 생성했다는 점이 특징적인 논문임을 설명하였습니다. 위 논문 외 현재 많은 논문에서 이 GNN 방식을 사용하고 있음을 다른 논문들과 함께 설명하였습니다.
따라서 추후 계획으로 지금까지 진행해온 연구들이 앞서 언급한 Facial Representation에 관련된 그래픽 연구였기 때문에 GNN을 활용하는 관점으로 재해석이 가능할 것으로 보여서 이 방향으로 연구가 진행될 것임을 알려주셨습니다. 여기서 중요한 포인트는 복잡계 네트워크, Facial Representation등 기존에 해오던 연구들이 하나의 Framework로 모아질 수 있다는 것에서 연관성이 없어 보이는 연구들이 이후에 하나로 통합되어 새로운 연구로 나아갈 수 있음을 이야기했습니다.
 
-         질의 응답
 
Q. 복잡계 네트워크와 심층 신경망, 디지털 휴먼 등 다양한 연구 분야에서 연구를 진행하며, 이 분야들 사이에서 어떻게 연결 지점을 찾으셨나요?
 
  1. 연구 분야는 바뀌었지만, 사용하는 수식이나 언어가 비슷하여 여기에서 연결 지점을 찾았었습니다. 복잡계 네트워크에서 사용하던 언어나 수학적 표현, 개념 및 기법들이 딥러닝에서 많이 사용되고 있기 때문에, 딥러닝을 접했을 때에 그것이 아주 낯설지 않았습니다. 주제는 달랐지만, 사용 언어를 공유하기 때문에 빨리 적응하는 것이 가능했고, 디지털 휴먼의 경우도, 새롭게 다루어야하는 모델에 대해 자료 구조를 이해한 후에는 기존에 사용하던 방법론들을 적용하는 것이 가능했기 때문에 크게 어려움을 겪지 않았습니다. 이 분야들이 겉으로는 이질적으로 보이지만 뒷받침되는 수학적 혹은 기술적 개념들이 비슷하기 때문에, 기본기가 탄탄하게 자리잡혀있으면 금새 적응할 수 있는 듯 합니다.
 
 
Q. 향후에는 어떤 연구를 진행할 계획이신가요?
 
  1. 디지털 휴먼 프로젝트에서 모든 pipeline을 딥러닝 기술로 교체해보고자 하는 계획이 있습니다. 기존에 게임 엔진 상에서 시각화하는 부분은 3D 모델을 직접 언리얼 게임 엔진으로 가져와서 시각화하는 방식을 사용했었는데, 향후에는 2D와 3D 시각화를 하는 전 과정을 딥러닝 기법을 적용하여 구현해보고자 하고 있습니다. 단기적으로는 2D부터 접근하여, 텍스트부터 스피치 시그널, facial expression 등이 실시간으로 합성될 수 있는 pipeline을 개발하는 것을 목표로 하고 있고, 당장 모든 pipeline을 개발하는 것은 불가능하기 때문에 speech signal을 facial expression으로 변환하는 것부터 순차적으로 시도하는 중입니다. 이 외에도 steganography와 steganalysis 연구도 계속 진행하고 있습니다.
 
Q. 대학원생과 연구원, 그리고 현재는 교수로서 연구를 진행하며, 다양한 연구 환경들을 경험해오셨는데 각각의 환경을 어떻게 다르게 느끼셨나요?
 
  1. 석박사과정 중에는 교수님의 지도를 따라 연구를 수행하는 것이 일차적 목표였고, 교수님의 기대에 부응하여 연구 결과를 만들어야했기 때문에 압박감과 부담감을 많이 느꼈었습니다. 그리고 연구소의 경우, 분야의 전문가들이 모두 모여있는 곳이기에 동료들로부터 많이 배우고 자극을 받아, 개인적으로 많이 성장할 수 있었던 환경이었던 것 같습니다. 이 곳에서는 연구 뿐만이 아니라 삶을 운영하는 방식이나 살아가는 자세 역시 많이 배웠었습니다. 현재는 학교로 돌아와 직접 연구 책임자가 되니, 자유롭게 내가 하고 싶은 연구를 할 수 있다는 장점이 생겼으나, 한편으로 직접 연구를 하기보다는 선수가 아닌 감독으로서 학생들에게 디렉션을 줘야하는 위치에 서야하기 때문에, 이러한 부분에서 제 역할을 재정립하고, 이를 어떻게 수행할지를 고민하는 중에 있습니다.
 
Q. 디지털 휴먼 프로젝트는 어떠한 비전을 가지고 진행하시는지 궁금합니다.
 
  1. 디지털 휴먼 프로젝트는 개인적으로 연구하는 주제라기보다는 학과 차원에서 진행하는 주제이고, 굉장히 장기적인 관점에서 진행되고 있습니다. 장기적으로는 노년층을 고려해서 치매환자들을 도와줄 수 있는 디지털 휴먼을 만드는 것이 목표이고, 또한 치매 치료제를 개발하는 제약회사들과 협력하여 다양한 일들을 진행하고자 계획하고 있습니다.
 

* 4:00-5:00pm 연사 강연, 5:00-5:30pm Q&A 및 자유토론 (Mandatory)

* CT세미나에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.

* 콜로퀴움의 강연들은 대부분 한국어로 진행될 예정입니다.


 
[GSCT 콜로키움] 3.16 (화) | 김종욱 (OpenAI)
일시 : 2021. 3. 16. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : Web-Scale Multimodal Deep Learning
연사 : 김종욱 (OpenAI)




학력:
- Ph.D. in Music Technology, New York University, New York, NY (2019)
- M.S. in Computer Science and Engineering, University of Michigan, Ann Arbor, MI (2011)
- B.S. in Electrical Engineering with Minor in Mathematical Sciences, KAIST, Daejeon, Korea (2009)
 
경력:
- Member of Technical Staff in OpenAI LP (2019-Present)
- Research Scientist Intern in Spotify USA, Inc. (2018)
- Research Scientist Intern in Pandora Media, Inc. (2017)
- Recommender System Engineer & Data Scientist in Kakao Corporation (2014-2015)
- Software Engineer in NCSOFT Corporation (2011, 2012-2014)
 
강연 소개:
인공지능과 딥 러닝 기술이 거의 모든 분야의 연구에 파고들고 있다는 이야기는 이제 식상한 시대가 되었고, 이미지넷 분류 모델의 성능이 사람을 앞선 것이 화제가 된 것도 5년이 넘게 지난 일이 되었습니다. 그러면서도 다양한 분야에서 인간과 동등한 수준의 지적 능력을 가지는 인공일반지능(Artificial General Intelligence, AGI)의 등장은 다소 요원하게 느껴집니다. 이 강연에서는 지금까지 딥 러닝 기술이 어떻게 발전해왔는지를 간략히 리뷰하고, 이들 기술의 한계를 극복하기 위한 두 가지 방향을 제시합니다. 특정 데이터셋을 제한적으로 사용하는 것을 넘어 인터넷에서 수집한 대량의 데이터를 사용하는 (Web-Scale) 것과 문서, 영상, 음향 등의 데이터를 활용하는 것 (Multimodal) 두 가지입니다. 이어서 이러한 방향성에 입각하여OpenAI에서 개발된 딥 러닝 모델인 GPT-3, iGPT, MuseNet, JukeBox, CLIP, DALL·E를 소개하고 이들의 활용예와 한계점들에 대해서도 논의합니다.
<강연요약>
 
Toward Web-Sacle and MultiModal Deep Learning
  • Current Status of Deep Learning: Supervised to Self-Supervised
    이미지넷 Competition 통해 딥러닝의 발전을 보면, 이미지 분류라는 주제로 계속해서 발전된 모델을 추구하는 방향성을 확인할 수 있습니다. 딥러닝 이전에는 관련 분야의 전문 지식이 바탕이 된 변수 가공이 중요했다면, 딥러닝의 도입으로 전문 지식의 중요성이 상대적으로 낮아졌습니다. 변수 가공에 대한 세부 사항을 알 필요가 없기 때문에, 딥러닝 모델 사용에 대한 접근성이 높아졌습니다.
    일반적으로 사용하는 Supervised Learning은 늘 데이터셋에 특정 레이블이 필요하게 되었고, 이러한 레이블링은 시간과 비용을 발생하게 됩니다. 이는 Scalable하지 않다는 문제가 발생합니다. 이러한 한계를 극복하기 위해서 데이터들의 관계를 학습하는 Self Supervised Learning의 방법론이 나오게 되었습니다. 이 Self-supervised Learning은 Pre-Training과 Fine Tuning으로 나누어 진행됩니다. Pre-training은 보다 보편적인 모델을 구축하는 과정으로, 많은 양의 데이터로 학습하는 과정입니다. Fine-tuning은 보다 세부적인 목적을 가진 모델을 구축하는 과정으로, 목적에 맞는 데이터로 학습합니다.
    Self-Supervised Learning과 관련해서 다음 아티클(Self-Supervised Learning: dark matter of intelligence?)을 읽어보시면 도움이 될 것 같습니다. (https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/)
     
  • Multi-Modality
    Multimodality란, 다양한 형태의 데이터(Vision, Language, Audio, Video, etc)를 활용하는 방식으로, 시각적 질의응답(visual question answering), audio-visual correspondence 등에 활용할 수 있습니다.
DeepLearning in Open.ai
 
  • GPT-3: Predictive Unsupervised Learning
    Open AI는 Transfomer 기반의 언어모델을 활용하여 GPT-3를 구축합니다. 딥러닝에서 언어모델의 경우, Trillion 이상의 단어를 학습하여, 주어진 언어 토큰에 대해서 다음에 등장할 언어 토큰을 예측합니다.  GPT-3에서의 “Intelligence”는 적은 예시로 관계를 학습하는 Few Shot Learner 라는 점입니다. 우리는 언어를 통해서 풀어야하는 다양한 문제를 마주칩니다. 예를 들면 질문에 대한 답변이나, 아니면 문맥을 이해하는 듯한 문제죠. GPT-3는 언어모델의 파라미터 증가에 따라서, 다양한 언어를 활용한 문제에서 성능이 비약적으로 증가함을 보였습니다.
    GPT3의 응용에는 AI Dungeon와 같은 판타지 세상을 여행하고 자연어를 사용한 인터랙션 등 지능형 서비스를 개발하는 것 또한 포함됩니다. 이 시스템에는 무한한 가능성이 있습니다. 예를 들어 Copy.ai는 인공지능 카피라이터가 고객들에게 카피문구를 만들어주는 서비스이고 OTHERSIDEAI는 이메일 문구을 자동으로 만들어 줍니다. 
 
  • Image GPT
    iGPT는 이미지를 처리하기 위해 이미지를 텍스트와 유사하게 시퀀스로 보고 language model을 이용하여 이미지 픽셀을 처리합니다. 이를 위해 transformer 구조를 활용하였으며, 저해상도 이미지를 입력으로 사용하였습니다. Image generation 실험 결과 50%의 픽셀만을 보여주고 나머지 50%를 생성하도록 하는 task에서 다양한 이미지를 생성하는 흥미로운 결과를 보여줬습니다. 이는 기존의 generative model에서 존재하던 mode collapse 등의 문제가 iGPT에서는 잘 학습되는 것을 의미합니다. 또한 representation learning에서도 더 우수한 성능을 보여, image classification과 같은 task에서도 기존 supervised learning 기반 방법들에 비해 우수한 성능을 보임을 확인할 수 있었습니다.
 
  • MuseNet
    앞서 살펴본 image task가 아닌 music에도 이와 같은 unsupervised 기반 language modeling 방법을 적용할 수 있습니다. Symbolic music은 simplified MIDI notation으로 표현할 수 있는데, 예를 들어 모차르트의 피아노 연주곡을 sequential 한 데이터 형태로 나타낼 수 있습니다. 여기서 notes, duration, pitch들과 같은 가능한 notation을 encode하여 그 조합으로 각각의 words들을 만듭니다. 따라서 MuseNet을 이용하면 베토벤 스타일의 바이올린 소나타나 즉흥 재즈 연주곡 등을 만들어 낼 수 있습니다.
 
  • Jukebox
    MuseNet의 단점 중 하나는 symbolic music 형태의 음악을 다룬다는 것입니다. 이와는 다르게 raw audio에 바로 이러한 기술을 적용하는 것이 더 좋습니다. 하지만 raw audio data를 다루는 것은 고차원의 데이터를 사용하기 때문에 훨씬 어려운 일 입니다. 따라서 Jukebox에서는 raw audio를 입력받거나 출력할때 VQ-VAE를 사용하여 discrete representation 형태로 표현하며, 단계별로 다른 압축 dimension을 사용하여 데이터를 압축합니다. 예를 들어 원본 audio를 각각 top level은 128배 압축, middle level은 32배, bottom level은 8배 압축을 하여 인코딩을 하고 이를 디코딩하여 새롭게 구축된 오디오를 각각 만듭니다. 또한 이를 이용하는 generate 모드에서는 가사를 조건으로하는 compressed된 audio가 생성되고 이를 top level, middle level, bottom level 순으로 upsampling 하며 새로운 음악을 만들 수 있게 됩니다. 결론적으로 이 모델은 장르, 가수, 가사 등을 입력으로 주고 새로운 음악을 생성해 낼 수 있습니다.
 
  • DALL.E
    DALL.E는 자연어 텍스트로부터 이미지를 생성하는 기술로 기본적인 형태는 GPT와 유사합니다. 이 모델을 이용하면 기존보다 우수하고 재밌는 이미지를 생성해낼 수 있습니다. 예를 들어 'an armchair in the shape of an avocado'과 같은 문장을 주고 다양한 이미지를 생성할 수 있습니다. 'a living room with two white armchairs and a painting of the colosseum' 지시사항에 따라 생성된 이미지를 보면 의자의 색깔이나 갯수를 셀 수 있는 등 단어들의 multimodal knowledge를 해석 가능한 것을 알 수 있습니다.  또한 'a store front that has the word OpenAI written on it' 지시 사항에 따라 ‘OpenAI’ 단어를 이용하여 실제에 존재하지 않은 여러 디자인의 간판 이미지를 생성할 수 있습니다. 'the exact same cat on the top as a sketch on the bottom' 문장의 지시사항은 똑같은 고양이 사진을 놓고 아래에는 고양이를 스케치 하란 것인데 재밌는 이미지가 잘 생성됨을 볼 수 있습니다. 이같은 결과물을 통해서 DALL.E 모델이 문장을 해석하고 이미지를 생성하는 능력이 있음을 확인할 수 있습니다.
 
  • CLIP: Contrastive Language-Image Pre-training
    마지막으로 CLIP 은 Generative model은 아니고 contrastive learning 모델입니다. 이 모델은 많은 supervised model 에서 일반적으로 사용하는 fixed set of label을 사용하는 대신에 방대한 양의 자연어 데이터로부터 image와 text의 pair를 학습합니다. image와 text는 각각의 pair들이 있고 여기에서 features들을 추출하여 image와 text의 dot product 값을 최대로 하는 값을 구합니다. batch 상에서 각 행과 열은 multi class classification하고 맞는 cross entropy값을 구합니다. image encoder로 입력 이미지의 특징을 추출하고 단어 label 중에서 text feature을 추출합니다. 이 두 값을 dot product로 계산하고 최대값이 되는 단어 label을 선택합니다. 따라서 다양한 supervision을 학습할 수 있으며 여러 종류의 input data distribution 에 대응이 가능합니다. 결론적으로 CLIP 모델은 Zero-shot inference에 강인한 결과를 보이기 때문에, 이미지넷 데이터 뿐만 아니라 이미지넷과 유사한 여러 다른 데이터셋(ImageNetV2, ImageNetSketch, ObjectNet, ImageNet Vid, etc.)에 대해서도 우수한 성능을 보였습니다. 이는 CLIP 모델이 natural distribution shift에 대해 더 강인하게 학습 된다고 볼 수 있습니다.
 
Future of Multimodal Deep Learning
General한 AI를 학습시키기 위한 전략은 인터넷에서 모을 수 있는 모든 modality의 데이터를 Self-supervised 방식으로 학습시키는 것입니다.
하드웨어 성능은 현 시대에서 보면 수평적으로 상승하는 것 같지만 엄청난 속도로 exponential 하게 성장하고 있습니다. 하드웨어 성능이 받쳐지면 singularity가 올 것입니다. singularity가 오면 지금의 개발 직업들을 대체할 것이고 그럼 더욱더 super intelligence의 개발을 가속화할 것입니다.
 
마무리
소프트웨어와 하드웨어가 발전됨으로써 딥러닝 모델들은 점점 커질 것이고 이에 따른 하드웨어 엔지니어링, 비용, 안전 등에 대한 문제들이 있지만 가장 큰 문제는 이런 모델들을 사용했을 때 사회적 영향과 활용방식에 대한 규제 같은 것들이 정해져 있지 않다는 것입니다.
그래서 이런 모델들을 쉽게 공개할 수 없는데 실제로 GPT-2가 공개되지 않았던 이유가 사회에 끼칠 영향을 예상할 수 없기 때문이었습니다. GPT-3같은 경우에는 사회적 편향과 부적절성에 대한 결정을 내리지 못하게끔 제한을 걸어 놓고 사회적 영향을 미리 예측한 후 공개되었습니다.
미국 같은 경우에는 이런 문제에 대해 엔지니어들과 대화를 하면서 앞으로 어떻게 정치적, 사회적으로 영향을 미칠지 논의하고 대책 방안을 고민하고 있습니다.
 
질의응답
질문) web-scale 데이터셋을 학습할 때 적절하지 않거나 잡음이 섞인 데이터가 있을 수 있을 텐데 필터링이나 전 처리 단계를 거치는 지 궁금합니다
답변) 네, 부도덕하거나 적합하지 않은 이미지들을 포함시키지 않도록 신경 써야합니다. 키워드 세트를 만들어서 기본적으로 너무 터무니없는 데이터를 학습하지 못하게 방지합니다. 이 문제는 진행되고 있는 연구 토픽이라 할 수 있겠습니다.
 
 
질문) CLIP 논문에서 배치사이즈가 엄청 크던데 multi-modal이나 web-scale 학습을 할 때 특정 배치사이즈 이상일 때부터 성능이 증가하는 것 같은 실험적으로 유의미한 경향성이 있었는 지 궁금합니다.
답변) 우선 CLIP에서는 Contrastive learning이라서 배치사이즈가 굉장히 중요했습니다. 여기서는 다른 negative sample들의 버퍼를 유지하고 있는 게 아니라 현재 배치에 있는 데이터들과 비교해서 분류를 하기 때문에 배치데이터가 많을수록 좋아서 배치사이즈를 늘렸습니다.
배치 사이즈별 학습 성능에 대한 실험데이터는 없지만 배치 사이즈가 커지면 커질 수록 좋은 퍼포먼스를 냅니다.
 
 
질문) 현재 음색 관련된 연구를 하고 있는데 같은 피아노라 하더라도 다르게 느껴지는 감각을 언어적으로 묘사하는 게 쉽지 않습니다. 또는 DALL·E 모델로 고양이 이미지를 만든다 했을 때 다른 느낌의 고양이를 원한다면 그 다름을 어떻게 묘사할 수 있을까요? 이렇듯 음색에서나 더 넓은 도메인에서나 어떻게 그 차이를 표현할 수 있을 지, 혹은 모델이 내가 원하는 방향으로 interactive generation 하기 위해 어떤 접근이 있을 수 있을 지 궁금합니다.
답변) 정확한 답이 될 지 모르겠지만 한가지 예로 CLIP에서는 prompt engineering 부분이 있습니다. 아주 정확히 원하는 prompt를 구할 수 없으니까 ImageNet 분류를 할 때 “a photo of many {}”, “a drawing of a {}” 같이 가능한 description들을 전부 적어서 그것의 평균을 기반으로 분류하게 했습니다. 이런 식으로 prompt engineering하는 것이 아직은 매뉴얼한데 이걸 search problem으로 만들어서 원하는 방식으로 컨트롤 할 수 있게 만드는 것도 가능할 것 같습니다.
 
 
질문) 과거에 있었던 일을 중요시하는 모델과 미래를 예측하기 위한 모델을 하나의 다이어그램으로 보여줬는데 어떻게 이 과거와 미래를 예측하는 아이디어들을 딥러닝을 통해서 처리할 수 있는지 궁금합니다.
답변) 제가 Thinker 전문가는 아니지만 AI가 돌릴 수 있는 무한가지의 경우의 수를 가지고 가능한 여러가지 상황을 보여주고 인간이 선택지를 생각해 볼 수 있게 끔 제공해줄 수 있다 생각합니다.
 
 
질문) 사람을 바라보고 이해한다 했을 때 적은 수의 파라미터를 볼 텐데 엄청난 수의 파라미터로는 어떤 문제까지 결정할 수 있을까요?
그리고 미래에 AI가 중요한 결정에 도움이 되는 순간이 왔을 때 우리가 어느 정도 선까지 이 AI가 가지고 있는 정보에 의존할 수 있는지에 대한 생각이 궁금합니다.
 답변) 사실 무언가를 봤을 때 하나의 파라미터로 보이는 것도 내부에서는 엄청나게 많은 스텝을 거치면서 레이어들의 정보가 생기기 때문에 수많은 파라미터를 기반합니다.
그리고 AI의 결정의 의존성에 대한 질문은 윤리적 문제로 넘어갑니다. AI가 어떤 결정에 대한 제안을 하더라도 그것을 인간이 검토하는 과정을 거쳐야하겠습니다.
 
 
질문) GPT3 같은 경우 모델의 효율성을 향상시키기 위해 어떤 작업을 하시는 지 궁금합니다.
답변) 하드웨어나 비용에만 의존하는 게 아니라 알고리즘 scheme에 대한 개발 등 효율성을 높이기 위한 다양한 작업을 하고 있습니다. 그리고 Distillation model이나 model compression같은 모델들은 세부화된 분야에서는 좋은 성능을 보이지만 general capability에는 좋지 않기 때문에 이에 대한 연구는 관심이 덜한 편입니다.
 
 
질문) 텍스트는 sequential한 데이터이고 이미지는 한번에 보는 데이터인데 이런 식의 여러 종류 데이터를 잘 다룰 수 있는 방법이 있을까요?
답변) 소개했던 모델들은 이미지의 2차원 공간을 가로로 읽으면서 처리하는데 다른 방법으로는 인코딩을 해서 인코딩한 피쳐들을 다시 활용하는 방법도 있겠습니다. 이미지나 텍스트뿐만 아니라 오디오가 추가되면 시간이라는 개념도 어떻게 다뤄야 할 지에 대한 고민이 필요하니까 이 것 또한 열린 주제라 생각합니다.
 
 
질문) Web-scale 데이터에서 저작권문제는 어떻게 다루는 지 궁금합니다.
답변) 상업적 목적으로 사용하지 않고 순수 데이터만 사용하고, Fair use(공정이용) 저작권법이 적용되기 때문에 저작권에 대한 제재를 받지 않고 사용하고 있습니다.
 

* 4:00-5:00pm 연사 강연, 5:00-5:30pm Q&A 및 자유토론 (Mandatory)

* CT세미나에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.

* 콜로퀴움의 강연들은 대부분 한국어로 진행될 예정입니다.

[GSCT 콜로키움] 3.9 (화) | 김미리 (대전 MBC 국장)

일시 : 2021. 3. 9. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : PD를 말하다 – 공감과 영감 사이
연사 : 김미리 (대전 MBC 국장)




학력
 

대전 호수돈여고 졸업 (1979)
덕성여대 영어영문학과 졸업 (1983)
침례신학대학교 일반 대학원 졸업 (2003)
(“프로그램을 통해서 본 곡목 선정의 경향 연구”, 음악학 석사)
한남대학교 대학원 졸업 (2014)
(“공공문화 예술기관의 경영성과 요인에 관한 실증적 연구”, 경영학 박사)


경력
 

사내부문

1984년 대전MBC 입사
1984∼2004년 대전MBC 라디오ㆍTV 프로듀서
2010∼2011년 대전MBC 편성제작국장
2012∼2015년 대전MBC 경영기술국장
2016년 대전MBC 편성제작국장
2017년 대전MBC 사업국장

공공부문

2007∼2009년 대전광역시 건강가정지원센터 운영위원
2008∼2010년 대전광역시 여성정책위원
2008∼2012년 대전광역시 여성발전복지기금 심의위원
2008∼2012년 대전광역시 규제개혁위원
2010∼2012년 대전광역시 건강가정위원회 위원
2017∼2018년 대전광역시 자원봉사센터 운영위원
2011∼2015년 대전문화재단 이사
2011∼2013년 대전시립미술관 운영위원
2000년 한국 방송 프로듀서 연합회 심사위원
2017년 아시아태평양방송연맹(ABU) 심사위원
2019년 방송문화진흥회 지역방송대상 심사위원
2020년~ 대전MBC 국장/카이스트 문화기술대학원 방문연구원(현)

강연요약

세상 어느 곳에나 있는 영감, 그러나 세상 누구에게나 찾아오지 않습니다. 여러분은 언제 어디서 어떻게 영감을 얻나요? 저마다의 방식들이 있겠지만, 김미리 국장님께서는 지난 36년간의 PD생활 속에서 알게 된 국장님만의 방식을, 구체적인 사례들을 통해서 공유해주셨습니다.

1. 영감 얻는 법 첫번째 ( 타인을 생각하는 마음)
 
0시의 데이트(1984)

가장 첫번째로 공유해주셨던 사례는 바로, 그 당시 최고의 청취율을 자랑했던 ‘0시의 데이트’라는 라디오 프로그램이었습니다. 이 프로그램은 무려 10년동안이나 진행했던 장수 프로그램이었습니다. 당시 해외로 유학을 가는 시청자들이 이 프로그램을 녹음한 테이프를 챙겨 갈 정도로, 향수를 달래주는, 자신의 아픔과 슬픔과 외로움을 공감할 수 있는 아날로그 감성을 보여준 의미깊은 프로그램이었습니다. 해당 프로그램을 하며 국장님께서는 독일의 철학자 마르틴 부버의 ‘I and you’의 개념을 기본철학으로 삼아 청취자 한명한명 존중하는 마음으로 방송해오셨습니다.

오케스트라 병동(1986)

‘오케스트라 병동’은 음악치료 요법의 실제와 필요성을 국내 방송 사상 최초로 소개했던 프로그램입니다. 지역의 대학병원 신경정신과에서 한 자원봉사 활동을 하던 중 자폐소녀가 처음으로 말문을 틔는 모습을 보고 많은 사람들에게 음악으로 치료를 해주면 좋겠다는 생각이 들어 제작하였습니다.
마치 운동화를 사야겠다는 생각이 들면 그 순간부터 운동화밖에 안 보이고 결국 운동화와 관련된 새로운 사실을 발견하게 되는 것처럼,  컨텐츠를 창작하려고 할 때 한 분야에 지속적인 관심을 갖고 시행착오를 겪고 나면 영감을 얻는데 도움이 됩니다. 이렇게 고민하는 과정이 누군가의 삶에 도움이 된다는 확신이 들 때, 우리의 영감은 큰 에너지를 갖고 성장하게 되고 누군가에 큰 공감이 될 것입니다. 이처럼 세상은 선한 에너지에 의해 발전하고 있다고 말씀하셨습니다.

그리운 강남(1991)

정부가 발생한 월북 납북 해금조치 이후, 서울 예술의 전당에서 해금가곡제가 열렸습니다. 이를 통해 분단이후에 세상에 드러낼 수 없었던 안기영 선생님의 가곡이 선보이게 되었습니다. 안기영 선생님께서는 월북이라는 이유로 40여년만에 돌아온, 우리 음악사에 삭제되어 잊혀진 음악가입니다. 안기영 선생님은 남한과 북한에서 삶을 살다 간 한국 최초 가곡집 발표자이자, 일제시대 빼앗긴 우리말과 우리 가극을  전수하기 위해 향토 가곡(오페라) 전국 공연을 하셨습니다. 이렇듯 평생을 음악가로 삶을 살았지만 월북을 했다는 이유만으로 묻혀버린 안기영 선생님을 알려야겠다는 의지가 생기셨다고 합니다.
2001년에 대전시림 합창단과 공동기획으로 다큐를 제작하며 기존에 왜곡되고 사라졌던 근거자료와 악보자료를 되살리고, 살아계시던 당시에 대한 증언들을 고증하는 등 안기영 선생님의 삶을 재조명했던 이 과정은 음악사에 아주 큰 의미였고, 한국 음악사적 가치를 알 수 있었습니다. 또한, 이렇게 제작된 다큐멘터리와 안기영 선생님의 음악 연주회를 보며 과거를 숨겨왔던 안기영 선생님의 가족분들이 흘리는 눈물을 보며  프로듀서로서 큰 보람을 느낄 수 있었다고 합니다.
 
2. 영감 얻는 법 두번째 ( 바보의 벽을 넘기)

김미리 국장님은 우리가 살아가면서 수많은 벽에 부딪히지만, 가장 넘지 못하는 벽은 가능성을 차단하는 바보의 벽이라고 말씀하셨습니다. 국장님은 다음에 나오는 두 개의 프로그램을 제작하는 과정에서 바보의 벽을 극복할 수 있었습니다.

뉴욕필하모닉을 만나다 (2004)

김미리 국장님은 한국의 교향악단이 성장하기 위한 발판을 마련하겠다는 의지를 가지고 뉴욕필하모닉 교향악단을 밀착취재하는 뉴욕필하모닉을 만나다 라는 제목의 다큐멘터리를 기획하였지만, 섭외과정부터 제작을 완수하기까지 수많은 난관이 있었습니다. 섭외에 난항을 겪었고 해외 제작비에 대한 부담과 911테러 3주년 기간이라 모든 출입국의 통제가 삼엄했습니다. 하지만 김미리 국장님께서는 어려움 속에서 반드시 넘어야할 벽이라는 느낌을 받았고 도전을 계속하므로 수많은 벽을 뚫고서 프로그램을 완성할 수 있었습니다.

스마트 토크쇼 ‘경청’ (2017)

스마트폰 기반 양방향 소통 프로그램인 스마트 토크쇼 ‘경청’ 입니다. 스마트폰으로 지방 자치단체장과 실시간으로 의견을 나누며 소통하는 새로운 포맷에 대해 현장 PD들이 반대하여 도입하는 것 자체가 힘들었지만, 벤처기술 업체가 개발한 앱이 점차 정착되어지는 것을 보고 프로그램을 기획할 수 있었습니다. 추후에 스마트 토크쇼 ‘경청’은 민주주의 의견 수렴과정의 포맷으로써 가능성을 제시했습니다.
우리는 시도에 앞서 외부의 요인보다 스스로가 만든 바보의 벽 앞에서 주저하는 경향이 있습니다. 하지만 뉴욕필하모닉을 만나다 스마트 토크쇼 ‘경청’의 성공 사례에서 볼 수 있듯이, 절박하고 간절한 상황 속에서 바보의 벽을 뛰어넘는 순간 영감은 우리에게 찾아옵니다.
 
3. 영감 얻는 법 3: 뷰자데 방식

EQ UP 콘서트 (2009년 ~ 현재 매년 5월)

미국에서는 톰과 제리와 같은 만화영화를 통해서 클래식 음악을 접하기 때문에 쉽게 클래식과 친해질 수 있는 환경인 반면, 우리나라에서는 클래식 음악이라 하면 음악시간에 공부하면서 배우는 것으로 생각하는 경향이 있습니다. 김미리 국장님께서 이런 차이를 보면서 영감을 얻어 제작하신 것이 EQ UP 콘서트였습니다. 기존의 많은 콘서트들은 8세 미만의 어린이의 입장을 제한하거나 탁아소에 맡기도록 권장하는 등 어린 아이들이 음악을 접할 수 있는 기회를 제공하지 않았습니다. 이에 대해 국장님께서는 이의를 제기하셨고, 지역 아이들의 정서함양과 미래의 잠재 클래식 관객 개발이라는 취지에서 단원들의 공감을 얻을 수 있었습니다. 그 결과 단순한 공연 뿐 아니라 단원들과 함께하는 악기체험 등 다양한 이벤트들까지도 매년 제공하였습니다. 현재 이 EQ 콘서트는 전국 문화원 연합회에서 우수 프로그램으로 선정이 되었고 특허도 등록이 되어 있습니다.

찾아가는 예술무대 (2004~2005) 16부작

지역민들에게 문화향유의 기회를 제공하는 산학협력 프로그램으로, 대전, 충남 대학들의 공연관련 학과와 함께 각 대학의 공연장을 찾아서 지역민을 위해 공연하는 예술무대입니다. 매 회마다 다른 상황, 다른 학교, 다른 공연장 환경, 그리고 다른 사람들 등 당시 여건이 너무 힘들었지만, 혼연일체가 되어준 스텝들과 대학 관계자분들의 지원 덕분에 16회의 공연을 모두 성공시킬 수 있었습니다.

1997년 IMF

과거 김미리 국장님께서는 “익숙한 것과의 결별”이라는 책을 쓰신 故구본영 선생님의 특강을 들으신 적이 있으셨다고 합니다. 강의에서 선생님께서 하신 말씀, “일반적으로 당신의 명함에 적혀있는 조직이나 직업 이외에, 당신의 자격과 능력을 적으라고 한다면 뭐라고 적을 것인가?” 하는 질문에 커다란 충격을 받으셨고, 어떤 일에서의 “최고”가 되기보다는 “Only one”이 되도록 노력해야 한다는 깨달음을 얻으셨다고 합니다. 그리고 이를 위해서 가장 우선적으로 가져야하는 태도는, 늘상 보아왔던 것이더라도 늘상과 똑같이 느끼기보다는 새로운 시각에서 바라보려고 하는 태도, 즉, 뷰자데 태도라고 강조하셨습니다.
 
4. 마무리(앞으로의 방송 트렌드 전망)

김미리 국장님은 방송인의 꿈을 가지고 36년을 돌아보면 참 많은 변화가 있었다고 말씀하셨습니다. 아날로그 시대에서 디지털시대로, 지상파 독점시대에서 SBS와 종편의 등장까지, 오늘날은 다매체 다채널의 시대에 넷플리스와 유튜브의 양자구도로 전환이 되었습니다. 먼저, 유튜브는 광고 기반 동영상을 평정하고 연간 많은 광고수익을 벌어들어고 있습니다. 넷플릭스는 인기 드라마와 영화를 통해서 압도적인 OTT서비스 1등을 달리고 있습니다. 이로 인해 지상파 채널 경쟁력의 의미가 없어지고, 편성과 뉴스 기능 중심으로 축소가 되어지고 있습니다.
김미리 국장님께서는 향후 방송 전망을 다방면으로 설명해주셨습니다. 먼저, 콘텐츠 활용의 다각화입니다. 지식 재산의 산업적 가치가 크게 향상됨에 따라 웹툰, 웹소설 등 콘텐츠의 산업적 가치가 계속 오를 것으로 전망이 되고, 벤처캐피탈 업체가 웹툰 제작을 기반으로 하는 스튜디오에 관심을 가지기 시작하였습니다. 두번째로는, 멀티 플랫폼의 전략이 강화되고 있다는 점입니다. 요즘 미디어 트렌드는 Snap Culture 시대이기 때문에, Short form 형태의 경향이 있습니다. 이는 곧  기존 방송 사업자들이 OTT서비스로 대중들에게 인기를 모으고자 짧은 형태의 영상 전략을 가지게 될 것입니다. 세번째로는, 대면 비대면의 블렌디드 전략의 지속입니다. 학원과 같은 교육기관을 가지 않아도 지식을 실시간으로 배울 수 있게 되었고, 이러한 흐름은 당분간 계속될 것입니다. 네번째로는, 지상파의 아카이브 콘텐츠를 활용해서 프로그램을 제작하는 형식이 나오게 된 것입니다. 이는 중장년층 이상에겐 향수를 자극하고, 젊은 시청자들에게는 새로운 시각으로 예전 아카이브 자료를 볼수 있는 기회를 제공합니다. 마지막으로, 디지털 뉴딜 경향으로는  AI기반 프로그램, 가상과 현실의 융합 현장감 높이는 뉴스, 역사 재현들이 프로그램에 접목 되고 있습니다. 다양한 AI 사례 중에는 개인에게 최적화된 콘텐츠, 취향 서비스 추천과 AI알고리즘으로 기사를 작성하는 사례가 있습니다. 채널 경쟁력 보다 콘텐츠 경쟁력이 시청자의 취향을 저격하는게 중요하기 때문에, 기획력이야 말로 중요한 경쟁력이 될 것입니다.
4차 산업시대에 우리가 갖춰야 될 역량으로, 자기의 전문 지식과 데이터 분석 능력인 Hard Skill도 중요 하지만, 창의적 사고, 협력 혁신, 커뮤니케이션 능력 등 Soft Skill 역시 중요 하다고 말씀하셨습니다. 김미리국장님께서는 다른 사람이 보지 못하는 무엇인가의 가치와 의미를 찾아서 다양한 표현 방식을 통해서 완성한 콘텐츠가 누군가에게 공감이 되어질 때 세상의 변화가 시작하는 것이 프로듀서의 업이라고 말씀하셨습니다. 다시말해, 자신의 특별함이 누군가의 삶에 유용한 역할을 할 수 있을 때, 그렇게 될 수 있도록 어느 분야에서든지 자신의 영감을 구체화하고 타인과 소통하는 능력을 가진 Communicator가 진정한 프로듀서라고 말씀하셨습니다.

 



* 오후 4:00-5:00 연사 강연, 오후 5:00-5:30 Q&A 및 자유토론 (Mandatory)

 

* CT콜로키움에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.

[GSCT 콜로키움] 12.8 (화) | 김정화 (서울공예박물관장)

일시 : 2020. 12. 8. (화) 오후 4:00~5:30

장소 : 비대면강연(ZOOM)

주제 : 뮤지엄과 문화기술

연사 : 김정화 (서울공예박물관장)

학력

1990-1991: 프랑스 파리 4대학 조형미술이론학과 박사과정학위(D.E.A.)
1985-1989: 프랑스 파리 루브르 박물관 대학 (Ecole du Louvre) 수학
1984-1985: 프랑스 파리 3대학 현대불문학부 박사과정학위(D.E.A.) 
1980-1984: 프랑스 파리 3대학 현대불문학부 석사학위
1978-1980: 서울대학교 불어불문학 석사과정(수료)
1974-1978: 서울대학교 불어불문학 학사학위 

경력

2019-현재: 서울공예박물관 관장
2017-2019: 고려대학교 문화유산융합연구소 연구교수
2007-2016: KAIST 문화기술대학원 교수

강연요약

코로나로 인한 비대면 언택 활동이 대두되었고 뮤지엄도 이에서 예외가 될 수 없다. 그러나 뮤지엄에 문화기술을 도입된 배경과 역할을 최근의 상황으로만 설명할 수는 없을 것이다. 뮤지엄의 기능과 역할을 보다 더 근본적으로 성찰하여 기술이 어떤 기능을 해야 하는지 더욱 분명한 목적을 제시해야만 올바른 발전을 할 수 있을 것이다. 이번 강연에서는 변화하는 뮤지엄의 기능과 그에 적합한 기술발전의 방향에 대해 논의할 것이다.

* 오후 4:00-5:00 연사 강연, 오후 5:00-5:30 Q&A 및 자유토론 (Mandatory)

 

* CT콜로키움에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.

[GSCT 콜로키움] 12.1 (화) | 도영임 (카이스트 문화기술대학원 교수)

일시 : 2020. 12. 1. (화) 오후 4:00~5:30

장소 : 비대면강연(ZOOM)

주제 : 게임이 예술이 될 때

연사 : 도영임 (카이스트 문화기술대학원 교수)

학력

Ph. D. Psychology, Yonsei University (2009)
MA. Psychology, Yonsei University (1995)
Psychology Field Practice - National Rehabilitation Center (1993)
BA. Psychology, Yonsei University (1993)

강연요약

1972년 아케이드 게임 퐁이 세계 최초로 상업적인 성공을 거둔 이래 50여년의 세월이 흘렀습니다. 게임을 향유하는 사람들이 늘어나고 시장의 규모가 커지는 만큼 게임이 우리 사회에 미치는 영향과 가치에 대해 깊이 생각해 볼 필요가 있습니다. 특히 코로나 시기 이후에 많은 문화 예술 분야들이 어려움을 겪음에도 불구하고, 게임은 그 반대로 물리적으로 떨어져 있지만 다른 사람들과 함께 할 수 있는 즐거움을 제공하는 매체로 재조명 받고 있습니다. 최신 기술의 성능을 시험해 보기 위해 대학 실험실에서 고안되고 소수의 매니아들만 즐기던 게임은 이제 엔터테인먼트 산업에서 문화와 사회 전반으로 확장되며 대중 예술의 지위를 넘보고 있습니다. 그러면 게임이 과연 예술일까요? 게임을 우리가 예술이라고 판단할 수 있는 기준은 무엇일까요? 플레이어들은 게임을 하면서 과연 어떤 예술적 경험을 하고 있는 걸까요? 이번 세미나에서는 플레이어들의 목소리를 경청하면서 발견한 게임의 예술적 경험의 구조와 의미는 무엇인지 공유하고, 미래의 게임이 어떻게 진화되어 나갈지 함께 상상해 보려고 합니다.

* 오후 4:00-5:00 연사 강연, 오후 5:00-5:30 Q&A 및 자유토론 (Mandatory)

 

* CT콜로키움에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.