KAIST 문화기술대학원

CT 콜로키움

[GSCT 콜로키움] 3.16 (화) | 김종욱 (OpenAI)

관리자 |
2021-03-23 15:59:05|
1783

일시 : 2021. 3. 16. (화) 오후 4:00~5:30
장소 : 비대면강연(ZOOM)
주제 : Web-Scale Multimodal Deep Learning
연사 : 김종욱 (OpenAI)

학력:
- Ph.D. in Music Technology, New York University, New York, NY (2019)
- M.S. in Computer Science and Engineering, University of Michigan, Ann Arbor, MI (2011)
- B.S. in Electrical Engineering with Minor in Mathematical Sciences, KAIST, Daejeon, Korea (2009)

경력:
- Member of Technical Staff in OpenAI LP (2019-Present)
- Research Scientist Intern in Spotify USA, Inc. (2018)
- Research Scientist Intern in Pandora Media, Inc. (2017)
- Recommender System Engineer & Data Scientist in Kakao Corporation (2014-2015)
- Software Engineer in NCSOFT Corporation (2011, 2012-2014)

강연 소개:
인공지능과 딥 러닝 기술이 거의 모든 분야의 연구에 파고들고 있다는 이야기는 이제 식상한 시대가 되었고, 이미지넷 분류 모델의 성능이 사람을 앞선 것이 화제가 된 것도 5년이 넘게 지난 일이 되었습니다. 그러면서도 다양한 분야에서 인간과 동등한 수준의 지적 능력을 가지는 인공일반지능(Artificial General Intelligence, AGI)의 등장은 다소 요원하게 느껴집니다. 이 강연에서는 지금까지 딥 러닝 기술이 어떻게 발전해왔는지를 간략히 리뷰하고, 이들 기술의 한계를 극복하기 위한 두 가지 방향을 제시합니다. 특정 데이터셋을 제한적으로 사용하는 것을 넘어 인터넷에서 수집한 대량의 데이터를 사용하는 (Web-Scale) 것과 문서, 영상, 음향 등의 데이터를 활용하는 것 (Multimodal) 두 가지입니다. 이어서 이러한 방향성에 입각하여OpenAI에서 개발된 딥 러닝 모델인 GPT-3, iGPT, MuseNet, JukeBox, CLIP, DALL·E를 소개하고 이들의 활용예와 한계점들에 대해서도 논의합니다.
<강연요약>

Toward Web-Sacle and MultiModal Deep Learning

Current Status of Deep Learning: Supervised to Self-Supervised
이미지넷 Competition 통해 딥러닝의 발전을 보면, 이미지 분류라는 주제로 계속해서 발전된 모델을 추구하는 방향성을 확인할 수 있습니다. 딥러닝 이전에는 관련 분야의 전문 지식이 바탕이 된 변수 가공이 중요했다면, 딥러닝의 도입으로 전문 지식의 중요성이 상대적으로 낮아졌습니다. 변수 가공에 대한 세부 사항을 알 필요가 없기 때문에, 딥러닝 모델 사용에 대한 접근성이 높아졌습니다.
일반적으로 사용하는 Supervised Learning은 늘 데이터셋에 특정 레이블이 필요하게 되었고, 이러한 레이블링은 시간과 비용을 발생하게 됩니다. 이는 Scalable하지 않다는 문제가 발생합니다. 이러한 한계를 극복하기 위해서 데이터들의 관계를 학습하는 Self Supervised Learning의 방법론이 나오게 되었습니다. 이 Self-supervised Learning은 Pre-Training과 Fine Tuning으로 나누어 진행됩니다. Pre-training은 보다 보편적인 모델을 구축하는 과정으로, 많은 양의 데이터로 학습하는 과정입니다. Fine-tuning은 보다 세부적인 목적을 가진 모델을 구축하는 과정으로, 목적에 맞는 데이터로 학습합니다.
Self-Supervised Learning과 관련해서 다음 아티클(Self-Supervised Learning: dark matter of intelligence?)을 읽어보시면 도움이 될 것 같습니다. (https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/)
Multi-Modality
Multimodality란, 다양한 형태의 데이터(Vision, Language, Audio, Video, etc)를 활용하는 방식으로, 시각적 질의응답(visual question answering), audio-visual correspondence 등에 활용할 수 있습니다.

DeepLearning in Open.ai

GPT-3: Predictive Unsupervised Learning
Open AI는 Transfomer 기반의 언어모델을 활용하여 GPT-3를 구축합니다. 딥러닝에서 언어모델의 경우, Trillion 이상의 단어를 학습하여, 주어진 언어 토큰에 대해서 다음에 등장할 언어 토큰을 예측합니다. GPT-3에서의 “Intelligence”는 적은 예시로 관계를 학습하는 Few Shot Learner 라는 점입니다. 우리는 언어를 통해서 풀어야하는 다양한 문제를 마주칩니다. 예를 들면 질문에 대한 답변이나, 아니면 문맥을 이해하는 듯한 문제죠. GPT-3는 언어모델의 파라미터 증가에 따라서, 다양한 언어를 활용한 문제에서 성능이 비약적으로 증가함을 보였습니다.
GPT3의 응용에는 AI Dungeon와 같은 판타지 세상을 여행하고 자연어를 사용한 인터랙션 등 지능형 서비스를 개발하는 것 또한 포함됩니다. 이 시스템에는 무한한 가능성이 있습니다. 예를 들어 Copy.ai는 인공지능 카피라이터가 고객들에게 카피문구를 만들어주는 서비스이고 OTHERSIDEAI는 이메일 문구을 자동으로 만들어 줍니다.

Image GPT
iGPT는 이미지를 처리하기 위해 이미지를 텍스트와 유사하게 시퀀스로 보고 language model을 이용하여 이미지 픽셀을 처리합니다. 이를 위해 transformer 구조를 활용하였으며, 저해상도 이미지를 입력으로 사용하였습니다. Image generation 실험 결과 50%의 픽셀만을 보여주고 나머지 50%를 생성하도록 하는 task에서 다양한 이미지를 생성하는 흥미로운 결과를 보여줬습니다. 이는 기존의 generative model에서 존재하던 mode collapse 등의 문제가 iGPT에서는 잘 학습되는 것을 의미합니다. 또한 representation learning에서도 더 우수한 성능을 보여, image classification과 같은 task에서도 기존 supervised learning 기반 방법들에 비해 우수한 성능을 보임을 확인할 수 있었습니다.

MuseNet
앞서 살펴본 image task가 아닌 music에도 이와 같은 unsupervised 기반 language modeling 방법을 적용할 수 있습니다. Symbolic music은 simplified MIDI notation으로 표현할 수 있는데, 예를 들어 모차르트의 피아노 연주곡을 sequential 한 데이터 형태로 나타낼 수 있습니다. 여기서 notes, duration, pitch들과 같은 가능한 notation을 encode하여 그 조합으로 각각의 words들을 만듭니다. 따라서 MuseNet을 이용하면 베토벤 스타일의 바이올린 소나타나 즉흥 재즈 연주곡 등을 만들어 낼 수 있습니다.

Jukebox
MuseNet의 단점 중 하나는 symbolic music 형태의 음악을 다룬다는 것입니다. 이와는 다르게 raw audio에 바로 이러한 기술을 적용하는 것이 더 좋습니다. 하지만 raw audio data를 다루는 것은 고차원의 데이터를 사용하기 때문에 훨씬 어려운 일 입니다. 따라서 Jukebox에서는 raw audio를 입력받거나 출력할때 VQ-VAE를 사용하여 discrete representation 형태로 표현하며, 단계별로 다른 압축 dimension을 사용하여 데이터를 압축합니다. 예를 들어 원본 audio를 각각 top level은 128배 압축, middle level은 32배, bottom level은 8배 압축을 하여 인코딩을 하고 이를 디코딩하여 새롭게 구축된 오디오를 각각 만듭니다. 또한 이를 이용하는 generate 모드에서는 가사를 조건으로하는 compressed된 audio가 생성되고 이를 top level, middle level, bottom level 순으로 upsampling 하며 새로운 음악을 만들 수 있게 됩니다. 결론적으로 이 모델은 장르, 가수, 가사 등을 입력으로 주고 새로운 음악을 생성해 낼 수 있습니다.

DALL.E
DALL.E는 자연어 텍스트로부터 이미지를 생성하는 기술로 기본적인 형태는 GPT와 유사합니다. 이 모델을 이용하면 기존보다 우수하고 재밌는 이미지를 생성해낼 수 있습니다. 예를 들어 'an armchair in the shape of an avocado'과 같은 문장을 주고 다양한 이미지를 생성할 수 있습니다. 'a living room with two white armchairs and a painting of the colosseum' 지시사항에 따라 생성된 이미지를 보면 의자의 색깔이나 갯수를 셀 수 있는 등 단어들의 multimodal knowledge를 해석 가능한 것을 알 수 있습니다. 또한 'a store front that has the word OpenAI written on it' 지시 사항에 따라 ‘OpenAI’ 단어를 이용하여 실제에 존재하지 않은 여러 디자인의 간판 이미지를 생성할 수 있습니다. 'the exact same cat on the top as a sketch on the bottom' 문장의 지시사항은 똑같은 고양이 사진을 놓고 아래에는 고양이를 스케치 하란 것인데 재밌는 이미지가 잘 생성됨을 볼 수 있습니다. 이같은 결과물을 통해서 DALL.E 모델이 문장을 해석하고 이미지를 생성하는 능력이 있음을 확인할 수 있습니다.

CLIP: Contrastive Language-Image Pre-training
마지막으로 CLIP 은 Generative model은 아니고 contrastive learning 모델입니다. 이 모델은 많은 supervised model 에서 일반적으로 사용하는 fixed set of label을 사용하는 대신에 방대한 양의 자연어 데이터로부터 image와 text의 pair를 학습합니다. image와 text는 각각의 pair들이 있고 여기에서 features들을 추출하여 image와 text의 dot product 값을 최대로 하는 값을 구합니다. batch 상에서 각 행과 열은 multi class classification하고 맞는 cross entropy값을 구합니다. image encoder로 입력 이미지의 특징을 추출하고 단어 label 중에서 text feature을 추출합니다. 이 두 값을 dot product로 계산하고 최대값이 되는 단어 label을 선택합니다. 따라서 다양한 supervision을 학습할 수 있으며 여러 종류의 input data distribution 에 대응이 가능합니다. 결론적으로 CLIP 모델은 Zero-shot inference에 강인한 결과를 보이기 때문에, 이미지넷 데이터 뿐만 아니라 이미지넷과 유사한 여러 다른 데이터셋(ImageNetV2, ImageNetSketch, ObjectNet, ImageNet Vid, etc.)에 대해서도 우수한 성능을 보였습니다. 이는 CLIP 모델이 natural distribution shift에 대해 더 강인하게 학습 된다고 볼 수 있습니다.

Future of Multimodal Deep Learning
General한 AI를 학습시키기 위한 전략은 인터넷에서 모을 수 있는 모든 modality의 데이터를 Self-supervised 방식으로 학습시키는 것입니다.
하드웨어 성능은 현 시대에서 보면 수평적으로 상승하는 것 같지만 엄청난 속도로 exponential 하게 성장하고 있습니다. 하드웨어 성능이 받쳐지면 singularity가 올 것입니다. singularity가 오면 지금의 개발 직업들을 대체할 것이고 그럼 더욱더 super intelligence의 개발을 가속화할 것입니다.

마무리
소프트웨어와 하드웨어가 발전됨으로써 딥러닝 모델들은 점점 커질 것이고 이에 따른 하드웨어 엔지니어링, 비용, 안전 등에 대한 문제들이 있지만 가장 큰 문제는 이런 모델들을 사용했을 때 사회적 영향과 활용방식에 대한 규제 같은 것들이 정해져 있지 않다는 것입니다.
그래서 이런 모델들을 쉽게 공개할 수 없는데 실제로 GPT-2가 공개되지 않았던 이유가 사회에 끼칠 영향을 예상할 수 없기 때문이었습니다. GPT-3같은 경우에는 사회적 편향과 부적절성에 대한 결정을 내리지 못하게끔 제한을 걸어 놓고 사회적 영향을 미리 예측한 후 공개되었습니다.
미국 같은 경우에는 이런 문제에 대해 엔지니어들과 대화를 하면서 앞으로 어떻게 정치적, 사회적으로 영향을 미칠지 논의하고 대책 방안을 고민하고 있습니다.

질의응답
질문) web-scale 데이터셋을 학습할 때 적절하지 않거나 잡음이 섞인 데이터가 있을 수 있을 텐데 필터링이나 전 처리 단계를 거치는 지 궁금합니다
답변) 네, 부도덕하거나 적합하지 않은 이미지들을 포함시키지 않도록 신경 써야합니다. 키워드 세트를 만들어서 기본적으로 너무 터무니없는 데이터를 학습하지 못하게 방지합니다. 이 문제는 진행되고 있는 연구 토픽이라 할 수 있겠습니다.

질문) CLIP 논문에서 배치사이즈가 엄청 크던데 multi-modal이나 web-scale 학습을 할 때 특정 배치사이즈 이상일 때부터 성능이 증가하는 것 같은 실험적으로 유의미한 경향성이 있었는 지 궁금합니다.
답변) 우선 CLIP에서는 Contrastive learning이라서 배치사이즈가 굉장히 중요했습니다. 여기서는 다른 negative sample들의 버퍼를 유지하고 있는 게 아니라 현재 배치에 있는 데이터들과 비교해서 분류를 하기 때문에 배치데이터가 많을수록 좋아서 배치사이즈를 늘렸습니다.
배치 사이즈별 학습 성능에 대한 실험데이터는 없지만 배치 사이즈가 커지면 커질 수록 좋은 퍼포먼스를 냅니다.

질문) 현재 음색 관련된 연구를 하고 있는데 같은 피아노라 하더라도 다르게 느껴지는 감각을 언어적으로 묘사하는 게 쉽지 않습니다. 또는 DALL·E 모델로 고양이 이미지를 만든다 했을 때 다른 느낌의 고양이를 원한다면 그 다름을 어떻게 묘사할 수 있을까요? 이렇듯 음색에서나 더 넓은 도메인에서나 어떻게 그 차이를 표현할 수 있을 지, 혹은 모델이 내가 원하는 방향으로 interactive generation 하기 위해 어떤 접근이 있을 수 있을 지 궁금합니다.
답변) 정확한 답이 될 지 모르겠지만 한가지 예로 CLIP에서는 prompt engineering 부분이 있습니다. 아주 정확히 원하는 prompt를 구할 수 없으니까 ImageNet 분류를 할 때 “a photo of many {}”, “a drawing of a {}” 같이 가능한 description들을 전부 적어서 그것의 평균을 기반으로 분류하게 했습니다. 이런 식으로 prompt engineering하는 것이 아직은 매뉴얼한데 이걸 search problem으로 만들어서 원하는 방식으로 컨트롤 할 수 있게 만드는 것도 가능할 것 같습니다.

질문) 과거에 있었던 일을 중요시하는 모델과 미래를 예측하기 위한 모델을 하나의 다이어그램으로 보여줬는데 어떻게 이 과거와 미래를 예측하는 아이디어들을 딥러닝을 통해서 처리할 수 있는지 궁금합니다.
답변) 제가 Thinker 전문가는 아니지만 AI가 돌릴 수 있는 무한가지의 경우의 수를 가지고 가능한 여러가지 상황을 보여주고 인간이 선택지를 생각해 볼 수 있게 끔 제공해줄 수 있다 생각합니다.

질문) 사람을 바라보고 이해한다 했을 때 적은 수의 파라미터를 볼 텐데 엄청난 수의 파라미터로는 어떤 문제까지 결정할 수 있을까요?
그리고 미래에 AI가 중요한 결정에 도움이 되는 순간이 왔을 때 우리가 어느 정도 선까지 이 AI가 가지고 있는 정보에 의존할 수 있는지에 대한 생각이 궁금합니다.
답변) 사실 무언가를 봤을 때 하나의 파라미터로 보이는 것도 내부에서는 엄청나게 많은 스텝을 거치면서 레이어들의 정보가 생기기 때문에 수많은 파라미터를 기반합니다.
그리고 AI의 결정의 의존성에 대한 질문은 윤리적 문제로 넘어갑니다. AI가 어떤 결정에 대한 제안을 하더라도 그것을 인간이 검토하는 과정을 거쳐야하겠습니다.

질문) GPT3 같은 경우 모델의 효율성을 향상시키기 위해 어떤 작업을 하시는 지 궁금합니다.
답변) 하드웨어나 비용에만 의존하는 게 아니라 알고리즘 scheme에 대한 개발 등 효율성을 높이기 위한 다양한 작업을 하고 있습니다. 그리고 Distillation model이나 model compression같은 모델들은 세부화된 분야에서는 좋은 성능을 보이지만 general capability에는 좋지 않기 때문에 이에 대한 연구는 관심이 덜한 편입니다.

질문) 텍스트는 sequential한 데이터이고 이미지는 한번에 보는 데이터인데 이런 식의 여러 종류 데이터를 잘 다룰 수 있는 방법이 있을까요?
답변) 소개했던 모델들은 이미지의 2차원 공간을 가로로 읽으면서 처리하는데 다른 방법으로는 인코딩을 해서 인코딩한 피쳐들을 다시 활용하는 방법도 있겠습니다. 이미지나 텍스트뿐만 아니라 오디오가 추가되면 시간이라는 개념도 어떻게 다뤄야 할 지에 대한 고민이 필요하니까 이 것 또한 열린 주제라 생각합니다.

질문) Web-scale 데이터에서 저작권문제는 어떻게 다루는 지 궁금합니다.
답변) 상업적 목적으로 사용하지 않고 순수 데이터만 사용하고, Fair use(공정이용) 저작권법이 적용되기 때문에 저작권에 대한 제재를 받지 않고 사용하고 있습니다.

* 4:00-5:00pm 연사 강연, 5:00-5:30pm Q&A 및 자유토론 (Mandatory)

* CT세미나에 참석하고 싶으신 타과 교수님 또는 학생분들은 언제든지 환영합니다.

* 콜로퀴움의 강연들은 대부분 한국어로 진행될 예정입니다.

첨부파일 리스트
첨부파일	604c94703fe68c30fcd3ea6e(1).png

다음
[GSCT 콜로키움] 3.23 (화) | 이대원 (중앙대학교 예술공학대학 교수)
2021-04-01