(AdaIN) Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization, ICCV 2017
·
논문 리뷰
paper: ICCV 2017 Open Access Repositorycode: xunhuang1995/AdaIN-style: Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization 0. Summary이 논문에서는 실시간으로 임의의 스타일 변환을 가능하게 하는 간단하면서도 효과적인 접근법을 처음으로 제시합니다. 제안 방법의 핵심은 콘텐츠 특징의 평균(mean)과 분산(variance)을 스타일 특징의 평균과 분산에 맞추는 AdaIN 레이어 입니다.1. Introduction 기존의 스타일 전이(style-transfer) 연구들에는 몇가지 제약이 있습니다. (1) 스타일 변화에 flexible 하지만 느린 방법, (2) 단일 ..
(CycleGAN) Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, ICCV 2017
·
논문 리뷰
논문: ICCV 2017 Open Access Repositorycode: junyanz/pytorch-CycleGAN-and-pix2pix: Image-to-Image Translation in PyTorch 0. SummaryImage-to-image translation은 입력 이미지와 출력 이미지 간의 매핑을 학습하는 것을 목표로 하며, 정렬된 이미지 쌍의 학습 데이터를 사용한다. 그러나, 많은 task에서 쌍으로 이루어진 학습 데이터는 제공되지 않을 수 있다. 따라서, 본 연구에서는 쌍으로 이루어진 예제가 없는 상황에서 소스 도메인 $X$에서 타겟 도메인 $Y$로 이미지를 변환하는 방법을 제안한다. 본 논문의 목표는 생성된 이미지 $G(X)$의 분포가 타겟 도메인 $Y$의 분포와 구별되지 않도록..
(GAN) Generative Adversarial Nets, NeurIPS 2014
·
논문 리뷰
논문: Generative Adversarial Netscode: goodfeli/adversarial: Code and hyperparameters for the paper "Generative Adversarial Networks" 0. Summary 본 논문은 적대적인 과정(adversarial process)을 통해 생성 모델을 추정하기 위한 새로운 프레임워크를 제안한다. 데이터 분포를 학습하는 생성 모델 G와, 샘플이 실제 훈련 데이터에서 나온 것인지 G에서 생성된 것인지를 구분할 확률을 추정하는 판별 모델 D를 동시에 학습한다. G와 D가 다층 퍼셉트론(MLP)로 구성되어 있을 때, 전체 시스템은 역전파를 통해 학습할 수 있다. 또한, 훈련 과정이나 샘플을 생성하는 동안 Markov Chain..
(Grad-CAM) Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV 2017
·
논문 리뷰
논문: Grad-CAM: Visual Explanations From Deep Networks via Gradient-Based Localizationcode: ramprs/grad-cam: [ICCV 2017] Torch code for Grad-CAM 0. summary- 이 연구는 기존 Class Activation Map(CAM)의 문제점들을 제시하며, 새로운 Grad-CAM과 Guided Grad-CAM을 제시합니다.- Grad-CAM은 기존 CNN 네트워크의 구조 변형 없이도 적용 가능하며, 더 높은 localization 성능을 보입니다.1. Introduction본 논문의 주요 contribution은 다음과 같습니다:Grad-CAM이라는 localization 기법을 제안합니다. 이 기법..
(CAM) Learning Deep Features Discriminative Localization, CVPR 2016
·
논문 리뷰
논문: CVPR 2016 Open Access Repositorycode: zhoubolei/CAM: Class Activation Mapping 0. summary - 이 연구에서는 Global Average Pooling(GAP) 레이어가 이미지-라벨 수준으로만 학습된 CNN이 뛰어난 지역화(localization) 능력을 갖게 하는 원리를 설명합니다. - GAP는 이전에, 정규화 등 여러 다른 이점들을 위해 제안되었으나, 이는 generic localizable deep representation을 형성하며, 암시적(implicit)으로 CNN이 이미지에 주의(Attention)하는 영역을 드러내는 것을 발견했습니다. - ILSVRC 2014 데이터셋의 object localization task에..
모두의 딥러닝 시즌 1
·
딥러닝
머신러닝의 개념과 용어머신러닝 이란? 개발자가 하드 코딩하지 않고, 데이터를 통해 학습해서 문제를 해결하는 것 (Arthur Samuel. 1959)Supervised learning 이란? label(정답) 이 갖춰진 데이터를 통해 학습하는 방법Unsupervised learning 이란? label이 없는 데이터를 통해 스스로 학습(Clustering, PCA 등)하는 방법Training data set 이란? X(학습 데이터)와 Y(label)로 구성된 데이터이며, 모델 정확도를 위해 학습(가중치 업데이트)할 때 쓰이는 데이터 셋Supervised learning 종류? 연속적인 값(ex. 0~100 사이 실수)를 예측하는 regression 문제, 이산적인 값(ex. 0, 1, 2..)를 구분하는..
CS231n Assignment 3(4) : Self-Supervised Learning for Image Classification
·
Stanford CS231n
Self-Supervised LearningSelf-Supervised Learning 이란 레이블이 없는 데이터셋을 바탕으로 모델이 데이터로부터 좋은 representation을 만드는 학습 방법을 의미합니다. 데이터로부터 추출한 representation vector는 데이터의 특징을 잘 담고 있어야 합니다. 예를 들어, Self-Supervised Learning으로 잘 학습된 Encoder가 있다고 가정해봅니다. 데이터의 특징을 잘 추출하였다면, 바나나 이미지들로부터 추출한 representation vector들은 cosine similarity가 높고, 바나나 이미지와 강아지 이미지로부터 추출한 representation vector들의 similarity는 낮을 것 입니다.최근에는 Contr..
CS231n Assignment 3(3) : Generative Adversarial Networks
·
Stanford CS231n
Inline Question 1What does your final vanilla GAN image look like? Your Answer : iteration 초기에는 검은 배경과 흐릿한 배경 형태이고, 점점 흐릿한 형태들이 보이며, 최종 출력은 절반 정도는 어느정도 인식이 가능한 형태로 나타났습니다.Inline Question 2What does your final LSGAN image look like? Your Answer : 최종 출력은 Vanilla GAN에 비해 인식 가능한 이미지가 많아진 것 같고, 흐릿한 형태의 숫자들이 어느정도 밀접한 군집의 형태로 나타났습니다.Inline Question 3What does your final DCGAN image look like? Your Answ..
CS231n Assignment 3(2) : Image Captioning with Transformers
·
Stanford CS231n
Inline Question 1Several key design decisions were made in designing the scaled dot product attention we introduced above. Explain why the following choices were beneficial:Using multiple attention heads as opposed to one.Dividing by $\sqrt{d/h}$before applying the softmax function. Recall that d is the feature dimension and h is the number of heads.Adding a linear transformation to the output o..
CS231n Assignment 3(1) : RNN_Captioning
·
Stanford CS231n
Inline Question 1In our current image captioning setup, our RNN language model produces a word at every timestep as its output. However, an alternate way to pose the problem is to train the network to operate over characters (e.g. 'a', 'b', etc.) as opposed to words, so that at it every timestep, it receives the previous character as input and tries to predict the next character in the sequence...