반응형

 

https://openaccess.thecvf.com/content_CVPR_2019/papers/Karras_A_Style-Based_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.pdf

 

0. Title

A Style-Based Generator Architecture for Generative Adversarial Networks

: 생성형 네트워크를 위한 스타일 기반의 생성 아키텍처.

"스타일"에 초점이 맞추어져 있나보다.

 

1. Abstract

새로운 아키텍처는 사람 얼굴을 학습할 때 자세와 신원과 같은 고수준 특징들을 자동으로 학습하여 분리할 수 있다.

또한, 생성된 이미지에서 주근깨, 머리카락과 같은 확률적 변동(stochastic variation)을 잡아내고 이를 직관적이고 스케일별로 제어할 수 있다.

 

또한, 새로운 생성기는 분리(disentanglement) 품질 측정방법의 관점에서 발전시켰다.

이는 interpolation의 성능을 높이고, 변화의 잠재 요인(latent factor)을 더 잘 분리시킨다.

 

보간 품질과 분리를 정량화하기 위해 두 가지 새롭고 자동화된 방법을 제안하며, 이는 모든 생성자 아키텍처에 적용 가능하다.

마지막으로, 다양하고 고품질의 얼굴 데이터셋을 소개한다.

 

2. Structure

기존 방식과의 차이이다. AdaIN이라는 것이 눈에 띄인다.

그리고 systhesis network를 따로 빼서 중간 중간 입력값을 넣어주고, 노이즈를 섞어주고 있다.

 

입력을 중간 잠재 공간 W로 매핑한 후, 각 컨볼루션 레이어에서 적응형 인스턴스 정규화(AdaIN)를 통해 생성자를 조절한다. 각 컨볼루션 이후에는 비선형성을 평가하기 전에 가우시안 노이즈가 추가된다. 여기서 'A'는 학습된 어파인 변형을 나타내며, 'B'는 노이즈 입력에 대한 학습된 채널별 스케일링 요소를 적용한다. 매핑 네트워크 f는 8개의 레이어로 구성되어 있고, 합성 네트워크 g는 해상도마다 2개의 레이어를 가지며 총 18개의 레이어로 구성된다(4x4부터 1024x1024까지). 마지막 레이어의 출력은 Karras 등의 연구와 유사하게 1x1 합성곱을 사용하여 RGB로 변환된다. 생성자는 총 26.2M의 학습 가능한 매개변수를 갖고 있는데, 이는 전통적인 생성자의 23.1M과 비교하여 더 많다.



3. Style based generator

먼저, 입력 공간과 중간 잠재 공간 W의 차원을 모두 512로 설정하고 있다. 중간 잠재 공간 W에서의 매핑 네트워크 f는 8개의 레이어로 이루어진 MLP(Multi-Layer Perceptron)로 구현되었다. 

학습된 어파인 변형은 w를 스타일인 y = (ys, yb)로 특화시킨다. 이 스타일은 합성 네트워크 g의 각 컨볼루션 레이어 이후에 적응적인 인스턴스 정규화(AdaIN) [26, 16, 20, 15] 작업을 제어하는 역할을 한다. AdaIN 연산은 각 피쳐 맵 xi를 개별적으로 정규화한 다음, 스타일 y의 해당 스칼라 요소를 사용하여 스케일링과 바이어스를 적용한다. 따라서 y의 차원은 해당 레이어의 피쳐 맵 수의 두 배이다.

스타일 전이와 비교하여 우리의 접근 방식은 예시 이미지 대신 벡터 w에서 공간에 불변적인 스타일 y를 계산한다. 우리는 y라는 용어를 선택한 이유는 비슷한 네트워크 구조가 이미 피드포워드 스타일 전이 [26], 비지도 이미지 간 번역 [27], 도메인 혼합 [22]에 사용되고 있기 때문이다. 일반적인 특징 변환 [35, 53]과 비교하여, AdaIN은 효율적이고 간결한 표현력 때문에 우리의 목적에 특히 적합하다.

마지막으로, 우리는 명시적인 노이즈 입력을 도입하여 생성자가 확률적인 디테일을 생성할 수 있도록 한다. 이 노이즈 입력은 상관관계 없는 가우시안 노이즈로 구성된 단일 채널 이미지이며, 합성 네트워크의 각 레이어에 전용 노이즈 이미지를 입력으로 제공한다. 노이즈 이미지는 학습된 피쳐별 스케일링 요소를 사용하여 모든 피쳐 맵으로 브로드캐스트되고, 해당 컨볼루션의 출력에 추가된다.

 

 

4. 정리

이 논문은 생성 적대 신경망(GANs)을 위한 스타일 기반 생성자 아키텍처에 대한 연구를 제시한다.

기존의 GAN은 입력으로 잠재 벡터(latent vector)를 사용하여 이미지를 생성하는데, 이 논문에서 제안하는 스타일 기반 생성자 아키텍처는 스타일 정보를 잠재 벡터와 분리하여 다루는 방법을 소개한다. 이 아키텍처는 먼저 입력으로 잠재 벡터를 받아들이고, 그 다음에는 스타일 정보를 얻기 위해 이를 스타일화 네트워크(style network)에 통과시킨다.

스타일화 네트워크는 입력 이미지의 스타일을 분석하여 스타일 벡터(style vector)를 생성하는 역할을 한다. 스타일 벡터는 입력 이미지의 색상, 질감, 형태 등과 같은 스타일적 특징을 포착하는데 사용된다. 그 다음, 스타일 벡터는 각각의 스타일화 층(style modulation layer)에 적용된다.

스타일화 층은 생성자 네트워크의 각 층에 적용되는 스케일링과 이동을 결정하는 역할을 한다. 이를 통해 스타일 벡터는 이미지의 각 부분에 대해 적절한 스타일을 적용하는데 사용된다. 따라서, 스타일 기반 생성자 아키텍처는 더 풍부하고 다양한 이미지 생성을 가능하게 한다.

실험 결과는 스타일 기반 생성자 아키텍처가 기존의 GAN보다 더 나은 생성 결과를 도출하는 것을 보여준다. 스타일 기반 생성자는 세밀한 스타일 조절이 가능하며, 이미지의 해상도와 품질을 향상시키는 데 효과적이다.

이 논문은 GAN의 생성자 아키텍처를 혁신적으로 발전시키고, 생성된 이미지의 품질과 다양성을 향상시키는 방향으로 기여한 것으로 평가된다. 스타일 기반 생성자 아키텍처는 다양한 응용 분야에서 이미지 생성 및 스타일 전이(style transfer)와 같은 작업에 활용될 수 있다.

 

 

5. 궁금한 점 및 더 알아볼 점

GAN에서 '잠재 공간 W'이라는 게 어떤 의미인가?

반응형

+ Recent posts