반응형

 

https://openaccess.thecvf.com/content_CVPR_2019/papers/Karras_A_Style-Based_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.pdf

 

0. Title

A Style-Based Generator Architecture for Generative Adversarial Networks

: 생성형 네트워크를 위한 스타일 기반의 생성 아키텍처.

"스타일"에 초점이 맞추어져 있나보다.

 

1. Abstract

새로운 아키텍처는 사람 얼굴을 학습할 때 자세와 신원과 같은 고수준 특징들을 자동으로 학습하여 분리할 수 있다.

또한, 생성된 이미지에서 주근깨, 머리카락과 같은 확률적 변동(stochastic variation)을 잡아내고 이를 직관적이고 스케일별로 제어할 수 있다.

 

또한, 새로운 생성기는 분리(disentanglement) 품질 측정방법의 관점에서 발전시켰다.

이는 interpolation의 성능을 높이고, 변화의 잠재 요인(latent factor)을 더 잘 분리시킨다.

 

보간 품질과 분리를 정량화하기 위해 두 가지 새롭고 자동화된 방법을 제안하며, 이는 모든 생성자 아키텍처에 적용 가능하다.

마지막으로, 다양하고 고품질의 얼굴 데이터셋을 소개한다.

 

2. Structure

기존 방식과의 차이이다. AdaIN이라는 것이 눈에 띄인다.

그리고 systhesis network를 따로 빼서 중간 중간 입력값을 넣어주고, 노이즈를 섞어주고 있다.

 

입력을 중간 잠재 공간 W로 매핑한 후, 각 컨볼루션 레이어에서 적응형 인스턴스 정규화(AdaIN)를 통해 생성자를 조절한다. 각 컨볼루션 이후에는 비선형성을 평가하기 전에 가우시안 노이즈가 추가된다. 여기서 'A'는 학습된 어파인 변형을 나타내며, 'B'는 노이즈 입력에 대한 학습된 채널별 스케일링 요소를 적용한다. 매핑 네트워크 f는 8개의 레이어로 구성되어 있고, 합성 네트워크 g는 해상도마다 2개의 레이어를 가지며 총 18개의 레이어로 구성된다(4x4부터 1024x1024까지). 마지막 레이어의 출력은 Karras 등의 연구와 유사하게 1x1 합성곱을 사용하여 RGB로 변환된다. 생성자는 총 26.2M의 학습 가능한 매개변수를 갖고 있는데, 이는 전통적인 생성자의 23.1M과 비교하여 더 많다.



3. Style based generator

먼저, 입력 공간과 중간 잠재 공간 W의 차원을 모두 512로 설정하고 있다. 중간 잠재 공간 W에서의 매핑 네트워크 f는 8개의 레이어로 이루어진 MLP(Multi-Layer Perceptron)로 구현되었다. 

학습된 어파인 변형은 w를 스타일인 y = (ys, yb)로 특화시킨다. 이 스타일은 합성 네트워크 g의 각 컨볼루션 레이어 이후에 적응적인 인스턴스 정규화(AdaIN) [26, 16, 20, 15] 작업을 제어하는 역할을 한다. AdaIN 연산은 각 피쳐 맵 xi를 개별적으로 정규화한 다음, 스타일 y의 해당 스칼라 요소를 사용하여 스케일링과 바이어스를 적용한다. 따라서 y의 차원은 해당 레이어의 피쳐 맵 수의 두 배이다.

스타일 전이와 비교하여 우리의 접근 방식은 예시 이미지 대신 벡터 w에서 공간에 불변적인 스타일 y를 계산한다. 우리는 y라는 용어를 선택한 이유는 비슷한 네트워크 구조가 이미 피드포워드 스타일 전이 [26], 비지도 이미지 간 번역 [27], 도메인 혼합 [22]에 사용되고 있기 때문이다. 일반적인 특징 변환 [35, 53]과 비교하여, AdaIN은 효율적이고 간결한 표현력 때문에 우리의 목적에 특히 적합하다.

마지막으로, 우리는 명시적인 노이즈 입력을 도입하여 생성자가 확률적인 디테일을 생성할 수 있도록 한다. 이 노이즈 입력은 상관관계 없는 가우시안 노이즈로 구성된 단일 채널 이미지이며, 합성 네트워크의 각 레이어에 전용 노이즈 이미지를 입력으로 제공한다. 노이즈 이미지는 학습된 피쳐별 스케일링 요소를 사용하여 모든 피쳐 맵으로 브로드캐스트되고, 해당 컨볼루션의 출력에 추가된다.

 

 

4. 정리

이 논문은 생성 적대 신경망(GANs)을 위한 스타일 기반 생성자 아키텍처에 대한 연구를 제시한다.

기존의 GAN은 입력으로 잠재 벡터(latent vector)를 사용하여 이미지를 생성하는데, 이 논문에서 제안하는 스타일 기반 생성자 아키텍처는 스타일 정보를 잠재 벡터와 분리하여 다루는 방법을 소개한다. 이 아키텍처는 먼저 입력으로 잠재 벡터를 받아들이고, 그 다음에는 스타일 정보를 얻기 위해 이를 스타일화 네트워크(style network)에 통과시킨다.

스타일화 네트워크는 입력 이미지의 스타일을 분석하여 스타일 벡터(style vector)를 생성하는 역할을 한다. 스타일 벡터는 입력 이미지의 색상, 질감, 형태 등과 같은 스타일적 특징을 포착하는데 사용된다. 그 다음, 스타일 벡터는 각각의 스타일화 층(style modulation layer)에 적용된다.

스타일화 층은 생성자 네트워크의 각 층에 적용되는 스케일링과 이동을 결정하는 역할을 한다. 이를 통해 스타일 벡터는 이미지의 각 부분에 대해 적절한 스타일을 적용하는데 사용된다. 따라서, 스타일 기반 생성자 아키텍처는 더 풍부하고 다양한 이미지 생성을 가능하게 한다.

실험 결과는 스타일 기반 생성자 아키텍처가 기존의 GAN보다 더 나은 생성 결과를 도출하는 것을 보여준다. 스타일 기반 생성자는 세밀한 스타일 조절이 가능하며, 이미지의 해상도와 품질을 향상시키는 데 효과적이다.

이 논문은 GAN의 생성자 아키텍처를 혁신적으로 발전시키고, 생성된 이미지의 품질과 다양성을 향상시키는 방향으로 기여한 것으로 평가된다. 스타일 기반 생성자 아키텍처는 다양한 응용 분야에서 이미지 생성 및 스타일 전이(style transfer)와 같은 작업에 활용될 수 있다.

 

 

5. 궁금한 점 및 더 알아볼 점

GAN에서 '잠재 공간 W'이라는 게 어떤 의미인가?

반응형
반응형

 

 

 

논문 링크입니다.

https://arxiv.org/pdf/2112.00322v1.pdf

2022년 발행

 

 

0. Title

FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection

-> 앵커가 없이, Fully Convolution을 사용하여 3D 객체 인식을 하는 건가 보다...

 

1. Abstract

최근 로보틱스와 증강현실에서 촉망받는 분야인 포인트 클라우드(라이다 센서나 RGB-D센서 등으로부터 수집되는 데이터) 기반의 3D 객체 인식이다.

이 논문에서 우리는 FCAF3D, 즉, 최초의 Fully Convolutional Anchor-Free 3D Object Detection 방법을 소개할 것이다.

포인트 클라우드로부터 Voxel(부피와 픽셀 표현을 사용하고, 밀도가 적은(sparse) 컨볼루션을 처리한다.

 

FCAF3D는 하나의 fully convolution feed-forward pass를 통해 큰 크기의 장면들을 적은 런타임으로 다룰 수 있다.

*feed-forward pass : 입력층으로 데이터가 입력되고, 1개 이상으로 구성된 은닉층을 거쳐서 마지막에 있는 출력층으로 출력 값을 내보내는 과정

 

기존의 3D 객체 인식은 객체의 기하학을 기반으로 사전 추정을 하였는데, 

우리는 이것이 그들의 일반화 능력을 제한한다고 주장하였다.

따라서, 사전 추정을 없애기 위해 우리는 oriented bounding box의 매개변수화를 제안하였다.

이를 통해, 순수하게 data만을 지향하는 방식으로 더 좋은 결과를 낼 수 있었다.

 

우리의 방식은

mAP@0.5 on ScanNet V2 (+4.5), SUN RGB-D (+3.5), and S3DIS (+20.5) datasets

의 결과가 있었다.

코드와 모델은 이곳에서 볼 수 있다.

https://github.com/samsunglabs/fcaf3d

 

GitHub - SamsungLabs/fcaf3d: [ECCV2022] FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection

[ECCV2022] FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection - GitHub - SamsungLabs/fcaf3d: [ECCV2022] FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection

github.com

 

 

 

 

 

 

 

반응형
반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1506.02640

 

You Only Look Once: Unified, Real-Time Object Detection

We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabili

arxiv.org

 

 

 

0. Title


You Only Look Once: Unified, Real-Time Object Detection

-> 넌 한번만 본다?

통합되고 리얼타임인 객체탐지 모델인가 봅니다...

 

 

 

1. Abstract


object detection의 새로운 접근법인 YOLO를 소개하려고 한다.

이전 연구들은 분류기를 탐지를 위해서 사용해왔다.

하지만, 우리는 객체 탐지를 공간적으로 분리된 바운딩 박스와 관련된 클래스 확률을 회귀 문제로 생각하였다.

단일 뉴럴 네트워크는 바운딩 박스와 클래스 확률을 한 평가에서 풀 이미지로부터 직접 예측한다.

전체 탐지 파이프라인이 하나의 네트워크이기 때문에 end-to-end로 최적화될 수 있다.

 

우리의 통합된 아키텍처는 매우매우 빠르다.

YOLO는 지역적인 에러를 만들기는 하지만, 배경에서 틀린 것을 맞다고 예측하는 것이 적다는 장점이 있다.

마지막으로, YOLO는 물체의 일반적인 표현을 학습한다.

YOLO는 R-CNN보다 성능이 좋다.

 

Figure 1: The YOLO Detection System

 

 

 

 

 

 

반응형
반응형

 

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1504.08083

 

Fast R-CNN

This paper proposes a Fast Region-based Convolutional Network method (Fast R-CNN) for object detection. Fast R-CNN builds on previous work to efficiently classify object proposals using deep convolutional networks. Compared to previous work, Fast R-CNN emp

arxiv.org

 

 

 

0. Title


Fast R-CNN

-> R-CNN을 사용하고, 빠른가보다...

 

 

1. Abstract


이 논문은 빠른 object detection에서 사용되는 Region-based 컨볼루션 네트워크를 제안한다.

Fast R-CNN은 딥한 컨볼루션 네트워크를 사용한 객체 proposal을 효율적으로 분류하기 위해 이전의 연구에 바탕으로 하고 있다.

이전 연구와 비교해서,

Fast R-CNN은 학습과 테스트 속도를 향상시키는 동시에 detection 정확도를 높이기 위해 여러가지의 혁신을 했다.

 

 

 

2. Introduction


최근에 딥한 ConvNet은 이미지 분류와 객체 탐지에서 훌륭한 성과를 보이고 있다.

이미지 분류와 다르게 객체 탐지는 더 복잡한 방법을 사용해야 하기 때문에 좀 더 어렵다.

이 복잡성 때문에 현재의 접근법은

멀티 스테이지 파이프라인이고, 이는 매우 느리고 우아하지 않다.

 

복잡성은 디텍션이 정확한 물체의 위치를 요구하기 때문이다.

첫째로, 여러개의 후보 물체 위치(="proposal")가 연산되어야 한다.

둘째로, 이 후보자(="proposal")들은 대략적인 위치만을 제공하기 때문에 정확한 위치를 알기 위해서는 정제를 해야한다.

따라서 이 문제에 대한 해결책은 속도, 정확도, 그리고 간단함이 포함되어야 한다.

 

이 논문에서는 object proposal들을 분류하고, 그들의 위치를 정제하는 과정을 싱글 스테이지로 만들 것이다.

 

 

R-CNN의 경우 region proposal을 selective search로 수행한 뒤 약 2,000개에 달하는 후보 이미지 각각에 대해서 convolution 연산을 수행하게 됩니다. 이 경우 한 이미지에서 feature을 반복해서 추출하기 때문에 비효율적이고 느리다는 단점이 있습니다.

Fast R-CNN에서는 후보 영역의 classification과 Bounding Box regression을 위한 feature을 한 번에 추출하여 사용합니다.

R-CNN과의 차이는 이미지를 Sliding Window 방식으로 잘라내는 것이 아니라 해당 부분을 CNN을 거친 Feature Map에 투영해, Feature Map을 잘라낸다는 것입니다.

이렇게 되면 이미지를 잘라 개별로 CNN을 연산하던 R-CNN과는 달리 한 번의 CNN을 거쳐 그 결과물을 재활용할 수 있으므로 연산수를 줄일 수 있습니다.

이때 잘라낸 feature map의 영역은 여러 가지 모양과 크기를 가지므로, 해당 영역이 어떤 class에 속하는지 분류하기 위해 사용하는 fully-connected layer에 배치(batch) 입력값을 사용하려면 영역의 모양과 크기를 맞추어 주어야 하는 문제가 생깁니다.

논문에서는 RoI(Region of Interest) pooling이라는 방법을 제안해서 후보 영역에 해당하는 특성을 원하는 크기가 되도록 pooling하여 사용합니다.

(출처 : https://velog.io/@cha-suyeon/%EB%94%A5%EB%9F%AC%EB%8B%9D-Object-Detection-Architecture-1-stage-detector%EC%99%80-2-stage-detector)

 

# R-CNN 아키텍쳐

Figure 1. R-CNN architecture.

 

# Fast R-CNN 아키텍쳐

Figure 1. Fast R-CNN architecture.

 

 

 

 

 

 

 

 

반응형
반응형

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1506.01497

 

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottle

arxiv.org

 

 

0. Title


Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

-> Faster R-CNN은 Region Proposal Network를 이용하는 리얼타임 Object Detection 모델인가보다..

리얼타임이면 속도가 빨라야 하니까 Faster 이라는 이름이 붙지 않았을까??

 

 

1. Abstract


SOTA 모델들은 객체의 위치를 찾기 위해 region proposal 알고리즘이 의존하고 있다.

SPPnet과 Fast R-CNN과 같은 모델은 region proposal을 보틀넥으로 노출시킴으로써 이 디텍션 네트워크의 러닝타임을 줄였다.

이 논문에서는 우리는 풀 이미지 컨볼루션 피쳐를 공유하는 Region Proposal Network(RPN)을 소개하려고 한다.

RPN는 fully convolution network이고 동시에 각각의 위치에서 물체 바운드와 스코어를 예측한다.

RPN은 높은 퀄리티의 region proposal를 만들기 위해 end-to-end로 학습된다.

우리는 나아가 Fast R-CNN과 RPN을 그들의 컨볼루션 피쳐를 공유함으로써 하나의 네트워크로 합친다. -- 어텐션 매커니즘과 함께

RPN 컴포넌트는 통합된 네트워크에서 어디를 더 주목해야 되는지 알려준다.

 

Fast R-CNN은 반복되는 CNN 연산을 크게 줄여냈지만 region proposal 알고리즘이 병목이 됩니다. Faster R-CNN에서는 기존의 Fast R-CNN을 더 빠르게 만들기 위해서 region proposal 과정에서 RPN(Region Proposal Network)라고 불리는 neural network를 사용합니다.

이미지 모델을 해석하기 위해 많이 사용하는 CAM(Classification Activation Map)에서는 object를 분류하는 태스크만으로도 활성화 정도를 통해 object를 어느 정도 찾을 수 있습니다.

이처럼 먼저 이미지에 CNN을 적용해 feature을 뽑아내면, feature map만을 보고 object가 있는지 알아낼 수 있습니다. 이때 feature map을 보고 후보 영역들을 얻어내는 네트워크가 RPN입니다. 후보 영역을 얻어낸 다음은 Fast R-CNN과 동일합니다.

Figure 2: Faster R-CNN is a single, unified network for object detectionn. The RPN module serves as the ‘attention’ of this unified network

 

(출처 : https://velog.io/@cha-suyeon/%EB%94%A5%EB%9F%AC%EB%8B%9D-Object-Detection-Architecture-1-stage-detector%EC%99%80-2-stage-detector)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

# 논문 링크입니다.

https://arxiv.org/abs/1708.02002

 

Focal Loss for Dense Object Detection

The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In contrast, one-stage detectors that are applied over a regular, dense sampl

arxiv.org

2018년 발행

 

 

0. Title


Focal Loss for Dense Object Detection

-> 응집된 Object Detection에서 사용하는 loss function인가 보다...

 

 

우리는 표준 cross entropy 에서 factor (1 − pt)^γ 를 추가한 Focal Loss를 소개하려 한다.

γ > 0로 설정함으로써 상대적인 loss를 줄일 수 있다.

 

focal loss는 굉장히 정확한 응집된 object detector를 학습시키는 것을 가능하게 하였다. 쉬운 백그라운드 예시의 엄청 많은 출현에서

 

 

1. Abstract


현재 가장 높은 정확도를 가진 object detectors은 2 스테이지 기반의 R-CNN이다.

 

 

 

 

반응형

+ Recent posts