[DL] A Neural Algorithm of Artistic Style

논문

Abstract

인간은 이미지의 내용과 형식을 보고 시각적 경험을 생성할 수 있다. 아직도 이러한 원리는 명확히 규명되지 않았고, 비슷한 능력을 인공적으로 구현할 수도 없다. 그러나 최근 딥러닝으로 객체 또는 얼굴 인지 기법이 인간과 유사할 정도로 발전하였다. 이러한 발전에 힘입어, 이미지의 내용과 형식을 분리하고 재결합하기 위해 representation을 사용한 이미지 생성 기술을 제안한다.

CNN 훈련과정에서 이미지는 표현으로 사상된다. 각 계층에서 입력이미지의 정보를 얼마나 가지고 있는지 시각화할 수 있다. 어떤 특징 공간의 정보를 시각화하냐에 따라 독립적인 표현들을 합성할 수 있다. 그러나 다른 두 이미지에서 각각 내용과 스타일을 산출하고, 합성하는 것에는 제약이있다. 이때의 손실함수를 어떻게 결정하냐에 따라 외관에 좀 더 집중할지, 내용에 좀 더 집중할지 정해진다.

이제, VGG-Network를 기반으로 콘텐츠와 스타일을 서로 다른 입력에서 도출하는 모델이 설계되었다. VGG-Network는 객체 인식에 유용한 보다 깊고 강력한 합성곱 신경망이다. 이 방법을 통해 콘텐츠와 스타일을 완전히 분리하여 독립적으로 조작할 수 있었다.