인공지능/공부

생성형 인공지능 입문 9주차 2차시 - 예술 작품 생성 실습

이게될까 2024. 5. 2. 15:27
728x90
728x90

VGG - 그렇게 복잡하지 않으면서도 GAN에서 많이 사용된다.

두 loss를 합쳐서 균형 잡히게 학습할 수 있다.

스타일 GAN, 특히 StyleGAN을 이해하는 데 있어서 핵심적인 요소는 데이터셋, 모델 아키텍처, 그리고 콘텐츠와 스타일의 loss 최소화 방식입니다. 이 세 요소에 대해 자세히 설명드리겠습니다.

1. 데이터셋

StyleGAN을 학습시키기 위한 데이터셋은 대부분 고해상도 이미지를 포함하며, 특히 사람의 얼굴을 많이 사용합니다. 가장 유명한 데이터셋 중 하나는 FFHQ (Flickr-Faces-HQ) 데이터셋입니다. 이 데이터셋은 70,000개 이상의 고품질 얼굴 이미지를 포함하며, 다양한 연령대, 배경, 및 인종을 포함하여 모델이 다양한 특징을 학습할 수 있도록 설계되었습니다.

2. 모델 아키텍처

StyleGAN의 아키텍처는 다음과 같은 주요 구성 요소로 이루어져 있습니다:

  • 매핑 네트워크: 이 네트워크는 랜덤 노이즈 벡터를 입력으로 받아 내부 레이턴트 공간에 있는 스타일 코드로 변환합니다. 이 스타일 코드는 이미지의 전반적인 스타일을 결정하는 데 사용됩니다.
  • 합성 네트워크: 이 네트워크는 매핑 네트워크로부터 스타일 코드를 받아 실제 이미지를 생성합니다. 여기서는 각 레이어마다 해당 레이어의 디테일을 조절하는 별도의 스타일 코드가 적용됩니다.
  • AdaIN (Adaptive Instance Normalization): 각 컨볼루션 레이어의 출력에 적용되는 기술로, 스타일 코드에 따라 특성 맵의 정규화 방식을 조정합니다.
  • 멀티-스케일 아키텍처: StyleGAN은 다양한 해상도에서 이미지를 점진적으로 구성합니다. 낮은 해상도에서 시작하여 점차적으로 더 높은 해상도의 이미지를 생성하며, 각 단계에서 이미지의 세부사항을 추가합니다.

3. 콘텐츠와 스타일의 Loss 최소화 방식

StyleGAN은 GANs의 전형적인 adversarial loss 외에도 여러 추가적인 loss 함수를 사용하여 품질을 향상시킵니다:

  • 콘텐츠 Loss: StyleGAN에서는 주로 콘텐츠 loss를 사용하지 않습니다. 대신, 생성된 이미지가 진짜 같은지 판별하는 discriminator에 의해 간접적으로 콘텐츠의 진정성이 평가됩니다.
  • 스타일 Loss: 스타일 loss는 각 레이어에서 AdaIN을 통해 조정된 스타일 코드가 얼마나 잘 적용되었는지를 측정합니다. 각 이미지 레이어에서의 스타일 차이를 최소화하는 것이 목표입니다.
  • 퍼셉츄얼 Loss (Perceptual Loss): 이는 이미지의 고수준의 특징을 비교하는 데 사용되며, VGG 네트워크와 같은 사전 학습된 분류 네트워크를 사용하여 계산됩니다.

StyleGAN의 성능은 이러한 구성 요소의 조합으로 인해 뛰어나며, 매우 사실적이면서도 다양한 스타일의 이미지를 생성할 수 있는 능력을 가지고 있습니다. 이러한 특성 덕분에, StyleGAN은 얼굴 이미지뿐만 아니라 다양한 유형의 이미지 생성에도 적용되고 있습니다.

728x90