인공지능/공부

생성형 인공지능 기말고사 대비 문제만들기

이게될까 2024. 6. 15. 21:24
728x90
728x90

1주 차

OX 문제

  1. GPT는 인코더와 디코더로 구성된다. (X) gpt 는 디코더만!
  2. 생성형 인공지능은 텍스트, 이미지, 음악 등의 콘텐츠 생성을 중점으로 한다. (O) 
  3. BERT는 GPT 이후에 개발된 모델이다. (X) 이전이다.
  4. 강화 학습으로 사용자 피드백을 통한 미세 조정을 RLHF라고 한다. (O)
  5. Transformer 모델은 Masked Multi-Head Self Attention을 사용하지 않는다. (X) 사용하고 있다.
  6. GAN은 생성기와 판별기로 구성되어 있다. (O)
  7. Flow-based 모델에서는 디코더가 인코더의 역함수가 아니다. (X) 맞다
  8. 생성형 인공지능은 인간의 사고와 인지 과정을 시뮬레이션한다. (X) 인지 인공지능이다.
  9. 자연어 처리(NLP)는 언어학, 컴퓨터 과학, 인공지능 분야의 교차응용이다. (O)
  10. VAE는 노이즈 생성 및 노이즈 제거를 수행한다. (X) 그건 디퓨전

빈칸 채우기 문제

  1. GPT는 트랜스포머 __ 모델인 생성형 사전 학습 트랜스포머를 기반으로 한다. (Decoder)
  2. Transformer 모델은 __ Multi-Head Self Attention을 통해 학습한다. (Masked)
  3. GPT 3.5의 한계 중 하나는 정보의 __이다. (제한)
  4. 생성형 인공지능에서 GAN은 __와 판별기로 구성된다. (생성기)
  5. 인지 인공지능은 컴퓨터가 인간의 __와 인지 과정을 시뮬레이션하는 방법을 연구한다. (사고)
  6. 언어 생성 기술은 자동화된 __ 시스템, 챗봇 등에 널리 사용된다. (질의 응답)
  7. 언어 모델에서 RNN은 시간적 종속성을 포착하는 순차적 __ 상태를 사용한다. (숨겨진)
  8. BLEU 점수는 생성된 텍스트와 __ 텍스트 간의 유사성을 측정한다. (참조)
  9. VAE는 입력 영상의 __ 분포를 학습한 다음 새 이미지를 생성한다. (잠재 변수)
  10. 데이터 마이닝도 __ 분야이다. (추론)

단답형 문제

  1. GPT는 어떤 모델을 기반으로 하나요? (Transformer Decoder)
  2. 생성형 인공지능에서 이미지 생성을 위해 사용되는 두 가지 기술은 무엇인가요? (GAN, Autoencoder)
  3. RLHF란 무엇의 약자인가요? (Reinforcement Learning with Human Feedback)
  4. Transformer 모델에서 모든 입력 토큰에 문맥 관계를 생성하는 것은 무엇인가요? (Multi-Head Self Attention)
  5. GAN의 두 구성 요소는 무엇인가요? (생성기, 판별기)
  6. 인지 인공지능의 목표는 무엇인가요? (인간과 같은 인지 능력을 발휘할 수 있는 시스템 개발)
  7. 언어 모델 평가 지표 중 다음 단어 예측 능력을 측정하는 것은 무엇인가요? (난해성)
  8. VAE의 주요 목적은 무엇인가요? (노이즈 제거 및 특성 변환)
  9. RNN에서 시간적 종속성을 포착하는 것은 무엇인가요? (순차적 숨겨진 상태)
  10. 자연어 생성을 위한 데이터 집합은 무엇인가요? (Text corpus)

서술형 문제

  1. GPT와 BERT의 차이점에 대해 설명하시오.
    • GPT는 트랜스포머의 디코더 모델을 기반으로 하여 텍스트 생성을 중점으로 하지만, BERT는 트랜스포머의 인코더 모델을 기반으로 하여 텍스트 이해를 중점으로 한다. GPT는 주로 생성 작업에 사용되고, BERT는 텍스트 분류 및 질의 응답과 같은 이해 작업에 많이 사용된다.
  2. 생성형 인공지능의 다양한 응용 분야에 대해 설명하시오.
    • 생성형 인공지능은 텍스트, 이미지, 비디오, 오디오 등의 다양한 콘텐츠를 생성하는 데 사용된다. 텍스트 생성에서는 RNN, Transformer를 활용하고, 이미지 생성에서는 GAN과 Autoencoder를 활용하며, 비디오 생성에서는 3D CNN과 GAN을 사용한다. 오디오 생성에는 1D CNN과 GAN이 사용된다. 이러한 기술들은 자동화된 콘텐츠 생성, 창작 활동, 게임 디자인, 광고, 미디어 등 여러 분야에서 응용된다.
  3. 강화 학습을 통한 미세 조정의 과정에 대해 설명하시오.
    • 강화 학습을 통한 미세 조정은 사전 학습된 모델에 사용자 피드백을 반영하여 성능을 개선하는 과정이다. 모델은 사용자의 피드백을 바탕으로 정책을 학습하고, 이를 통해 더 나은 결과를 생성하도록 조정된다. 이 과정에서는 보상을 최대화하는 방향으로 학습이 진행되며, 이를 통해 모델의 정확도와 유용성이 향상된다.
  4. 인지 인공지능의 구성 요소와 그 역할에 대해 설명하시오.
    • 인지 인공지능은 지식 표현, 학습, 자연어 처리, 컴퓨터 비전, 추론 및 의사 결정 등의 구성 요소로 이루어져 있다. 지식 표현은 지식을 설명하고 정리하며, 학습은 데이터를 통해 패턴을 자동으로 학습하고 모델을 최적화한다. 자연어 처리는 컴퓨터가 자연어를 이해하고 처리할 수 있게 하며, 컴퓨터 비전은 이미지 및 비디오에서 객체를 인식하고 분석한다. 추론 및 의사 결정은 기존 정보를 기반으로 최적의 솔루션을 제공한다.
  5. 언어 생성에 사용되는 RNN과 Transformer 모델의 차이점에 대해 설명하시오.
    • RNN은 순차적 데이터를 처리하는 데 강점을 가지며, 시간적 종속성을 포착하는 순차적 숨겨진 상태를 사용한다. 그러나 긴 문맥을 처리하는 데 어려움이 있다. 반면 Transformer 모델은 모든 입력 토큰에 문맥 관계를 생성하는 Multi-Head Self Attention을 사용하여 긴 문맥도 효과적으로 처리할 수 있다. Transformer는 병렬 처리가 가능하여 학습 속도가 빠르고 성능이 우수하다.
  6. GAN과 VAE의 차이점에 대해 설명하시오.
    • GAN은 생성기와 판별기 두 신경망으로 구성되어 있으며, 생성기가 판별기를 속이기 위해 학습하고 판별기는 생성된 이미지를 판별하는 역할을 한다. 반면 VAE는 입력 데이터의 잠재 변수 분포를 학습하고, 이 분포를 기반으로 새 데이터를 생성하는 Autoencoder 기반 모델이다. GAN은 고품질 이미지를 생성하는 데 강점을 가지며, VAE는 데이터의 잠재 구조를 학습하는 데 유리하다.
    • 더보기

      질문에서 제시된 내용은 GAN과 VAE의 차이점을 잘 설명하고 있습니다. 하지만 몇 가지 점에서 명확성을 더할 수 있습니다. 아래는 원래 질문의 내용을 유지하면서 더 명확하게 수정한 버전입니다:

      GAN과 VAE의 차이점에 대해 설명하시오.
      GAN은 생성기와 판별기 두 신경망으로 구성되어 있습니다. 생성기는 실제 데이터를 흉내내는 샘플을 생성하려고 학습하고, 판별기는 이 샘플이 실제 데이터인지 생성된 데이터인지 구별하는 역할을 합니다. 반면, VAE는 입력 데이터의 잠재 변수 분포를 학습하고, 이 분포를 기반으로 새 데이터를 생성하는 Autoencoder 기반 모델입니다. GAN은 고품질 이미지를 생성하는 데 강점을 가지며, VAE는 데이터의 잠재 구조를 학습하고 이를 기반으로 새로운 데이터를 생성하는 데 유리합니다.

      설명:

      1. GAN (Generative Adversarial Network):
        • 구성 요소: 생성기(Generator)와 판별기(Discriminator)로 구성됩니다.
        • 학습 방식: 생성기는 판별기를 속이기 위해 실제 데이터와 유사한 데이터를 생성하려고 노력하며, 판별기는 실제 데이터와 생성된 데이터를 구별하려고 학습합니다.
        • 강점: 고품질의 이미지를 생성하는 데 효과적입니다.
      2. VAE (Variational Autoencoder):
        • 구성 요소: 인코더와 디코더로 구성된 Autoencoder 구조를 사용합니다.
        • 학습 방식: 입력 데이터를 잠재 변수 공간(latent space)으로 인코딩한 후, 이를 기반으로 데이터를 복원합니다. VAE는 입력 데이터의 분포를 학습하여 새로운 데이터를 생성합니다.
        • 강점: 데이터의 잠재 구조를 학습하고, 이를 기반으로 새로운 데이터를 생성하는 데 유리합니다.

      추가 설명:

      • GAN의 작동 원리: GAN의 생성기는 랜덤한 노이즈 벡터를 입력으로 받아서 샘플을 생성하고, 판별기는 이 샘플이 실제 데이터인지 생성된 데이터인지를 판별합니다. 두 네트워크는 서로 경쟁하며 학습합니다.
      • VAE의 작동 원리: VAE는 입력 데이터를 잠재 변수 공간으로 매핑하고, 이 공간에서 샘플을 생성하여 원래 데이터를 복원합니다. VAE는 데이터의 분포를 학습하여 새로운 데이터를 생성하는 데 초점을 맞춥니다.

      이 설명을 통해 GAN과 VAE의 주요 차이점과 각각의 특성을 명확하게 이해할 수 있습니다.

  7. 자연어 생성을 위한 전처리 과정에 대해 설명하시오.
    • 자연어 생성에서 전처리는 텍스트 데이터를 컴퓨터가 처리할 수 있는 형식으로 변환하는 과정이다. 주요 단계로는 토큰화, 벡터화, 임베딩이 있다. 토큰화는 텍스트를 개별 단어 또는 토큰으로 분리하고, 벡터화는 이를 숫자 표현으로 변환한다. 임베딩은 의미 관계나 문맥적 의미를 추가하여 벡터 표현을 더욱 개선하는 단계이다. 이러한 전처리 과정을 통해 모델이 텍스트 데이터를 효과적으로 학습할 수 있다.
  8. 자연어 처리에서 BLEU 점수의 의미와 활용에 대해 설명하시오.
    • BLEU 점수는 기계 번역 및 텍스트 생성에서 생성된 텍스트와 참조 텍스트 간의 유사성을 측정하는 평가 지표이다. BLEU 점수는 n-그램 매칭을 기반으로 하며, 생성된 텍스트가 참조 텍스트와 얼마나 유사한지를 평가한다. 높은 BLEU 점수는 생성된 텍스트가 참조 텍스트와 매우 유사함을 의미하며, 기계 번역 품질을 평가하는 데 널리 사용된다.
  9. 생성형 인공지능의 데이터셋의 중요성과 그 품질을 높이기 위한 방법에 대해 설명하시오.
    • 생성형 인공지능의 성능은 데이터셋의 품질에 크게 의존한다. 데이터셋이 크고 다양할수록 모델이 다양한 패턴을 학습할 수 있어 성능이 향상된다. 데이터 품질을 높이기 위해 데이터 증강, 전이 학습 등의 방법이 사용된다. 데이터 증강은 기존 데이터를 변형하여 데이터의 다양성을 높이는 방법이고, 전이 학습은 사전 학습된 모델을 새로운 데이터셋에 맞추어 미세 조정하는 방법이다.
  10. 인지 인공지능의 주요 응용 분야에 대해 설명하시오.
    • 인지 인공지능은 다양한 분야에서 응용될 수 있다. 지능형 고객 서비스는 사용자와 상호작용하여 음성 또는 텍스트를 통해 도움말을 제공하고, 지능형 검색은 사용자 요구에 따라 데이터에서 정확하게 관련 정보를 제공한다. 지능형 번역은 자연어를 다른 자연어로 번역하며, 지능형 이미지 분석은 의료 이미지를 분석하여 종양 및 질병을 찾는 데 사용된다. 자율 주행은 비전 기술과 센서를 사용하여 차량 이동을 관리하는 데 활용된다.

 

2주 차

주제에 기반한 다양한 유형의 시험 문제를 만들어 드리겠습니다.

OX 문제

  1. 재귀 신경망(RNN)은 순차적 데이터를 처리하기 위해 설계되었다. (O)
  2. 단방향 RNN은 과거 정보와 미래 정보를 모두 사용할 수 있다. (X)  단방향은 과거정보만
  3. Vanishing Gradient 문제는 기울기가 너무 커지는 현상이다. (X) 사라지는 현상
  4. LSTM은 세 가지 유형의 게이트를 사용한다. (O)
  5. GRU는 LSTM보다 더 많은 게이트를 사용한다. (X) 적은 게이트
  6. Attention 메커니즘은 긴 문장을 고정된 길이의 벡터로 인코딩하여 해결한다. (X) ㄴㄴ Multi-head사용하면 다 자름
  7. 양방향 RNN은 전방향과 후방향 레이어를 모두 사용한다. (O)
  8. Exploding Gradient 문제는 과도한 가중치 업데이트로 인해 발생한다. (O)
  9. 인코더는 입력 시퀸스를 고정된 벡터로 변환한다. (O)
  10. Seq2Seq 모델은 인코더와 디코더로 구성된다. (O)

빈칸 채우기 문제

  1. 재귀 신경망(RNN)은 __ 데이터를 위해 설계된 신경망이다. (순차적)
  2. 단방향 RNN은 __ 정보만 접근 가능하다. (과거)
  3. Vanishing Gradient 문제는 기울기가 계속 곱해지면서 __에 가까워지는 현상이다. (0)
  4. LSTM은 __, 입력 게이트, 출력 게이트의 세 가지 유형의 게이트를 사용한다. (포겟 게이트)
  5. GRU는 LSTM의 __ 게이트 대신 업데이트 게이트를 사용한다. (포겟)
  6. Attention 메커니즘은 입력 시퀸스에 대한 __ 출력을 유지한다. (중간)
  7. RNN 인코더-디코더 모델에서 디코더는 주의 가중치를 사용하여 __ 시퀸스를 생성한다. (출력)
  8. Attention 함수는 쿼리를 __ 쌍의 집합에 매핑한다. (키-값)
  9. 글로벌 어텐션 모델은 인코더의 모든 __ 상태를 고려한다. (숨겨진)
  10. Seq2Seq 모델은 인코더와 __로 구성된다. (디코더)

단답형 문제

  1. 재귀 신경망(RNN)의 주요 목적은 무엇인가요? (순차적 데이터 처리)
  2. 단방향 RNN과 양방향 RNN의 차이점은 무엇인가요? (양방향 RNN은 전방향과 후방향 레이어를 모두 사용하여 과거와 미래 정보를 모두 접근 가능)
  3. Vanishing Gradient 문제는 왜 발생하나요? (기울기가 계속 곱해지기 때문에 0에 가까워짐)
  4. LSTM의 세 가지 게이트는 무엇인가요? (포겟 게이트, 입력 게이트, 출력 게이트)
  5. GRU의 업데이트 게이트는 무엇을 대체하나요? (포겟 게이트와 입력 게이트)
  6. Attention 메커니즘의 주요 기능은 무엇인가요? (입력 시퀸스에 대한 중간 출력을 유지하여 관련성을 타나내는 가중치를 계산)
  7. Attention 함수는 쿼리를 무엇에 매핑하나요? (키-값 쌍)
  8. 글로벌 어텐션 모델에서 컨텍스트 벡터 C를 도출할 때 고려하는 것은 무엇인가요? (인코더의 모든 숨겨진 상태)
  9. Seq2Seq 모델의 구성 요소는 무엇인가요? (인코더와 디코더)
  10. Seq2Seq 모델에서 사용되는 데이터셋의 구성 요소는 무엇인가요? (영어와 프랑스어 문장 쌍)

서술형 문제

  1. RNN의 Vanishing Gradient와 Exploding Gradient 문제를 설명하고 이를 해결하기 위한 방법에 대해 논하시오.
    • 답변: Vanishing Gradient 문제는 기울기가 계속 곱해지면서 0에 가까워져 모델이 학습되지 않는 현상입니다. Exploding Gradient 문제는 반대로 기울기가 너무 커져 과도한 가중치 업데이트로 모델이 불안정해지는 현상입니다. 이를 해결하기 위해 LSTM과 GRU와 같은 아키텍처가 개발되었습니다. LSTM은 포겟 게이트, 입력 게이트, 출력 게이트를 사용하여 기억을 저장하고, GRU는 업데이트 게이트와 리셋 게이트를 사용하여 간소화된 구조로 기억을 저장합니다. 폭발 그라디언트 문제는 그라디언트 클리핑을 통해 해결할 수 있습니다.
  2. LSTM과 GRU의 구조적 차이점과 각각의 장단점에 대해 설명하시오.
    • 답변: LSTM은 포겟 게이트, 입력 게이트, 출력 게이트의 세 가지 게이트를 사용하여 기억을 저장하고 유지합니다. GRU는 LSTM보다 간단한 구조로, 포겟 게이트와 입력 게이트를 통합한 업데이트 게이트와 리셋 게이트를 사용합니다. LSTM은 복잡한 시퀸스 데이터를 더 잘 처리할 수 있지만, 연산 비용이 높습니다. GRU는 더 간단하고 빠르지만, 모든 경우에서 LSTM만큼 성능이 좋지는 않습니다.
  3. Attention 메커니즘이 RNN 인코더-디코더 모델에서 어떤 문제를 해결하는지 설명하시오.
    • 답변: Attention 메커니즘은 RNN 인코더-디코더 모델에서 긴 입력 시퀸스를 고정된 길이의 벡터로 인코딩하는 문제를 해결합니다. 인코더의 모든 숨겨진 상태를 유지하고, 디코더가 각 입력 위치의 관련성을 타나내는 가중치를 계산하여 이를 활용함으로써, 모델이 입력 시퀸스의 중요한 부분에 집중할 수 있도록 합니다. 이를 통해 긴 문장의 번역에서 높은 성능을 발휘할 수 있습니다.
  4. Seq2Seq 모델의 구조와 작동 방식을 설명하시오.
    • 답변: Seq2Seq 모델은 입력 시퀸스를 읽어 단일 벡터를 출력하는 인코더와 해당 벡터를 읽어 출력 시퀸스를 생성하는 디코더로 구성됩니다. 인코더는 입력 문장을 처리하여 고정된 길이의 벡터를 생성하고, 디코더는 이 벡터를 입력으로 받아 번역된 문장을 생성합니다. Attention 메커니즘이 추가되면 디코더는 인코더의 중간 출력을 사용하여 입력 문장의 중요한 부분에 집중할 수 있습니다.
  5. Attention 함수의 본질과 이를 구현하기 위한 주요 단계에 대해 설명하시오.
    • 답변: Attention 함수는 쿼리를 키-값 쌍의 집합에 매핑하는 것입니다. 주요 단계는 다음과 같습니다: 첫째, 쿼리와 키 간의 유사도를 계산하여 가중치를 얻습니다. 둘째, 이 가중치를 softmax 함수를 사용하여 정규화합니다. 셋째, 정규화된 가중치를 사용하여 값에 가중치를 부여하고 합산하여 최종 attention을 계산합니다. 이를 통해 모델이 입력 시퀸스의 중요한 부분에 집중할 수 있습니다.
  6. Vanishing Gradient 문제를 해결하기 위해 LSTM이 도입된 배경과 그 원리에 대해 설명하시오.
    • 답변: Vanishing Gradient 문제는 기울기가 계속 곱해지면서 0에 가까워져 모델이 학습되지 않는 현상입니다. 이를 해결하기 위해 LSTM이 도입되었습니다. LSTM은 포겟 게이트, 입력 게이트, 출력 게이트를 사용하여 기억을 저장하고 유지합니다. 포겟 게이트는 불필요한 정보를 버리고, 입력 게이트는 새로운 정보를 추가하며, 출력 게이트는 현재 상태를 결정합니다. 이를 통해 장기적 의존성을 처리할 수 있습니다.
  7. GRU의 업데이트 게이트와 리셋 게이트의 역할에 대해 설명하시오.
    • 답변: GRU의 업데이트 게이트는 현재 상태와 새로운 정보를 얼마나 혼합할지 결정합니다. 0이면 새 정보만 사용하고, 1이면 이전 상태만 사용합니다. 리셋 게이트는 이전 상태를 얼마나 잊을지 결정합니다. 0에 가까우면 과거 정보를 많이 잊고, 1에 가까우면 현재 정보를 많이 잊습니다. 이를 통해 GRU는 간단한 구조로 기억을 저장하고 유지합니다.
  8. RNN 기반 번역 모델에서 Attention 메커니즘이 추가됨으로써 얻을 수 있는 이점에 대해 설명하시오.
    • 답변: Attention 메커니즘이 추가되면 RNN 기반 번역 모델은 긴 입력 시퀸스를 처리할 때 성능이 향상됩니다. 디코더는 인코더의 중간 출력을 사용하여 입력 시퀸스의 중요한 부분에 집중할 수 있습니다. 이를 통해 모델은 긴 문장의 번역에서 높은 정확도를 달성할 수 있으며, BLEU 점수도 향상됩니다.
  9. NLP에서 언어 번역을 위한 Seq2Seq 모델의 주요 구성 요소와 그 역할에 대해 설명하시오.
    • 답변: Seq2Seq 모델은 인코더와 디코더로 구성됩니다. 인코더는 입력 시퀸스를 처리하여 고정된 길이의 벡터를 생성합니다. 디코더는 이 벡터를 입력으로 받아 번역된 문장을 생성합니다. 인코더는 입력 문장을 인코딩하고, 디코더는 이를 디코딩하여 출력 문장을 생성합니다. Attention 메커니즘이 추가되면 디코더는 인코더의 중간 출력을 사용하여 입력 문장의 중요한 부분에 집중할 수 있습니다.
  10. 글로벌 어텐션 모델의 아이디어와 그것이 주는 이점에 대해 설명하시오.
    • 답변: 글로벌 어텐션 모델의 아이디어는 컨텍스트 벡터 C를 도출할 때 인코더의 모든 숨겨진 상태를 고려하는 것입니다. 이를 통해 모델은 입력 시퀸스의 모든 정보를 활용할 수 있습니다. 이 접근 방식은 긴 문장의 번역에서 높은 성능을 발휘하며, BLEU 점수를 향상시키는 데 기여합니다. 인코더의 모든 숨겨진 상태를 고려함으로써 모델은 더 풍부한 정보를 사용할 수 있습니다.

 

3주 차

오지 선다형 문제

  1. Convolution의 주요 목적은 무엇인가요?
    • a) 데이터를 분류하기 위해
    • b) 데이터를 저장하기 위해
    • c) 특징의 계층적 표현을 만들기 위해
    • d) 데이터를 압축하기 위해
    • e) 데이터를 시각화하기 위해
    • 답변: c) 특징의 계층적 표현을 만들기 위해
    • 해설: Convolution은 입력 데이터에서 유용한 특징을 추출하여 계층적 표현을 만드는 데 사용됩니다.
  2. CNN의 Pooling Layer의 주요 역할은 무엇인가요?
    • a) 입력 데이터의 차원을 늘리기 위해 - unpooling
    • b) 입력 데이터의 차원을 줄이기 위해
    • c) 입력 데이터의 색상을 변경하기 위해
    • d) 입력 데이터의 위치를 변경하기 위해
    • e) 입력 데이터를 재구성하기 위해
    • 답변: b) 입력 데이터의 차원을 줄이기 위해
    • 해설: Pooling Layer는 입력 데이터의 공간적 차원을 줄여 중요한 정보를 요약하고 선택하는 역할을 합니다.
  3. RNN에서 발생할 수 있는 문제가 아닌 것은 무엇인가요?
    • a) Vanishing Gradient
    • b) Exploding Gradient
    • c) Underfitting
    • d) Overfitting
    • e) Batch Normalization 이건 문제가 아니다,
    • 답변: e) Batch Normalization
    • 해설: Batch Normalization은 신경망 훈련을 안정화시키기 위한 기법으로, RNN에서 발생하는 문제가 아닙니다.
  4. LSTM에서 사용되지 않는 게이트는 무엇인가요?
    • a) Forget Gate
    • b) Input Gate
    • c) Output Gate
    • d) Reset Gate
    • e) Update Gate 이건 GRU
    • 답변: d) Reset Gate  e)  Update Gate
    • 해설: Reset Gate는 GRU(Reset, Update)에서 사용되며, LSTM(forget, input, output, cell state)에서는 사용되지 않습니다.
  5. Backpropagation의 주요 역할은 무엇인가요?
    • a) 입력 데이터를 전파하기 위해
    • b) 손실 함수의 값을 계산하기 위해 
    • c) 파라미터를 업데이트하기 위해 .열심히 gradient 넘겨서 파라미터 업데이트 해야죠
    • d) 입력 데이터를 정규화하기 위해
    • e) 데이터를 증강하기 위해
    • 답변: c) 파라미터를 업데이트하기 위해
    • 해설: Backpropagation은 손실 함수의 기울기를 계산하여 파라미터를 업데이트하는 역할을 합니다.
  6. CNN에서 데이터의 공간적 차원을 줄이는 레이어는 무엇인가요?
    • a) Convolution Layer  이것도 stride 조절하면 가능하긴 합니다.
    • b) Pooling Layer
    • c) Fully-Connected Layer 
    • d) Dropout Layer
    • e) Flatten Layer
    • 답변: b) Pooling Layer
    • 해설: Pooling Layer는 입력 데이터의 공간적 차원을 줄이는 역할을 합니다.
  7. DenseNet의 주요 특징은 무엇인가요?
    • a) 각 레이어가 이전 레이어의 feature map을 수신  skip connection
    • b) 각 레이어가 독립적으로 동작
    • c) 각 레이어가 더 큰 커널을 사용
    • d) 각 레이어가 더 많은 뉴런을 사용
    • e) 각 레이어가 dropout을 사용
    • 답변: a) 각 레이어가 이전 레이어의 feature map을 수신
    • 해설: DenseNet은 각 레이어가 이전 레이어의 feature map을 받아들여 정보 흐름과 재사용을 촉진합니다.
  8. 최적화 알고리즘 중에서 기울기와 학습률을 사용하여 파라미터를 업데이트하는 것은 무엇인가요?
    • a) MSE  loss function
    • b) SGD
    • c) Dropout  overfitting 방지 기술
    • d) ReLU  activation function
    • e) Flatten   cnn -> fcn갈 때 쓰는 거 
    • 답변: b) SGD
    • 해설: SGD는 기울기와 학습률을 사용하여 파라미터를 업데이트하는 최적화 알고리즘입니다.
  9. CNN의 한계가 아닌 것은 무엇인가요?
    • a) 이동 불변성 문제
    • b) 데이터 증강 필요
    • c) Pooling Layer의 정보 손실
    • d) 높은 계산 비용  
    • e) 적대적 공격에 대한 취약성
    • 답변: d) 높은 계산 비용  
    • 해설: 높은 계산 비용은 CNN의 한계 중 하나가 아니며, 이는 일반적인 딥러닝 모델의 특징입니다.
  10. 학습 과정에서 하이퍼 파라미터가 아닌 것은 무엇인가요?
    • a) Epoch
    • b) Learning Rate
    • c) Batch Size
    • d) Optimizer
    • e) Weight  이건 학습을 통해 변한다.
    • 답변: e) Weight
    • 해설: Weight는 학습 과정에서 모델이 학습하는 파라미터이며, 하이퍼 파라미터는 아닙니다.

OX 문제

  1. Convolution 연산은 두 함수를 결합하여 세 번째 함수를 생성하는 수학적 연산이다. (O)
  2. Convolution Layer의 필터 크기는 항상 입력 데이터의 크기와 동일하다. (X)   채널이 같은 겁니다.
  3. ANN의 입력 레이어는 데이터셋의 feature 또는 픽셀 값을 수신한다. (O)
  4. 활성화 함수는 신경망에 비선형성을 도입하여 데이터의 복잡한 패턴과 관계를 학습하게 한다. (O)
  5. Pooling Layer는 입력 데이터의 공간적 차원을 줄여 필수 정보를 보존한다. (O)
  6. Backpropagation은 네트워크 레이어를 통해 입력 데이터를 전파하는 과정이다. (X)  오차를 전파하는 과정이죠
  7. Dropout Layer는 훈련 중 무작위로 뉴런을 비활성화하여 overfitting을 방지한다. (O)
  8. MSE는 모델의 예측이 실제 목표 값에 가까워지면 값이 커진다. (X)  작아져요
  9. ResNet은 Skip Connection을 통해 심층 네트워크를 효과적으로 훈련할 수 있게 한다. (O)
  10. CNN은 카메라 이미지를 변조하는 적대적 공격에 취약하지 않다. (X)  취약해요

빈칸 채우기 문제

  1. Convolution은 두 함수를 결합하여 __ 함수를 생성하는 수학적 연산이다. (세 번째)
  2. Convolution Layer의 주요 목적은 __의 계층적 표현을 만드는 것이다. (feature)
  3. Pooling Layer는 입력 데이터의 __ 차원을 줄인다. (공간적) 
  4. 활성화 함수는 신경망에 __성을 도입한다. (비선형) 
  5. ANN의 출력 레이어는 최종 __ 또는 출력을 생성한다. (예측)
  6. Backpropagation은 출력 레이어에서 __ 방향으로 파라미터에 대한 손실 함수의 기울기를 계산한다. (역)
  7. 최적화 알고리즘은 모델의 파라미터를 __하는 중요한 구성 요소이다. (조정)  학습률을 적절하게 조정하여 global min으로 가려고 노력합니다. 빠른 학습도 추가고요
  8. LeNet은 __을 위해 설계된 초기 CNN 모델이다. (mnist)
  9. ResNet은 __ Connection을 통해 기울기 소실 문제를 해결한다. (Skip)
  10. DenseNet은 각 레이어가 이전 레이어의 __ map을 수신하여 정보 흐름을 촉진한다. (feature)

단답형 문제

  1. Convolution의 수학적 연산 목적은 무엇인가요? (두 함수를 결합하여 세 번째 함수를 생성)
  2. Convolution Layer의 주요 목적은 무엇인가요? (feature의 계층적 표현을 만드는 것)
  3. Pooling Layer의 주요 역할은 무엇인가요? (입력 데이터의 공간적 차원을 줄여 필수 정보를 보존)
  4. 활성화 함수의 역할은 무엇인가요? (신경망에 비선형성을 도입하여 데이터의 복잡한 패턴과 관계를 학습하게 함)
  5. ANN의 세 가지 주요 계층은 무엇인가요? (입력 레이어, 숨겨진 레이어, 출력 레이어)
  6. Backpropagation의 주요 역할은 무엇인가요? (출력 레이어에서 역 방향으로 파라미터에 대한 손실 함수의 기울기를 계산)
  7. 최적화 알고리즘의 주요 목표는 무엇인가요? (모델의 파라미터를 조정하여 손실 함수의 값을 최소화)
  8. LeNet은 무엇을 위해 설계된 CNN 모델인가요? (mnist)
  9. ResNet의 주요 특징은 무엇인가요? (Skip Connection을 통해 기울기 소실 문제를 해결)
  10. DenseNet의 주요 특징은 무엇인가요? (각 레이어가 이전 레이어의 feature map을 수신하여 정보 흐름을 촉진)

서술형 문제

  1. Convolution 연산의 원리와 이미지 처리에서의 역할을 설명하시오.
    • 답변: Convolution 연산은 두 함수를 결합하여 세 번째 함수를 생성하는 수학적 연산입니다. 이미지 처리에서 Convolution은 전체 이미지에서 각 픽셀과 그 로컬 이웃에 커널을 적용하여 이미지 변환을 수행합니다. 딥러닝에서는 Convolution Layer를 사용하여 입력 이미지에서 특징을 추출하고, 이를 통해 이미지 분류, 객체 감지 등의 작업을 수행합니다.
  2. ANN의 구조와 각 계층의 역할을 설명하시오.
    • 답변: ANN은 입력 레이어, 숨겨진 레이어, 출력 레이어의 세 가지 주요 계층으로 구성됩니다. 입력 레이어는 데이터셋의 feature 또는 픽셀 값을 수신하며, 각 뉴런은 하나의 feature 또는 픽셀을 나타냅니다. 숨겨진 레이어는 입력과 출력 레이어 사이의 중간 레이어로, 네트워크가 학습하면서 생성하는 추상적인 표현을 포함합니다. 출력 레이어는 최종 예측 또는 출력을 생성하며, 뉴런 수는 작업 특성에 따라 달라집니다.
  3. CNN의 주요 구성 요소와 각 요소의 역할을 설명하시오.
    • 답변: CNN의 주요 구성 요소는 Convolution Layer, Pooling Layer, Fully-Connected Layer입니다. Convolution Layer는 입력 데이터에 필터를 적용하여 데이터의 패턴과 특징을 감지합니다. Pooling Layer는 입력 데이터의 공간적 차원을 줄여 가장 중요한 기능을 요약하고 선택합니다. Fully-Connected Layer는 최종 출력을 생성합니다. 추가적으로 Normalization Layer, Dropout Layer, Flatten Layer 등의 요소가 있을 수 있습니다.
  4. 활성화 함수의 종류와 각 함수의 특성을 설명하시오.
    • 답변: 활성화 함수는 네트워크에 비선형성을 도입하여 데이터의 복잡한 패턴과 관계를 학습하게 합니다. 주요 활성화 함수로는 선형(Linear), 정류된 선형 단위(ReLU), 시그모이드(Sigmoid) 함수가 있습니다. ReLU는 음수를 0으로 만들고, 양수는 그대로 유지하여 계산을 단순화하며, 시그모이드는 출력을 0과 1 사이로 압축하여 확률로 해석할 수 있게 합니다.
  5. Backpropagation의 원리와 역할을 설명하시오.
    • 답변: Backpropagation은 출력 레이어에서 역 방향으로 파라미터에 대한 손실 함수의 기울기를 계산하는 알고리즘입니다. 체인 규칙을 사용하여 파라미터를 효율적으로 업데이트하고, 손실을 줄이며 모델의 성능을 미세 조정합니다. 이 프로세스는 모델이 수렴될 때까지 반복적으로 수행되며, 손실을 최소화하고 정확한 예측을 수행하도록 합니다.
  6. ResNet의 주요 특징과 기울기 소실 문제를 해결하는 방법을 설명하시오.
    • 답변: ResNet의 주요 특징은 Skip Connection을 통해 심층 네트워크에서도 효과적으로 훈련할 수 있다는 점입니다. Skip Connection은 이전 레이어의 출력을 다음 레이어에 직접 전달하여 기울기 소실 문제를 해결합니다. 이를 통해 매우 깊은 네트워크도 효과적으로 훈련할 수 있으며, 모델의 성능을 향상시킵니다.
  7. DenseNet의 구조와 장점을 설명하시오.
    • 답변: DenseNet은 각 레이어가 이전 레이어의 feature map을 수신하여 정보 흐름을 촉진하고 feature 재사용을 가능하게 합니다. 이러한 고밀도 연결성은 파라미터 수를 줄이고, 경사 흐름을 개선하여 성능과 학습 효율을 향상시킵니다. DenseNet은 효율적인 파라미터 활용을 통해 모델의 성능을 극대화합니다.
  8. CNN의 한계와 이를 극복하기 위한 방법을 설명하시오.
    • 답변: CNN의 한계는 이동 불변성 문제, Pooling Layer의 정보 손실, 적대적 공격에 대한 취약성 등이 있습니다. 이를 극복하기 위해 데이터 증강, Dropout Layer 사용, 더 많은 데이터를 통한 학습 등이 사용됩니다. 이동 불변성 문제는 데이터 증강을 통해 어느 정도 해결할 수 있으며, 적대적 공격에 대한 취약성은 모델의 견고성을 강화하여 해결할 수 있습니다.
  9. 최적화 알고리즘의 종류와 각각의 특징을 설명하시오.
    • 답변: 최적화 알고리즘은 모델의 파라미터를 조정하여 손실 함수의 값을 최소화하는 역할을 합니다. 주요 알고리즘으로는 SGD, ADAM, RMSprop 등이 있습니다. SGD는 기울기와 학습률을 사용하여 파라미터를 업데이트하며, ADAM은 적응형 학습률을 사용하여 효율적으로 최적화를 수행합니다. RMSprop은 기울기의 제곱 평균을 사용하여 학습률을 조정합니다.
  10. Loss function의 종류와 각 함수의 특성을 설명하시오.
    • 답변: Loss function은 모델의 예측과 실제 목표 값 간의 차이를 정량화하는 척도입니다. 주요 Loss function으로는 MSE, Cross-Entropy Loss, Hinge Loss 등이 있습니다. MSE는 예측 값과 실제 값의 차이의 제곱 평균을 계산하며, Cross-Entropy Loss는 분류 문제에서 사용되며 확률 분포 간의 차이를 측정합니다. Hinge Loss는 SVM과 같은 분류 모델에서 사용됩니다.

 

4주 차

오지 선다형 문제

  1. One-Hot Encoding의 주요 단점은 무엇인가요?
    • a) 높은 계산 효율성  낮다
    • b) 의미론적 관계 부족
    • c) 낮은 차원의 벡터  높다
    • d) 연속적인 벡터 표현  연속적이지 않습니다. 하나만 1이라..
    • e) 낮은 메모리 사용량  무쟈게 많습니다.
    • 답변: b) 의미론적 관계 부족
    • 해설: One-Hot Encoding은 단어 간의 의미론적 관계를 포착하지 못하고, 매우 고차원적인 벡터로 표현됩니다.
  2. Word2Vec에서 사용되지 않는 방법은 무엇인가요?
    • a) Skip-gram
    • b) CBOW
    • c) TF-IDF  요건 통계학적 기법이라..
    • d) 신경망 구조
    • e) 고차원 벡터
    • 답변: c) TF-IDF
    • 해설: Word2Vec는 Skip-gram 및 CBOW와 같은 신경망 구조를 사용하지만, TF-IDF는 사용하지 않습니다.
  3. GloVe의 주요 특징은 무엇인가요?
    • a) 단어의 발생 여부만 고려  이건 통계
    • b) 단어 동시 발생 통계를 사용
    • c) 문맥을 무시  ㄷㄷ
    • d) 단일 벡터로 단어 표현  
    • e) 단어 간 의미 관계를 무시
    • 답변: b) 단어 동시 발생 통계를 사용
    • 해설: GloVe는 글로벌 단어 동시 발생 통계와 행렬 인수분해를 결합하여 단어 표현을 학습합니다.
  4. FastText의 주요 장점은 무엇인가요?
    • a) 낮은 계산 효율성
    • b) 철자 오류에 취약
    • c) 형태학적 정보 포착
    • d) 고차원 벡터 사용
    • e) 문맥 무시
    • 답변: c) 형태학적 정보 포착
    • 해설: FastText는 문자 수준 n-그램을 사용하여 형태학적 정보를 더 효과적으로 포착할 수 있습니다.
  5. Self-Attention의 주요 역할은 무엇인가요?
    • a) 입력 시퀸스의 다른 부분에 집중
    • b) 단일 위치에만 집중  만 빼
    • c) 외부 요소에 집중
    • d) 입력 시퀸스를 무시
    • e) 입력 시퀸스의 길이를 줄임
    • 답변: a) 입력 시퀸스의 다른 부분에 집중
    • 해설: Self-Attention은 입력 시퀸스 내에서 종속성과 관계를 설정하여 문맥을 이해합니다.
  6. Self-Attention의 주요 장점이 아닌 것은 무엇인가요?
    • a) 장거리 종속성 파악
    • b) 병렬 처리 가능
    • c) 단일 벡터 사용  여러 백터
    • d) 가변 길이 시퀸스 처리
    • e) 해석 가능한 attention
    • 답변: c) 단일 벡터 사용
    • 해설: Self-Attention은 단일 벡터를 사용하는 것이 아니라, 여러 벡터 간의 관계를 이해합니다.
  7. Multi-Head Attention의 주요 특징은 무엇인가요?
    • a) 단일 헤드 사용  이름도 티
    • b) 여러 헤드를 병렬로 사용  다 q,k,v 각각 세트로 해서 병렬로 계산해요
    • c) 단일 패턴만 캡쳐
    • d) 느린 계산 속도  빨라요
    • e) 단순한 관계만 이해  단순하지 않아요 문맥적으로 이해해요
    • 답변: b) 여러 헤드를 병렬로 사용
    • 해설: Multi-Head Attention은 여러 헤드를 병렬로 사용하여 다양한 패턴과 관계를 동시에 캡쳐합니다.
  8. Transformer 모델의 구성 요소가 아닌 것은 무엇인가요?
    • a) Encoder
    • b) Decoder
    • c) Positional Encoding
    • d) Linear and Softmax
    • e) LSTM  RNN요소는 완전히 빠졌습니다.
    • 답변: e) LSTM
    • 해설: Transformer 모델은 LSTM을 사용하지 않으며, Encoder와 Decoder, Positional Encoding, Linear and Softmax 등을 사용합니다.
  9. Transformer에서 Positional Encoding의 역할은 무엇인가요?
    • a) 입력 데이터의 크기 조정
    • b) 입력 데이터의 정규화
    • c) 입력 데이터의 위치 정보 추가
    • d) 입력 데이터의 차원 축소
    • e) 입력 데이터의 차원 확대
    • 답변: c) 입력 데이터의 위치 정보 추가
    • 해설: Positional Encoding은 입력 데이터에 위치 정보를 추가하여 위치 정보를 고려할 수 있게 합니다.
  10. Self-Attention이 RNN보다 우수한 점이 아닌 것은 무엇인가요?
    • a) 장거리 종속성 파악
    • b) 병렬 처리
    • c) 단일 벡터 사용  단일 어
    • d) 가변 길이 시퀸스 처리
    • e) 해석 가능한 attention
    • 답변: c) 단일 벡터 사용
    • 해설: Self-Attention은 여러 벡터 간의 관계를 이해하여 장거리 종속성을 파악하고 병렬 처리가 가능합니다.

OX 문제

  1. Word2Vec는 단어를 고차원 벡터 공간에서 밀도가 높은 벡터로 변환한다. (O)
  2. One-Hot Encoding은 단어 간의 의미 관계를 잘 포착한다. (X)  포착 못해요
  3. GloVe는 단어 동시 발생 통계를 이용하여 단어를 표현한다. (O)
  4. FastText는 철자가 틀린 단어를 효과적으로 처리할 수 있다. (O)
  5. Self-Attention은 입력 시퀸스 외부의 요소에 집중한다. (X)  외부요소 말고 입력 시퀸스 내부에서 집중해요
  6. Attention Score는 Query 벡터와 Key 벡터의 내적을 통해 계산된다. (O)
  7. Multi-Head Attention은 단일 헤드를 사용하여 다양한 패턴을 캡쳐한다. (X)  멀티헤드
  8. Positional Encoding은 Transformer 모델에서 입력 데이터에 위치 정보를 추가한다. (O)
  9. Transformer 모델의 Encoder는 Multi-Head Self Attention과 Feed Forward Networks로 구성된다. (O)
  10. Self-Attention 기반 구조는 병렬 처리가 어렵다. (X)  멀티헤드를 통해 병렬처리가 진행됩니다.

빈칸 채우기 문제

  1. 워드 임베딩은 단어를 __ 벡터 공간에서 밀도가 높은 벡터로 표현하는 기술이다. (고차원)
  2. One-Hot Encoding은 단어와 같은 범주형 데이터를 __로 표현한다. (숫자)
  3. Bag-of-Words는 단어의 __를 계산하여 문서나 문장을 벡터로 변환한다. (빈도)
  4. Word2Vec는 __ 및 CBOW와 같은 신경망 구조를 사용한다. (Skip-gram)
  5. GloVe는 글로벌 단어 __ 통계를 사용하여 단어 표현을 학습한다. (동시 발생)
  6. FastText는 문자 수준 __의 합으로 단어를 나타낸다. (n-그램)
  7. Self-Attention은 입력 시퀸스의 다른 부분에 __을 집중하게 한다. (주의)
  8. Attention Score는 Query 벡터와 Key 벡터의 __을 취해 계산한다. (내적)
  9. Multi-Head Attention은 여러 헤드를 병렬로 사용하여 다양한 패턴을 __한다. (캡쳐)
  10. Transformer 모델은 Encoder와 __로 구성된다. (Decoder)

단답형 문제

  1. 워드 임베딩의 주요 목적은 무엇인가요? (단어 간의 의미 관계를 이해하고 유사한 단어끼리 유사한 벡터 표현을 가지도록 하는 것)
  2. One-Hot Encoding의 단점은 무엇인가요? (의미론적 관계 부족, 계산 비효율적)
  3. Bag-of-Words의 주요 특징은 무엇인가요? (단어의 발생 여부만 중요하고, 어순과 문맥은 무시)
  4. Word2Vec에서 Skip-gram이란 무엇인가요? (주어진 단어로 주변 단어를 예측하는 모델)
  5. GloVe는 어떤 통계를 사용하나요? (글로벌 단어 동시 발생 통계)
  6. FastText의 주요 장점은 무엇인가요? (형태학적 정보 포착, 어휘에 벗어난 단어 처리)
  7. Self-Attention의 주요 역할은 무엇인가요? (입력 시퀸스 내에서 종속성과 관계 설정)
  8. Attention Score는 어떻게 계산되나요? (Query 벡터와 Key 벡터의 내적을 통해)
  9. Multi-Head Attention의 주요 장점은 무엇인가요? (여러 패턴과 관계를 동시에 캡쳐)
  10. Transformer 모델의 주요 구성 요소는 무엇인가요? (Encoder와 Decoder)

서술형 문제

  1. 워드 임베딩의 개념과 주요 종류를 설명하시오.
    • 답변: 워드 임베딩은 단어를 고차원 벡터 공간에서 밀도가 높은 벡터로 표현하는 NLP 기술입니다. 주요 종류로는 One-Hot Encoding, Bag-of-Words, TF-IDF, Word2Vec, GloVe, FastText, Contextual Word Embeddings가 있습니다. One-Hot Encoding은 단어를 이진 벡터로 표현하고, Bag-of-Words는 단어의 빈도를 계산하여 벡터로 변환합니다. TF-IDF는 특정 문서에 많이 나오는 단어에 높은 가중치를 할당하며, Word2Vec는 신경망 구조를 사용해 단어를 벡터로 변환합니다. GloVe는 글로벌 단어 동시 발생 통계를 사용하고, FastText는 문자 수준 n-그램을 사용하여 단어를 표현합니다. Contextual Word Embeddings는 문맥에 따라 단어의 의미를 캡처합니다.
  2. Self-Attention의 원리와 장점에 대해 설명하시오.
    • 답변: Self-Attention은 입력 시퀸스 내에서 각 요소가 다른 모든 요소에 집중할 수 있게 하는 메커니즘입니다. Query 벡터와 Key 벡터의 내적을 통해 Attention Score를 계산하고, 이를 소프트맥스를 통해 정규화한 후 Value 벡터와 곱하여 최종 컨텍스트 벡터를 생성합니다. 장점으로는 장거리 종속성 파악, 병렬 처리 가능, 문맥 이해, 가변 길이 시퀸스 처리, 해석 가능한 Attention 등이 있습니다.
  3. Multi-Head Attention의 구조와 장점에 대해 설명하시오.
    • 답변: Multi-Head Attention은 여러 개의 헤드를 병렬로 사용하여 다양한 패턴과 관계를 동시에 캡쳐하는 구조입니다. 각 헤드가 독립적으로 Attention Score를 계산하고, 이를 합쳐 최종 출력 벡터를 생성합니다. 장점으로는 빠른 연산, 상황별 이해도 향상, 향상된 성능, 확장 가능성, 다양한 데이터 유형 처리, 효율적인 하드웨어 활용 등이 있습니다.
  4. Transformer 모델의 구성 요소와 작동 원리에 대해 설명하시오.
    • 답변: Transformer 모델은 Encoder와 Decoder로 구성됩니다. Encoder는 Multi-Head Self Attention과 Feed Forward Networks로 구성되며, 입력의 컨텍스트화된 표현을 생성합니다. Decoder는 Mask Multi-Head Self Attention과 Multi-Head Encoder-Decoder Attention, Feed Forward Networks로 구성되며, 이전에 생성된 위치를 기반으로 출력을 생성합니다. Positional Encoding은 입력 데이터에 위치 정보를 추가합니다.
  5. 워드 임베딩에서 GloVe와 Word2Vec의 차이점에 대해 설명하시오.
    • 답변: Word2Vec는 신경망 구조를 사용하여 단어를 벡터로 변환하며, Skip-gram과 CBOW 모델을 사용합니다. 반면 GloVe는 글로벌 단어 동시 발생 통계와 행렬 인수분해를 결합하여 단어 표현을 학습합니다. Word2Vec는 로컬 윈도우 내의 단어 관계를 학습하는 반면, GloVe는 전체 말뭉치의 동시 발생 통계를 활용하여 단어 간의 의미론적 관계를 더 잘 포착할 수 있습니다.
  6. Bag-of-Words와 TF-IDF의 차이점에 대해 설명하시오.
    • 답변: Bag-of-Words는 단어의 발생 빈도만을 고려하여 문서나 문장을 벡터로 변환합니다. 단어의 순서와 문맥은 무시되며, 희소하고 고차원적인 벡터를 생성합니다. 반면 TF-IDF는 단어의 빈도와 문서 내 드문 단어의 가중치를 고려하여 단어의 중요성을 반영합니다. TF는 특정 문서에서 단어의 빈도를, IDF는 전체 말뭉치에서 단어의 드문 정도를 나타냅니다.
  7. Self-Attention과 RNN의 차이점에 대해 설명하시오.
    • 답변: Self-Attention은 입력 시퀸스 내에서 각 요소가 다른 모든 요소에 집중할 수 있게 하는 메커니즘으로, 병렬 처리가 가능하고 장거리 종속성을 파악할 수 있습니다. 반면 RNN은 순차적으로 데이터를 처리하며, 장거리 종속성 파악에 한계가 있습니다. Self-Attention은 계산 비용이 크지만 병렬 처리가 가능하여 학습 및 추론 속도가 빠릅니다.
  8. FastText의 구조와 주요 장점에 대해 설명하시오.
    • 답변: FastText는 문자 수준 n-그램을 사용하여 단어를 나타내며, 하위 단어 임베딩의 합으로 단어를 표현합니다. 주요 장점으로는 형태학적 정보 포착, 어휘에 벗어난 단어 처리, 철자 오류 처리, 복잡한 언어 구조에 대한 효과적인 임베딩 등이 있습니다. 이를 통해 형태소가 풍부한 언어에서도 좋은 성능을 발휘할 수 있습니다.
  9. Transformer 모델에서 Positional Encoding의 역할과 필요성에 대해 설명하시오.
    • 답변: Positional Encoding은 Transformer 모델에서 입력 데이터에 위치 정보를 추가하는 역할을 합니다. Transformer는 RNN과 달리 순차적인 정보를 처리하지 않기 때문에 위치 정보를 따로 제공해야 합니다. Positional Encoding은 입력 벡터에 위치 정보를 추가하여 모델이 단어의 위치를 인식하고, 문맥을 더 잘 이해할 수 있도록 돕습니다.
  10. Self-Attention의 병렬 처리 가능성과 그 중요성에 대해 설명하시오.
    • 답변: Self-Attention은 입력 시퀸스의 모든 요소를 동시에 처리할 수 있어 병렬 처리가 가능합니다. 이는 학습과 추론 속도를 크게 향상시키며, 대규모 데이터셋을 효과적으로 처리할 수 있게 합니다. 병렬 처리는 특히 대용량 데이터와 긴 시퀸스를 처리하는 NLP 작업에서 매우 중요합니다. 또한, 하드웨어 리소스를 효율적으로 활용할 수 있어 최신 GPU의 성능을 최대한 활용할 수 있습니다.

 

5주 차

오지 선다형 문제

  1. 이미지 패치 임베딩의 주요 목적은 무엇인가요?
    • a) 이미지를 압축하기 위해
    • b) 이미지를 고해상도로 변환하기 위해  연산 힘들어요
    • c) 이미지를 작은 패치 단위로 나누어 처리하기 위해
    • d) 이미지를 흑백으로 변환하기 위해  그럼 정보가 사라져요
    • e) 이미지를 회전시키기 위해  의미요
    • 답변: c) 이미지를 작은 패치 단위로 나누어 처리하기 위해
    • 해설: 이미지 패치 임베딩은 이미지를 작은 패치 단위로 분할하여 각각을 고정된 차원의 벡터로 변환하는 과정입니다.
  2. ViT 모델에서 패치를 평탄화한 후 생성되는 벡터의 크기는 무엇인가요?
    • a) 224
    • b) 196
    • c) 768
    • d) 1024
    • e) 512
    • 답변: c) 768
    • 해설: ViT 모델에서는 패치를 평탄화하여 768 크기의 벡터로 변환합니다.  이건좀 ;
  3. ViT 모델에서 Class Embedding의 역할은 무엇인가요?
    • a) 이미지를 회전시키기 위해
    • b) 패치 시퀸스에 학습 가능한 임베딩을 추가하기 위해
    • c) 패치 간의 거리를 계산하기 위해  그건 position
    • d) 이미지의 색상을 변환하기 위해
    • e) 이미지를 압축하기 위해
    • 답변: b) 패치 시퀸스에 학습 가능한 임베딩을 추가하기 위해
    • 해설: Class Embedding은 임베딩 패치 시퀸스에 추가되는 학습 가능한 임베딩입니다.
  4. U-Net 모델의 주요 목적은 무엇인가요?
    • a) 이미지 분류
    • b) 이미지 압축
    • c) 이미지 회전
    • d) 이미지 세분화  segmentation
    • e) 이미지 확장
    • 답변: d) 이미지 세분화
    • 해설: U-Net 모델은 각 픽셀마다 클래스를 할당하는 이미지 세분화 작업을 수행합니다.
  5. Multi-Head Attention의 주요 장점이 아닌 것은 무엇인가요?
    • a) 다양한 관점 학습  각각의 헤드들이 다른 관점을 학습
    • b) 표현 능력 강화
    • c) 병렬 처리 가능
    • d) 단일 헤드 사용  멀티요 멀티
    • e) 학습 추론 속도 향상
    • 답변: d) 단일 헤드 사용
    • 해설: Multi-Head Attention은 여러 헤드를 사용하여 다양한 패턴과 관계를 동시에 캡쳐합니다.
  6. Transformer 모델의 주요 구성 요소가 아닌 것은 무엇인가요?
    • a) Encoder
    • b) Decoder
    • c) Positional Encoding  처음에 들어갑니다.
    • d) Convolutional Layer  요 없습니다.
    • e) Multi-Head Attention
    • 답변: d) Convolutional Layer
    • 해설: Transformer 모델은 Encoder, Decoder, Positional Encoding, Multi-Head Attention 등으로 구성되며, Convolutional Layer는 포함되지 않습니다.
  7. ViT 모델의 한계가 아닌 것은 무엇인가요?
    • a) 계산 비용이 높다
    • b) 작은 데이터 셋에서 잘 작동한다  많이 필요해요
    • c) 이미지 크기 제한이 있다
    • d) 공간 정보 손실이 발생할 수 있다
    • e) 패치 크기와 모델 크기 조정이 필요하다
    • 답변: b) 작은 데이터 셋에서 잘 작동한다
    • 해설: ViT 모델은 대규모 데이터 셋에서 가장 잘 작동하며, 작은 데이터 셋에서는 전이 학습이 필요합니다.
  8. U-Net 모델에서 Encoder의 역할은 무엇인가요?
    • a) 공간 차원을 줄이고 정보를 추출한다
    • b) 이미지를 회전시킨다
    • c) 이미지를 압축한다
    • d) 이미지를 확장한다
    • e) 이미지를 세분화한다  디코더!
    • 답변: a) 공간 차원을 줄이고 정보를 추출한다
    • 해설: Encoder는 공간 차원을 줄이고 중요한 정보를 추출하는 역할을 합니다.
  9. Transformer의 영상 분류에서 ViT의 주요 장점은 무엇인가요?
    • a) 낮은 계산 비용  커요
    • b) 작은 데이터 셋에서 좋은 성능  나빠요
    • c) 패치 단위로 분할하여 전역적 특징 포착
    • d) 공간 정보 손실  이건 단점
    • e) 제한된 데이터 셋에서 학습 불가
    • 답변: c) 패치 단위로 분할하여 전역적 특징 포착
    • 해설: ViT는 입력 이미지를 패치 단위로 분할하여 전역적 특징을 포착할 수 있습니다.
  10. Multi-Head Attention에서 Hard Attention의 주요 특징은 무엇인가요?
    • a) 가중치가 할당된 특징 표현
    • b) 고정된 부분에 집중
    • c) 여러 부분에 주의를 기울임
    • d) 병렬 처리 불가능
    • e) 모든 가중치의 합이 1이 됨
    • 답변: b) 고정된 부분에 집중
    • 해설: Hard Attention은 입력 데이터의 고정된 부분에만 집중하여 모델의 계산 노력을 줄입니다.
    • 더보기

      질문에 제시된 문제는 일부 오류가 있습니다. Multi-Head Attention에서 Hard Attention이라는 용어는 일반적으로 사용되지 않습니다. 대신, Attention 메커니즘에서 Soft Attention과 Hard Attention을 비교할 수 있습니다.

      설명:

      Hard Attention과 Soft Attention:

      • Soft Attention:
        • 가중치가 할당된 특징 표현을 사용합니다.
        • 여러 부분에 주의를 기울입니다.
        • 모든 가중치의 합이 1이 됩니다.
        • 병렬 처리가 가능합니다.
      • Hard Attention:
        • 특정 부분에만 집중하며, 주로 강화 학습을 사용하여 학습합니다.
        • 고정된 부분에 집중합니다.
        • 병렬 처리 불가능합니다(모델이 순차적으로 선택하는 경우).

      올바른 문제와 답변:

      Attention 메커니즘에서 Hard Attention의 주요 특징은 무엇인가요?
      a) 가중치가 할당된 특징 표현
      b) 고정된 부분에 집중
      c) 여러 부분에 주의를 기울임
      d) 병렬 처리 불가능
      e) 모든 가중치의 합이 1이 됨
      답변: b) 고정된 부분에 집중
      해설: Hard Attention은 입력 데이터의 고정된 부분에만 집중하여 모델의 계산 노력을 줄입니다.

      따라서, Multi-Head Attention보다는 Attention 메커니즘에 대해 설명하는 것이 적절합니다.

OX 문제

  1. Image Patch Embedding은 이미지를 작은 패치 단위로 나누어 처리한다. (O)
  2. ViT 모델은 Transformer Encoder를 사용하지 않는다. (X)  사진 들어오고 임베딩 다 한 다음에 transformer 인코더로 들어갑니다.
  3. U-Net 모델은 이미지 세분화 작업에 적합한 구조를 가진다. (O)
  4. Multi-Head Attention은 병렬 처리가 가능하다. (O)
  5. ViT 모델은 대규모 데이터 셋에서만 작동한다. (X)  읭? 맞지 않나? - 전이학습을 통해 소규모 데이터에서도 활용 가능하다. 
  6. U-Net 모델의 Decoder는 디테일과 공간 차원을 복구한다. (O)
  7. Transformer 모델은 Positional Encoding을 사용하지 않는다. (X)  써요 없으면 순서가 사라져서 힘들어요
  8. Multi-Head Attention은 각 헤드가 독립적으로 계산된다. (O)
  9. ViT 모델은 작은 이미지 크기에서만 작동한다. (X)  ㄴㄴ 큰것도 리소스만 많으면 가능 
  10. Hard Attention은 입력 데이터의 고정된 부분에만 집중한다. (O)

빈칸 채우기 문제

  1. Image Patch Embedding은 이미지를 작은 __ 단위로 분할하여 처리한다. (패치)
  2. ViT 모델은 __ 평탄화 및 임베딩, Transformer Encoder, MLP 헤드로 구성된다. (패치)
  3. U-Net 모델의 Encoder는 공간 차원을 줄이고, __을 추출한다. (정보)
  4. Multi-Head Attention은 여러 __을 병렬로 사용하여 다양한 패턴을 캡쳐한다. (헤드)
  5. ViT 모델은 입력 이미지를 __ 단위로 분할하여 처리한다. (패치)
  6. Transformer 모델의 Positional Encoding은 입력 데이터에 __ 정보를 추가한다. (위치)
  7. U-Net 모델의 Decoder는 디테일과 __ 차원을 복구한다. (공간)
  8. Multi-Head Attention은 각 헤드가 __적으로 계산된다. (독립)
  9. Hard Attention은 입력 데이터의 __된 부분에만 집중한다. (고정)
  10. ViT 모델은 패치 단위로 분할하여 전역적 __을 포착할 수 있다. (특징)

단답형 문제

  1. Image Patch Embedding의 주요 목적은 무엇인가요? (이미지를 작은 패치 단위로 나누어 처리하기 위해)
  2. ViT 모델의 구성 요소는 무엇인가요? (패치 평탄화 및 임베딩, Transformer Encoder, MLP 헤드)
  3. U-Net 모델의 Encoder의 역할은 무엇인가요? (공간 차원을 줄이고 정보를 추출)
  4. Multi-Head Attention의 주요 장점은 무엇인가요? (여러 관점에서 정보를 추출, 병렬 처리 가능)
  5. Transformer 모델에서 Positional Encoding의 역할은 무엇인가요? (입력 데이터에 위치 정보를 추가)
  6. ViT 모델의 한계는 무엇인가요? (계산 비용이 높고, 작은 데이터 셋에서는 전이 학습 필요)
  7. U-Net 모델의 Decoder의 역할은 무엇인가요? (디테일과 공간 차원을 복구)
  8. Multi-Head Attention의 Hard Attention은 무엇인가요? (입력 데이터의 고정된 부분에만 집중)
  9. ViT 모델이 작은 이미지 크기에서 작동할 수 없는 이유는 무엇인가요? (패치 단위로 분할 시 정보 손실 발생)
  10. U-Net 모델의 주요 응용 분야는 무엇인가요? (이미지 세분화, 자율 주행, 의료 영상 분석)

서술형 문제

  1. Image Patch Embedding의 개념과 주요 장점을 설명하시오.
    • 답변: Image Patch Embedding은 이미지를 작은 패치 단위로 분할한 후 각 패치를 고정된 차원의 벡터로 변환하는 과정입니다. 이를 통해 작은 지역적 특징을 잘 포착하고, 패치 간의 관계를 모델에 반영하기 쉬우며, 입력 크기가 고정되어 큰 이미지를 다루는 데 효율적입니다.
  2. ViT 모델의 구조와 각 구성 요소의 역할을 설명하시오.
    • 답변: ViT 모델은 패치 평탄화 및 임베딩, Transformer Encoder, MLP 헤드로 구성됩니다. 패치 평탄화 및 임베딩은 이미지를 작은 패치로 나누어 벡터로 변환하고, Transformer Encoder는 Multi-Head Self Attention을 통해 이미지의 지역적 및 전역적 의존성을 학습합니다. MLP 헤드는 최종 분류 작업을 수행합니다.
  3. U-Net 모델의 구조와 장단점을 설명하시오.
    • 답변: U-Net 모델은 Encoder-Decoder 구조로 이루어져 있습니다. Encoder는 공간 차원을 줄이고 중요한 정보를 추출하며, Decoder는 디테일과 공간 차원을 복구합니다. 장점으로는 segmentation에 적합한 구조와 작은 데이터 셋에서도 잘 작동하는 점이 있으며, 단점으로는 채널 정보 제한과 클래스 불균형 문제 등이 있습니다.
  4. Multi-Head Attention의 개념과 주요 장점을 설명하시오.
    • 답변: Multi-Head Attention은 여러 헤드를 병렬로 사용하여 입력의 다양한 패턴과 관계를 동시에 캡쳐하는 메커니즘입니다. 주요 장점으로는 다양한 관점 학습, 표현 능력 강화, 병렬 처리 가능 등이 있으며, 이를 통해 복잡한 패턴과 관계를 효과적으로 학습할 수 있습니다.
  5. ViT 모델의 한계와 이를 극복하기 위한 방법을 설명하시오.
    • 답변: ViT 모델의 한계로는 높은 계산 비용, 작은 데이터 셋에서의 overfitting 문제, 이미지 크기 제한 등이 있습니다. 이를 극복하기 위해 전이 학습을 사용하여 대규모 데이터 셋에서 사전 학습을 진행하고, 작은 데이터 셋에서 추가 학습을 수행할 수 있습니다.
  6. Transformer 모델에서 Positional Encoding의 역할과 필요성에 대해 설명하시오.
    • 답변: Positional Encoding은 Transformer 모델에서 입력 데이터에 위치 정보를 추가하는 역할을 합니다. Transformer는 순차적인 정보를 처리하지 않기 때문에 위치 정보를 따로 제공해야 합니다. 이를 통해 모델이 단어의 위치를 인식하고 문맥을 더 잘 이해할 수 있게 됩니다.
  7. U-Net 모델이 이미지 세분화에 적합한 이유를 설명하시오.
    • 답변: U-Net 모델은 공간적인 정보를 보존하면서 크기를 줄이고, 특징을 추출하는 U자형 구조를 가지고 있어 이미지 세분화에 적합합니다. 또한 작은 데이터 셋에서도 잘 작동하며, 디코더가 객체의 세부 사항을 잘 복구할 수 있도록 설계되어 있습니다.
  8. Multi-Head Attention이 NLP와 CV에서 어떻게 활용되는지 설명하시오.
    • 답변: Multi-Head Attention은 NLP에서는 각 위치가 동시에 다른 위치에 미치는 의존성을 파악하여 문맥을 이해하는 데 사용되며, CV에서는 서로 다른 영역의 픽셀 간에 종속성이 있는 이미지 분할 작업에 활용됩니다. 이를 통해 복잡한 패턴과 관계를 더 잘 캡쳐할 수 있습니다.
  9. ViT 모델의 계산 비용 문제를 해결하기 위한 방법을 설명하시오.
    • 답변: ViT 모델의 계산 비용 문제를 해결하기 위해 모델의 효율성을 개선하는 연구가 진행되고 있습니다. 예를 들어, 패치 크기와 모델 크기를 적절히 조절하고, 전이 학습을 통해 사전 학습된 모델을 활용하여 계산 비용을 줄일 수 있습니다. 또한, 하드웨어 최적화와 병렬 처리 기법을 통해 연산 효율성을 높일 수 있습니다.
  10. U-Net 모델의 다양한 응용 분야를 설명하시오.
    • 답변: U-Net 모델은 이미지 세분화 작업에 주로 사용되며, 자율 주행 자동차의 도로 객체 인식, 얼굴 인식, 의료 영상 분석 등 다양한 분야에서 활용됩니다. 또한, 사물 인식, 환경 모니터링 등에서도 효과적으로 사용될 수 있습니다. U-Net 모델의 유연한 구조와 강력한 세분화 성능 덕분에 다양한 실세계 문제에 적용 가능합니다.

 

6주 차

오지 선다형 문제

  1. BERT 모델의 주요 특징은 무엇인가요?
    • a) 단방향 인코딩
    • b) 양방향 인코딩
    • c) 단방향 디코딩  버트는 디코더 안써요
    • d) 양방향 디코딩
    • e) 비지도 학습만 사용  파인 튜닝때는 지도학습 해요요
    • 답변: b) 양방향 인코딩
    • 해설: BERT는 양방향 인코딩을 통해 양쪽 문맥을 모두 이해하는 모델입니다.
  2. BERT 모델의 Pre-training 방법으로 사용되지 않는 것은 무엇인가요?
    • a) Masked Language Model (MLM)
    • b) Next Sentence Prediction (NSP)  BERT의 다른 버전들 중에는 NSP안하는 모델도 있습니다.
    • c) Token Embedding
    • d) Fine-tuning  이건 너무 쌩뚱이다.
    • e) Segment Embedding  이것도 안하는 모델이 있더라구요
    • 답변: d) Fine-tuning
    • 해설: Fine-tuning은 Pre-training 후에 특정 task에 맞게 추가 학습하는 단계입니다.
  3. GPT 모델의 주요 구조는 무엇인가요?
    • a) Encoder Layer
    • b) Decoder Layer  Transformer의 decoder를 사용합니다.
    • c) Bi-directional Self-Attention  GPT는 단방향입니다.
    • d) Convolutional Layer
    • e) Recursive Neural Network
    • 답변: b) Decoder Layer
    • 해설: GPT 모델은 Decoder Layer로 구성된 단방향 Self-Attention 구조를 사용합니다.
  4. Fine-tuning의 주요 장점이 아닌 것은 무엇인가요?
    • a) 적은 데이터로 높은 성능
    • b) 일반화 능력 향상
    • c) 시간과 비용 절감
    • d) 모든 task에 적합  알맞는 테스크를 골라야한다.
    • e) 다양한 언어 지원
    • 답변: d) 모든 task에 적합
    • 해설: Fine-tuning은 모든 task에 적합하지 않을 수 있으며, 특정 task에 맞는 모델 선택이 중요합니다.
  5. Interactive GPT 모델의 주요 특징이 아닌 것은 무엇인가요?
    • a) 실시간 상호작용
    • b) 사용자 중심
    • c) 인간 피드백
    • d) 오프라인 학습만 지원  오프라인 학습이면 다양한 피드백을 못 모아요  
    • e) 모델 업데이트 및 fine-tuning
    • 답변: d) 오프라인 학습만 지원
    • 해설: Interactive GPT 모델은 실시간 상호작용과 온라인 학습을 통해 모델을 개선합니다.
  6. 인간 피드백 학습의 문제점이 아닌 것은 무엇인가요?
    • a) 사람 피드백의 편향성
    • b) 확장성  대량의 피드백을 관리하기가 힘들다.
    • c) 주관성과 다양성  사람 피드백에 개인이 선호와 해석이 들어간다.
    • d) 데이터 수집 및 확인  데이터의 품질을 보장하기 위해선 엄격한 프로세스가 필요하다.
    • e) 항상 높은 품질의 데이터 수집
    • 답변: e) 항상 높은 품질의 데이터 수집
    • 해설: 인간 피드백 학습에서는 항상 높은 품질의 데이터를 수집하는 것이 어려울 수 있습니다.
  7. BERT 모델의 한계는 무엇인가요?
    • a) 큰 모델 크기
    • b) 높은 추론 속도  느려요 파라미터가 많아서.
    • c) 문장 길이 제한 없음  있습니다.
    • d) 전이 학습 데이터 의존성 낮음  있어요
    • e) 적은 파라미터 수  많아요
    • 답변: a) 큰 모델 크기
    • 해설: BERT 모델은 파라미터 양이 많아 큰 용량과 계산 리소스가 필요합니다.
  8. GPT 모델의 단점이 아닌 것은 무엇인가요?
    • a) 무작위성과 일관성 부족
    • b) 문맥 파악의 제한성
    • c) 대화의 지속성 부족
    • d) 항상 정확한 응답 생성
    • e) 발생 가능한 편향성
    • 답변: d) 항상 정확한 응답 생성
    • 해설: GPT 모델은 항상 정확한 응답을 생성하지 않으며, 무작위성과 일관성 부족 등의 단점이 있습니다.
  9. Fine-tuning의 주요 단계가 아닌 것은 무엇인가요?
    • a) Pre-trained 모델 선택
    • b) 데이터 준비
    • c) 데이터 전처리
    • d) Hyperparameter 튜닝
    • e) 모델의 전체 구조 재설계  이건 파인튜닝이 아니죠 
    • 답변: e) 모델의 전체 구조 재설계
    • 해설: Fine-tuning은 기존 Pre-trained 모델의 전체 구조를 재설계하지 않습니다.
  10. Interactive GPT 모델의 주요 응용 분야가 아닌 것은 무엇인가요?
    • a) 고객 지원 챗봇
    • b) 가상 도우미
    • c) 콘텐츠 제작
    • d) 하드웨어 설계  띠용
    • e) 언어 번역
    • 답변: d) 하드웨어 설계
    • 해설: Interactive GPT 모델은 주로 대화형 응용 분야에서 사용되며, 하드웨어 설계와는 관련이 없습니다.

OX 문제

  1. BERT 모델은 단방향 인코딩을 사용한다. (X)  양방향 attention 사용합니다.
  2. BERT의 Pre-training 방법 중 하나는 Masked Language Model (MLM)이다. (O)  NSP도 있다. 
  3. GPT 모델은 단방향 Self-Attention 구조를 사용한다. (O)
  4. Fine-tuning은 Pre-trained 모델을 특정 task에 맞게 추가 학습하는 기술이다. (O)
  5. Interactive GPT 모델은 실시간 상호작용을 지원하지 않는다. (X)  해요
  6. 인간 피드백 학습은 모델의 성능을 향상시키는 데 도움을 준다. (O)
  7. BERT 모델은 작은 모델 크기로 모바일 기기에서 쉽게 사용될 수 있다. (X)  커요
  8. GPT 모델은 비즈니스 도메인 특화 지식을 쉽게 확보할 수 있다. (X)  품질 좋은 데이터를 모으는 것도 힘들다.
  9. Fine-tuning은 일반적인 모델보다 더 큰 경우가 많다. (O)
  10. Interactive GPT 모델은 고객 지원 챗봇으로 사용될 수 있다. (O)

빈칸 채우기 문제

  1. BERT는 양방향 __을 사용하는 언어 모델이다. (인코딩)
  2. BERT의 Pre-training 방법 중 하나는 __ Language Model (MLM)이다. (Masked)
  3. GPT 모델은 단방향 __을 사용하는 구조를 가진다. (Self-Attention)
  4. Fine-tuning은 Pre-trained 모델을 특정 __에 맞게 추가 학습하는 기술이다. (task)
  5. Interactive GPT 모델은 __ 상호작용을 지원한다. (실시간)
  6. 인간 피드백 학습은 모델의 성능을 __시키는 데 도움을 준다. (향상)
  7. BERT 모델은 큰 모델 크기 때문에 __ 기기 적용에 제한이 있다. (모바일)
  8. GPT 모델은 비즈니스 도메인 특화 지식을 __하기 어렵다. (확보)
  9. Fine-tuning은 일반적인 모델보다 더 __ 경우가 많다. (큰)
  10. Interactive GPT 모델은 __ 지원 챗봇으로 사용될 수 있다. (고객)

단답형 문제

  1. BERT 모델의 주요 특징은 무엇인가요? (양방향 인코딩을 사용하여 양쪽 문맥을 모두 이해)
  2. BERT의 Pre-training 방법 중 하나는 무엇인가요? (Masked Language Model (MLM))
  3. GPT 모델의 주요 구조는 무엇인가요? (단방향 Self-Attention을 사용하는 Decoder Layer)
  4. Fine-tuning의 주요 장점은 무엇인가요? (적은 데이터로 높은 성능을 달성)
  5. Interactive GPT 모델의 주요 특징은 무엇인가요? (실시간 상호작용을 통해 모델을 개선)
  6. 인간 피드백 학습의 문제점은 무엇인가요? (사람 피드백의 편향성)
  7. BERT 모델의 한계는 무엇인가요? (큰 모델 크기와 계산 리소스 필요)
  8. GPT 모델의 단점은 무엇인가요? (무작위성과 일관성 부족)
  9. Fine-tuning의 주요 단계는 무엇인가요? (Pre-trained 모델 선택, 데이터 준비, 데이터 전처리, Fine-tuning, Hyperparameter 튜닝, 모델 저장)
  10. Interactive GPT 모델의 주요 응용 분야는 무엇인가요? (고객 지원 챗봇, 가상 도우미, 콘텐츠 제작, 언어 번역)

서술형 문제

  1. BERT 모델의 주요 특징과 Pre-training 방법을 설명하시오.
    • 답변: BERT는 양방향 인코딩을 사용하여 문맥을 좌우 모두 이해할 수 있는 모델입니다. 주요 Pre-training 방법으로 Masked Language Model (MLM)과 Next Sentence Prediction (NSP)이 있습니다. MLM은 문장의 일부 단어를 마스킹하고 이를 예측하는 방식으로, NSP는 두 문장이 연속인지 아닌지를 예측하는 방식입니다.
  2. GPT 모델의 구조와 주요 장점을 설명하시오.
    • 답변: GPT 모델은 단방향 Self-Attention 구조를 사용하는 Decoder Layer로 구성됩니다. 주요 장점으로는 자연스러운 텍스트 생성, 대화형 응답 능력, 빠른 프로토타이핑 등이 있습니다. GPT는 긴 문맥을 이해하고 처리할 수 있으며, 전이 학습을 통해 다른 Task에 적용할 수 있습니다.
  3. Fine-tuning의 개념과 주요 단계를 설명하시오.
    • 답변: Fine-tuning은 Pre-trained 모델을 특정 task에 맞게 새로운 데이터로 추가 학습하는 기술입니다. 주요 단계로는 Pre-trained 모델 선택, 데이터 준비, 데이터 전처리, Fine-tuning 진행, Hyperparameter 튜닝, 모델 저장이 있습니다. 이를 통해 적은 데이터로도 높은 성능을 얻을 수 있습니다.
  4. Interactive GPT 모델의 개념과 주요 응용 분야를 설명하시오.
    • 답변: Interactive GPT 모델은 사용자와 실시간 상호작용을 통해 모델을 개선하고 사용자 요구를 충족시키기 위해 인간 피드백을 활용하는 모델입니다. 주요 응용 분야로는 고객 지원 챗봇, 가상 도우미, 콘텐츠 제작, 언어 번역 등이 있습니다.
  5. 인간 피드백 학습의 개념과 장단점을 설명하시오.
    • 답변: 인간 피드백 학습은 모델이 사용자 지시, 평가, 교정 등의 피드백을 통해 개선되는 학습 접근 방식입니다. 장점으로는 모델 성능 개선, 적응성 향상, 편향 감소, 다양한 업무 처리 등이 있으며, 단점으로는 피드백의 편향성, 확장성 문제, 주관성과 다양성, 데이터 수집 및 확인의 어려움 등이 있습니다.
  6. BERT와 GPT 모델의 차이점을 설명하시오.
    • 답변: BERT는 양방향 인코딩을 사용하여 문맥을 좌우 모두 이해하는 반면, GPT는 단방향 Self-Attention 구조를 사용합니다. BERT는 주로 문장 이해와 관련된 task에 강점이 있으며, GPT는 텍스트 생성과 같은 생성형 task에 강점이 있습니다. BERT는 Masked Language Model (MLM)과 Next Sentence Prediction (NSP)으로 Pre-training을 수행하고, GPT는 언슈퍼바이즈드 러닝으로 Pre-training을 수행합니다.
  7. Fine-tuning이 적합하지 않을 수 있는 경우를 설명하시오.
    • 답변: Fine-tuning이 적합하지 않을 수 있는 경우는 다음과 같습니다. 첫째, task에 적합하지 않은 Pre-trained 모델을 사용할 때입니다. 둘째, 새로운 task에 적용하기 어려운 경우입니다. 셋째, 적은 데이터로 인해 overfitting될 가능성이 있는 경우입니다. 넷째, Fine-tuning 데이터의 품질과 양이 충분하지 않은 경우입니다.
  8. Interactive GPT 모델이 고객 지원 챗봇에 적합한 이유를 설명하시오.
    • 답변: Interactive GPT 모델은 실시간 상호작용을 통해 사용자의 질문에 응답하고, 대화를 유지할 수 있는 능력을 가지고 있어 고객 지원 챗봇에 적합합니다. 또한, 인간 피드백을 통해 모델을 지속적으로 개선할 수 있어 고객 서비스의 효율성과 만족도를 높일 수 있습니다.
  9. 인간 피드백 학습의 주요 단계를 설명하시오.
    • 답변: 인간 피드백 학습의 주요 단계는 다음과 같습니다. 첫째, 데이터 수집: 실제 상호 작용에서 관련 데이터를 수집합니다. 둘째, 설명: 인간 전문가가 데이터에 주석을 달아 모델의 이해와 동작을 안내합니다. 셋째, 모델 업데이트: 피드백을 바탕으로 모델의 파라미터를 조정하고 성능을 최적화합니다. 넷째, 평가 및 검증: 모델의 성능을 평가하고 검증하여 지속적인 학습과 개선을 촉진합니다.
  10. BERT와 GPT 모델의 한계와 이를 극복하기 위한 방법을 설명하시오.
    • 답변: BERT 모델의 한계는 큰 모델 크기와 계산 리소스가 많이 필요하다는 점입니다. 이를 극복하기 위해 모델 경량화 및 하드웨어 가속 기술을 사용할 수 있습니다. 또한, 긴 문장을 처리하는 데 한계가 있으므로 문장 길이를 조정하거나 문장을 분할하여 처리할 수 있습니다. GPT 모델의 한계는 무작위성과 일관성 부족, 문맥 파악의 제한성입니다. 이를 극복하기 위해 더 큰 데이터셋으로 훈련하거나 문맥 이해를 개선하는 연구가 필요합니다. 또한, 비즈니스 도메인 특화 지식을 확보하기 어려운 문제를 해결하기 위해 특정 도메인에 맞춘 Fine-tuning을 수행할 수 있습니다.

 

7주 차

오지 선다형 문제

  1. GAN의 기본 구성 요소는 무엇인가요?
    • a) 생성자와 판별자
    • b) 인코더와 디코더  이것도 생성자와 판별자가 없었으면 정답이 될 수 있겠네여 
    • c) 데이터셋과 모델
    • d) 훈련 데이터와 테스트 데이터
    • e) 손실 함수와 활성화 함수
    • 답변: a) 생성자와 판별자
    • 해설: GAN은 생성자(Generator)와 판별자(Discriminator)로 구성된 머신러닝 프레임워크입니다.
  2. GAN 훈련 과정에서 생성자의 역할은 무엇인가요?
    • a) 실제 데이터와 생성된 데이터를 구분  판별자
    • b) 합성 데이터 샘플을 생성
    • c) 손실 함수를 계산  판별자 쪽
    • d) 데이터셋을 전처리  이건 사람이 해야죠
    • e) 모델의 파라미터를 최적화  
    • 답변: b) 합성 데이터 샘플을 생성
    • 해설: 생성자는 무작위 노이즈를 의미 있는 표현으로 변환하여 합성 데이터 샘플을 생성합니다.
  3. GAN 훈련 과정에서 판별자의 역할은 무엇인가요?
    • a) 생성된 데이터의 품질을 평가
    • b) 데이터셋을 전처리
    • c) 손실 함수를 계산  판별자가 한다기 보다는 판별 끝나면 진행하죠
    • d) 모델의 파라미터를 최적화  옵티마이저가 해줄거에요
    • e) 합성 데이터 샘플을 생성
    • 답변: a) 생성된 데이터의 품질을 평가
    • 해설: 판별자는 데이터 샘플을 평가하여 실제 인스턴스와 생성된 인스턴스를 구분합니다.
  4. GAN 훈련에서 내쉬 균형(Nash Equilibrium)은 어떤 상태인가요?
    • a) 생성자가 판별자를 완전히 속이는 상태  이건 생성을 잘하는 상태요
    • b) 판별자가 생성자를 완전히 이기는 상태  
    • c) 생성자와 판별자가 모두 성능을 향상할 수 없는 상태
    • d) 손실 함수가 최소화된 상태
    • e) 훈련이 완료된 상태
    • 답변: c) 생성자와 판별자가 모두 성능을 향상할 수 없는 상태
    • 해설: 내쉬 균형은 생성자와 판별자 어느 쪽도 일방적으로 성능을 향상할 수 없는 상태입니다.
  5. DCGAN에서 생성자는 마지막 레이어를 제외하고 어떤 활성화 함수를 사용하나요?
    • a) Sigmoid
    • b) Tanh
    • c) ReLU
    • d) LeakyReLU  이건 판별자가 쓴다고 했던 것 같네요 
    • e) Softmax
    • 답변: c) ReLU
    • 해설: DCGAN의 생성자는 마지막 레이어를 제외하고 모든 레이어에 ReLU 함수를 사용합니다.
  6. StyleGAN에서 생성자는 어떤 벡터를 활용하여 다양한 속성을 제어하나요?
    • a) 위치 벡터
    • b) 방향 벡터
    • c) 스타일 벡터
    • d) 크기 벡터
    • e) 색상 벡터
    • 답변: c) 스타일 벡터
    • 해설: StyleGAN의 생성자는 스타일 벡터를 활용하여 다양한 속성을 제어합니다.
  7. CycleGAN의 주요 특징은 무엇인가요?
    • a) 텍스트 생성
    • b) 이미지-이미지 변환  특정 이미지로 변환 후 다시 돌아오는게 가능!
    • c) 음악 생성
    • d) 영상 생성
    • e) 데이터 증강
    • 답변: b) 이미지-이미지 변환
    • 해설: CycleGAN은 이미지-이미지 변환을 목표로 하는 생성모델입니다.
  8. MuseGAN의 주요 목적은 무엇인가요?
    • a) 이미지 생성
    • b) 텍스트 생성
    • c) 음악 생성
    • d) 영상 생성
    • e) 데이터 증강
    • 답변: c) 음악 생성
    • 해설: MuseGAN은 음악을 생성하는데 적합한 GAN 프레임워크입니다.
  9. TextGAN의 생성자는 주로 어떤 네트워크를 사용하여 텍스트 시퀀스를 생성하나요?
    • a) CNN
    • b) RNN
    • c) LSTM
    • d) GAN
    • e) VAE
    • 답변: c) LSTM
    • 해설: TextGAN의 생성자는 주로 LSTM 네트워크를 사용하여 텍스트 시퀀스를 생성합니다.
  10. Diffusion 모델의 주요 특징은 무엇인가요?
    • a) 데이터 분포를 점진적으로 변환  노이즈를 슬쩍슬쩍 첨가하면서 변환했습니다.
    • b) 단방향 인코딩
    • c) 단순한 생성 과정
    • d) 높은 연산 효율성
    • e) 제한된 스타일 변환
    • 답변: a) 데이터 분포를 점진적으로 변환
    • 해설: Diffusion 모델은 데이터 분포를 점진적으로 변환하는 과정을 통해 고품질의 이미지를 생성합니다.

OX 문제

  1. GAN은 생성자와 판별자로 구성된 머신러닝 프레임워크이다. (O)
  2. 생성자는 실제 데이터를 구분하는 역할을 한다. (X)  생성자는 가짜 데이터를 만듭니다.
  3. 판별자는 생성된 데이터의 품질을 평가한다. (O)
  4. 내쉬 균형은 생성자와 판별자가 모두 성능을 향상할 수 없는 상태를 의미한다. (O)
  5. DCGAN에서 생성자는 마지막 레이어에 Tanh 함수를 사용한다. (O)
  6. StyleGAN은 생성자와 판별자 모두 동일한 구조를 사용한다. (X)  판별자는 PGGAN구조를 사용 
  7. CycleGAN은 텍스트 생성을 목표로 한다. (X)  이미지요
  8. MuseGAN은 음악 생성을 목표로 한다. (O)
  9. TextGAN의 생성자는 주로 CNN을 사용한다. (X)  RNN, LSTM과 같은 시계열 
  10. Diffusion 모델은 데이터 분포를 점진적으로 변환하는 과정이다. (O)

빈칸 채우기 문제

  1. GAN은 생성자와 __로 구성된 머신러닝 프레임워크이다. (판별자)
  2. 생성자는 합성 데이터 샘플을 __한다. (생성)
  3. 판별자는 데이터 샘플을 평가하여 __ 데이터와 생성된 인스턴스를 구분한다. (실제)
  4. 내쉬 균형은 __와 판별자가 모두 성능을 향상할 수 없는 상태를 의미한다. (생성자)
  5. DCGAN에서 생성자는 마지막 레이어에 __ 함수를 사용한다. (Tanh)
  6. StyleGAN의 생성자는 __ 벡터를 활용하여 다양한 속성을 제어한다. (스타일)
  7. CycleGAN은 이미지-이미지 __을 목표로 한다. (변환)
  8. MuseGAN은 __ 생성을 목표로 하는 GAN 프레임워크이다. (음악)
  9. TextGAN의 생성자는 주로 __ 네트워크를 사용하여 텍스트 시퀀스를 생성한다. (LSTM)
  10. Diffusion 모델은 데이터 분포를 __적으로 변환하는 과정을 통해 이미지를 생성한다. (점진)

단답형 문제

  1. GAN의 기본 구성 요소는 무엇인가요? (생성자와 판별자)
  2. GAN 훈련 과정에서 생성자의 역할은 무엇인가요? (합성 데이터 샘플을 생성)
  3. GAN 훈련 과정에서 판별자의 역할은 무엇인가요? (생성된 데이터의 품질을 평가)
  4. 내쉬 균형(Nash Equilibrium)이란 무엇인가요? (생성자와 판별자가 모두 성능을 향상할 수 없는 상태)
  5. DCGAN에서 생성자는 어떤 활성화 함수를 사용하나요? (마지막 레이어를 제외하고 ReLU, 마지막 레이어에 Tanh)
  6. StyleGAN에서 생성자는 무엇을 활용하여 다양한 속성을 제어하나요? (스타일 벡터)
  7. CycleGAN의 주요 특징은 무엇인가요? (이미지-이미지 변환)
  8. MuseGAN의 주요 목적은 무엇인가요? (음악 생성)
  9. TextGAN의 생성자는 주로 어떤 네트워크를 사용하나요? (LSTM)
  10. Diffusion 모델의 주요 특징은 무엇인가요? (데이터 분포를 점진적으로 변환)

서술형 문제

  1. GAN의 기본 원리와 구성 요소에 대해 설명하시오.
    • 답변: GAN(Generative Adversarial Network)은 생성자(Generator)와 판별자(Discriminator)로 구성된 머신러닝 프레임워크입니다. 생성자는 무작위 노이즈를 의미 있는 데이터로 변환하여 합성 데이터를 생성하고, 판별자는 데이터 샘플을 평가하여 실제 데이터와 생성된 데이터를 구분합니다. 이 두 네트워크는 반복적으로 상호 작용하여 서로의 성능을 향상시키며, 이를 통해 고품질의 합성 데이터를 생성할 수 있습니다.
  2. GAN 훈련 과정에서 손실 함수의 역할에 대해 설명하시오.
    • 답변: 손실 함수는 GAN 훈련 과정에서 중요한 역할을 합니다. 생성 손실 함수는 생성자가 판별자를 속이는 데이터를 생성하여 손실을 최소화하는 것을 목표로 하며, 판별 손실 함수는 판별자가 정확하게 구분하는 능력을 측정하여 손실을 최소화하는 것을 목표로 합니다. 손실 함수는 생성자와 판별자 간의 적대적 경쟁을 조율하여 지속적인 성능 개선을 유도합니다.
  3. DCGAN의 주요 특징과 활성화 함수에 대해 설명하시오.
    • 답변: DCGAN(Deep Convolutional GAN)은 FCN과 pooling을 배제하고, strided convolution과 transposed convolution을 사용하여 네트워크를 구성합니다. 생성자는 모든 레이어에 ReLU 활성화 함수를 사용하며, 마지막 레이어에 Tanh 활성화 함수를 사용합니다. 판별자는 모든 레이어에 LeakyReLU 활성화 함수를 사용합니다. DCGAN은 배치 정규화를 사용하여 학습의 안정성을 높입니다.
  4. StyleGAN의 주요 특징과 활용에 대해 설명하시오.
    • 답변: StyleGAN은 스타일 벡터를 활용하여 다양한 속성을 제어할 수 있는 생성자 구조를 가지고 있습니다. 생성자는 잠재 벡터를 여러 매핑 레이어를 거쳐 스타일 벡터로 계산하고, 특징 맵을 업스케일링 및 변환하여 이미지를 생성합니다. StyleGAN은 얼굴 생성, 예술적 이미지 생성 등 다양한 분야에서 활용되며, 생성된 이미지의 품질과 사실감이 높습니다.
  5. CycleGAN의 주요 특징과 응용 분야에 대해 설명하시오.
    • 답변: CycleGAN은 이미지-이미지 변환을 목표로 하는 생성 모델로, 서로 다른 도메인 간의 이미지를 변환할 수 있습니다. 예를 들어, 흑백 이미지를 컬러 이미지로 변환하거나, 낮 사진을 밤 사진으로 변환할 수 있습니다. CycleGAN은 인공지능 채색, 사진 복구, 그림체 변형 등 다양한 어플리케이션에서 사용됩니다.
  6. MuseGAN의 구조와 음악 생성 과정에 대해 설명하시오.
    • 답변: MuseGAN은 음악 생성을 목표로 하는 GAN 프레임워크로, 생성자는 LSTM 네트워크를 사용하여 음악을 생성하고, 판별자는 생성된 음악의 품질을 평가합니다. 생성자는 노이즈 벡터를 입력으로 받아 시간에 따른 음표를 생성하며, 양방향 LSTM을 통해 과거와 미래의 문맥을 모두 캡처하여 생성된 음악의 일관성과 구조를 향상시킵니다.
  7. TextGAN의 구조와 텍스트 생성 과정에 대해 설명하시오.
    • 답변: TextGAN은 자연어 텍스트 기반 콘텐츠 생성을 목표로 하는 GAN 모델로, 생성자는 단어 또는 문장을 생성하고, 판별자는 생성된 텍스트의 진위 여부를 평가합니다. 생성자는 RNN, LSTM, GRU와 같은 변형을 사용하여 텍스트 시퀀스를 생성하며, 초기 입력에 따라 생성자를 조절하여 일관된 텍스트 출력을 생성합니다.
  8. Diffusion 모델의 원리와 주요 특징에 대해 설명하시오.
    • 답변: Diffusion 모델은 입력 데이터 분포를 원하는 출력 분포로 점진적으로 변환하는 과정입니다. 데이터 분포에 작고 제어된 변경 사항을 반복적으로 적용하여 점차 목표 분포와 유사하게 만드는 방식입니다. Diffusion 모델은 컴퓨팅 리소스와 시간이 많이 소요되지만, 색상, 질감, 패턴이 독특하게 혼합된 고품질의 일관된 예술적 이미지를 생성할 수 있습니다.
  9. GAN 훈련 과정에서 발생할 수 있는 문제점과 해결 방안에 대해 설명하시오.
    • 답변: GAN 훈련 과정에서 발생할 수 있는 문제점으로는 모드 축소, 훈련 불안정, 하이퍼파라미터 튜닝의 어려움 등이 있습니다. 모드 축소는 다양성과 창의성이 부족한 상태에서 발생하며, 이를 해결하기 위해 다양한 데이터를 사용하고 생성자의 다양성을 높이는 방법이 필요합니다. 훈련 불안정은 생성자와 판별자 성능 간의 수렴과 진동에서 발생하며, 이를 해결하기 위해 학습률 조정, 배치 정규화 사용 등의 방법이 있습니다. 하이퍼파라미터 튜닝은 시간이 많이 소요되며, 전문 지식이 필요하므로 경험과 실험을 통해 최적의 값을 찾는 것이 중요합니다.
  10. GAN의 응용 분야와 그 가능성에 대해 설명하시오.
    • 답변: GAN은 이미지 생성, 스타일 전송, 데이터 증강, 음악 생성, 자연어 생성 등 다양한 분야에서 응용됩니다. 예를 들어, GAN을 활용하여 예술적 이미지 생성, 얼굴 생성, 텍스트 이미지 합성, 이미지-이미지 변환 등을 수행할 수 있습니다. GAN은 창의적이고 혁신적인 콘텐츠를 생성하는 데 강력한 도구로 사용될 수 있으며, 앞으로 더 많은 가능성이 열려있습니다. 예를 들어, 의료 이미지 분석, 자율 주행, 가상 현실 등의 분야에서도 GAN의 잠재력을 발휘할 수 있습니다.

 

9주 차

오지 선다형 문제

  1. 스타일 전환(Style Transfer) 기술은 무엇을 결합하는 기술인가요?
    • a) 두 개의 스타일 이미지를 결합  이건 아직 못 봤네요
    • b) 콘텐츠 이미지와 스타일 이미지를 결합
    • c) 두 개의 콘텐츠 이미지를 결합  이건 그냥 사진 합치기가 되지 않을까...
    • d) 비디오와 오디오를 결합
    • e) 텍스트와 이미지를 결합
    • 답변: b) 콘텐츠 이미지와 스타일 이미지를 결합
    • 해설: 스타일 전환은 한 영상의 콘텐츠와 다른 영상의 스타일 특성을 결합하여 새로운 영상을 생성하는 기술입니다.
  2. CycleGAN의 주요 특징은 무엇인가요?
    • a) 페어링 된 이미지 간 전환  쌍을 이루지 않은 데이터!
    • b) 단일 이미지에서 스타일 전환
    • c) 페어링 되지 않은 이미지 간 전환
    • d) 텍스트 생성
    • e) 음악 생성
    • 답변: c) 페어링 되지 않은 이미지 간 전환
    • 해설: CycleGAN은 쌍을 이루지 않은 데이터 간에도 두 도메인 간의 매핑을 학습할 수 있습니다.
  3. 신경망 스타일 전환(NST)은 주로 어떤 신경망을 사용하나요?
    • a) RNN
    • b) LSTM
    • c) CNN
    • d) GAN
    • e) MLP
    • 답변: c) CNN
    • 해설: NST는 주로 컨볼루션 신경망(CNN)을 사용하여 콘텐츠와 스타일 정보를 분리하고 재결합합니다.
  4. DCGAN의 생성기에서 사용하는 활성화 함수는 무엇인가요?
    • a) Sigmoid
    • b) Tanh
    • c) ReLU
    • d) LeakyReLU
    • e) Softmax
    • 답변: b) Tanh
    • 해설: DCGAN의 생성자는 마지막 레이어에서 Tanh 함수를 사용합니다.
  5. CelebA 데이터셋은 주로 어떤 작업에 사용되나요?
    • a) 텍스트 생성
    • b) 얼굴 인식  연예인 데이터셋이니까요
    • c) 음성 인식
    • d) 비디오 생성
    • e) 음악 생성
    • 답변: b) 얼굴 인식
    • 해설: CelebA 데이터셋은 얼굴 속성 인식, 얼굴 인식, 얼굴 감지 등의 작업에 사용됩니다.
  6. GAN에서 판별자는 주로 어떤 역할을 하나요?
    • a) 노이즈를 생성  디퓨전 
    • b) 합성 데이터를 생성  생성자
    • c) 데이터의 진위를 판별  판별!
    • d) 모델의 파라미터를 최적화  optimizer
    • e) 손실 함수를 계산  loss function
    • 답변: c) 데이터의 진위를 판별
    • 해설: 판별자는 주어진 데이터가 실제 데이터인지 생성된 데이터인지 구분합니다.
  7. GAN의 적대적 훈련 과정에서 생성자의 목표는 무엇인가요?
    • a) 판별자를 완벽하게 속이는 데이터 생성
    • b) 데이터의 진위를 판별  이건 판별자
    • c) 손실 함수를 최소화
    • d) 모델의 파라미터를 최적화
    • e) 데이터를 전처리
    • 답변: a) 판별자를 완벽하게 속이는 데이터 생성
    • 해설: 생성자의 목표는 판별자를 속일 수 있는 합성 데이터를 생성하는 것입니다.
  8. CycleGAN의 핵심 개념은 무엇인가요?
    • a) 내용 보존
    • b) 스타일 일관성
    • c) 사이클 일관성
    • d) 시간적 일관성
    • e) 색상 일관성
    • 답변: c) 사이클 일관성
    • 해설: CycleGAN의 핵심은 사이클 일관성으로, 한 도메인에서 다른 도메인으로 변환된 이미지가 원본 이미지와 유사해야 합니다.
  9. 가짜 탐지를 위한 CNN-RNN 네트워크에서 RNN은 주로 어떤 역할을 하나요?
    • a) 이미지의 시각적 특징 추출
    • b) 노이즈 생성
    • c) 시간적 특징 추출  RNN의 의미죠 
    • d) 손실 함수 계산
    • e) 데이터 전처리
    • 답변: c) 시간적 특징 추출
    • 해설: RNN은 시간적 특징을 추출하여 가짜 동영상을 탐지하는 데 사용됩니다.
  10. 가짜 콘텐츠 탐지에서 F1-score는 무엇을 나타내나요?
    • a) 정확도와 민감도의 조화평균  이거!
    • b) 정확도의 평균  평균은 쓰지마요
    • c) 민감도의 평균
    • d) 정밀도의 평균
    • e) 손실 함수의 최소값
    • 답변: a) 정확도와 민감도의 조화평균
    • 해설: F1-score는 정밀도와 민감도의 조화평균으로, 둘의 균형을 맞춰야 하는 곳에서 사용됩니다.

OX 문제

  1. 스타일 전환은 한 영상의 콘텐츠와 다른 영상의 스타일 특성을 결합하는 기술이다. (O)
  2. CycleGAN은 페어링 된 이미지 간의 전환만 가능하다. (X)  페어링 안된!
  3. 신경망 스타일 전환(NST)은 주로 RNN을 사용한다. (X)  CNN!
  4. DCGAN의 생성자는 마지막 레이어에서 Tanh 함수를 사용한다. (O)
  5. CelebA 데이터셋은 얼굴 인식 작업에 사용된다. (O)
  6. GAN에서 판별자는 합성 데이터를 생성한다. (X)  생성자
  7. GAN의 적대적 훈련 과정에서 생성자의 목표는 판별자를 속이는 데이터 생성이다. (O)
  8. CycleGAN의 핵심 개념은 시간적 일관성이다. (X)
  9. 가짜 탐지를 위한 CNN-RNN 네트워크에서 RNN은 시간적 특징을 추출한다. (O)
  10. F1-score는 정확도와 민감도의 조화평균이다. (O)  산술평균하면 진짜 이상한 값 나와요

빈칸 채우기 문제

  1. 스타일 전환은 __ 이미지와 스타일 이미지를 결합하는 기술이다. (콘텐츠)
  2. CycleGAN은 __ 되지 않은 이미지 간의 전환을 학습할 수 있다. (페어링)
  3. 신경망 스타일 전환(NST)은 주로 __를 사용한다. (CNN)
  4. DCGAN의 생성자는 마지막 레이어에서 __ 함수를 사용한다. (Tanh)
  5. CelebA 데이터셋은 __ 인식 작업에 사용된다. (얼굴)
  6. GAN에서 판별자는 데이터의 __를 판별한다. (진위)
  7. GAN의 적대적 훈련 과정에서 생성자의 목표는 판별자를 __ 데이터 생성이다. (속이는)
  8. CycleGAN의 핵심 개념은 __ 일관성이다. (사이클)
  9. 가짜 탐지를 위한 CNN-RNN 네트워크에서 RNN은 __ 특징을 추출한다. (시간적)
  10. F1-score는 정확도와 __의 조화평균이다. (민감도)

단답형 문제

  1. 스타일 전환 기술은 무엇을 결합하는 기술인가요? (콘텐츠 이미지와 스타일 이미지)
  2. CycleGAN의 주요 특징은 무엇인가요? (페어링 되지 않은 이미지 간 전환)
  3. 신경망 스타일 전환(NST)은 주로 어떤 신경망을 사용하나요? (CNN)
  4. DCGAN의 생성기에서 사용하는 활성화 함수는 무엇인가요? (Tanh)
  5. CelebA 데이터셋은 주로 어떤 작업에 사용되나요? (얼굴 인식)
  6. GAN에서 판별자는 주로 어떤 역할을 하나요? (데이터의 진위를 판별)
  7. GAN의 적대적 훈련 과정에서 생성자의 목표는 무엇인가요? (판별자를 속이는 데이터 생성)
  8. CycleGAN의 핵심 개념은 무엇인가요? (사이클 일관성)
  9. 가짜 탐지를 위한 CNN-RNN 네트워크에서 RNN은 주로 어떤 역할을 하나요? (시간적 특징 추출)
  10. 가짜 콘텐츠 탐지에서 F1-score는 무엇을 나타내나요? (정확도와 민감도의 조화평균)

서술형 문제

  1. 스타일 전환(Style Transfer) 기술의 원리와 응용 분야에 대해 설명하시오.
    • 답변: 스타일 전환은 한 영상의 콘텐츠와 다른 영상의 스타일 특성을 결합하여 새로운 영상을 생성하는 기술입니다. 주로 CNN을 사용하여 콘텐츠와 스타일 정보를 분리하고 재결합합니다. 이 기술은 예술적 랜더링, 사진 복원, 맞춤형 디자인 등 다양한 분야에 응용될 수 있습니다. 예를 들어, 유명 화가의 스타일을 사진에 적용하여 예술 작품처럼 변환하거나, 낮 사진을 밤 사진으로 변환하는 등의 작업이 가능합니다.
  2. CycleGAN의 구조와 사이클 일관성 손실에 대해 설명하시오.
    • 답변: CycleGAN은 페어링 되지 않은 이미지 간의 전환을 위해 설계된 생성 모델로, 두 개의 생성기 네트워크와 두 개의 판별기 네트워크로 구성됩니다. 생성기는 한 도메인에서 다른 도메인으로 영상을 변환하며, 판별자는 실제 이미지와 생성된 이미지를 구분합니다. 사이클 일관성 손실은 한 도메인에서 다른 도메인으로 변환된 이미지가 원본 이미지와 유사해야 한다는 것을 보장하는 개념으로, 이를 통해 도메인 간의 변환이 일관성을 유지하게 됩니다.
  3. 신경망 스타일 전환(NST)의 원리와 주요 구성 요소에 대해 설명하시오.
    • 답변: NST는 심층 신경망을 활용하여 콘텐츠 이미지와 스타일 이미지를 결합하는 기술입니다. 주로 CNN을 사용하여 콘텐츠와 스타일 정보를 분리하고 재결합합니다. 주요 구성 요소로는 콘텐츠 손실과 스타일 손실이 있습니다. 콘텐츠 손실은 변형된 이미지가 원본 콘텐츠와 얼마나 유사한지를 측정하며, 스타일 손실은 변형된 이미지가 원본 스타일과 얼마나 유사한지를 측정합니다. 두 손실을 최소화하는 방향으로 이미지를 최적화하여 새로운 이미지를 생성합니다.
  4. DCGAN의 생성기와 판별기의 구조와 역할에 대해 설명하시오.
    • 답변: DCGAN의 생성기는 latent vector(z)를 데이터 공간의 영상으로 변환하는 역할을 합니다. 정규화, ReLU, 2D Convolution 레이어를 사용하여 수행되며, 마지막 레이어에서 Tanh 함수를 사용하여 데이터를 조정합니다. 판별기는 3x64x64 이미지를 받아 Conv2D, BatchNorm2D, LeakyReLU 레이어를 통해 처리하고, 마지막 레이어에서 Sigmoid 함수를 통해 결정 확률을 산출합니다. 생성기는 판별자를 속이는 데이터를 생성하는 역할을 하며, 판별기는 주어진 데이터가 실제인지 생성된 데이터인지 구분하는 역할을 합니다.
  5. CelebA 데이터셋과 DCGAN을 사용한 얼굴 생성 과정에 대해 설명하시오.
    • 답변: CelebA 데이터셋은 얼굴 속성 인식, 얼굴 인식, 얼굴 감지 등 다양한 컴퓨터 비전 작업에 사용되는 유명인 얼굴 데이터셋입니다. DCGAN을 사용한 얼굴 생성 과정은 다음과 같습니다. 생성기 G는 latent vector(z)를 입력받아 얼굴 이미지를 생성하며, 판별기 D는 생성된 이미지와 실제 이미지를 받아 진위 여부를 평가합니다. 생성기는 판별자를 속이는 방향으로 학습하며, 판별자는 진짜와 가짜를 구분하는 능력을 키워나갑니다. 이 과정을 통해 점점 더 사실적인 얼굴 이미지를 생성할 수 있습니다.
  6. 가짜 탐지를 위한 CNN-RNN 네트워크의 구조와 작동 원리에 대해 설명하시오.
    • 답변: 가짜 탐지를 위한 CNN-RNN 네트워크는 먼저 전처리 과정에서 얼굴을 감지하고 자르고 정렬합니다. 그 후 각 프레임을 CNN에 공급하여 이미지 특징을 추출합니다. 추출된 특징은 RNN에 전달되어 시간적 특징을 가져오며, 마지막으로 CNN이 동영상이 가짜인지 진짜인지를 분류합니다. CNN은 시각적 특징을 추출하는 데 사용되며, RNN은 시간적 특징을 추출하여 동영상의 연속적인 프레임 간의 관계를 파악합니다.
  7. GAN의 적대적 훈련 과정과 내쉬 균형(Nash Equilibrium)에 대해 설명하시오.
    • 답변: GAN의 적대적 훈련 과정은 생성자와 판별자가 서로 경쟁하며 성능을 향상시키는 과정입니다. 생성자는 판별자를 속이는 합성 데이터를 생성하려고 하고, 판별자는 진짜 데이터와 가짜 데이터를 구분하려고 합니다. 이 과정에서 생성자는 점점 더 사실적인 데이터를 생성하게 되고, 판별자는 더욱 정교하게 구분하게 됩니다. 내쉬 균형은 생성자와 판별자 어느 쪽도 성능을 더 이상 향상시킬 수 없는 상태를 의미하며, 이 상태에 도달하면 생성된 데이터가 실제 데이터와 거의 구분할 수 없게 됩니다.
  8. 가짜 콘텐츠 탐지에서 F1-score의 중요성과 계산 방법에 대해 설명하시오.
    • 답변: F1-score는 정밀도와 민감도의 조화평균으로, 가짜 콘텐츠 탐지에서 중요한 지표입니다. F1-score는 정밀도와 민감도 사이의 균형을 맞추어야 하는 경우에 특히 유용합니다. 정밀도는 예측된 양성 샘플 중 올바르게 예측된 양성의 비율을 나타내고, 민감도는 실제 양성 샘플 중 올바르게 예측된 양성의 비율을 나타냅니다. F1-score는 이 두 값을 조화평균하여 계산됩니다. F1-score가 높을수록 탐지 모델의 성능이 좋음을 의미합니다.
  9. DeepFake 탐지에서 Real 랜드마크의 역할과 중요성에 대해 설명하시오.
    • 답변: DeepFake 탐지에서 Real 랜드마크는 얼굴의 주요 기준점을 제공하여 딥페이크를 감지하는 데 중요한 역할을 합니다. 알고리즘은 원본 얼굴과 조작된 얼굴 사이의 랜드마크 분포와 움직임을 비교하여 불일치를 감지합니다. 이러한 랜드마크는 얼굴의 진위 여부를 평가하는 데 사용되며, 딥페이크 탐지의 정확성을 높이는 데 기여합니다. 랜드마크를 기반으로 한 분석은 얼굴의 세부적인 변화를 감지하고, 이를 통해 조작 여부를 판단할 수 있습니다.
  10. GAN을 활용한 예술 작품 생성의 원리와 주요 도전 과제에 대해 설명하시오.
    • 답변: GAN을 활용한 예술 작품 생성은 생성자와 판별자가 적대적 훈련을 통해 서로 경쟁하면서 예술적 이미지를 생성하는 과정입니다. 생성자는 예술 작품과 유사한 이미지를 생성하고, 판별자는 이를 평가하여 진위 여부를 판단합니다. 주요 도전 과제로는 콘텐츠 보존과 스타일 일관성 유지, 사용자 지정 옵션 제공 등이 있습니다. 콘텐츠와 스타일 사이의 섬세한 균형을 유지하는 것이 중요하며, 시각적으로 만족스러운 결과물을 얻기 위해서는 이 균형을 지속적으로 유지해야 합니다. 또한, 다양한 사용자 선호도를 반영하여 개인화된 스타일을 생성하는 것도 중요한 과제입니다.

 

10주 차

오지 선다형 문제 (Multiple Choice Questions)

  1. 인코더 디코더 구조의 인코더는 무엇을 생성하나요?
    • a) 입력의 표현 또는 컨텍스트
    • b) 출력의 표현 또는 컨텍스트  이건.....
    • c) 입력의 원본 데이터를 복제  AutoEncoder의 목표네요
    • d) 출력의 원본 데이터를 복제
    • e) 데이터의 노이즈를 제거
    • 답변: a) 입력의 표현 또는 컨텍스트
    • 해설: 인코더는 입력 데이터를 처리하여 필수 정보를 고정된 크기의 임베딩 벡터로 변환합니다.
  2. 영상 인코더는 주로 어떤 신경망을 사용하여 시각적 특징을 추출하나요?
    • a) RNN
    • b) LSTM
    • c) CNN  영상하면 CNN이 대부분.. ViT가면 Transformer가 나오겠지만..
    • d) GRU
    • e) MLP
    • 답변: c) CNN
    • 해설: 영상 인코더는 주로 컨볼루션 신경망(CNN)을 사용하여 시각적 특징을 추출합니다.
  3. 언어 인코더는 일련의 단어 또는 토큰을 처리하여 무엇을 생성하나요?
    • a) 고정된 크기의 임베딩
    • b) 무작위 노이즈  
    • c) 이미지 벡터  언어 입니다.
    • d) 원본 텍스트  이건 음 GPT의 pre-training 과정이요
    • e) 사운드 클립
    • 답변: a) 고정된 크기의 임베딩
    • 해설: 언어 인코더는 일련의 단어 또는 토큰을 처리하여 고정된 크기의 임베딩 벡터를 생성합니다.
  4. CNN과 RNN을 결합한 인코더-디코더 구조는 주로 어떤 작업에 사용되나요?
    • a) 이미지 분류
    • b) 텍스트 분류
    • c) 이미지 캡션 생성  CNN은 이미지! RNN은 시계열 데이터! 하면 이것 밖에 없네요
    • d) 음성 인식
    • e) 게임 플레이
    • 답변: c) 이미지 캡션 생성
    • 해설: CNN 인코더와 RNN 디코더를 결합한 구조는 주로 이미지 캡션 생성에 사용됩니다.
  5. 인코더-디코더 구조에서 attention 메커니즘의 주요 역할은 무엇인가요?
    • a) 입력 데이터를 무작위로 변경  이건 디퓨전 forward라고 해야되려나..
    • b) 디코더의 출력을 무작위로 생성
    • c) 인코더 출력의 특정 부분에 선택적으로 주목  attention은 나랑 관련성 score를 매긴다.
    • d) 데이터를 압축하여 크기를 줄임  이건 Encoder
    • e) 데이터의 노이즈를 증가시킴
    • 답변: c) 인코더 출력의 특정 부분에 선택적으로 주목
    • 해설: attention 메커니즘은 디코더가 인코더 출력의 특정 부분에 주목하여 더 중요한 정보를 선택적으로 활용할 수 있게 합니다.
  6. 영상 주석 생성에서 CNN 인코더와 결합되는 디코더는 주로 어떤 신경망을 사용하나요?
    • a) RNN
    • b) LSTM
    • c) GRU
    • d) Transformer  attention 메커니즘을 활용하므로...
    • e) MLP
    • 답변: d) Transformer
    • 해설: 최근 영상 주석 생성에서는 Transformer 디코더를 많이 사용합니다.
  7. 영상 캡션 생성 모델의 평가 지표로 자주 사용되는 것은 무엇인가요?
    • a) BLEU  자연어 평가 지표 중 하나
    • b) MSE  이미지나 regression
    • c) Accuracy  classification
    • d) Precision  암이 걸렸다고 예측한 사람 중 진짜 암인 사람
    • e) Recall  암에 걸린 사람들 중 예측에 성공한 사람
    • 답변: a) BLEU
    • 해설: BLEU는 생성된 캡션과 참조 캡션을 비교하여 품질을 평가하는 지표입니다.
  8. 인코더-디코더 구조에서 컨텍스트 벡터는 무엇을 나타내나요?
    • a) 입력 데이터의 노이즈
    • b) 입력 데이터의 요약  요약한 거~
    • c) 출력 데이터의 원본
    • d) 출력 데이터의 노이즈
    • e) 입력 데이터의 원본
    • 답변: b) 입력 데이터의 요약
    • 해설: 컨텍스트 벡터는 입력 데이터를 요약한 고정된 크기의 벡터입니다.
  9. Transformer 기반 디코더의 장점은 무엇인가요?
    • a) 낮은 계산 복잡도  높아요ㅠ
    • b) 병렬 처리 가능  Multi-Head
    • c) 높은 메모리 효율성
    • d) 단일 레이어 구조
    • e) 정적인 입력 크기  동적~
    • 답변: b) 병렬 처리 가능
    • 해설: Transformer 기반 디코더는 토큰을 병렬로 처리할 수 있어 계산이 효율적입니다.
  10. BLEU와 ROUGE는 주로 무엇을 평가하는 데 사용되나요?
    • a) 영상의 품질
    • b) 텍스트의 유사성  NLP 평가 방식 중 하나
    • c) 오디오의 품질
    • d) 이미지의 해상도
    • e) 데이터의 압축률
    • 답변: b) 텍스트의 유사성
    • 해설: BLEU와 ROUGE는 생성된 텍스트와 참조 텍스트 간의 유사성을 평가하는 지표입니다.

OX 문제 (True/False Questions)

  1. 인코더 디코더 구조의 인코더는 입력 데이터를 고정된 크기의 임베딩 벡터로 변환한다. (O)
  2. 영상 디코더는 고정된 크기의 임베딩 벡터를 받아 전체 해상도의 이미지를 생성한다. (O)
  3. LSTM과 GRU는 주로 영상 인코더로 사용된다. (X)  영상 인코더로 CNN
  4. Transformer는 토큰을 병렬로 처리할 수 있어 계산이 효율적이다. (O)
  5. CNN은 주로 자연어 처리에서 텍스트 디코더로 사용된다. (X)  CNN을 통한 text 생성은 진짜 옛날....
  6. 인코더-디코더 구조에서 attention 메커니즘은 입력의 특정 부분에 선택적으로 주목할 수 있다. (O)
  7. BLEU는 주로 생성된 이미지의 품질을 평가하는 데 사용된다. (X)  자연어
  8. 영상 캡션 생성에서 RNN은 이미지 인코더로 자주 사용된다. (X)  CNN
  9. 컨텍스트 벡터는 입력 데이터의 요약된 표현이다. (O)
  10. Transformer 기반 모델은 주로 시퀀스 작업에서 효율적이다. (O)

빈칸 채우기 문제 (Fill in the Blanks)

  1. 인코더 디코더 구조의 인코더는 입력의 ___를 생성합니다. (표현 또는 컨텍스트)
  2. 영상 인코더는 주로 ___를 사용하여 시각적 특징을 추출합니다. (CNN)
  3. 언어 인코더는 일련의 단어 또는 토큰을 처리하여 고정된 크기의 ___를 생성합니다. (임베딩)
  4. 인코더-디코더 구조에서 ___ 메커니즘은 디코더가 인코더 출력의 특정 부분에 주목하도록 합니다. (attention)
  5. 영상 캡션 생성에서 CNN 인코더와 결합되는 디코더는 주로 ___를 사용합니다. (Transformer)
  6. BLEU와 ROUGE는 생성된 텍스트의 ___을 평가하는 데 사용됩니다. (유사성)
  7. Transformer 기반 디코더는 토큰을 ___로 처리할 수 있습니다. (병렬)
  8. 컨텍스트 벡터는 입력 데이터의 ___된 표현입니다. (요약)
  9. 영상 디코더는 고정된 크기의 ___ 벡터를 받아 전체 해상도의 이미지를 생성합니다. (임베딩)
  10. 인코더 디코더 구조는 ___와 디코더로 구성되어 있습니다. (인코더)

단답형 문제 (Short Answer Questions)

  1. 인코더 디코더 구조의 인코더는 무엇을 생성하나요?
    • 답변: 입력의 표현 또는 컨텍스트
  2. 영상 인코더는 주로 어떤 신경망을 사용하나요?
    • 답변: CNN
  3. 언어 인코더는 무엇을 생성하나요?
    • 답변: 고정된 크기의 임베딩
  4. 인코더-디코더 구조에서 attention 메커니즘의 역할은 무엇인가요?
    • 답변: 디코더가 인코더 출력의 특정 부분에 주목하도록 합니다.
  5. 영상 캡션 생성에서 CNN 인코더와 결합되는 디코더는 주로 어떤 신경망을 사용하나요?
    • 답변: Transformer
  6. BLEU와 ROUGE는 무엇을 평가하는 데 사용되나요?
    • 답변: 생성된 텍스트의 유사성
  7. Transformer 기반 디코더의 장점은 무엇인가요?
    • 답변: 토큰을 병렬로 처리할 수 있어 계산이 효율적입니다.
  8. 컨텍스트 벡터는 무엇을 나타내나요?
    • 답변: 입력 데이터의 요약된 표현
  9. 영상 디코더는 무엇을 생성하나요?
    • 답변: 전체 해상도의 이미지
  10. 인코더 디코더 구조는 무엇과 무엇으로 구성되어 있나요?
    • 답변: 인코더와 디코더

서술형 문제 (Essay Questions)

  1. 인코더 디코더 구조의 동작 원리와 주요 구성 요소에 대해 설명하시오.
    • 답변: 인코더 디코더 구조는 입력 데이터를 고정된 크기의 임베딩 벡터로 변환하는 인코더와 이 벡터를 기반으로 출력을 생성하는 디코더로 구성됩니다. 인코더는 입력 데이터를 처리하여 중요한 정보를 요약하고, 디코더는 이 요약된 정보를 기반으로 새로운 데이터를 생성합니다. 주요 구성 요소로는 인코더, 디코더, 컨텍스트 벡터, attention 메커니즘, Loss function 등이 있습니다.
  2. 영상 인코더와 디코더의 역할과 사용되는 주요 기술에 대해 설명하시오.
    • 답변: 영상 인코더는 입력된 영상을 처리하여 필수 시각적 특징을 추출하고, 고정된 크기의 임베딩 벡터로 표현합니다. 주로 CNN이 사용되며, 최근에는 ViT도 사용됩니다. 영상 디코더는 고정된 크기의 임베딩 벡터를 받아 전체 해상도의 이미지를 생성합니다. GAN, VAE, Transformer, Diffusion 모델 등이 사용됩니다. 인코더는 입력의 중요한 정보를 요약하고, 디코더는 이를 바탕으로 새로운 이미지를 생성합니다.
  3. 언어 인코더와 디코더의 동작 원리와 차이점에 대해 설명하시오.
    • 답변: 언어 인코더는 일련의 단어 또는 토큰을 처리하여 고정된 크기의 임베딩 벡터를 생성합니다. 주로 LSTM, GRU, RNN, Self-attention 등이 사용됩니다. 언어 디코더는 초기 상태를 받아 문맥과 입력 정보를 기반으로 단어 또는 토큰의 시퀀스를 생성합니다. RNN은 한 번에 하나씩 순차적으로 처리되며, Transformer는 토큰을 병렬로 처리하여 효율적입니다. 인코더는 입력 데이터를 요약하고, 디코더는 이를 바탕으로 새로운 시퀀스를 생성합니다.
  4. 인코더 디코더 구조에서 attention 메커니즘의 역할과 장점에 대해 설명하시오.
    • 답변: attention 메커니즘은 인코더-디코더 구조에서 동적 정보 필터 역할을 하여 디코더가 인코더 출력의 특정 부분에 선택적으로 주목할 수 있게 합니다. 이를 통해 정보 흐름을 향상시키고, 시퀀스 간 작업에서 정렬을 효과적으로 수행하며, 동적 콘텍스트를 조정하여 장거리 종속성을 포착할 수 있습니다. 이로 인해 번역 정확도와 문맥 관련성이 향상됩니다.
  5. 이미지 캡션 생성에서 인코더와 디코더의 결합 방식과 그 효과에 대해 설명하시오.
    • 답변: 이미지 캡션 생성에서 인코더는 입력 이미지를 처리하여 시각적 특징을 추출하고, 디코더는 이를 기반으로 텍스트 캡션을 생성합니다. CNN 인코더는 이미지의 시각적 정보를 추출하고, RNN 또는 Transformer 디코더는 이 정보를 텍스트로 변환합니다. attention 메커니즘을 결합하면 디코더가 이미지의 특정 부분에 주목하여 더 정확하고 문맥에 맞는 캡션을 생성할 수 있습니다.
  6. BLEU와 ROUGE 지표의 차이점과 각각의 사용 사례에 대해 설명하시오.
    • 답변: BLEU와 ROUGE는 모두 텍스트 생성 모델의 성능을 평가하는 지표입니다. BLEU는 기계 번역의 품질을 평가하는 데 주로 사용되며, 생성된 텍스트와 참조 텍스트 간의 n-gram 유사성을 측정합니다. ROUGE는 텍스트 요약의 품질을 평가하는 데 주로 사용되며, 생성된 텍스트와 참조 텍스트 간의 겹치는 단어 수를 기반으로 유사성을 측정합니다. 두 지표 모두 생성된 텍스트의 품질을 평가하는 데 사용됩니다.
  7. 인코더-디코더 구조에서 사용하는 주요 Loss function과 그 목적에 대해 설명하시오.
    • 답변: 인코더-디코더 구조에서 사용하는 주요 Loss function으로는 Cross Entropy Loss와 MSE가 있습니다. Cross Entropy Loss는 주로 언어 모델에서 사용되며, 단어에 대한 모델의 예측 확률 분포와 실제 기준값 분포 간의 차이를 정량화합니다. MSE는 주로 이미지 생성 모델에서 사용되며, 픽셀 불일치를 최소화하여 시각적으로 유사한 이미지를 생성합니다. 두 Loss function 모두 모델의 예측과 실제 값 간의 차이를 최소화하는 것을 목표로 합니다.
  8. Transformer 기반 모델이 RNN 기반 모델에 비해 가지는 장점에 대해 설명하시오.
    • 답변: Transformer 기반 모델은 RNN 기반 모델에 비해 병렬 처리가 가능하여 계산이 효율적입니다. 또한 장거리 종속성을 잘 포착할 수 있으며, 시퀀스 작업에서 높은 성능을 보입니다. RNN은 순차적으로 처리해야 하지만, Transformer는 self-attention 메커니즘을 통해 병렬로 처리할 수 있어 훈련 속도가 빠르고 더 많은 데이터를 처리할 수 있습니다.
  9. 인코더-디코더 구조의 다양한 결합 방식과 그 응용 사례에 대해 설명하시오.
    • 답변: 인코더-디코더 구조는 다양한 방식으로 결합될 수 있으며, 여러 응용 사례에 사용됩니다. 예를 들어, 이미지 캡션 생성에서는 영상 인코더와 언어 디코더를 결합하여 이미지를 설명하는 텍스트를 생성합니다. 텍스트 프롬프트를 사용한 이미지 생성에서는 언어 인코더와 영상 디코더를 결합하여 텍스트 설명을 기반으로 이미지를 생성합니다. 시각적 질문 답변에서는 영상 인코더와 언어 디코더를 결합하여 이미지에 대한 질문에 답변합니다.
  10. 인코더-디코더 구조에서 주로 사용되는 평가 지표와 그 목적에 대해 설명하시오.
    • 답변: 인코더-디코더 구조에서 주로 사용되는 평가 지표로는 BLEU, ROUGE, 인셉션 스코어, FID 등이 있습니다. BLEU와 ROUGE는 생성된 텍스트의 유사성과 품질을 평가하는 데 사용됩니다. 인셉션 스코어와 FID는 생성된 이미지의 시각적 품질과 다양성을 평가하는 데 사용됩니다. 이 지표들은 모델의 성능을 정량화하여 평가하고, 모델 개선을 위한 피드백을 제공하는 데 목적이 있습니다.

 

11주 차

오지 선다형 문제 (Multiple Choice Questions)

  1. 언어 명령 기반 영상 생성용 트랜스포머 모델의 언어 처리 부분은 무엇을 담당하나요?
    • a) 영상을 생성합니다.  디코더
    • b) 언어 명령을 임베딩합니다.
    • c) 손실 함수를 계산합니다.  예측 결과를 보고 한다.
    • d) 시각 정보를 처리합니다.
    • e) 데이터를 전송합니다.
    • 답변: b) 언어 명령을 임베딩합니다.
    • 해설: 언어 처리 부분은 입력된 언어 명령을 임베딩하여 트랜스포머 인코더에 입력합니다.
  2. 트랜스포머 인코더에서 언어와 시각 정보를 결합하는 과정에서 사용되는 주요 메커니즘은 무엇인가요?
    • a) 컨볼루션  Transformer라니까 사라지고
    • b) 풀링  언어에서 Pooling은 정보가 너무 사라지고
    • c) 어텐션
    • d) 활성화 함수  이건 결합이 아니고
    • e) 정규화  이것도 결합이 아니다.
    • 답변: c) 어텐션
    • 해설: 트랜스포머 인코더는 어텐션 메커니즘을 사용하여 언어와 시각 정보를 결합합니다.
  3. VAE의 주요 목적은 무엇인가요?
    • a) 이미지 분류
    • b) 고해상도 이미지 생성  이건 GAN이나 Diffusion 모델한테 넘겨준건가..?
    • c) 데이터 압축 및 복원  이것도 Encoder, Decoder 모델이므로
    • d) 텍스트 요약
    • e) 음성 인식
    • 답변: c) 데이터 압축 및 복원
    • 해설: VAE는 입력 데이터를 잠재 공간으로 압축하고, 이를 다시 복원하는 생성 모델입니다.
  4. PGGAN의 특징은 무엇인가요?
    • a) 저해상도 이미지를 생성합니다.  ㅠ
    • b) 점진적으로 고해상도 이미지를 생성합니다.  점진적 성장 GAN - 점진적으로 고해상도를 만든다.
    • c) 조건부 이미지를 생성합니다.
    • d) 단일 스케일의 이미지를 생성합니다.  
    • e) 텍스트를 기반으로 이미지를 생성합니다.
    • 답변: b) 점진적으로 고해상도 이미지를 생성합니다.
    • 해설: PGGAN은 점진적으로 고해상도 이미지를 생성하도록 설계된 GAN의 변형입니다.
  5. Diffusion Model의 주요 응용 분야가 아닌 것은 무엇인가요?
    • a) 이미지 노이즈 제거
    • b) 이미지 초고해상도
    • c) 텍스트 분류  이미지!
    • d) 이미지 보정
    • e) 이미지 합성
    • 답변: c) 텍스트 분류
    • 해설: Diffusion Model은 주로 이미지 노이즈 제거, 이미지 초고해상도, 이미지 보정 및 이미지 합성에 사용됩니다.
  6. PSNR은 무엇을 측정하는 데 사용되나요?
    • a) 이미지 유사성  SSIM
    • b) 구조적 유사성
    • c) 신호 대 잡음비  요거요
    • d) 분포의 차이  FID
    • e) 텍스트 유사성
    • 답변: c) 신호 대 잡음비
    • 해설: PSNR은 최대 신호 대 잡음비를 측정하여 이미지 또는 동영상의 화질 손실 정보를 평가하는 데 사용됩니다.
  7. SSIM은 어떤 지표를 측정하나요?
    • a) 신호 대 잡음비
    • b) 구조적 유사성  바로 위에서..
    • c) 이미지 노이즈
    • d) 텍스트 일관성
    • e) 데이터 압축률
    • 답변: b) 구조적 유사성
    • 해설: SSIM은 구조적 유사성을 측정하여 이미지의 품질 저하를 정량화합니다.
  8. FID는 무엇을 평가하는 지표인가요?
    • a) 신호 대 잡음비
    • b) 구조적 유사성
    • c) 분포의 차이  이것도 위에서..
    • d) 텍스트 일관성
    • e) 데이터 압축률
    • 답변: c) 분포의 차이
    • 해설: FID는 생성된 이미지 분포와 원래 이미지 분포의 차이를 측정합니다.
  9. 언어 명령 기반 영상 생성용 트랜스포머 모델에서 영상 생성 부분은 무엇을 담당하나요?
    • a) 언어 명령을 임베딩합니다.  이건 Language Encoder
    • b) 시각 정보를 처리합니다.  이건 Visual Encoder
    • c) 시각-언어 피처를 기반으로 영상을 생성합니다.  Transformer 디코더가 하는 역할
    • d) 손실 함수를 계산합니다.
    • e) 데이터를 전송합니다.
    • 답변: c) 시각-언어 피처를 기반으로 영상을 생성합니다.
    • 해설: 영상 생성 부분은 추출한 시각-언어 피처를 활용해 영상을 생성하는 디코더 레이어입니다.
  10. Diffusion Model에서 backward 과정의 주요 목표는 무엇인가요?
    • a) 노이즈를 추가하여 이미지를 생성합니다.  forward
    • b) 노이즈를 제거하여 이미지를 복원합니다.  복원하면 새로운 이미지 생성~
    • c) 텍스트를 기반으로 이미지를 생성합니다.
    • d) 데이터를 압축합니다.
    • e) 구조적 유사성을 측정합니다.
    • 답변: b) 노이즈를 제거하여 이미지를 복원합니다.
    • 해설: Diffusion Model의 backward 과정은 무작위 노이즈로 시작하여 반복적으로 노이즈를 제거해 사실적인 영상을 재현합니다.

OX 문제 (True/False Questions)

  1. 언어 명령 기반 영상 생성용 트랜스포머 모델에서 언어 처리 부분은 시각 정보를 처리한다. (X)  언어 정보 처리
  2. PGGAN은 저해상도 영상에서 시작하여 점진적으로 고해상도 이미지를 생성한다. (O)
  3. Diffusion Model은 주로 텍스트 분류 작업에 사용된다. (X)  이미지
  4. VAE는 입력 데이터를 잠재 공간으로 압축하고 복원하는 모델이다. (O)
  5. PSNR은 이미지의 신호 대 잡음비를 측정한다. (O)
  6. SSIM은 생성된 이미지 분포와 원래 이미지 분포의 차이를 측정한다. (X)  구조적 유사성
  7. FID는 구조적 유사성을 측정하는 지표이다. (X)  분포의 차이
  8. Diffusion Model의 backward 과정에서는 무작위 노이즈로 시작하여 점진적으로 노이즈를 제거한다. (O)
  9. 언어 명령 기반 영상 생성용 트랜스포머 모델에서 시각 정보 처리 부분은 CNN이나 ViT를 사용하여 영상을 feature로 변환한다. (O)
  10. Transfer Learning은 pre-trained 모델을 fine-tuning하여 다양한 해상도의 이미지를 생성할 수 있다. (O)

빈칸 채우기 문제 (Fill in the Blanks)

  1. 언어 명령 기반 영상 생성용 트랜스포머 모델의 언어 처리 부분은 입력된 언어 명령을 ___하여 트랜스포머 인코더에 입력합니다. (임베딩)
  2. 시각 정보 처리 부분은 CNN이나 ___를 사용하여 영상 데이터를 feature로 변환합니다. (ViT)
  3. 트랜스포머 인코더는 언어와 시각 정보를 결합하여 ___를 추출합니다. (시각-언어 피처)
  4. 트랜스포머 디코더는 인코더에서 추출한 시각-언어 피처를 이용해 ___를 생성합니다. (영상)
  5. 영상 생성 및 손실 함수는 생성된 영상과 ___를 비교하여 손실 함수를 계산합니다. (실제 영상)
  6. PGGAN은 저해상도 영상에서 학습을 시작하여 점차적으로 ___과 복잡성을 추가합니다. (디테일)
  7. Diffusion Model의 forward 과정에서는 각 단계에서 제어된 ___를 추가합니다. (노이즈)
  8. Diffusion Model의 backward 과정에서는 무작위 노이즈로 시작하여 반복적으로 ___을 제거합니다. (노이즈)
  9. PSNR은 영상 또는 동영상 손실 압축에서 ___ 손실 정보를 평가하는 데 사용됩니다. (화질)
  10. SSIM은 이미지 품질 저하를 ___하는 데 사용됩니다. (정량화)

단답형 문제 (Short Answer Questions)

  1. 언어 명령 기반 영상 생성용 트랜스포머 모델의 언어 처리 부분은 무엇을 담당하나요?
    • 답변: 입력된 언어 명령을 임베딩합니다.
  2. 시각 정보 처리 부분은 주로 어떤 신경망을 사용하나요?
    • 답변: CNN이나 ViT를 사용합니다.
  3. 트랜스포머 인코더는 언어와 시각 정보를 결합하여 무엇을 추출하나요?
    • 답변: 시각-언어 피처를 추출합니다.
  4. 트랜스포머 디코더는 무엇을 생성하나요?
    • 답변: 영상을 생성합니다.
  5. PGGAN의 주요 특징은 무엇인가요?
    • 답변: 저해상도 영상에서 학습을 시작하여 점진적으로 고해상도 이미지를 생성하는 것입니다.
  6. Diffusion Model의 forward 과정에서 추가되는 것은 무엇인가요?
    • 답변: 노이즈
  7. Diffusion Model의 backward 과정에서 제거되는 것은 무엇인가요?
    • 답변: 노이즈
  8. PSNR은 무엇을 평가하는 데 사용되나요?
    • 답변: 영상 또는 동영상의 화질 손실 정보를 평가하는 데 사용됩니다.
  9. SSIM은 어떤 지표를 측정하나요?
    • 답변: 이미지의 구조적 유사성을 측정합니다.
  10. FID는 무엇을 평가하는 지표인가요?
    • 답변: 생성된 이미지 분포와 원래 이미지 분포의 차이를 측정합니다.

서술형 문제 (Essay Questions)

  1. 언어 명령 기반 영상 생성용 트랜스포머 모델의 구조와 동작 원리에 대해 설명하시오.
    • 답변: 언어 명령 기반 영상 생성용 트랜스포머 모델은 언어 처리 부분, 시각 정보 처리 부분, 트랜스포머 인코더, 트랜스포머 디코더로 구성됩니다. 언어 처리 부분은 입력된 언어 명령을 임베딩하고, 시각 정보 처리 부분은 CNN이나 ViT를 사용하여 영상 데이터를 feature로 변환합니다. 트랜스포머 인코더는 언어와 시각 정보를 결합하여 시각-언어 피처를 추출하고, 트랜스포머 디코더는 이 피처를 기반으로 영상을 생성합니다. 손실 함수는 생성된 영상과 실제 영상을 비교하여 최적화합니다.
  2. 다양한 해상도로 이미지를 생성할 수 있는 생성 모델과 그 특징에 대해 설명하시오.
    • 답변: 다양한 해상도로 이미지를 생성할 수 있는 생성 모델에는 VAE, PGGAN, 조건부 이미지 생성, 멀티 스케일 GAN(MSG-GAN), Diffusion Model 등이 있습니다. VAE는 데이터를 잠재 공간으로 압축하고 복원하며, PGGAN은 저해상도에서 고해상도로 점진적으로 이미지를 생성합니다. 조건부 이미지 생성은 조건 정보를 제공하여 다양한 스케일의 이미지를 생성하고, MSG-GAN은 여러 스케일의 이미지를 동시에 생성합니다. Diffusion Model은 고정된 해상도로 이미지를 생성하지만 멀티 스케일 접근 방식과 전이 학습을 통해 확장 가능합니다.
  3. Diffusion Model의 forward와 backward 과정의 동작 원리에 대해 설명하시오.
    • 답변: Diffusion Model의 forward 과정에서는 각 단계에서 제어된 노이즈를 추가하여 초기 노이즈가 있는 이미지를 점진적으로 개선합니다. 노이즈 추가는 모델의 학습된 파라미터에 따라 이루어집니다. backward 과정에서는 무작위 노이즈로 시작하여 반복적으로 노이즈를 제거해 사실적인 영상을 재현합니다. 학습한 정보를 사용해 노이즈를 효과적으로 제거하며, 훈련 데이터 분포와 일치하는 영상을 생성합니다. 이 과정은 마르코프 체인을 기반으로 합니다.
  4. PSNR, SSIM, FID 지표의 차이점과 각각의 사용 사례에 대해 설명하시오.
    • 답변: PSNR은 신호 대 잡음비를 측정하여 영상 또는 동영상의 화질 손실 정보를 평가하는 데 사용됩니다. SSIM은 이미지의 구조적 유사성을 측정하여 데이터 압축과 같은 처리에서 발생하는 이미지 품질 저하를 정량화합니다. FID는 생성된 이미지 분포와 원래 이미지 분포의 차이를 측정하여 생성 모델의 성능을 평가합니다. PSNR은 주로 화질 평가에, SSIM은 유사성 평가에, FID는 생성 모델의 성능 평가에 사용됩니다.
  5. 언어 명령 기반 영상 생성 모델의 응용 분야에 대해 설명하시오.
    • 답변: 언어 명령 기반 영상 생성 모델은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어, 비전과 텍스트를 통한 VQA 시스템, 예술적 창작, 영화 및 게임 개발, 콘텐츠 생성 및 확장 등에 활용될 수 있습니다. 시각 장애인을 위한 시각 보조 도구, 이미지 기반 콘텐츠 색인 및 검색, 소셜 미디어 콘텐츠 강화 등에도 사용되어 접근성과 사용자 경험을 개선할 수 있습니다.

 

12주 차

오지 선다형 문제 (Multiple Choice Questions)

  1. Stable Diffusion 모델의 주요 구성 요소가 아닌 것은?
    • a) VAE  여기서 생성
    • b) U-Net  노이즈 제거
    • c) Text Encoder  어떻게 만들지 들어와야하니까
    • d) GAN  
    • 답변: d) GAN
    • 해설: Stable Diffusion 모델은 VAE, U-Net, Text Encoder로 구성됩니다.
  2. Stable Diffusion에서 텍스트 기반 상태 조절은 어떤 메커니즘을 사용하여 텍스트 임베딩을 통합하나요?
    • a) Convolutional Neural Network
    • b) Cross Attention  CLIP에서 나온 embedding을 사용하는 방법
    • c) Max Pooling
    • d) Fully Connected Layer
    • 답변: b) Cross Attention
    • 해설: Cross Attention 메커니즘을 통해 텍스트 임베딩의 관련 부분에 선택적으로 attention할 수 있습니다.
  3. DALL-E의 1단계 비주얼 코드북 학습에서 사용하는 기술은?
    • a) Gaussian Noise  노이즈 학습은 디퓨전 모델에서 
    • b) Gumbel-Softmax Relaxation  나머지가 너무 아니므로...
    • c) Cross Entropy Loss  이건 분류 문제에서 쓰니까...
    • d) Attention Mask  이건 굳이 이미지에서,...
    • 답변: b) Gumbel-Softmax Relaxation
    • 해설: Gumbel-Softmax Relaxation은 ELB 문제를 최적화하는 데 사용됩니다.
  4. DALL-E 2에서 Prior의 역할은 무엇인가요?
    • a) 텍스트 임베딩을 생성합니다.
    • b) 이미지 임베딩을 생성합니다.  이미지 자체 임베딩 생성하는 역할입니다.
    • c) 이미지를 디코딩합니다.
    • d) 노이즈를 제거합니다.
    • 답변: b) 이미지 임베딩을 생성합니다.
    • 해설: Prior는 텍스트가 주어지면 CLIP 이미지 임베딩을 생성합니다.
  5. 확산 모델(Diffusion Model)의 forward 과정에서 추가되는 것은 무엇인가요?
    • a) 노이즈  노이즈 추가하고 나중에 지우는 과정 
    • b) 텍스트
    • c) 이미지
    • d) 영상
    • 답변: a) 노이즈
    • 해설: Diffusion Model의 forward 과정에서는 각 단계에서 제어된 노이즈를 추가합니다.
  6. DALL-E의 데이터 수집 및 훈련에서 사용된 텍스트 이미지 쌍의 수는?
    • a) 1억 개
    • b) 2억 5천만 개
    • c) 5억 개
    • d) 10억 개
    • 답변: b) 2억 5천만 개
    • 해설: DALL-E는 2억 5천만 개의 텍스트 이미지 쌍을 사용하여 훈련되었습니다.
  7. 확산 모델의 주요 장점이 아닌 것은?
    • a) 고품질 이미지 생성
    • b) 무작위성 제어
    • c) 해석 가능성
    • d) 훈련 요구 사항의 간단함  겁나게 복잡합니다.
    • 답변: d) 훈련 요구 사항의 간단함
    • 해설: 확산 모델은 고품질 이미지 생성, 무작위성 제어, 해석 가능성 등의 장점을 가지지만 훈련 요구 사항은 복잡합니다.
  8. 생성 모델의 확장성에서 "리소스 인식"의 의미는?
    • a) 다양한 해상도를 선택할 수 있는 능력  해상도 유연성
    • b) 리소스 조건에 맞게 모델의 규모를 조절하는 능력  내 컴퓨터 상태가 어떤지..
    • c) 다양한 입력과 선호에 맞게 조정하는 능력  적응력
    • d) 다중 스케일 표현을 사용하는 능력  멀티 스케일 표
    • 답변: b) 리소스 조건에 맞게 모델의 규모를 조절하는 능력
    • 해설: 리소스 인식은 컴퓨팅 리소스를 인식하여 속도와 품질 간의 균형을 최적화하는 능력을 의미합니다.
  9. 멀티스케일 표현을 사용하는 생성 모델의 특징은?
    • a) 단일 해상도에서만 작동  
    • b) 추상화 및 세부사항을 처리할 수 있는 능력
    • c) 특정 입력 형식에 제한됨
    • d) 리소스 효율성이 낮음
    • 답변: b) 추상화 및 세부사항을 처리할 수 있는 능력
    • 해설: 멀티스케일 표현은 추상화 및 세부사항을 처리할 수 있는 다중 스케일 표현을 사용합니다.
  10. DALL-E 2에서 사람의 평가 결과 선호된 모델은?
    • a) Stable Diffusion
    • b) GAN
    • c) unCLIP  나머지는 이전에 소개된 모델이고 이것만 후에 소개된 모델..
    • d) VAE
    • 답변: c) unCLIP
    • 해설: 사람의 평가 결과 unCLIP이 선호되었습니다.

OX 문제 (True/False Questions)

  1. Stable Diffusion 모델은 VAE, U-Net, Text Encoder로 구성되어 있다. (O)
  2. DALL-E의 1단계 비주얼 코드북 학습에서 Gaussian Noise를 사용한다. (X)  Gunbel-Softmax relaxtion
  3. DALL-E 2는 텍스트와 이미지의 공동 표현 공간을 학습하기 위해 CLIP을 사용한다. (O)
  4. 확산 모델의 backward 과정에서는 무작위 노이즈로 시작하여 반복적으로 노이즈를 제거한다. (O)
  5. PSNR은 영상의 신호 대 잡음비를 측정하는 데 사용된다. (O)
  6. SSIM은 텍스트와 이미지의 유사성을 측정하는 지표이다. (X)  텍스트
  7. FID는 생성된 이미지 분포와 원래 이미지 분포의 차이를 측정한다. (O)
  8. 리소스 인식 생성 모델은 컴퓨팅 리소스를 효율적으로 사용한다. (O)
  9. DALL-E는 텍스트와 이미지 토큰을 단일 데이터 스트림으로 자동 회귀적으로 모델링한다. (O)
  10. 멀티스케일 표현은 단일 해상도에서만 작동한다. (X)  다중

빈칸 채우기 문제 (Fill in the Blanks)

  1. Stable Diffusion 모델은 VAE, ___ , Text Encoder로 구성되어 있습니다. (U-Net)
  2. Stable Diffusion에서 텍스트 임베딩은 ___ 메커니즘을 사용하여 통합됩니다. (Cross Attention)
  3. DALL-E는 ___ 텍스트-이미지 생성을 수행합니다. (Zero-shot)
  4. DALL-E의 데이터 수집 및 훈련에서 사용된 텍스트 이미지 쌍의 수는 ___ 개입니다. (2억 5천만)
  5. DALL-E 2에서 CLIP 모델은 텍스트와 이미지의 ___ 공간을 학습합니다. (공동 표현)
  6. 확산 모델의 forward 과정에서는 각 단계에서 제어된 ___를 추가합니다. (노이즈)
  7. 확산 모델의 backward 과정에서는 무작위 노이즈로 시작하여 반복적으로 ___을 제거합니다. (노이즈)
  8. PSNR은 영상 또는 동영상 손실 압축에서 ___ 손실 정보를 평가하는 데 사용됩니다. (화질)
  9. SSIM은 이미지의 ___ 유사성을 측정합니다. (구조적)
  10. FID는 생성된 이미지 분포와 원래 이미지 분포의 ___를 측정합니다. (차이)

단답형 문제 (Short Answer Questions)

  1. Stable Diffusion 모델의 주요 구성 요소는 무엇인가요?
    • 답변: VAE, U-Net, Text Encoder
  2. Stable Diffusion에서 텍스트 임베딩을 통합하는 데 사용되는 메커니즘은 무엇인가요?
    • 답변: Cross Attention
  3. DALL-E의 첫 번째 단계에서는 어떤 학습이 이루어지나요?
    • 답변: 비주얼 코드북 학습
  4. DALL-E의 데이터 수집 및 훈련에서 사용된 텍스트 이미지 쌍의 수는 몇 개인가요?
    • 답변: 2억 5천만 개
  5. DALL-E 2에서 Prior의 역할은 무엇인가요?
    • 답변: 텍스트가 주어지면 CLIP 이미지 임베딩을 생성합니다.
  6. Diffusion Model의 forward 과정에서 추가되는 것은 무엇인가요?
    • 답변: 노이즈
  7. Diffusion Model의 backward 과정에서 제거되는 것은 무엇인가요?
    • 답변: 노이즈
  8. PSNR은 무엇을 평가하는 데 사용되나요?
    • 답변: 영상 또는 동영상의 화질 손실 정보를 평가하는 데 사용됩니다.
  9. SSIM은 어떤 지표를 측정하나요?
    • 답변: 이미지의 구조적 유사성을 측정합니다.
  10. FID는 무엇을 평가하는 지표인가요?
    • 답변: 생성된 이미지 분포와 원래 이미지 분포의 차이를 측정합니다.

서술형 문제 (Essay Questions)

  1. Stable Diffusion 모델의 구조와 동작 원리에 대해 설명하시오.
    • 답변: Stable Diffusion 모델은 VAE, U-Net, Text Encoder로 구성됩니다. VAE 인코더는 입력 이미지를 잠재 공간에 압축하고, forward diffusion 과정에서는 노이즈가 잠재 공간 표현에 추가됩니다. U-Net 블록은 backward 과정에서 노이즈를 제거하며, VAE 디코더는 정제된 잠재 표현을 다시 픽셀 공간으로 변환하여 최종 이미지를 생성합니다. 텍스트 기반 상태 조절은 CLIP 텍스트 인코더를 사용하여 텍스트 임베딩을 생성하고, Cross Attention 메커니즘을 통해 이미지 생성 과정에 통합됩니다.
  2. DALL-E 모델의 주요 학습 단계와 동작 원리에 대해 설명하시오.
    • 답변: DALL-E는 Zero-shot text-Image generation을 위해 트랜스포머를 기반으로 하며, 텍스트와 이미지 토큰을 단일 데이터 스트림으로 모델링합니다. 첫 번째 단계에서는 비주얼 코드북 학습을 통해 dVAE를 훈련시켜 이미지를 압축하고, 두 번째 단계에서는 트랜스포머 디코더를 사용하여 텍스트와 이미지 토큰의 사전 분포를 학습합니다. 데이터 수집 및 훈련 과정에서는 2억 5천만 개의 텍스트 이미지 쌍을 사용하며, 혼합 정밀도 훈련을 통해 효율성을 높입니다. 평가 결과, DALL-E는 인셉션 점수와 FID에서 높은 성능을 보였습니다.
  3. DALL-E 2의 unCLIP 모델이 작동하는 방식을 설명하시오.
    • 답변: DALL-E 2의 unCLIP 모델은 Contrastive Language-Image Pre-training(CLI) 모델을 사용하여 텍스트와 이미지의 공동 표현 공간을 학습합니다. 텍스트 임베딩과 이미지 임베딩을 정렬하여 CLIP 모델을 사전 훈련하고, Prior와 디코더를 사용하여 텍스트 임베딩에서 이미지 임베딩을 생성하고 이를 기반으로 이미지를 생성합니다. Prior는 텍스트가 주어지면 CLIP 이미지 임베딩을 생성하고, 디코더는 이미지 임베딩에 따라 이미지를 생성합니다. unCLIP은 높은 사실성과 캡션 유사성을 유지하며, 사람의 평가에서 선호되었습니다.
  4. Stable Diffusion과 DALL-E의 차이점에 대해 설명하시오.
    • 답변: Stable Diffusion은 VAE, U-Net, Text Encoder로 구성된 모델로, 텍스트 기반 상태 조절을 통해 이미지를 생성합니다. 주로 노이즈 제거와 이미지 정제에 중점을 둡니다. 반면, DALL-E는 Zero-shot text-Image generation을 위해 트랜스포머를 기반으로 하며, 텍스트와 이미지 토큰을 단일 데이터 스트림으로 모델링합니다. DALL-E는 비주얼 코드북 학습과 트랜스포머 디코딩을 통해 텍스트와 이미지의 사전 분포를 학습하여 이미지를 생성합니다. 두 모델 모두 텍스트 기반 이미지 생성을 목표로 하지만, 사용된 기술과 학습 방법에 차이가 있습니다.
  5. 확산 모델(Diffusion Model)의 장점과 단점에 대해 설명하시오.
    • 답변: 확산 모델의 장점은 고품질 이미지 생성, 무작위성 제어, 해석 가능성, 그리고 다양한 응용 분야에서의 활용성입니다. 이 모델은 고해상도의 사실적인 이미지를 생성할 수 있으며, 생성 과정에서 무작위성을 정밀하게 제어할 수 있습니다. 또한, 이미지가 단계별로 생성되는 과정을 이해할 수 있어 해석 가능성이 높습니다. 그러나 단점으로는 계산 복잡성과 훈련 요구 사항이 높다는 점, 그리고 추론 시간이 오래 걸린다는 점이 있습니다. 모델 크기도 커서 상당한 메모리 공간을 차지하며, 효율적인 훈련과 추론을 위해 많은 컴퓨팅 리소스가 필요합니다.

 

13주 차

오지 선다형 문제 (Multiple Choice Questions)

  1. 강화 학습의 주된 목적은 무엇인가?
    • a) 모델의 크기를 줄이는 것  
    • b) 컴퓨팅 자원을 효율적으로 사용하는 것
    • c) 보상을 최대화하는 것  즉 리턴을 최대화 하죠
    • d) 데이터 전처리 시간을 줄이는 것
    • 답변: c) 보상을 최대화하는 것
    • 해설: 강화 학습의 주된 목적은 에이전트가 주어진 환경에서 보상을 최대화하도록 학습하는 것입니다.
  2. Decision Transformer는 어떤 모델에 적용되는가?
    • a) GAN
    • b) MDP  유일한 강화학습..
    • c) CNN
    • d) RNN
    • 답변: b) MDP
    • 해설: Decision Transformer는 Markov Decision Process(MDP) 모델에 적용됩니다.
  3. Behavior Transformer(BT)의 주요 특징은 무엇인가?
    • a) 비디오 생성
    • b) 음악 생성
    • c) 로봇 행동 학습
    • d) 이미지 인식
    • 답변: c) 로봇 행동 학습
    • 해설: Behavior Transformer는 로봇의 행동을 학습하고 시뮬레이션 환경에서 명령을 수행하는 데 사용됩니다.
  4. 셰프 로봇 연구에서 음식의 맛을 측정하는 데 사용된 센서는?
    • a) 온도 센서
    • b) 염도 센서  유일한 센서라고 했습니다.
    • c) 압력 센서
    • d) 습도 센서
    • 답변: b) 염도 센서
    • 해설: 음식의 맛을 측정하기 위해 염도 센서가 사용되었습니다.
  5. 생성형 AI 기반 디지털 다이닝의 세대는?
    • a) 1세대
    • b) 1.5세대
    • c) 2세대  
    • d) 3세대
    • 답변: c) 2세대
    • 해설: 생성형 AI 기반 디지털 다이닝은 2세대입니다.
  6. 행동 생성의 주된 목표는?
    • a) 데이터 분석
    • b) 특정 동작의 자율적 수행  잘 생성하는게 목표에요
    • c) 이미지 분류  ㅠ
    • d) 신경망 구조 설계
    • 답변: b) 특정 동작의 자율적 수행
    • 해설: 행동 생성의 주된 목표는 특정 동작을 자율적으로 수행하는 모델이나 시스템을 만드는 것입니다.
  7. 행동 생성에서 GAN의 역할은 무엇인가?
    • a) 보상을 계산하는 것
    • b) 고품질 결과물을 생성하는 것  생성기 판별기 생각하기
    • c) 데이터를 전처리하는 것
    • d) 네트워크를 훈련하는 것
    • 답변: b) 고품질 결과물을 생성하는 것
    • 해설: GAN(Generative Adversarial Networks)은 고품질 결과물을 생성하는 데 사용됩니다.
  8. 행동 트랜스포머의 주요 응용 분야는?
    • a) 컴퓨터 비전
    • b) 음성 인식
    • c) 게임 및 로봇 공학  그나마 생성을 할 수 있느 분야네요
    • d) 텍스트 마이닝
    • 답변: c) 게임 및 로봇 공학
    • 해설: 행동 트랜스포머는 게임 및 로봇 공학과 같은 지속적인 의사 결정 작업에 주로 사용됩니다.
  9. AI 기반 행동 생성의 성공 사례로 언급된 것은?
    • a) Google Translate
    • b) Chat GPT
    • c) Amazon Alexa  
    • d) IBM Watson
    • 답변: b) Chat GPT
    • 해설: Chat GPT는 AI 기반 행동 생성의 성공 사례 중 하나로 언급되었습니다.
  10. 행동 생성의 도전 과제 중 하나는?
    • a) 하드웨어 비용 증가
    • b) 데이터 수집의 어려움
    • c) 윤리적 및 법적 문제 해결
    • d) 모델의 크기 줄이기
    • 답변: c) 윤리적 및 법적 문제 해결
    • 해설: AI 행동 생성의 도전 과제 중 하나는 안전과 지속 가능성을 보장하기 위한 윤리적 및 법적 문제 해결입니다.

OX 문제 (True/False Questions)

  1. 강화 학습의 목적은 Reward Total(Return)을 최소화하는 것이다. (X)  최대화
  2. Decision Transformer는 MDP 모델에 적용된다. (O)
  3. Behavior Transformer는 텍스트 명령을 통해 로봇의 행동을 학습한다. (O)
  4. 셰프 로봇은 음식의 염도를 측정하는 센서를 사용하여 맛을 평가한다. (O)
  5. 디지털 다이닝의 2세대는 IT 통신 기반이다. (X)
  6. 행동 생성 기법 중 하나로 GAN이 사용된다. (O)
  7. 행동 생성은 주로 이미지 분류 작업에 사용된다. (X)  ㄴㄴ
  8. Chat GPT는 AI 기반 행동 생성의 성공 사례 중 하나이다. (O)
  9. 강화 학습에서는 보상을 최대화하는 것이 목표이다. (O)
  10. 행동 생성의 도전 과제는 주로 데이터 수집의 어려움과 관련이 있다. (X)  윤리적 문제라네요

빈칸 채우기 문제 (Fill in the Blanks)

  1. 강화 학습의 목적은 ___ Total(Return)을 최대화하는 것이다. (Reward)
  2. Decision Transformer는 ___ 모델에 적용된다. (MDP)
  3. Behavior Transformer는 텍스트 명령을 통해 로봇의 ___을 학습한다. (행동)
  4. 셰프 로봇은 음식의 ___를 측정하는 센서를 사용하여 맛을 평가한다. (염도)
  5. 디지털 다이닝의 2세대는 ___ AI 기반 디지털 다이닝이다. (생성형)
  6. 행동 생성 기법 중 하나로 ___이 사용된다. (GAN)
  7. AI 기반 행동 생성의 성공 사례로 ___가 있다. (Chat GPT)
  8. 행동 생성의 주된 목표는 특정 동작의 ___ 수행이다. (자율적)
  9. 강화 학습에서는 ___을 최대화하는 것이 목표이다. (보상)
  10. 행동 생성의 도전 과제 중 하나는 ___ 및 법적 문제 해결이다. (윤리적)

단답형 문제 (Short Answer Questions)

  1. 강화 학습의 주된 목적은 무엇인가?
    • 답변: 보상을 최대화하는 것
  2. Decision Transformer는 어떤 모델에 적용되는가?
    • 답변: MDP (Markov Decision Process) 모델
  3. Behavior Transformer(BT)는 어떤 환경에서 로봇의 행동을 학습하는가?
    • 답변: 시뮬레이션 환경에서 텍스트 명령을 통해 로봇의 행동을 학습합니다.
  4. 셰프 로봇 연구에서 음식의 맛을 측정하기 위해 사용된 센서는 무엇인가?
    • 답변: 염도 센서
  5. 디지털 다이닝의 2세대는 무엇을 기반으로 하나요?
    • 답변: 생성형 AI
  6. 행동 생성 기법 중 하나로 무엇이 사용되는가?
    • 답변: GAN (Generative Adversarial Networks)
  7. AI 기반 행동 생성의 성공 사례로 언급된 것은 무엇인가?
    • 답변: Chat GPT
  8. 행동 생성의 주된 목표는 무엇인가?
    • 답변: 특정 동작의 자율적 수행
  9. 강화 학습에서 최대화하려는 것은 무엇인가?
    • 답변: 보상  , Return
  10. 행동 생성의 도전 과제 중 하나는 무엇인가?
    • 답변: 윤리적 및 법적 문제 해결

서술형 문제 (Essay Questions)

  1. 강화 학습의 기본 개념과 목표에 대해 설명하시오.
    • 답변: 강화 학습은 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동을 학습하는 방법론입니다. 에이전트는 상태(state)를 관찰하고, 행동(action)을 선택하여, 그 행동의 결과로 보상(reward)을 받습니다. 보상을 최대화하기 위해 에이전트는 다양한 정책(policy)을 시도하며 최적의 정책을 찾아나갑니다. 이는 주로 MDP 모델을 통해 이루어지며, 보상과 상태 전이를 학습함으로써 미래의 행동을 결정합니다.
  2. Decision Transformer의 동작 원리와 강화 학습에서의 역할에 대해 설명하시오.
    • 답변: Decision Transformer는 MDP 모델에 적용되어 행동 궤적을 학습하는 모델입니다. 트랜스포머 아키텍처를 사용하여 과거의 상태, 행동, 보상 정보를 입력받아 미래의 행동을 예측합니다. 이는 기존의 강화 학습 모델과 달리, 직접적인 보상 신호를 기반으로 행동을 학습하는 것이 아니라, 레퍼런스 데이터 셋을 통해 학습된 행동 패턴을 기반으로 새로운 상황에서도 적응할 수 있도록 합니다. 이를 통해 다양한 환경에서도 높은 성능을 발휘할 수 있습니다.
  3. Behavior Transformer의 주요 기능과 로봇 공학에서의 활용에 대해 설명하시오.
    • 답변: Behavior Transformer는 로봇 공학에서 텍스트 명령을 통해 로봇의 행동을 학습하고 실행하는 데 사용됩니다. 로봇은 시뮬레이션 환경에서 주어진 텍스트 명령을 이해하고, 해당 명령에 따라 적절한 행동을 수행합니다. 이는 로봇이 다양한 작업을 자율적으로 수행할 수 있도록 하며, 인간-로봇 상호작용을 개선하고 로봇의 효율성과 유연성을 높이는 데 기여합니다. 예를 들어, 특정 작업을 수행하기 위한 단계별 지시를 이해하고, 이를 순차적으로 실행하여 목표를 달성할 수 있습니다.
  4. 셰프 로봇의 연구에서 음식의 맛을 평가하는 방법과 그 한계를 설명하시오.
    • 답변: 셰프 로봇 연구에서는 염도 센서를 사용하여 음식의 맛을 평가합니다. 염도 센서는 음식의 염도 수준을 측정하여 맛을 판단하는데, 이는 음식의 기본적인 짠맛을 평가하는 데 유용합니다. 그러나 단일 센서를 사용함으로 인해 음식의 전체적인 맛을 평가하는 데 한계가 있습니다. 예를 들어, 단맛, 쓴맛, 신맛 등의 다양한 맛을 평가하기 위해서는 추가적인 센서가 필요합니다. 이를 보완하기 위해 음식 냄새 센서와 같은 추가 센서를 개발하여 인간의 미각과 유사한 종합적인 맛 평가 시스템을 구축하는 연구가 진행되고 있습니다.
  5. AI 기반 행동 생성의 다양한 응용 분야와 그에 따른 도전 과제에 대해 설명하시오.
    • 답변: AI 기반 행동 생성은 컴퓨터 게임 개발, 로봇 공학, 자연어 처리, 인공 지능 어시스턴트, 가상 현실 및 증강 현실 등 다양한 분야에서 활용되고 있습니다. 예를 들어, 게임 개발에서는 게임 캐릭터의 자율적인 행동을 생성하고, 로봇 공학에서는 로봇이 자율적으로 작업을 수행할 수 있도록 합니다. 자연어 처리에서는 텍스트 생성, 번역, 질문 응답 등을 수행하며, 인공 지능 어시스턴트는 사용자와 상호작용하여 다양한 작업을 도와줍니다. 그러나 이러한 응용에는 윤리적, 법적 문제 해결, 데이터 수집의 어려움, 모델의 복잡성 증가 등 다양한 도전 과제가 존재합니다. 특히, 안전과 지속 가능성을 보장하기 위해 윤리적 문제를 해결하고, 다양한 데이터 소스를 확보하며, 모델의 효율성을 높이는 연구가 필요합니다.

 

14주 차

오지 선다형 문제 (Multiple Choice Questions)

  1. 자율 주행의 기본 요건이 아닌 것은?
    • a) 주변 환경 인지
    • b) 주행 도로 판단과 선정
    • c) 인터넷 연결
    • d) 안전한 기능 제어
    • 답변: c) 인터넷 연결  이게 교안에 없더라도... 주변 자율주행 차량과 통신하려면....
    • 해설: 자율 주행의 기본 요건은 주변 환경 인지, 주행 도로 판단과 선정, 안전한 기능 제어입니다. 인터넷 연결은 필수 요건이 아닙니다.
  2. 자율 주행 차량의 행동 생성을 위한 모델 중 엔드 투 엔드 학습을 가능하게 하는 모델은?
    • a) Drive-GPT  드라이브 언어를 통해 자율주행 자동차 계획 및 추론
    • b) ChauffeurNet  CNN, RNN을 통해 지각 데이터를 처리하고 차량에 대해 제어 명령을 생성한다.
    • c) BEV + Transformer  지각 및 의사결정을 위한 생성형 모델
    • d) GAIL  생성적 적재적 모방 학습
    • 답변: b) ChauffeurNet
    • 해설: ChauffeurNet은 엔드 투 엔드 학습을 가능하게 하는 모델입니다.
  3. 자율 주행 생성 모델 중 위에서 내려다 보는 시점을 활용하는 모델은?
    • a) ChauffeurNet
    • b) Drive-GPT
    • c) BEV + Transformer  버드 아이 뷰!
    • d) CLIP-V
    • 답변: c) BEV + Transformer
    • 해설: BEV(Bird Eye View) + Transformer는 위에서 내려다 보는 시점을 활용하는 모델입니다.
  4. Drive-GPT의 입력은 무엇인가?
    • a) 네비게이션 데이터
    • b) 지각 융합 후 텍스트 시퀸스  출력은 자동 조종 장면의 시퀀스 데이터
    • c) 비디오 클립
    • d) 이미지 데이터
    • 답변: b) 지각 융합 후 텍스트 시퀸스
    • 해설: Drive-GPT의 입력은 지각 융합 후 텍스트 시퀸스입니다.
  5. 자율 주행 모델 훈련의 장점이 아닌 것은?
    • a) 미션웨어 필요 없음
    • b) 인터넷 규모의 인베딩 생성 가능
    • c) 사람의 개입이 많음  그럼 자율 주행이..
    • d) 언어 인터페이스 사용
    • 답변: c) 사람의 개입이 많음
    • 해설: 자율 주행 모델 훈련의 장점 중 하나는 사람의 개입이 거의 또는 전혀 없다는 점입니다.
  6. 자율 주행 차량 행동 생성의 중요 요소가 아닌 것은?
    • a) 장애물 회피
    • b) 주행 도로 판단
    • c) 교통 법규 위반  ㄷㄷ
    • d) 안전한 기능 제어
    • 답변: c) 교통 법규 위반
    • 해설: 자율 주행 차량 행동 생성의 중요 요소는 장애물 회피, 주행 도로 판단, 안전한 기능 제어입니다. 교통 법규 위반은 중요 요소가 아닙니다.
  7. AIGC 알고리즘 모델을 기반으로 한 시뮬레이터의 주요 장점이 아닌 것은?
    • a) 데이터 부족 해결
    • b) 프라이버시 문제 회피
    • c) 실제 데이터 검증 불필요  그래도 실제 데이터 검증은 해야죠
    • d) 방대한 데이터 저렴하게 생성
    • 답변: c) 실제 데이터 검증 불필요
    • 해설: 시뮬레이터의 주요 장점은 데이터 부족 해결, 프라이버시 문제 회피, 방대한 데이터를 저렴하게 생성할 수 있다는 것입니다. 실제 데이터 검증은 여전히 필요합니다.
  8. 자율 주행 차량 행동 생성의 미래 전망이 아닌 것은?
    • a) 기술적 개선
    • b) 다양한 감지 기술 적용
    • c) 규제 강화
    • d) 인간 운전자의 증가  ㅎㅎ
    • 답변: d) 인간 운전자의 증가
    • 해설: 자율 주행 차량 행동 생성의 미래 전망에는 기술적 개선, 다양한 감지 기술 적용, 규제 강화가 포함되며, 인간 운전자의 증가는 포함되지 않습니다.
  9. 자율 주행 차량에서 웨이모가 사용하는 기술은?
    • a) Transformer
    • b) Self-attention 메커니즘
    • c) GAN
    • d) RNN
    • 답변: b) Self-attention 메커니즘
    • 해설: 웨이모는 self-attention 메커니즘을 통해 주변 차량과 보행자의 행동을 더 잘 이해합니다.
  10. Tesla의 오토파일럿 기능에서 사용되는 기술은?
    • a) Transformer
    • b) GAN
    • c) CNN
    • d) RNN
    • 답변: a) Transformer
    • 해설: Tesla는 Transformer를 사용하여 자동 추종 및 자동 차선 변경과 같은 오토파일럿 기능을 수행합니다.

OX 문제 (True/False Questions)

  1. 자율 주행은 운전자의 개입 없이 환경을 인식하고 차량을 제어할 수 있다. (O)
  2. ChauffeurNet은 주로 GAN을 사용하여 자율 주행 차량의 행동을 생성한다. (X)  CNN,RNN
  3. BEV + Transformer는 위에서 내려다 보는 시점을 활용하여 장면을 이해한다. (O)  버드아이뷰
  4. Drive-GPT는 자율 주행 차량의 계획 및 추론을 위한 자동 회귀 트랜스포머 모델이다. (O)
  5. 자율 주행 모델 훈련에서 사람의 개입은 필수적이다. (X)  ㄴㄴ
  6. 자율 주행 차량의 행동 생성은 지능형 의사 결정 및 예측에 기반한다. (O)
  7. AIGC 알고리즘 모델은 합성 데이터를 생성하여 데이터 부족 문제를 해결한다. (O)
  8. 자율 주행 행동 생성의 주요 과제는 교통 법규 위반을 유도하는 것이다. (X)  ㄷㄷ
  9. 웨이모는 Transformer 기술을 사용하여 자율 주행 차량을 운영한다. (X)  attention
  10. Tesla의 오토파일럿 기능은 Self-attention 메커니즘을 활용한다. (X)  transformer

빈칸 채우기 문제 (Fill in the Blanks)

  1. 자율 주행 차량의 기본 요건은 주변 환경 인지, 주행 도로 판단과 선정, ___이다.
    • 답변: 안전한 기능 제어
  2. ChauffeurNet은 ___와 RNN을 사용하여 지각 데이터를 처리한다.
    • 답변: CNN
  3. BEV + Transformer 모델에서 BEV는 ___의 약자이다.
    • 답변: Bird Eye View
  4. Drive-GPT의 출력은 자동 조종 장면의 ___ 시퀸스이다.
    • 답변: 텍스트
  5. 자율 주행 모델 훈련의 장점 중 하나는 ___ 문제를 해결할 수 있다는 것이다.
    • 답변: 프라이버시
  6. 자율 주행 차량의 행동 생성은 대량의 데이터와 ___ 알고리즘을 활용한다.
    • 답변: 딥러닝
  7. 시뮬레이터는 합성 데이터를 생성하여 데이터 ___ 문제를 해결한다.
    • 답변: 부족
  8. 자율 주행 행동 생성의 미래 전망에는 기술적 개선과 ___ 발전이 포함된다.
    • 답변: 규제
  9. 웨이모는 ___ 메커니즘을 통해 주변 차량과 보행자의 행동을 이해한다.
    • 답변: Self-attention
  10. Tesla의 오토파일럿 기능은 ___를 사용하여 자동 추종 및 자동 차선 변경을 수행한다.
    • 답변: Transformer

단답형 문제 (Short Answer Questions)

  1. 자율 주행의 기본 요건 세 가지는 무엇인가?
    • 답변: 주변 환경 인지, 주행 도로 판단과 선정, 안전한 기능 제어
  2. ChauffeurNet 모델은 어떤 유형의 신경망을 사용하여 지각 데이터를 처리하는가?
    • 답변: CNN과 RNN
  3. BEV + Transformer 모델에서 BEV는 무엇을 의미하는가?
    • 답변: Bird Eye View
  4. Drive-GPT 모델의 입력은 무엇인가?
    • 답변: 지각 융합 후 텍스트 시퀸스
  5. 자율 주행 모델 훈련의 주요 장점은 무엇인가?
    • 답변: 미션웨어 필요 없음, 인터넷 규모의 인베딩 생성 가능, 사람의 개입이 거의 없음, 언어 인터페이스 사용
  6. 자율 주행 차량의 행동 생성에서 중요한 요소 두 가지는 무엇인가?
    • 답변: 장애물 회피, 주행 도로 판단
  7. AIGC 알고리즘 모델을 기반으로 한 시뮬레이터의 주요 장점 세 가지는 무엇인가?
    • 답변: 데이터 부족 해결, 프라이버시 문제 회피, 방대한 데이터 저렴하게 생성
  8. 자율 주행 차량 행동 생성의 미래 전망은 무엇인가?
    • 답변: 기술적 개선, 다양한 감지 기술 적용, 규제 발전
  9. 웨이모가 자율 주행 차량에 사용하는 기술은 무엇인가?
    • 답변: Self-attention 메커니즘
  10. Tesla의 오토파일럿 기능에서 사용하는 기술은 무엇인가?
    • 답변: Transformer

서술형 문제 (Essay Questions)

  1. 자율 주행 차량의 기본 요건과 자율 주행 생성 모델의 필요성에 대해 설명하시오.
    • 답변: 자율 주행 차량의 기본 요건은 주변 환경 인지, 주행 도로 판단과 선정, 안전한 기능 제어입니다. 이 요건들을 충족하기 위해 자율 주행 생성 모델이 필요합니다. 자율 주행 생성 모델은 차량이 주행 중 다양한 상황에서 적절한 의사 결정을 내리고, 주행 전략을 수립하며, 차량을 안전하게 제어할 수 있도록 돕습니다. 이를 통해 운전자의 개입 없이 자율적으로 주행할 수 있는 시스템을 구현할 수 있습니다.
  2. ChauffeurNet과 BEV + Transformer 모델의 차이점과 각각의 장점에 대해 설명하시오.
    • 답변: ChauffeurNet은 엔드 투 엔드 학습을 가능하게 하는 모델로, CNN과 RNN을 사용하여 지각 데이터를 처리하고 차량 제어 명령을 생성합니다. 주행 데이터를 통한 학습이 강점이며, 실제 주행 데이터를 기반으로 차량 제어를 학습합니다. 반면, BEV + Transformer 모델은 위에서 내려다보는 시점을 활용하여 장면을 이해하고 의사 결정을 내립니다. Transformer의 self-attention 메커니즘을 활용하여 복잡한 주행 상황에서도 효율적으로 데이터를 처리하고 결정을 내릴 수 있는 장점이 있습니다.
  3. Drive-GPT 모델의 학습 과정과 주행 에피소드에서 주행 궤적을 추출하는 방법에 대해 설명하시오.
    • 답변: Drive-GPT 모델의 학습 과정은 주행 데이터를 텍스트 제목에 연결하기 위해 신경망을 미세 조정하는 것부터 시작합니다. 텍스트 제목은 네비게이션 안내 수집과 운전 지침 데이터를 포함합니다. 주행 에피소드에서 주행 궤적을 추출하는 방법은 주행 데이터를 분석하고, GAIL(Generative Adversarial Imitation Learning) 알고리즘을 사용하여 주행 궤적을 학습하는 것입니다. 이를 통해 모델은 주행 데이터를 기반으로 주행 전략을 학습하고, 새로운 주행 상황에서도 적절한 궤적을 생성할 수 있습니다.
  4. AIGC 알고리즘 모델이 자율 주행 데이터 부족 문제를 어떻게 해결하는지 설명하시오.
    • 답변: AIGC(Artificial Intelligence Generated Content) 알고리즘 모델은 합성 데이터를 생성하여 자율 주행 데이터 부족 문제를 해결합니다. 합성 데이터를 사용하면 실제 주행 데이터가 부족한 상황에서도 다양한 주행 상황을 시뮬레이션할 수 있으며, 프라이버시 문제를 회피할 수 있습니다. 또한, 방대한 데이터를 저렴하고 효율적으로 대량 생성할 수 있어 자율 주행 모델의 훈련에 필요한 데이터를 충분히 확보할 수 있습니다. 이를 통해 자율 주행 차량의 성능을 향상시키고, 안전성을 높일 수 있습니다.
  5. 자율 주행 차량 행동 생성의 중요성과 이를 위한 기술적 요구사항에 대해 설명하시오.
    • 답변: 자율 주행 차량 행동 생성은 차량이 주행 중 다양한 상황에서 적절한 행동을 수행할 수 있도록 하는 중요한 요소입니다. 이를 통해 자율 주행 차량은 도로 상황, 교통 상황, 승객의 요구에 따라 지능적으로 의사 결정을 내리고 주행 전략을 수립할 수 있습니다. 기술적 요구사항으로는 대량의 데이터를 실시간으로 처리할 수 있는 딥러닝 알고리즘, 다양한 센서를 통해 환경을 인지하고 데이터를 통합할 수 있는 능력, 신속한 결정을 내릴 수 있는 효율적인 병렬 계산 등이 필요합니다. 이러한 기술적 요구사항을 충족함으로써 자율 주행 차량은 안전하고 효율적으로 주행할 수 있습니다.
728x90