인공지능/공부

생성형 인공지능 입문 11주차 퀴즈

이게될까 2024. 5. 18. 17:22
728x90
728x90

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, _______ ________의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”

하나를 선택하세요.
1.내용 임베딩, 형식 임베딩
2.텍스트 임베딩, 이미지 임베딩
3.표현 임베딩, 의미 임베딩
4.비주얼 임베딩, 언어 임베딩

텍스트와 이미지...?

이건 사진 찾지도 못하겠네요...

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, _______의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”

하나를 선택하세요.

  1. 내용 임베딩, 형식 임베딩
  2. 텍스트 임베딩, 이미지 임베딩
  3. 표현 임베딩, 의미 임베딩
  4. 비주얼 임베딩, 언어 임베딩

정답:

  1. 텍스트 임베딩, 이미지 임베딩

설명:
CLIP (Contrastive Language–Image Pre-training)은 이미지와 텍스트 쌍으로 훈련된 신경망으로, 텍스트 임베딩과 이미지 임베딩의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행합니다. 이는 텍스트와 이미지를 같은 임베딩 공간에 매핑하여 서로 연관성을 찾는 과정입니다.

 

다음 중 틀린것을 고르시오.


다음 Stable Diffusion 구성중 아닌 것은?

하나를 선택하세요.
1.텍스트 인코더
2.트렌스포머
3.U-Net
4.변형 자동 인코더

????

트렌스포머...?

일단 여기서 VAE는 디퓨전 모델이 아니니까....

다음 중 틀린것을 고르시오.

다음 Stable Diffusion 구성중 아닌 것은?

하나를 선택하세요.

  1. 텍스트 인코더
  2. 트렌스포머
  3. U-Net
  4. 변형 자동 인코더

정답:

  1. 트렌스포머

설명:
Stable Diffusion 모델의 주요 구성 요소는 텍스트 인코더, U-Net, 변형 자동 인코더입니다. 텍스트 인코더는 텍스트를 인코딩하여 이미지 생성 과정에서 사용할 수 있도록 하고, U-Net은 이미지의 세부 사항을 생성하는 데 사용되며, 변형 자동 인코더는 고차원 데이터(예: 이미지)를 저차원 잠재 공간으로 변환하고 다시 원래 데이터로 복원하는 데 사용됩니다. 트렌스포머는 이러한 구성 요소에 포함되지 않습니다.

 

다음 중 틀린것을 고르시오.


다음 중 영상 생성 및 손실함수의 예제가 아닌것은?

하나를 선택하세요.
1.쿨백-라이블러 발산 손실
2.자각손실
3.평균 제곱오류손실
4.적대적 손실

이건 3가지가 나왔었죠

ㅇ? 이게 아닌가?

이거네요

설마 지 -> 자 라서 틀린건가...?

다음 중 틀린것을 고르시오.

다음 중 영상 생성 및 손실함수의 예제가 아닌것은?

하나를 선택하세요.

  1. 쿨백-라이블러 발산 손실
  2. 자각손실
  3. 평균 제곱오류손실
  4. 적대적 손실

정답:

  1. 자각손실

설명:
영상 생성 및 손실 함수의 예로는 다음과 같습니다:

  • 쿨백-라이블러 발산 손실 (Kullback-Leibler Divergence Loss): 분포 간의 차이를 측정하는 데 사용됩니다.
  • 평균 제곱오류손실 (Mean Squared Error Loss): 예측값과 실제값 간의 차이를 제곱하여 평균을 구하는 손실 함수입니다.
  • 적대적 손실 (Adversarial Loss): GANs(Generative Adversarial Networks)에서 생성자와 판별자 간의 경쟁을 통해 사용되는 손실 함수입니다.

'자각손실'은 영상 생성 및 손실 함수의 예제로 존재하지 않으며, 다른 손실 함수와 관련된 용어가 아닙니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“DALL-E _______ ________토큰을 단일 데이터 스트림으로 자동 휘귀적으로 모델링하는 트랜스포머를 기반으로 함”

하나를 선택하세요.
1.텍스트, 비디오
2.텍스트, 이미지
3.이미지, 오디오
4.오디오, 비디오

텍스트, 이미지 or 영상인데... 비디오는 아니겠지

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“DALL-E는 _______토큰을 단일 데이터 스트림으로 자동 휘귀적으로 모델링하는 트랜스포머를 기반으로 함”

하나를 선택하세요.

  1. 텍스트, 비디오
  2. 텍스트, 이미지
  3. 이미지, 오디오
  4. 오디오, 비디오

정답:

  1. 텍스트, 이미지

설명:
DALL-E는 텍스트와 이미지 토큰을 단일 데이터 스트림으로 자동 회귀적으로 모델링하는 트랜스포머를 기반으로 합니다. 이는 텍스트 설명을 입력으로 받아서 해당 설명에 맞는 이미지를 생성하는 모델입니다. 트랜스포머 아키텍처는 이러한 텍스트-이미지 쌍을 효과적으로 처리하고 생성하는 데 사용됩니다.

 

다음 중 올바른 것을 고르시오.

 

stable diffusion에서 U-net 블록의 역할에 관한 다음 설명 중 올바른 것은 무엇인가요?

하나를 선택하세요.
1.표현을 픽셀 공간으로 다시 변환합니다.
2.노이즈 제거 구성 요소로서, 순방향 확산에서 역방향으로 작동합니다.

오 저걸 u-net 블록이라고 표현했나...?

stable diffusion에서 U-net 블록의 역할에 관한 다음 설명 중 올바른 것은 무엇인가요?

하나를 선택하세요.

  1. 표현을 픽셀 공간으로 다시 변환합니다.
  2. 노이즈 제거 구성 요소로서, 순방향 확산에서 역방향으로 작동합니다.

정답:

  1. 노이즈 제거 구성 요소로서, 순방향 확산에서 역방향으로 작동합니다.

설명:
Stable Diffusion에서 U-net 블록은 노이즈 제거 구성 요소로서, 순방향 확산 과정에서 노이즈를 추가한 후 역방향으로 작동하여 원래 이미지로 복원하는 역할을 합니다. 이 과정에서 U-net은 다양한 해상도의 특징을 효과적으로 결합하여 더 나은 노이즈 제거와 이미지 복원을 수행합니다.

728x90