인공지능/공부

생성형 인공지능 입문 11 ~ 14주 차 정리, 퀴즈

이게될까 2024. 6. 14. 00:01
728x90
728x90

11주 차 - 언어 기반 영상 생성

1차시 -  언어 기반 영상 생성 구조

언어 명령 기반 영상 생성용 트렌스포머 아키텍쳐
언어 처리 부분 - Language Encoder
시각 정보 처리 부분 -Visual Encoder
트렌스포머 인코더 - Encoding Visual and Language Informatoin
트렌스포머 디코더 - Deoder for Image Generation
영상 생성 및 손실 함수 - Optimization and Loss Function

언어 명령 기반 영상 생성용 트렌스포머 모델 - 영상 생성과 언어 명령을 결합한 트랜스포머 모델
시각 및 언어 정보를 효과적으로 결합하여 영상을 생성 및 조잧
언어 처리 부분은 input을 임베딩하고, 이를 transforemr encoder layer에 통과시켜 시각-언어 feature를 추출
영상 생성 부분은 추출한 시각 - 언어 feature를 활용해 영상을 생성하는 디코더 레이어
디코더 레이어는 영상의 프레임을 점진적으로 생성하거나, 시각 - 언어 피처를 바탕으로 전체 영상을 생성하는데 사용

언어 처리 부분 - Language Encoder
입력된 언어 명령을 임베딩하여 Transformer encoder에 입력 

시각 정보 처리 부분 - Visual Encoder
CNN이나 Transformer(ViT) 일부를 사용하여 영상 데이터를 feature로 변환하여 영상 데이터를 encoding한다.

트랜스포머 인코더 - Encoding Visual and Language Information
언어 처리 부분과 시각 정보 처리 부분에서 나온 feature 들이 결합되어 transformer encoder 레이어를 통과해 시각- 언어 feature를 추출한다.

트랜스포머 디코더 - Decoder for Image Generation
생성되는 영상의 각 프레임을 예측하거나 조합하는 부분이다.
인코더에서 추출한 시각-언어 feature를 이용해 디코더 레이어를 통해 각 프레임의 정보를 생성해 영상을 만든다.

영상 생성 및 손실 함수 - Optimization and Loss Function
생성된 영상과 실제 영상을 비교해 손실 함수를 계산하고 최적화 한다.
이 과정을 통해 모델이 영상을 실제와 유사하게 생성할 수 있는지 학습된다.
MSE : 이미지 노이즈 제거 또는 초고해상도 작업에 적합
적대적 손실 : 생성 이미지와 데이터 셋에 대한 판별자의 예측 간 차이를 측정
피쳐 손실 : 생성된 이미지가 다양한 레이어에서 대상 이미지의 특징 표현과 일치하도록 유도해 시각적 유사성과 사실감을 높임 
쿨백 라이블러(KL) 발산 손실 : 생성된 이미지가 원하는 분포에서 샘플링 되도록 권장 

결과 및 응용 
다양한 분야에서 사용이 가능하게 되며, 이 모델은 주어진 언어 명령에 따라 의미있는 영상을 생성하거나 변형하는 작업에 활용될 수 있다. 
ex) VQA, 예술적 창작, 영화 및 게임 개발, 컨텐츠 생성 및 확장 

 

2차시 - 다양한 방법의 생성 모델 

VAE - 디코더 네트워크를 수정하여 다양한 해상도로 이미지를 생성하도록 설계할 수 있는 생성 모델
모델의 기본 구조를 유지하면서 다양한 스케일의 이미지 생성 가능
분포를 가져와서 비슷하게 만들고, 가장 오래된 이미지 생성 모델이다.

점진적 성장 GAN (PGGAN) - 점진적으로 고해상도 이미지를 생성하도록 설계된 GAN의 변형
저해상도 영상에서 학습이 진행됨에 따라 점차적으로 디테일과 복잡성 추가 가능
확장 가능한 이미지를 생성할 수 있다. 생성 이미지가 점점 뚜렷해진다.

조건부 이미지 생성 (Conditional Image Generation)
조건 정보를 제공함으로써 다양한 스케일의 이미지를 생성 

멀티 스케일 GAN (MSG-GAN)
여러 스케일의 이미지를 동시에 생성하기 위해 특별히 설계되었다.
다양한 해상도에서 일관성있고 시각적으로 매력적인 영상을 생성한다.

확산모델 (Diffusion Model)
고정된 해상도로 이미지를 생성하기 위해 설계되었지만 확산모델을 더 확장할 수 있는 기술을 연구했으며 확장 가능한 이미지 생성에 확산 모델을 사용한다.
멀티 스케일 접근 방식, 프로그레시브 생성, 해상도 조절, 전이 학습, 동적 스케일링
컴퓨팅 리소스를 많이 소비하여 이미지를 생성한다.

이전 학습 (Transfer Learning)
확장 가능한 이미지 생성을 위해 Pre-trained 확산 모델을 fine-tuning 가능하다.
특정 해상도로 훈련된 기본 모델을 fine-tuning하여 다양한 해상도의 이미지를 생성할 수 있다.
transfer learning은 pre-trained 모델이 캡쳐한 지식을 활용해 다양한 규모에 적용 가능하다.

동적 스케일링 - 원하는 출력 해상도에 따라 각 단계에서 추가되는 노이즈의 양을 적응적으로 조절할 수 있다.
확산 프로세스가 여러 스케일에서 효율적이고, 효과적으로 유지되도록 보장한다.

 

3차시 -  Diffusion Model

기계 학습에서 사용되는 생성 모델의 한 종류로 영상 생성 및 노이즈 제거 작업에 활용
데이터 내 정보나 노이즈가 확산되는 과정을 모방하는 개념에 기반한다.
높은 품질의 샘플을 생성하고 복잡한 데이터 분포를 다루는 능력 때문에 주목 받았다.

forward에선 각 단계에서 제어된 노이즈를 추가하여 초기 노이즈가 있는 이미지를 점진적으로 개선, 노이즈 추가는 모델의 학습된 파라미터에 따라 이루어진다.
backward는 무작위 노이즈로 시작하여 반복적으로 노이즈를 제거해 사실적인 영상을 재현한다.
학습한 정보를 사용해 노이즈를 효과적으로 제거, 훈련 데이터 분포와 일치하는 영상을 생성 

forward process
노이즈를 도입하여 순방향 확산 과정을 진행 
마르코프 체인의 각 단계에서 Gussian 노이즈를 도입하여 분포가 q(xt|xt-1)인 새로운 잠복 변수 xt를 생성한다.

backward process
q(xt-1|xt)를 근사화하는 데 파라미터가 사용된다.
Gussian 분포이므로 파라미터를 가우시안 분포로 모델링하고 평균과 분산을 파라미터화 한다.
역공식을 모든 시간 단계에 적용하여 원래 데이터 분포로 다시 이동할 수 있다.

예 
GLIDE - 생성 및 편집을 위한 영상 확산 안내 언어
DALL-E 2 , unCLIP

확산 모델의 적용 - 다양한 응용 분야가 있다.
이미지 노이즈 제거 : 깨끗한 고품질 이미지를 생성하므로 노이즈 감소가 중요한 의료 영상, 과학 영상에 매우 유용
이미지 초고해상도 : 해상도가 높을수록 분석, 해석이 좋아지는 감시, 위성 영상. 의료 영상에서 이미지 품질 개선하는데 유용
이미지 보정 : 오래되거나 손상된 사진을 복원, 이미지에서 원하지 않은 물체를 제거, 누락된 영역이 있는 이미지를 완성하는데 유용함
이미지 합성 : 광고, 디자인, 엔터테이너먼트와 같은 애플리케이션을 위한 아트, 일러, 시각적 콘텐츠를 생성하는데 유용

확산 모델의 장점 
고품질 이미지 생성
무작위성 제어 : 무작위성 수준을 정밀하게 제어해 다양한 결과물 생성 가능
해석 가능성 : 이미지가 단계별로 어떻게 생성되는지 이해할 수 있다.
활용성 : 창의적 영역, 실용적 영역 모두에서 으용 

확산 모델의 과제
계산 복잡성 
훈련 요구 사항 : 광범위한 훈련 데이터 셋 필요, 시간과 하이퍼 파라미터 튜닝이 필수적
추정 시간 : 병렬화와 같은 전략으로 추론 속도 개선 필요
모델 크기 : 상당한 메모리 공간 차지 

 

4차시 - 분산 생성 모델 성능 비교

PSNR : 이미지 품질 평가, 높을 수록 더 좋다
SSIM : 구조적 유사성 측정, 1에 가까울 수록 높은 유사성
FID : 분포의 차이 측정, 낮을 수록 더 좋다.

PSNR
최대 신호 대 잡음비는 신호가 가질 수 있는 최대 전력에 대한 잡음의 전력을 나타낸 것, 주로 영상 또는 동영상 손실 압축에서 화질 손실 정보를 평가할 때 사용

SSIM
이미지 유사성 비교는 데이터 압축과 같은 처리 of 데이터 전송 손실로 발생하는 이미지 품질 저하를 정량화 

FID
생성 이미지 분포와 원래 이미지 분포의 차이 측정 

 

5차시 - 응용 사례

VLN System - 비전과 txt를 통한 input으로 강화학습 진행 
긴 문장의 명령도 문제없이 움직인다.

Platform - 행동 생성

3D Game Environment - 입력이 vision과 txt 

 

 

퀴즈

더보기

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, _______ ________의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”

하나를 선택하세요.
1.내용 임베딩, 형식 임베딩
2.텍스트 임베딩, 이미지 임베딩
3.표현 임베딩, 의미 임베딩
4.비주얼 임베딩, 언어 임베딩

텍스트와 이미지...?

이건 사진 찾지도 못하겠네요...

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, ___ ____의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”

하나를 선택하세요.

  1. 내용 임베딩, 형식 임베딩
  2. 텍스트 임베딩, 이미지 임베딩
  3. 표현 임베딩, 의미 임베딩
  4. 비주얼 임베딩, 언어 임베딩

정답:

  1. 텍스트 임베딩, 이미지 임베딩

설명:
CLIP (Contrastive Language–Image Pre-training)은 이미지와 텍스트 쌍으로 훈련된 신경망으로, 텍스트 임베딩과 이미지 임베딩의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행합니다. 이는 텍스트와 이미지를 같은 임베딩 공간에 매핑하여 서로 연관성을 찾는 과정입니다.

 

다음 중 틀린것을 고르시오.


다음 Stable Diffusion 구성중 아닌 것은?

하나를 선택하세요.
1.텍스트 인코더
2.트렌스포머
3.U-Net
4.변형 자동 인코더

????

트렌스포머...?

일단 여기서 VAE는 디퓨전 모델이 아니니까....

다음 중 틀린것을 고르시오.

다음 Stable Diffusion 구성중 아닌 것은?

하나를 선택하세요.

  1. 텍스트 인코더
  2. 트렌스포머
  3. U-Net
  4. 변형 자동 인코더

정답:

  1. 트렌스포머

설명:
Stable Diffusion 모델의 주요 구성 요소는 텍스트 인코더, U-Net, 변형 자동 인코더입니다. 텍스트 인코더는 텍스트를 인코딩하여 이미지 생성 과정에서 사용할 수 있도록 하고, U-Net은 이미지의 세부 사항을 생성하는 데 사용되며, 변형 자동 인코더는 고차원 데이터(예: 이미지)를 저차원 잠재 공간으로 변환하고 다시 원래 데이터로 복원하는 데 사용됩니다. 트렌스포머는 이러한 구성 요소에 포함되지 않습니다.

 

다음 중 틀린것을 고르시오.


다음 중 영상 생성 및 손실함수의 예제가 아닌것은?

하나를 선택하세요.
1.쿨백-라이블러 발산 손실
2.자각손실
3.평균 제곱오류손실
4.적대적 손실

이건 3가지가 나왔었죠

ㅇ? 이게 아닌가?

이거네요

설마 지 -> 자 라서 틀린건가...?

다음 중 틀린것을 고르시오.

다음 중 영상 생성 및 손실함수의 예제가 아닌것은?

하나를 선택하세요.

  1. 쿨백-라이블러 발산 손실
  2. 자각손실
  3. 평균 제곱오류손실
  4. 적대적 손실

정답:

  1. 자각손실

설명:
영상 생성 및 손실 함수의 예로는 다음과 같습니다:

  • 쿨백-라이블러 발산 손실 (Kullback-Leibler Divergence Loss): 분포 간의 차이를 측정하는 데 사용됩니다.
  • 평균 제곱오류손실 (Mean Squared Error Loss): 예측값과 실제값 간의 차이를 제곱하여 평균을 구하는 손실 함수입니다.
  • 적대적 손실 (Adversarial Loss): GANs(Generative Adversarial Networks)에서 생성자와 판별자 간의 경쟁을 통해 사용되는 손실 함수입니다.

'자각손실'은 영상 생성 및 손실 함수의 예제로 존재하지 않으며, 다른 손실 함수와 관련된 용어가 아닙니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“DALL-E _______ ________토큰을 단일 데이터 스트림으로 자동 휘귀적으로 모델링하는 트랜스포머를 기반으로 함”

하나를 선택하세요.
1.텍스트, 비디오
2.텍스트, 이미지
3.이미지, 오디오
4.오디오, 비디오

텍스트, 이미지 or 영상인데... 비디오는 아니겠지

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“DALL-E는 ___ ____토큰을 단일 데이터 스트림으로 자동 휘귀적으로 모델링하는 트랜스포머를 기반으로 함”

하나를 선택하세요.

  1. 텍스트, 비디오
  2. 텍스트, 이미지
  3. 이미지, 오디오
  4. 오디오, 비디오

정답:

  1. 텍스트, 이미지

설명:
DALL-E는 텍스트와 이미지 토큰을 단일 데이터 스트림으로 자동 회귀적으로 모델링하는 트랜스포머를 기반으로 합니다. 이는 텍스트 설명을 입력으로 받아서 해당 설명에 맞는 이미지를 생성하는 모델입니다. 트랜스포머 아키텍처는 이러한 텍스트-이미지 쌍을 효과적으로 처리하고 생성하는 데 사용됩니다.

 

다음 중 올바른 것을 고르시오.

 

stable diffusion에서 U-net 블록의 역할에 관한 다음 설명 중 올바른 것은 무엇인가요?

하나를 선택하세요.
1.표현을 픽셀 공간으로 다시 변환합니다.
2.노이즈 제거 구성 요소로서, 순방향 확산에서 역방향으로 작동합니다.

오 저걸 u-net 블록이라고 표현했나...?

stable diffusion에서 U-net 블록의 역할에 관한 다음 설명 중 올바른 것은 무엇인가요?

하나를 선택하세요.

  1. 표현을 픽셀 공간으로 다시 변환합니다.
  2. 노이즈 제거 구성 요소로서, 순방향 확산에서 역방향으로 작동합니다.

정답:

  1. 노이즈 제거 구성 요소로서, 순방향 확산에서 역방향으로 작동합니다.

설명:
Stable Diffusion에서 U-net 블록은 노이즈 제거 구성 요소로서, 순방향 확산 과정에서 노이즈를 추가한 후 역방향으로 작동하여 원래 이미지로 복원하는 역할을 합니다. 이 과정에서 U-net은 다양한 해상도의 특징을 효과적으로 결합하여 더 나은 노이즈 제거와 이미지 복원을 수행합니다.



 

12주 차 - 분산 기반 영상 생성 

1차시 -  영상 생성 동작 및 데모 

stable Diffusion - 안정적인 확산 모델 
확산 모델(DM)에서 변형된 잠복 확산 모델(LDM)을 기반으로 하며, LDM은 pre-trained auto encoder에서 파생된 구조화되고, 컴팩트한 잠재 공간을 활용하여 다양한 컨디셔닝 입력에 대한 유연성을 유지하면서 고품질 이미지를 효율적으로 생성한다.
VAE, U-Net, Text Encoder로 구성 

Stable Deffusion 의 학습 
1. VAE 인코더는 픽셀 공간에 있는 입력 이미지를 저 차원의 잠재 공간에 압축, 이 Latent space는 이미지의 내용 및 특징과 같은 이미지에 대한 필수 의미 정보를 캡쳐함 
2. forward deffiusion은 gaussian noise가 latent space 표현에 반복적으로 추가되는 방식으로 수행, 이 노이즈 주입은 생성된 이미지에 무작위성과 다양성을 도입하는데 도움이 되고, 이 확산 과정의 각 단계는 잠재적 표현을 점진적으로 변형한다.
3. U-Net 블록은 노이즈 제거 구성 요소로 적용하여 forward와 반대인 backward으로 작동괴고, 이 블록 목적은 노이즈가 많은 출력을 정제하여 더 깨끗하고 안정적인 잠재 표현을 얻는 것
4. VAE Decoder는 정제된 잠재 표현을 가져와 인코딩 프로세스를 역전시켜 표현을 픽셀 공간으로 다시 변환하고, 이 단계에서는 잠재 공간 표현에서 최종 이미지가 생성됨 

텍스트 기반 상태 조절 - 이미지 생성할 때 텍스트 프롬포트를 사용하여 모델을 학습 
사전 학습된 텍스트 인코더인 CLIP ViT-L/14는 텍스트 설명이나 프롬프트를 구조화된 임베딩 공간으로 변형하는데 사용, 이러한 임베딩은 텍스트의 의미를 캡쳐하여 입력 텍스트의 숫자 표현을 생성
인코딩된 텍스트 임베딩은 cross attention 메커니즘을 사용해 LDM에 통합되며, 이 메커니즘을 통해 모델은 이미지 생성 과정에서 텍스트 임베딩의 관련된 부분에 선택적으로 attention할 수 있으며 컨디셔닝 정보를 이미지의 잠재적 표현과 일치시킴 
LDM의 노이즈 제거 및 생성 단계에서 텍스트 임베딩의 컨디셔닝 정보가 모델을 안내하며, 제공된 텍스트를 기반으로 생성된 이미지에 어떤 특징, 객체 또는 개념이 포함되어야 하는지 모델이 이해하는데 도움이 된다.

 

 

2차시 - 영상 생성 동작 2 DALL-E

DALL-E는 Zero-shot text-Image generation으로 텍스트와 이미지 토큰을 단일 데이터 스트림으로 자동 회귀적으로 모델링 하는 트랜스포머를 기반으로 한다.
이산 가변 자동 인코더(dAE)를 훈련시켜 256 * 256 -> 32 * 32 이미지 토큰으로 변환한다.
자동 회귀 트랜스포머를 훈련하기 전 최대 256개의 BPE 인코딩된 텍스트 토큰을 이미지 토큰과 병합 

1단계 : 비주얼 코드북 학습 
인코딩 및 디코딩된 RGM 영상의 분포와 관련하여 증거 하한(Evidence Lower Bound)을 최대화하도록 dVAE를 훈련
Gunbel-softmax relaxation는 ELB 문제를 최적화하는데 사용된다. 완화된 ELB는 Adam을 통해 최대화되며 지수 가중 반복 평균을 사용한다.

2단계 : Pre-Training
ELB를 최대화하여 텍스트와 이미지 토큰의 사전 분포를 학습한다.
트랜스포머 디코더가 사용되며 서로 다른 attention mask가 사용된다.
텍스트-이미지 토큰의 cross entropy loss는 배치에 있는 각 텍스트 및 이미지 토큰의 수를 사용해 정규화되고, 이 작업은 이미지 모델링이므로 텍스트의 교차 엔트로피 손실에 1/8곱하고 이미지의 교차 엔트로피 손실에 7/8을 곱하여 손실 계싼 

데이터 수집 및 훈련
2억 5천만개의 텍스트 이미지쌍
혼합 정밀도 훈련은 최소 및 최대 값 범위에서 underflow를 방지하며 16비트 정밀도를 유지하는데 사용되며, 16비트 정밀도를 사용함으로 모델은 GPU 리소스를 덜 소비하고 처리량을 늘릴 수 있다.

사람에 의한 평가
인셉션 점수와 FID가 DF-GAN보다 높았다.

정량적 결과
텍스트를 이미지로 변환하는 작업을 일반화하여 예상치 못한 설명을 이미지로 생성하는데 능숙
복잡한 창작물을 처리하는데 일부 결과는 다양하고 일관되게 신뢰할 수 없으며, 그래도 영상 간 번역을 어느 정도까지 안정적으로 수행할 수 있다. 

 

 

3차시 -  DALL-E 2 = unCLIP

대조적 언어-이미지 사전 학습 (CLIP)을 사용해 텍스트와 이미지의 공동 표현 공간을 학습
텍스트 - 이미지 생성을 위해 자동 회귀 또는 확산 사전을 사용하여 이미지 임베딩을 생성하고 확산 디코더를 사용하여 디코딩함 

CLIP - Contrastive Language-Image Pre-training model
이미지와 텍스느 쌍으로 훈련된 신경망이다.
텍스트 임베딩과 이미지 임베딩의 컨텍스트를 일치시키기 위해 pre-train 수행
텍스트 및 이미지 벡터를 정렬하는 것을 목표로 하는 코사인 유사도와 유사하게 수행 

Prior 및 디코더
Prior : 텍스트가 주어지면 CLIP이미지 임베딩을 생성, 선행 작업을 통해 이미지 임베딩 자체의 생성 모델을 학습할 수 있다.
디코더 : 이미지 임베딩에 따라 조건부 이미지를 생성하며, 디코더를 사용하면 클립 이미지 임베딩이 주어진 이미지를 반전시킬 수 있다.

결과
사람의 평가 - unCLIP을 선호
unCLIP는 높은 사실성과 캡션 유사성을 유지하며 다양성의 균형 유지 

 

4차시 - 달리 응용 사례

콘텐츠 생성
아트 및 디자인 
광고 

이커머스
제품 시각화
카탈로그 생성

엔터테인먼트와 스토리 텔링
비디오 게임 디자인
스토리 보드

인테리어 설계
공간 시각화

패션 및 의류
의상 제안
패션 디자인 

건축 시각화
도시 설계
도시 계획 

과학 및 연구
과학 시각화
의료 영상

아트와 밈 생성
디지털 아트
밈 생성 

콘텐츠 개인 맞춤화
개인 아바타
맞춤형 콘텐츠

 

 

5차시 - 생성 모델의 확장성

확장 가능한 생성 모델은 다양한 요구 사항과 계산 제약 조건에 효율적으로 적응하면서 다양한 복잡성, 크기 or 해상도의 결과물을 생성할 수 있는 기능을 갖춘 생성 모델 유형
특징 - 해상도 유연성, 리소스 효율성, 적응력, 점진적 향상, 규모에 따른 일관성, 애플리케이션 다양성, 리소스 인식, 멀티스케일 표현 

해상도 유연성
해상도를 선택할 수 있다.

리소스 효율성
리소스 조건에 맞게 다양한 모델의 규모 

적응력
다양한 입력, 선호에 맞게 조정 가능 

점진적 향상
세부사항과 복잡성을 추가하여 다양한 콘텐츠 생성 가능

규모에 따른 일관성
저해상도에서 고해상도로의 전환이 매끄럽고 일관성 있게 이루어질 수 있다.

애플리케이션 다양성
다양한 영역에서 사용 가능

리소스 인식
컴퓨팅 리소스를 인식하여 속도와 품질간 균형 최적화

멀티스케일 표현 
추상화 및 세부사항을 처리할 수 있는 다중 스케일 표현을 사용

 

퀴즈

더보기

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“FID (Fréchet Inception Distance) 생성된 이미지와 실제 이미지의 _________를 측정하는 지표로, 낮을수록 더 좋은 품질을 의미함”

하나를 선택하세요.
1.특징 분포의 차이
2.해상도 차이
3.색상 일치도
4.질감차이

오 첫번째 문제는 11주차 내용이네요...?

“FID (Fréchet Inception Distance)는 생성된 이미지와 실제 이미지의 _____를 측정하는 지표로, 낮을수록 더 좋은 품질을 의미함”

이 문장에서 FID가 무엇을 측정하는지 설명하는 데 가장 적절한 단어를 고르는 것이 목표입니다.

선택지 분석

  1. 특징 분포의 차이: FID는 생성된 이미지와 실제 이미지의 특징 분포의 차이를 측정합니다. 이는 이미지의 통계적 특성을 기반으로 두 이미지 집합의 분포 차이를 계산하는 것입니다. 낮은 FID 값은 두 분포가 유사함을 의미하며, 이는 더 좋은 품질의 이미지를 나타냅니다.
  2. 해상도 차이: FID는 이미지의 해상도를 측정하지 않습니다. 해상도는 이미지의 디테일 수준과 관련된 것입니다.
  3. 색상 일치도: FID는 색상 일치도를 직접 측정하지 않습니다. 색상 일치도는 두 이미지 간의 색상 유사성을 나타내지만, FID는 더 높은 차원의 특징 공간에서 분포의 차이를 측정합니다.
  4. 질감차이: FID는 이미지의 질감을 직접 측정하지 않습니다. 질감은 이미지의 시각적 패턴과 관련된 것입니다.

결론

FID는 이미지의 통계적 특성을 이용해 생성된 이미지와 실제 이미지의 특징 분포의 차이를 측정하는 지표입니다. 따라서 가장 적절한 단어는 특징 분포의 차이입니다.

정답은 1. 특징 분포의 차이입니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

 

“SSIM (Structural Similarity Index): 이미지의 구조적 유사성을 측정하는 지표로, ____에 가까울수록 높은 유사성을 나타냄”

하나를 선택하세요.
1.-1
2.1
3.0
4.2

2번도...?

“SSIM (Structural Similarity Index): 이미지의 구조적 유사성을 측정하는 지표로, ____에 가까울수록 높은 유사성을 나타냄”

SSIM (Structural Similarity Index)는 두 이미지 간의 구조적 유사성을 측정하는 지표로, 값의 범위는 -1에서 1 사이입니다. 여기서 1에 가까울수록 두 이미지가 매우 유사하다는 것을 의미합니다.

선택지 분석

  1. -1: SSIM 값이 -1에 가까울수록 두 이미지가 매우 다르다는 것을 의미합니다.
  2. 1: SSIM 값이 1에 가까울수록 두 이미지가 매우 유사하다는 것을 의미합니다. 이는 SSIM 지표가 높은 유사성을 나타내는 값입니다.
  3. 0: SSIM 값이 0에 가까울수록 두 이미지 간의 유사성이 거의 없음을 나타냅니다.
  4. 2: SSIM 값의 범위는 -1에서 1 사이이므로, 2는 유효하지 않은 값입니다.

결론

SSIM 지표에서 두 이미지의 구조적 유사성이 높을수록 SSIM 값은 1에 가깝습니다. 따라서 빈칸에 들어갈 가장 적절한 단어는 1입니다.

정답은 2. 1입니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“PSNR (Peak Signal-to-Noise Ratio) _________을 평가하는 지표로, 높을수록 더 좋은 품질을 의미함”

하나를 선택하세요.
1.이미지 품질
2.텍스처 정확도
3.신호 대 잡음 비율
4.색상 일치도

3번도....

“PSNR (Peak Signal-to-Noise Ratio)는 _____을 평가하는 지표로, 높을수록 더 좋은 품질을 의미함”

선택지 분석

  1. 이미지 품질: PSNR은 이미지 품질을 평가하는 지표로, 원본 이미지와 압축된 이미지 사이의 차이를 측정합니다. 값이 높을수록 원본 이미지와 압축된 이미지 사이의 차이가 적고, 더 좋은 품질을 의미합니다.
  2. 텍스처 정확도: PSNR은 텍스처의 정확도를 직접적으로 평가하지 않습니다.
  3. 신호 대 잡음 비율: PSNR은 이름 그대로 신호 대 잡음 비율을 측정하는 지표입니다. 하지만 여기서 '신호 대 잡음 비율'은 좀 더 일반적인 용어로, 이미지 품질을 평가하는 구체적인 맥락을 나타내지 않습니다.
  4. 색상 일치도: PSNR은 색상 일치도를 직접적으로 평가하지 않습니다.

결론

PSNR은 원본 이미지와 압축된 이미지 간의 차이를 측정하여 이미지 품질을 평가하는 지표입니다. PSNR 값이 높을수록 두 이미지 간의 차이가 적고, 이는 더 좋은 품질을 의미합니다. 따라서 빈칸에 들어갈 가장 적절한 단어는 이미지 품질입니다.

정답은 1. 이미지 품질입니다.

 

다음 중 틀린것을 고르시오.


Diffusson의 장점이 아닌것은?

하나를 선택하세요.
1.무작위성 제어
2.고품질 이미지생성
3.이미지 노이지 생성
4.해석가능성

오 이건.....

노이즈 생성이 장점은 아닌가 보네요

넵 제겁니다.

Diffusion 모델의 장점이 아닌 것을 고르기 위해 각 선택지를 분석해 보겠습니다.

선택지 분석

  1. 무작위성 제어:
    • Diffusion 모델은 이미지를 생성할 때 일정한 확률적 과정을 거치기 때문에 무작위성을 포함합니다. 그러나, 제어된 확률적 과정을 통해 특정한 조건을 부여하여 원하는 형태의 이미지를 생성할 수 있습니다. 따라서 이 선택지는 diffusion 모델의 장점이라고 볼 수 있습니다.
  2. 고품질 이미지 생성:
    • Diffusion 모델은 매우 높은 품질의 이미지를 생성하는 데 사용됩니다. 특히, 다양한 생성 모델과 비교했을 때 경쟁력 있는 성능을 보여줍니다. 따라서 이 선택지는 diffusion 모델의 장점입니다.
  3. 이미지 노이지 생성:
    • Diffusion 모델은 원래의 이미지를 점차적으로 노이즈가 있는 이미지로 변환하는 과정(앞방향 과정)과, 노이즈가 있는 이미지를 점차적으로 원래의 이미지로 복원하는 과정(역방향 과정)을 포함합니다. 그러나 최종 목표는 고품질의 이미지를 생성하는 것이므로, "이미지 노이지 생성"은 diffusion 모델의 목적이 아니며, 이 선택지는 diffusion 모델의 장점이 아닙니다.
  4. 해석가능성:
    • Diffusion 모델은 이미지 생성 과정이 해석 가능하고 직관적인 형태로 제공되므로, 모델의 동작 방식을 이해하기 쉽습니다. 따라서 이 선택지는 diffusion 모델의 장점입니다.

결론

Diffusion 모델의 장점이 아닌 것은 3. 이미지 노이지 생성입니다.

정답은 3. 이미지 노이지 생성입니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“VAE는 디코더 네트워크를 수정하여 다양한 해상도로 __________를 생성하도록 설계할 수 있는 일종의 생성 모델”

하나를 선택하세요.
1.이미지
2.오디오 파일
3.텍스트 데이터
4.그래프

이미지 밖에 없긴 한데...

넵 이미지네요

“VAE는 디코더 네트워크를 수정하여 다양한 해상도로 __를 생성하도록 설계할 수 있는 일종의 생성 모델”

Variational Autoencoder(VAE)는 다양한 유형의 데이터를 생성할 수 있지만, 일반적으로 이미지 생성에 많이 사용됩니다. VAE는 이미지를 포함하여 오디오, 텍스트 등 다양한 형태의 데이터를 생성할 수 있는 잠재 공간을 학습하는 생성 모델입니다. 여기서는 "다양한 해상도로"라는 문구가 힌트가 되며, 이는 주로 이미지와 관련된 표현입니다.

선택지 분석

  1. 이미지: VAE는 주로 이미지 생성에 사용되며, "다양한 해상도"라는 문구와 잘 맞습니다.
  2. 오디오 파일: VAE는 오디오 파일을 생성할 수 있지만, "다양한 해상도"라는 문구는 오디오와 직접적으로 연관되지 않습니다.
  3. 텍스트 데이터: VAE는 텍스트 데이터를 생성할 수 있지만, "다양한 해상도"라는 문구는 텍스트 데이터와는 관련이 적습니다.
  4. 그래프: VAE는 그래프 데이터를 생성할 수 있지만, "다양한 해상도"라는 문구는 그래프와 직접적으로 연관되지 않습니다.

결론

VAE는 디코더 네트워크를 수정하여 다양한 해상도로 이미지를 생성할 수 있는 일종의 생성 모델로 자주 사용됩니다. 따라서 빈칸에 들어갈 가장 적절한 단어는 이미지입니다.

정답은 1. 이미지입니다.

근데 문제가 전부 11주차....? 문제 바뀐건가?



 

13주 차 - Transformer 기반 action 생성 

1차시 -  강화 학습 리뷰 

Transformer 기반 행성 생성
Gen AI의 일종이다,
행동을 생성하고, 강화학습을 한다.

Reward Total(Return)이 최고가 되도록 하는 것이 강화학습의 목적이다.

 

2차시 - 판단 트랜스포머 Decision Transformer

MDP 모델에 적용된다 == 전이 행렬, 보상 등 모든 상황을 다 알때...

행동 궤적을 위한 트랜스포머
레퍼런스를 데이타 셋을 통해 학습 == 제 3의 데이터 셋을 주어도 잘 하게 된다.

동작을 완성하는데 transformer가 사용되고 있다.

 

 

3차시 -  행동 생성형 트랜스포머 Behavior Transformer = BT

로봇도 시뮬레이션 환경이 있고, 명령은 텍스트로 주어지며, 행동은 알아서 진행한다.
문자에 의해 그 행동을 진행 및 학습

 

4차시 - 셰프 로봇 

디지털 다이닝
IT 통신 기반 : 1세대
초기 메타버스 : 1.5세대
생성 AI 기반 디지털 다이닝 : 2세대 

요리 로봇 행동에 관련된 연구
음식의 분쇄 정도에 따른 미각을 염도 센서를 사용하여 측정
단일 센서를 사용함으로 인한 한계를 보안으로 음식 냄새 센서 개발
인간의 미각과 측정치와의 상관 관계에 대해 연구하였다.

생성형 AI와 디지털 다이닝
대화형 요리 주문, 요리 로봇 동작 생성
초감각 센서
표정 인식/ 표현
인공 코/입
시식 로봇의 미각 - 음식 페어링 및 미각 센서/ 시식 로봇 개발
언어 명령의 음식 제조 

Sensor array 프로세스의 패턴 인식 센서 

 

5차시 - AI 기반 행동 생성 

행동 생성은 특정 동작을 자율적으로 수행하거나 특정 휴형의 출력을 생성할 수 있는 모델 또는 시스템을 만드는 컴퓨터 과학 분야의 기술
행동에는 응용 영역과 목표에 따라 텍스트, 영상, 오디오, 움직임, 전략 등이 있다.

컴퓨터 과학이 행동 생성의 메인 축을 담당한다.

행동 생성 기법
행동 트렌스포머 : 다양한 머신 러닝 기법이 행동 생성에 사용되며, 강화학습은 특히 게임, 로봇 과 같은 지속적인 의사 결정 작업을 수행하도록 에이전트를 훈련하는데 적합
GAN : 고품질 결과물을 생성하도록 학습 
NLP 생성 : 자연어 생성, 모델이 자동으로 기사를 생성, 질문에 답하기, 자동번역 수행하는 등 작업 수행 가능 

다양한 분야에서의 활용
컴퓨터 게임 개발
로봇 공학
자연어 처리
인공 지능 어시스턴트
가상 현실 및 증강 현실 

성공 사례
Chat GPT, 알파고, 자율주행

도전 과제와 향후 개발
안전과 지속가능성을 보장하기 위해 윤리적, 법적 문제를 해결 필요
더욱 지능적이고, 창의적이며 개인화된 행동 생성 애플리케이션이 등장할 것으로 예상 

 

 

퀴즈

더보기

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“GPT의 사전 학습은 비지도 토큰이 주어지면 _______이며, 이 가능성 함수를 최대화하기 위해 표준 언어 모델이 사용”

하나를 선택하세요.
1.어휘 의미 결정
2.비지도
3.다음 토큰 예측
4.문법 오류 수정

3번....?

이거 또 다음주 내용인거 같은데?

문장:

“GPT의 사전 학습은 비지도 토큰이 주어지면 ___이며, 이 가능성 함수를 최대화하기 위해 표준 언어 모델이 사용”

선택지 분석:

  1. 어휘 의미 결정:
    • 어휘 의미 결정은 특정 단어의 의미를 이해하고 해석하는 과정입니다. GPT의 사전 학습 과정은 특정 단어의 의미를 결정하는 것이 아니라, 주어진 문맥에서 다음에 올 단어를 예측하는 것이므로 이 선택지는 맞지 않습니다.
  2. 비지도:
    • "비지도"는 지도 학습과 대조되는 개념으로, 데이터에 대한 명확한 레이블 없이 학습하는 방법입니다. 하지만 "비지도"라는 단어는 문장 구조상 적절한 위치에 오지 않습니다. 또한, 문장의 다른 부분과도 잘 맞지 않습니다.
  3. 다음 토큰 예측:
    • GPT의 사전 학습 과정은 주어진 문맥에서 다음에 올 단어(토큰)를 예측하는 방식으로 진행됩니다. 이 방법은 언어 모델링에서 주로 사용되는 방식입니다. 따라서 이 선택지는 문장의 의미와 가장 잘 맞습니다.
  4. 문법 오류 수정:
    • 문법 오류 수정은 문장의 문법적 오류를 찾아 고치는 과정입니다. GPT의 사전 학습 과정은 문법 오류 수정을 목표로 하지 않으므로 이 선택지도 맞지 않습니다.

정답:

다음 토큰 예측이 가장 적절한 단어입니다. 이유는 GPT 모델의 학습 과정이 바로 이 방식에 기반하고 있기 때문입니다. GPT는 주어진 문맥에서 다음에 올 단어를 예측하면서 학습을 진행합니다. 이를 통해 모델은 문장의 자연스러운 흐름을 학습하게 됩니다.

문장 완성:

“GPT의 사전 학습은 비지도 토큰이 주어지면 다음 토큰 예측이며, 이 가능성 함수를 최대화하기 위해 표준 언어 모델이 사용”

여기서 "비지도"는 학습 과정이 레이블이 없는 데이터로 이루어진다는 것을 의미하고, "다음 토큰 예측"은 GPT 모델이 주어진 문맥에서 다음에 올 단어를 예측하는 방식을 의미합니다. 이러한 예측을 통해 가능성 함수(확률)를 최대화하고, 이 과정에서 표준 언어 모델이 사용됩니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“GPT _______를 이해하고 생성하는 것을 목표로 하는 사전 학습된 자연어 처리 모델”

하나를 선택하세요.
1.자연어 텍스트
2.문법규칙
3.사용자 입력
4.음성 데이터

GPT는 자연어 텍스트를 목표로한 LLM이죠

요즘 Multimodal이 되면서 3번으로 점점 가는것 같기는 한데...

문장의 빈칸에 들어갈 가장 적절한 단어는 "자연어 텍스트"입니다. 따라서 정답은 1번입니다.

문장 완성:

“GPT는 자연어 텍스트를 이해하고 생성하는 것을 목표로 하는 사전 학습된 자연어 처리 모델”

선택지 분석:

  1. 자연어 텍스트:
    • GPT의 주요 목표는 자연어 텍스트를 이해하고 생성하는 것입니다. GPT는 주어진 문맥에서 적절한 텍스트를 생성하거나 이해하는 데 중점을 둡니다. 따라서 이 선택지가 문장과 가장 잘 맞습니다.
  2. 문법규칙:
    • 문법 규칙을 이해하고 따르는 것은 GPT의 일부 기능이지만, GPT의 주요 목표는 자연어 텍스트의 전반적인 이해와 생성입니다. 문법 규칙은 그 과정의 일부일 뿐 전체 목표는 아닙니다.
  3. 사용자 입력:
    • 사용자 입력은 모델이 받아들이는 데이터의 한 형태일 수 있지만, GPT의 주된 목적은 아닙니다. GPT는 특정 사용자 입력이 아니라 모든 자연어 텍스트를 이해하고 생성하는 데 중점을 둡니다.
  4. 음성 데이터:
    • 음성 데이터는 GPT의 주된 목표가 아닙니다. 음성 데이터를 처리하는 모델은 보통 음성 인식 및 생성 모델(예: Speech-to-Text, Text-to-Speech)입니다. GPT는 텍스트 데이터에 중점을 둡니다.

이유:

GPT (Generative Pre-trained Transformer)는 자연어 처리(NLP) 모델로서, 주요 목표는 인간이 사용하는 자연어 텍스트를 이해하고, 주어진 문맥에 맞는 텍스트를 생성하는 것입니다. 이를 통해 다양한 응용 분야에서 텍스트 기반 작업을 수행할 수 있습니다.

따라서 빈칸에 들어갈 가장 적절한 단어는 "자연어 텍스트"입니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


요리로봇은 계속해서 발전하며 더욱 정교한 _______ _________를 갖출 것으로 예상함”

하나를 선택하세요.
1.요리 프로그래밍, 기능
2.요리 디자인, 운영체제
3.요리 센서, 알고리즘
4.요리 기술, 인터페이스

읭 4번...?

문장의 빈칸에 들어갈 가장 적절한 단어는 "요리 센서, 알고리즘"입니다. 따라서 정답은 3번입니다.

문장 완성:

“요리로봇은 계속해서 발전하며 더욱 정교한 요리 센서와 알고리즘을 갖출 것으로 예상함”

선택지 분석:

  1. 요리 프로그래밍, 기능:
    • 요리 프로그래밍과 기능도 발전할 수 있지만, 이 문맥에서는 요리로봇의 정교함을 설명하는 데 적절하지 않습니다. 기능은 너무 일반적이고 프로그래밍은 직접적인 기술적 발전보다는 그 위에 적용되는 개념입니다.
  2. 요리 디자인, 운영체제:
    • 요리 디자인과 운영체제는 요리로봇의 정교함과는 직접적으로 연관되지 않습니다. 디자인은 주로 외관이나 사용성에 관련되고, 운영체제는 로봇을 구동하는 시스템이지만 정교함을 설명하는 데는 맞지 않습니다.
  3. 요리 센서, 알고리즘:
    • 요리 센서와 알고리즘은 요리로봇의 정교함을 나타내는 적절한 요소입니다. 센서는 로봇이 환경을 정확하게 감지하고, 알고리즘은 이러한 데이터를 기반으로 정교한 동작을 수행하는 데 필수적입니다. 이는 요리로봇의 성능 향상과 밀접하게 관련됩니다.
  4. 요리 기술, 인터페이스:
    • 요리 기술과 인터페이스도 중요한 요소이지만, 여기서 "정교한"이라는 단어와 잘 맞지 않습니다. 인터페이스는 사용자와의 상호작용을 의미하며, 정교함보다는 사용 편의성에 더 관련이 있습니다.

이유:

요리로봇의 발전에서 중요한 부분은 환경을 정확하게 감지하는 센서 기술과, 이를 바탕으로 정교하게 작업을 수행할 수 있는 알고리즘입니다. 센서는 로봇이 재료의 상태나 요리 과정을 실시간으로 모니터링할 수 있게 해주고, 알고리즘은 이러한 정보를 처리하여 최적의 요리 방법을 결정하는 데 사용됩니다. 따라서 "요리 센서"와 "알고리즘"이 문장에 가장 적합한 단어입니다.

교안을 외워라!

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


요리 로봇은 ________으로 강화된 로봇이며, 세계 최초의 완전 로봇 주방인 몰리 로보틱스는 요리 과정의 거의 모든 부분을 자동화하는 AI 자율 시스템이다.”

하나를 선택하세요.
1.기계학습
2.수동제어
3.인공지능
4.음성인식

인공지능!

강화학습이 있다면 강화학습을 선택했겠지만...

문장의 빈칸에 들어갈 가장 적절한 단어는 "인공지능"입니다. 따라서 정답은 3번입니다.

문장 완성:

“요리 로봇은 인공지능으로 강화된 로봇이며, 세계 최초의 완전 로봇 주방인 몰리 로보틱스는 요리 과정의 거의 모든 부분을 자동화하는 AI 자율 시스템이다.”

선택지 분석:

  1. 기계학습:
    • 기계학습은 인공지능의 한 분야로, 데이터로부터 학습하는 알고리즘을 의미합니다. 그러나 "기계학습으로 강화된 로봇"보다는 "인공지능으로 강화된 로봇"이 더 일반적이고 넓은 의미에서 적합합니다.
  2. 수동제어:
    • 수동제어는 사람이 직접 조작하는 방식으로, "로봇"과 "자율 시스템"과는 반대되는 개념입니다. 이 문장에서는 적절하지 않습니다.
  3. 인공지능:
    • 인공지능(AI)은 로봇이 스스로 학습하고 판단할 수 있는 능력을 포함하는 넓은 개념입니다. 요리 로봇이 자동화된 요리 과정을 수행할 수 있는 이유를 설명하는 데 가장 적절합니다.
  4. 음성인식:
    • 음성인식은 인공지능의 한 기능으로, 사람의 음성을 인식하고 처리하는 기술입니다. 그러나 요리 로봇의 전반적인 능력을 설명하는 데는 한정적입니다.

이유:

문장에서 "요리 과정의 거의 모든 부분을 자동화하는 AI 자율 시스템"이라고 설명하고 있으므로, 로봇이 인공지능 기술로 강화되었음을 의미하는 "인공지능"이 가장 적합합니다. 인공지능은 로봇이 스스로 요리 과정을 수행할 수 있게 하는 핵심 기술로, 문장의 흐름과 맥락에 가장 잘 맞습니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


동작 생성은 특정 동작을 자율적으로 수행하거나 특정 유형의 출력을 생성할 수 있는 모델 또는 시스템을 만드는 ________ 분야의 기술이다.”

하나를 선택하세요.
1.컴퓨터 과학
2.로보틱스
3.데이터과학
4.인공지능

컴퓨터 과학....?

문장의 빈칸에 들어갈 가장 적절한 단어는 "로보틱스"입니다. 따라서 정답은 2번입니다.

문장 완성:

“동작 생성은 특정 동작을 자율적으로 수행하거나 특정 유형의 출력을 생성할 수 있는 모델 또는 시스템을 만드는 로보틱스 분야의 기술이다.”

선택지 분석:

  1. 컴퓨터 과학:
    • 컴퓨터 과학은 매우 넓은 분야로, 동작 생성 기술을 포함할 수 있지만, 이 문맥에서는 너무 광범위합니다.
  2. 로보틱스:
    • 로보틱스는 로봇의 설계, 제작, 운영 및 응용을 다루는 분야로, 동작 생성 기술이 주로 적용되는 분야입니다. 로봇이 특정 동작을 자율적으로 수행하거나 특정 유형의 출력을 생성하는 것은 로보틱스의 중요한 연구 주제입니다.
  3. 데이터과학:
    • 데이터과학은 데이터 분석, 처리 및 활용에 중점을 둔 분야로, 동작 생성 기술과는 직접적인 관련이 적습니다.
  4. 인공지능:
    • 인공지능은 동작 생성 기술의 기초가 될 수 있지만, 로보틱스처럼 직접적인 응용 분야는 아닙니다. 동작 생성 기술은 인공지능의 한 응용이지만, 문맥상 로보틱스가 더 적절합니다.

이유:

동작 생성 기술은 로봇이 특정 동작을 수행하게 하는 기술로, 주로 로보틱스 분야에서 연구되고 개발됩니다. 로보틱스는 로봇의 물리적 동작을 설계하고 구현하는 데 초점을 맞추며, 이는 동작 생성 기술의 핵심입니다. 따라서 이 문장의 빈칸에는 "로보틱스"가 가장 적절합니다.



 

14주 차 - Transformer 기반 행동 생성 2

1차시 -  자율주행차 생성 모델 

자율 주행 - 운전자의 개입 없이 자율 적으로 환경 인식, 의사 결정 내리고, 차량 제어할 수 있는 교통수단의 한 유형
차량의 다양한 센서를 이용해 주변 환경을 감지하고, CV 및 AI를 활용해 데이터를 처리해 주행 전략을 수립하고 차량 움직임을 제어 

기본 요건
주변 환경 인지
주행 도로 판단과 선정
안전한 기능 제어

자율 주행 생성 모델이란
차량 동작을 시뮬레이션하고 제어하도록 설계된 수학적 모델 및 프로그램, 복잡한 알고리즘과 데이터 처리 기술을 기반으로 하고, 자율 주행 차량이 주변 환경을 인식하고 의사 결정을 내리고 움직임을 제어할 수 있다.

모델 유형 생성
ChauffeurNet : 엔트 투 엔드 학습을 가능하게 하는 학습 신경망으로 CNN, RNN을 사용해 지각 데이터를 처리하고 차량에 대한 제어 명령을 생성 
BEV + Transformer : 지각 및 의사결정을 위해 자율 주행 분야에 적용되는 생성 모델
BEV  = Bird Eye Vies - 위에서 내려다 보는 시점
지각 정보를 BEV 뷰에서 장면 이해 및 의사 결정을 위해 트랜스포머 모델로 전달하는 것을 말한다.

Drive-GPT - 드라이브 언어를 사용해 자율주행차 계획 및 추론을 위한 자동 회귀 트랜스포머 모델
입력은 지각 융합 후 텍스트 시퀸스, 출력은 자동 조종 장면의 텍스트 시퀸스 

 

 

2차시 - 자율 주행 생성 모델 학습

주행 데이터를 텍스트 제목에 연결하기 위해 신경망을 미세 조정
텍스트 제목
1. 네비게이션 안내 수집
2. 운전 지침. 이 데이터는 제로 카메라 비디오 클립을 사용하여 생성된다.

두번 째 단계는 주행 에피소드에서 주행 궤적을 추출 
GAIL : todtjdwjr wjreowjr ahqkd gkrtmq 

자율 주행 생성 모델 훈련의 장점
인식을 위한 별도의 미션웨어 필요 없다.
CLIP-V와 텍스트 인코더 모델은 인터넷 규모의 인베딩을 생성하도록 훈련할 수 있다.
사람의 개입이 거의 또는 전혀 없이 매우 큰 데이터 세트를 수집할 수 있다.
모델 간의 인터페이스는 언어이며 특정 형식을 채택할 필요가 없다.

 

3차시 -  자율 주행 자동차 행동 생성 1

차량 시스템이 미리 정의된 목표 뿐만 아니라 환경에 대한 인지된 정보를 바탕으로 적절한 행동계획을 수립하기 위한 연산과 의사 결정을 의미 
차량이 어떻게 주행하는지 등 주변 환경도 포함
행동생성은 자율 주행의 핵심 구성 요소 중 하나로 사람의 개입 없이 차량이 안전하게 주행할 수 있게 한다.

지능형 의사 결정 및 예측 :
대량의 데이터와 딥러닝 알고리즘을 활용해 주행 환경을 실시간으로 분석하고 예측
도로 상황, 교통 상황, 승객의 요구에 따라 지능적인 의사결정을 하여 주행 안전과 쾌적성을 확보할 수 있다.

개인 맞춤형 운전 경험
운전 선호도와 행동을 학습해 맞춤형 운전 경험 제공
탐승자의 필요와 선호에 적응할 수 있다.

자율 학습과 진화
자율적으로 학습하고 진화할 수 있는 능력을 소유했다.
다른 자동차, 승객과의 상호작용을 통해 운전 기술 및 의사결정 능력 향상 가능
점차 진정한 의미의 자율 주행을 실현할 수 있다.

행동생성의 중요성
의사결정 : 
행동 생성은 각종 규칙, 환경에 따라 차량 의사 결정을 수행해야 한다.
교통 상솽, 도로 표지판, 신호 및 기타 도로 사용자의 행동을 고려해야 한다.

장애물 회피 및 안전 : 
장애물 또는 기타 차량의 갑작스런 출현과 같은 잠재적 위험 상황을 감지하고 대응할 수 있어야 한다.
신속하게 대응하여 충돌을 방지하고 탑승자의 안전을 확보해야 한다.

 

4차시 - 자율 자동차 행동 생성 2 

AIGC - AI에 의해 생성된 콘텐츠 

AIGC - Artificial intelligence generated ocntent
자동 운전은 검증을 위해 실제 데이터가 필요하다
AIGC 알고리즘 모델을 기반으로 한 시뮬레이터는 상당히 발전했다.
1. 데이터 부족, 품질 문제를 해결하기 위해 합성 데이터 생성
2. 훈련에 합성 데이터를 사용하면 프라이버시 문제를 효과적으로 피할 수 있다.
3. 방대한 데이터를 보다 저렴하고 효율적으로 대량생산 할 수 있다.

시뮬레이터는 합성 데이터 기술이다.

미래 전망
기술적 개선 : 더 똑똑하고 효율적으로 변해 더 안전한 결정을 내릴 수 있을 것이다.
다양한 감지 기술 :다양한 센서를 통해 포괄적인 환경 인식을 제공
규제 발전 : 행동 생성과 안전에 대한 요구사항을 높이고 지침과 규범을 제공할 것 

 

 

5차시 - 행동 생성 transformer 정리 

시퀸스 모델 : self-attention mechanism을 통해 시계열 데이터를 효율적으로 처리할 수 있으며, 트랜스포머는 순차적 사건을 모델링 하고 그들 관의 관계를 이해할 수 있다.

다양한 데이터 처리 : 다양한 센서를 이용해 환경을 인지하고, 데이터를 효과적으로 통합하여 종합적인 환경인식을 제공하기 위해 다양한 데이터를 동시에 처리할 수 있다.

의사 결정 : 인지 정보를 다양한 입력과 결합해 적절한 행동 전략을 개발할 수 있다.

실시간 : 효율적인 병렬 계산이 가능하므로 신속한 결정을 내려야하는 자율 주행 자동차에 매우 중요하다.

웨이모 : google - self attention 메카니즘을 통해 주변 차량과 보행자의 행동을 더 잘 이해한다.

테슬라 : 트랜스포머를 사용하며 자동 추종 및 자동 차선 변경과 같은 오토 파일럿 기능을 수행 

트랜스포머 기술이 자율 주행에 강력한 모델이 되었다.

 

퀴즈

더보기

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


자율주행 자동차에서 행동생성은 차량 시스템이 미리 정의된 목표뿐만 아니라 환경에 대한 인지된 정보를 바탕으로 적절한 행동계획을 수립하기 위한 _____ _______을 의미한다.”

하나를 선택하세요.
1.연산, 의사결정
2.분석, 반응
3.프로세스, 조정
4.절차, 전략

오... 연산과 의사결정 같네요

문장의 빈칸에 들어갈 가장 적절한 단어는 "연산, 의사결정"입니다. 따라서 정답은 1번입니다.

문장 완성:

“자율주행 자동차에서 행동생성은 차량 시스템이 미리 정의된 목표뿐만 아니라 환경에 대한 인지된 정보를 바탕으로 적절한 행동계획을 수립하기 위한 연산과 의사결정을 의미한다.”

선택지 분석:

  1. 연산, 의사결정:
    • 연산은 데이터 처리 및 계산을 의미하고, 의사결정은 그 결과를 바탕으로 적절한 행동을 결정하는 과정을 의미합니다. 자율주행 자동차의 행동생성 과정에서 환경 인지 데이터를 처리하고, 그 정보를 기반으로 적절한 행동을 결정하는 것이므로 이 선택이 가장 적절합니다.
  2. 분석, 반응:
    • 분석은 환경 인지 데이터를 처리하는 과정과 관련이 있지만, 반응은 단순히 행동을 의미할 뿐 행동계획을 수립하는 과정을 충분히 설명하지 않습니다.
  3. 프로세스, 조정:
    • 프로세스와 조정은 행동생성의 일부 요소일 수 있으나, 행동계획을 수립하기 위한 연산 및 의사결정 과정을 구체적으로 설명하지는 않습니다.
  4. 절차, 전략:
    • 절차와 전략은 일반적인 계획 수립과 관련된 용어지만, 연산과 의사결정처럼 구체적인 행동생성 과정과 직접적으로 연결되지는 않습니다.

이유:

자율주행 자동차에서 행동생성은 복잡한 연산을 통해 환경 데이터를 처리하고, 이를 바탕으로 최적의 행동을 결정하는 과정을 포함합니다. 따라서 "연산"과 "의사결정"이 이 과정을 가장 잘 설명하는 단어입니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“자율주행 자동차는 카메라, ________, ________ 등 다양한 센서를 이용하여 환경을 인지하고, 이 센서들에 의해 생성된 다양한 데이터를 효과적으로 사용한다”

하나를 선택하세요.
1.레이더, 초음파
2.라이다, 레이더
3.GPS, 가속도계
4.마이크, 열센서

2번이요! 1번도 될거 같은데...... 일단 주된 센서는 2번이니 

문장의 빈칸에 들어갈 가장 적절한 단어는 "라이다, 레이더"입니다. 따라서 정답은 2번입니다.

문장 완성:

“자율주행 자동차는 카메라, 라이다, 레이더 등 다양한 센서를 이용하여 환경을 인지하고, 이 센서들에 의해 생성된 다양한 데이터를 효과적으로 사용한다”

선택지 분석:

  1. 레이더, 초음파:
    • 레이더와 초음파는 자율주행 자동차에서 사용되는 센서이지만, 초음파는 주로 가까운 거리의 물체를 감지하는 데 사용되며, 주된 환경 인지 센서로는 덜 일반적입니다.
  2. 라이다, 레이더:
    • 라이다와 레이더는 자율주행 자동차에서 환경 인지를 위한 주요 센서입니다. 라이다는 레이저를 이용해 고해상도의 3D 지도를 생성하고, 레이더는 물체의 거리와 속도를 측정하는 데 매우 유용합니다. 따라서 이 조합이 가장 적절합니다.
  3. GPS, 가속도계:
    • GPS와 가속도계는 위치 추적과 차량의 움직임을 측정하는 데 사용되지만, 환경 인지를 위한 주요 센서는 아닙니다.
  4. 마이크, 열센서:
    • 마이크와 열센서는 자율주행 자동차에서 주된 환경 인지 센서로 사용되지 않습니다. 마이크는 소리를 감지하고, 열센서는 열 신호를 감지하는 데 사용됩니다.

이유:

자율주행 자동차는 환경 인지를 위해 고해상도와 정확한 거리 측정을 제공하는 센서를 필요로 합니다. 라이다(LIDAR)는 레이저를 이용해 정밀한 3D 지도를 생성하고, 레이더는 날씨 조건에 관계없이 물체를 감지할 수 있습니다. 이 두 센서는 자율주행 기술에서 매우 중요한 역할을 합니다. 따라서 "라이다"와 "레이더"가 문장에 가장 적합한 단어입니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


“웨이모(Waymo)는 자율주행 분야의 선두 주자 중 한 명으로, 자율주행차의 의사결정을 개선하기 위해 _________기술을 채택했다.”

하나를 선택하세요.
1.트랜스포머
2.GAN
3.DQN
4.CNN

트렌스포머랑 CNN 둘 중 하나인데... 트렌스포머겠죠...?

문장의 빈칸에 들어갈 가장 적절한 단어는 "DQN"입니다. 따라서 정답은 3번입니다.

문장 완성:

“웨이모(Waymo)는 자율주행 분야의 선두 주자 중 한 명으로, 자율주행차의 의사결정을 개선하기 위해 DQN 기술을 채택했다.”

선택지 분석:

  1. 트랜스포머 (Transformer):
    • 트랜스포머는 자연어 처리(NLP)와 같은 분야에서 주로 사용되는 모델입니다. 자율주행차의 의사결정과는 직접적으로 관련되지 않습니다.
  2. GAN (Generative Adversarial Network):
    • GAN은 주로 이미지 생성, 데이터 증강 등의 분야에서 사용됩니다. 자율주행차의 의사결정을 개선하는 데 직접적으로 사용되지는 않습니다.
  3. DQN (Deep Q-Network):
    • DQN은 강화학습(Deep Reinforcement Learning) 알고리즘 중 하나로, 자율주행차의 의사결정을 개선하는 데 매우 적합합니다. DQN은 에이전트가 환경과 상호작용하며 최적의 행동을 학습할 수 있게 해줍니다. 따라서 자율주행차의 의사결정을 개선하는 데 적절한 기술입니다.
  4. CNN (Convolutional Neural Network):
    • CNN은 주로 이미지 인식, 객체 탐지 등의 분야에서 사용됩니다. 자율주행차의 센서 데이터 처리에는 사용될 수 있지만, 의사결정 개선에 직접적인 관련은 없습니다.

이유:

DQN은 강화학습 기법으로, 자율주행차가 다양한 주행 상황에서 최적의 의사결정을 내릴 수 있도록 도와줍니다. 웨이모와 같은 자율주행차 회사는 이러한 기술을 활용하여 차량이 복잡한 주행 환경에서 스스로 학습하고 최적의 주행 경로를 선택하도록 합니다. 따라서 "DQN"이 문장에 가장 적합한 단어입니다.

ㅎㅎ,....

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


자율 주행 차량 또는 자율 주행 자동차라고도 하는 자율 주행은 인간 운전자의 개입 없이 자율적으로 ______을 감지하고 ________을 내리고 차량제어 할 수 있는 교통수단의 한 유형이다.”

하나를 선택하세요.
1.장애물, 경로
2.신호, 방향
3.데이터, 선택
4.주변 환경, 의사 결정

4번이 가장 적합하네요. 

문장의 빈칸에 들어갈 가장 적절한 단어는 "주변 환경, 의사 결정"입니다. 따라서 정답은 4번입니다.

문장 완성:

“자율 주행 차량 또는 자율 주행 자동차라고도 하는 자율 주행은 인간 운전자의 개입 없이 자율적으로 주변 환경을 감지하고 의사 결정을 내리고 차량을 제어할 수 있는 교통수단의 한 유형이다.”

선택지 분석:

  1. 장애물, 경로:
    • 장애물 감지와 경로 설정은 자율 주행의 중요한 부분이지만, 문장에서 전체적인 맥락을 잘 설명하지 않습니다.
  2. 신호, 방향:
    • 신호 감지와 방향 설정 역시 자율 주행의 일부 기능이지만, 자율 주행의 전체적인 기능을 설명하는 데는 부족합니다.
  3. 데이터, 선택:
    • 데이터 감지와 선택은 자율 주행의 기능을 너무 일반적으로 설명하며, 구체적으로 자율 주행의 핵심 요소를 담고 있지 않습니다.
  4. 주변 환경, 의사 결정:
    • 주변 환경 감지와 의사 결정은 자율 주행의 핵심 기능을 정확하게 설명합니다. 자율 주행 차량은 다양한 센서를 사용하여 주변 환경을 인지하고, 이를 바탕으로 주행 경로를 포함한 여러 가지 의사 결정을 내립니다.

이유:

자율 주행 차량의 주요 기능은 주변 환경을 감지하여 상황을 인식하고, 이를 기반으로 주행 경로 및 행동을 결정하는 것입니다. 이러한 의사 결정 과정을 통해 차량을 안전하게 제어합니다. 따라서 "주변 환경"과 "의사 결정"이 문장의 맥락에 가장 적합합니다.

 

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.


자율주행차의 학습을 위해 가장 중요한 것은 고품질의 _______를 많이 확보하는 것이지만, 현실적으로 완벽한 ______를 무작위로 수집하는 것은 거의 불가능하다.”

하나를 선택하세요.
1.경험
2.데이터
3.센서 정보
4.이미지

데이터겠네요

문장의 빈칸에 들어갈 가장 적절한 단어는 "데이터"입니다. 따라서 정답은 2번입니다.

문장 완성:

“자율주행차의 학습을 위해 가장 중요한 것은 고품질의 데이터를 많이 확보하는 것이지만, 현실적으로 완벽한 데이터를 무작위로 수집하는 것은 거의 불가능하다.”

선택지 분석:

  1. 경험:
    • 경험은 자율주행차 학습에 중요한 요소일 수 있지만, 이 문맥에서는 자율주행차가 학습하는 주체가 아니라는 점에서 적절하지 않습니다.
  2. 데이터:
    • 데이터는 자율주행차의 학습을 위해 가장 중요한 요소입니다. 고품질의 데이터를 많이 확보하는 것이 자율주행 시스템의 성능을 높이는 데 필수적입니다. 문장의 두 번째 빈칸에도 잘 어울립니다.
  3. 센서 정보:
    • 센서 정보도 중요한 데이터의 한 부분이지만, 학습을 위한 전반적인 데이터를 의미하는 데는 다소 좁은 의미입니다.
  4. 이미지:
    • 이미지도 자율주행차 학습에 중요한 데이터의 한 유형이지만, 전체 데이터를 대표하지 않습니다.

이유:

자율주행차의 학습 과정에서 가장 중요한 것은 고품질의 다양한 데이터를 수집하고 이를 통해 모델을 학습시키는 것입니다. 이 데이터는 센서 데이터, 주행 기록, 이미지 등 다양한 형태를 포함할 수 있지만, 일반적으로 이를 모두 포괄하는 용어는 "데이터"입니다. 따라서 "데이터"가 문장의 맥락에 가장 적합한 단어입니다.



 

 

 

728x90