인공지능/공부

생성형 인공지능 입문 13주차 - Transformer 기반 action 생성

이게될까 2024. 5. 27. 17:07
728x90
728x90

이번 시간은 13주차 입니다.
13주차 강의는 총 5개의 차시로 구성되어 있습니다.

이번 강의에서는 강화학습 리뷰, 판단 트랜스포머, 행동 생성용 트랜스포머,
셰프 로봇의 행동 생성, AI 기반 행동 생성을 다룹니다.

강의를 통해서 여러분은 강화학습, 트랜스포머 기반 강화학습, 행동 생성용 트랜스포머를 설명할 수 있고,
생성형 AI기반 요리로봇, AI기반 행동 생성 기법을 설명할 수 있게 됩니다.

아래 영상의 재생 버튼을 클릭하여 학습을 시작하세요.

1차시 - 강화 학습 리뷰

강화 학습을 마지막 단에 넣는다.

비지도 학습을 통해 추론과 생성을 진행할 수 있다.

정책을 따라 리워드를 받고 학습하는 강화학습!

SART를 하나의 튜플로 만들어서 확인한다.

보상의 중요도가 엄청 높았다.

 

궁극적으로 많은 리워드를 받는 것이 중요하다! - 리턴!

Q - 테이블을 만들어서 상태에 어떤 액션을 했을 때 좋았는지 나빴는지를 기억해 놓는다.

 

2차시 - 판단 트랜스포머 (Decision Transformer)

MDP 모델에 적용된다.

게임이면 플레이, 드라이브는 드라이버가 된다.

온라인 - 현상황을 제어한다.

오프라인 - 오프라인 데이터를 통해 일관적으로 만들어 보자

 

 

레퍼런스를 데이타 셋을 통해 학습한다.

-> 제 3의 데이터 셋을 주어도 잘 하게 된다.

동작을 완성하는데 transformer가 사용되고 있다.

 

3차시 - 행동 생성형 트랜스포머 Behavior Transformer

행동의 클러스터가 따로 있다.

k mode에 의해 규격화 된다.

 

MinGPT- 작은 규모의 GPT

로봇도 시뮬레이션 환경이 있다.

명령은 텍스트로 주어지고, 행동은 알아서 진행하고 있다.

문장에 의해 그 행동을 진행하고 학습한다.

CARLA = 자율주행 자동차 시뮬레이터이다.

텍스트 명령에 따른 행동도 보여줄 것이다.

 

4차시 - 셰프 로봇의 행동 생성

레시피에 따른 음식을 로봇이 잘 만들 수 있을 까?

염도 센서를 통해 로봇이 기호도를 맞출 수 있다.

Transformer를 통해 다양하게 구분할 수 있다.

요구사항을 넣어 내 입맛에 맞는 음식을 만들 수 있다. -> 언어 모델 기반

불량품을 사람이 체크하면 오래걸리므로 인공지능으로 해결하는 일도 많다.

자율주행 자동차처럼 요리 시뮬레이터도 존재한다.

점수 == Lossfunction

 

5차시 - AI기반 행동 생성

Text를 기반으로 행동, 오디오, 택스트 등 다양한 출력이 나온다.

인간이 가질 수 있는 명령중 가장 세밀하게 할 수 있는 것이 Text다.

가장 획기적으로 처리하는 곳은 NLP 쪽이다.

 

https://robotics.farama.org/envs/franka_kitchen/franka_kitchen/

 

Gymnasium-Robotics Documentation

Gymnasium-Robotics is a collection of robotics simulation environments for Reinforcement Learning

robotics.farama.org

728x90