728x90
728x90
강화학습을 진행하면서 보상함수의 중요성에 대해 뼈져리게 느끼고 있네요 ㅎㅎ...
위 사진을 보시면 학습시간이 어마 무시하다는 것을 알 수 있습니다.
다른 Fully Connected Layer를 기반으로 한 12k 파라미터 네트워크들은 반복하는데 몇초도 걸리지 않지만 강화학습은 시뮬레이션 기반이라 그런지, 컴퓨터 리소스가 부족해서인지 진짜 한참 걸리고 있습니다.
일단 램도 많이 쓰고 있고여 ㅎㅎ...
그래도 뭔가 학습되는 과정을 보고, 변동성을 보니까 할 마음이 생깁니다.
이전에 다양한 사례들을 보여드리면....
아마 시간이 오래걸리더라도 조금 참고 기다리면서 더 진행하게 냅뒀으면 다른 결과를 보여줬을 수도 있겠지만 그게 정말 어려운 것 같습니다.
딥러닝은 결과가 그때 그때 정확도나 loss로 모델이 똑똑해지고 있다는 것이 눈에 보이지만 강화학습은 이런 것이 너무 오래걸리고, 바로 결과를 확인할 수 없는 것이 너무 크내요.
일단 학습은 진행되고 있고, 저는 그 동안 matlab으로 fine-tuning한 SLM모델을 만들러 가보겠습니다.
아마 모델 1000번 학습하는데 대략 17시간 정도 걸리니까 내일 오후엔 새로운 결과를 가지고 올 수 있겠네요
속도 체감해보시면 엄청 느린 것을 볼 수 있습니다....
2024 - 07 - 24 AM 01:17경
첫 성공!
드디어...
728x90
'인공지능 > 강화학습' 카테고리의 다른 글
matlab 강화학습 - Driving Scenario Designer을 활용한 AMR end to end 최종 (0) | 2024.08.06 |
---|---|
MATLAB/Simulink를 통한 자율 주행 로봇 강화학습 하기 (2) | 2024.07.24 |
강화학습을 통한 실내 자율주행 로봇 만들기 첫 학습 matlab, simulink, driving scenario designer (0) | 2024.07.21 |
AI 경진대회 - Scenario Reader와 RL Agent 묶기 (1) | 2024.07.20 |
AI 경진대회 준비 - MATLAB ultrasonic 센서 오류 (0) | 2024.07.17 |