반응형

인공지능/공부 281

생성형 인공지능 10주차 1차시 - 인코더 디코더 구조

GAN 이전에 나왔어야 하지 않았나 싶긴 한데.... 잠재 표현 = latent spaceRNN -> LSTM, GRU -> BERT, Transformer -> GPT .... image(CNN) -> Text(LSTM)  다양한 어플리케이션이 모든 분야에 적용되고 있다.영상 인코더 CNN -> Transformer(Vit,PVT SWIN)언어 인코더 RNN -> LSTM, GRU -> Transformer인코더 디코더의 결합 - 다양한 변환이 있을 수 있다.

인공지능/공부 2024.05.11

모두를 위한 머신러닝 10주차 퀴즈

다음 설명 중 머신러닝 시스템을 설계할 때 가장 먼저 고려하여야 할 사항은 무엇인가?하나를 선택하세요.샘플 데이터 수집하기학습 알고리즘 개발하기접근방식 선택하기 (지도학습 / 비지도학습)특징 추출하기데이터가 있어야 뭘 하든 말든 할 수 있으니까..... 1번 머신러닝 시스템을 설계할 때 가장 먼저 고려해야 할 사항은 **접근방식 선택하기 (지도학습 / 비지도학습)**입니다. 접근 방식을 결정함으로써 데이터 수집, 특징 추출 및 학습 알고리즘 개발과 같은 후속 작업들이 해당 방향에 맞게 진행될 수 있습니다. 지도학습과 비지도학습은 데이터의 종류와 목표에 따라 다르므로, 이 결정은 머신러닝 모델의 전체 구조를 정의하는 첫 단계입니다.GPT는....머신러닝 시스템을 설계할 때는 먼저 지도학습을 사용할 것인지,..

인공지능/공부 2024.05.09

모두를 위한 머신러닝 10주차 5차시 - 학습 데이터 수와 테스트 오차의 관계

학습 데이터 수는 머신러닝 학습 알고리즘에 큰 영향을 준다!!!이런 비슷한 단어 중 선택하기를 하고 있다.데이터의 개수가 증가함에 따라서 대체적으로 정확도가 증가한다!데이터가 많은 경우와 데이터가 적은경우의 성능이 다르다!누가 좋은 알고리즘이기 보다는 데이터가 누가 더 많냐가 승부를 가른다.이 사실은 언제 맞냐?오버피팅나면?충분한 특징 값이 있어야 데이터의 효과를 잘 뽑아낸다.충분히 많은 피쳐, 히든 레이어 수가 중요! 학습알고리즘을 충분히 복잡하게, 피쳐도 충분히 많이 사용할 때!

인공지능/공부 2024.05.09

모두를 위한 머신러닝 10주차 4차시 - 정밀도와 재현율의 Trade - off

정밀도와 재현율의 균형!우린 정확히 0.5로 나누기로 했다.높은 확률을 암이라고 판단한다!프리시전은 높이고, 리콜은 낮춘다.임계값!반비례한다.임계값을 자동으로 설정할 순 없을까?평균을 통해 판단할 수 있다.이제 T였나 무슨 스코어 였는데 F1이었네요적절히 균형을 맞춘 알고리즘이다.F1은 조화평균이다!F1 score도 커야지 좋은 지표이다.

인공지능/공부 2024.05.09

모두를 위한 머신러닝 10주차 3차시 - 불균형 데이터의 경우 오차 평가 척도

불균형 데이터 == 데이터의 수가 크게 차이나는 것이렇게만 만들어도 정확도가 99.5%!!!불합리한 결과는 데이터의 부류 내에 데이터의 개수가 매우 차이 나기 때문에 발생!!극단적인 경우를 skewed Classes라고 부른다.그냥 정확도를 확인하는게 좋은 척도가 아니다.단지 정확도가 올랐다고 성능이 좋아졌다고 하기 어렵다. 다른 척도가 필요하다.혼동 행렬(confusion matrix)이라고도 많이 불렀던 것 같네요정밀도 - 참이라고 예측한 경우 중 진짜 참인 경우재현율 - 참인 중에 참이라고 예측한 경우 (이게 암 환자한테 중요하다고 느끼네요..)재현율이 0이 되어 버렸다.정확도는 단지 데이터의 불균형 때문이었다. 에러는 이걸 반대로 하면 된다.진짜 부정 중 예측을 부정으로 한 경

인공지능/공부 2024.05.09

모두를 위한 머신러닝 10주차 2차시 - 오차 분석 방법

만약 더 많은 데이터, 특징들을 수집했을 때 도움이 되는지 확인하기 위해서 학습 곡선을 그려보는 것도 좋다. 스팸 분류기를 다시 생각해보자100개의 에러가 어떤 형태의 애러인지 확인해야 한다.그리고 대처할 수 있도록 새로 수정해야 한다.약을 파려는 건지, 개인정보 수집인지 등을 확인해야 한다! 32가지의 맞춤법 오류를 확인하여 적중률을 향상할 수 있다. 어원(어근)이 중요한 요인이 될 수 있다. 수치 평가 척도를 이용하면 성능 향상 시도가 얼마나 효과 있었는지 알수 있다! validation을 통해 알고리즘의 성능 향상을 확인할 수 있다.오차 분석을 통해 성능 향상의 방법, 다른 아이디어의 적용의 성능을 평가 할 수 있다.

인공지능/공부 2024.05.09

모두를 위한 머신러닝 10주차 1차시 - 머신러닝 시스템 설계 시 고려사항

질병의 발병률이 1%라고 생각하자!모두 음성이라고 추측하면 99%의 정확도를 가지게 된다....이것은 불균형 데이터이다. 시스템을 향상시키기 위해 고려해야할 3가지!스팸 골라내는 프로그램을 통해 알아보자이진 분류!스팸 메일은 물건을 팔고자 하거나 홍보를 하는 메일이고, 우리가 모르는 곳에서 보낸 메일이다.지도학습 머신러닝 알고리즘을 통해 만들 수 있다.특징 차원은 100차원이 된다.오 가짜 이메일 주소 만드는 건 좀 괜찮네스페머들은 이걸 애매하게 만들기도 한다.이런 데이터를 통해 정보를 얻을 수 있다.컴퓨터가 매칭할 수 없도록 이상하게 작성한 단어를 찾아내는 알고리즘도 만들어야 한다.GPT 겁나 경량화 해서 넣으면 엄청 잘할거 같은데,,,

인공지능/공부 2024.05.09

이전부터 살짝 아리까리 했던 RNN 정리하기

RNN은 기본적으로 시계열 데이터를 예측할 때 사용된다고 한다.그런데 인공지능을 만드는데 사용하면서 항상 애매했다...이 친구의 input, output이 어떻게 되는지내부 구조는 아는데 명확하게 계산이 어떻게 되는지를 정립을 못하고 있었다.2023.12.15 - [인공지능/공부] - 시계열 데이터(주가, imu data) 예측 인공지능 - RNN, LSTM 시계열 데이터(주가, imu data) 예측 인공지능 - RNN, LSTMRNN은 시간에 따라 변화하는 데이터를 얘측할 때 사용된다. stationary( 변화없는 )데이터 NON - stationary 데이터 둘 중에 무엇이든 이러한 데이터들은 이전의 값들이 필요하다. 그러나 CNN, FCN을 사용하yoonschallenge.tistory.com ..

인공지능/공부 2024.05.09
728x90
728x90