반응형

인공지능/공부 281

모두를 위한 머신러닝 9주차 5차시 - 학습 알고리즘의 성능 향상

음.... optimizer는 아닐거 같은디파라미터 최적화인가...?epoch를 늘리거나, 복잡도 감소시키거나...오버피팅 해결언더 피팅 해결특징값을 증가시키는 효과가 있다.오버피팅 유의하기!히든 레이어 수 ? 노드 수?노드 수가 많다 - 일반적으로 사용할 수 있다. -> 충분하지 않으면 레이어 수를 늘린다.why?신경망에서 히든 레이어의 노드 수를 늘리는 것은 모델의 용량을 증가시켜 더 복잡한 패턴을 학습할 수 있게 하는 한 방법입니다. 노드 수를 늘릴 때의 주된 이유는 다음과 같습니다:계산 효율성: 레이어의 노드 수를 늘리는 것은 비교적 간단하며, 추가적인 레이어를 도입하는 것보다 계산상의 부담이 덜 합니다. 각 레이어가 추가될 때마다, 네트워크의 깊이가 깊어지고, 이로 인해 학습이 더 어려워질 수 ..

인공지능/공부 2024.05.02

모두를 위한 머신러닝 9주차 4차시 - 학습 곡선

읭 validation이랑 train 학습 loss 곡선인가...?데이터 개수가 증가할 수록 오차가 증가한다. 데이터가 증가함에 따라 train 오차는 늘어나고, validation 오차는 감소한다.train 데이터를 더 많이 수집하더라도 영향을 주지 못한다. 너무 높은 error를 가지게 된다. 복잡도를 늘려늘려validation오차가 감소하는데 train과 차이가 난다. (Large gap) 학습 데이터가 많아지면 갭이 줄어든다.

인공지능/공부 2024.05.02

머신러닝 9주차 3차시 - bias, Variance

언더 피팅 - 지나치게 단순해서 데이터의 추이를 따라가지 못한다.오버 피팅 - 지나치게 복잡하다( 지나치게 높은 차수)적당히 따라가서 트랜드를 잘 따라간다 == 일반화 성능이 우수하다.차수가 증가함에 따라 학습 오차는 점점 준다validation은 일정 이상이 되면 오차가 늘어난다.둘다 크면 언더피팅이죠! == 높은 편향!y 만 관측 가능하고, 입실론 때문에 오차가 발생하게 되낟. y의 평균은 h, 분산은 시그마의 제곱이 된다. 노이즈의 평균값은 0이므로 사라지는 값이 생긴다.시그마 제곱 - 원래 데이터를 생성하는 모델에 포함되어 있는 노이즈의 분산Variance - 파라미터를 완벽하게 예측할 수 없기 때문에 생기는 오차bias - 단순화하였기 때문에 생긴 오차정규화 항이 있다면? 람다 값을 어떻게 잘 ..

인공지능/공부 2024.05.02

머신러닝 9주차 2차시 - 최적 모델의 선택(데이터 셋 나누기)

다항식의 차수는 얼마나 할까? 특징값은 얼마나 포함할까?정규화 파라미터는 어떻게 선택할까?학습, 검증, 테스트 데이터로 나누기!예측 함수가 새로운 데이터에서도 잘 작동한다고 보장할 수 없다.학습 오차가 검증이나 테스트 오차보다 작다.1 ~ 10차 함수까지 다 고려하여 적합한 다항식 차수 찾기이다.test 오차를 검사한다! 검증 데이터는 안쓰네공정한 평가가 아니다! 여기서 validation이 나오네요 세 가지의 오차값을 구할 수 있게 된다.일단 train을 통해 최적 파라미터를 각각 구한다.validation을 통해 최소 오차인 차수를 구한다! -> 그걸로 test data를 오차 계산

인공지능/공부 2024.05.01

머신러닝 9주차 1차시 - 예측 함수 성능 평가(데이터 셋 분류)

어떤 선수가 가장 좋은 결과를 얻었을까? 비용함수를 최소화해보자 보지 못한 데이터 == 학습 과정에 사용하지 않은 데이터 == 테스트 데이터로 사용한다.여기서도 잘 작동하면 문제 없다.오차가 크다 -> 성능 향상 필요 학습데이터 더 많이 수집하기 - 시간과 노력 필요-> 확실하게 알고 시작하기 너무 많은 수의 특징값을 사용하고 있다. - 필요한 특징값 몇개만 사용하여 과적합 방지를 위해 노력한다. 특징 값의 개수를 늘린다. 제곱, 곱하여 새로운 특징값 만들기정규화 파라미터 람다 감소하기! -> 학습 더 잘 한다.   학습 오차를 최소화하는 파라미터를 선택해야 한다. 새로운 데이터에 대해 일반화 시키지 못한다. == 오버피팅 예측함수를 그려서 시각적으로 확인하기 랜덤하게 선택한 데이터들! 오차를 최소화 하..

인공지능/공부 2024.05.01

인공지능과 빅데이터 9주차 3차시 - 빅데이터와 데이터 마이닝

빅 데이터 개요와 데이터 마이닝 개요!LLM, 자율주행, 생성형 이미지등 다양한 성능을 발현하고 있다.이러한 빅데이터를 통해 새로운 성장 동력을 찾기도 한다.비정형 데이터는 정형 데이터로 바뀔 수 있다.특정 분야에선 인간을 뛰어 넘기도 했다.삶에 도움이 되는 어플리케이션을 만들 수 있고 그 기술이 딥러닝, 머신러닝 이다.사생활 침해와 보안의 측면에 문제가 있기도 하다.데이터 갱신 속도, 활용 속도가 빠르다.빅데이터 = 정형 데이터 + 비정형 데이터 빅데이터 전문가 == 이 6가지를 잘 활용한다. 독감의 추세가 어떻게 될지 예측 가능하다.

인공지능/공부 2024.04.29

인공지능과 빅데이터 9주차 2차시 - 데이터 수집, 관리, 분석

데이터 사이언즈 작업의 흐름, 데이터 수집, 관리, 분석분야마다 다를 수 있지만 이 단계를 일반적으로 따른다.가장 중요성이 크다!원하는 목표를 달성하는 문제 정의를 잘 못하면 이상한 결과를 얻을 수 있다.문제 정의의 중요성을 보여준다.인터뷰, 데이터 베이스 활용 등 다양한 수집 방법이 있다.질문을 통해 여러 수집 방법을 고안할 수 있다.저장된 데이터를 활용한다.인공지능 뿐만이 아니라 전통적인 방식이 효율적일 수 있다.시각화 - 결과를 보기 쉽게 그래프나 표로 눈으로 보여주는 것sns나 seaborn이 있었던 것 같네요판다스를 활용하기도 한다.1단계에서 정의했던 문제에 대해 달성했는지 확인하는 단계이다. 데이터 분석 단계를 좀 더 확인해보자!분류와 클러스터링이 지속적으로 사용된다.라벨이 충분히 잘 되어 있..

인공지능/공부 2024.04.29

인공지능과 빅데이터 9주차 1차시 - 데이터 사이언스 개요, 활용 분야

대량의 데이터를 다루는 기술에 대한 수요가 증가하였다!인공지능 전에는 엄청난 시간이 소요되었다.빅데이터 기술 발전과 함께 분산컴퓨팅 고도화, 일반화-> 데이터 사이언스분산컴퓨팅, 기계학습, 통계학 등 다양한 능력이 필요하다.데이터는 그대로 데이터 베이스에 저장된다! -> 데이터를 유의미하게 사용하자데이터로부터 정보를 얻고, 의미있는 패턴을 찾아낸다iot와 ioe를 통해 데이터도 엄청나게 쌓인다.빅데이터가 수집되는 분야에서 데이터 사이언스는 필수이다.비지니스 활용 측면이 데이터 사이언스의 이점(기능) 중 하나이다.개인정보에 대한 동의가 있다면 데이터 활용을 통해 서비스를 개선할 수 있다.클러스터링 - 레이블 되지 않은 수 많은 데이터를 유사한 특징끼리 클러스터링을 해준다.비슷한 특징 - 컴퓨터가 알아서 해..

인공지능/공부 2024.04.29

모두를 위한 머신러닝 중간고사

1. 머신러닝 기법을 사용하는 것이 적합하다고 생각되는 컴퓨터 응용분야의 예시 2가지를 고르시오.하나 이상을 선택하세요.문단의 주제를 나타내는 토픽 문장 추출하기데이터베이스 관리하기계산기 프로그램 작성하기신청자의 신용상태를 고려하여 융자를 승인할 것인지 결정하기계산기와 같은 프로그램은 그냥 프로그램으로 만든게 훨씬 빠르고 간편하다. 데이터 베이스 관리도 머신러닝이 하기엔.....머신러닝 기법을 사용하는 것이 적합한 컴퓨터 응용분야의 예시로는 다음 두 가지를 선택할 수 있습니다:문단의 주제를 나타내는 토픽 문장 추출하기 - 이 경우, 머신러닝은 다양한 텍스트 데이터에서 중요한 주제나 개념을 식별하고, 그와 관련된 핵심 문장을 추출하는 데 사용될 수 있습니다. 자연어 처리(Natural Language Pr..

인공지능/공부 2024.04.25
728x90
728x90