인공지능/공부

인공지능과 빅데이터 13주차 - 데이터 전처리 이론, 실습

이게될까 2024. 5. 13. 22:10
728x90
728x90

1차시 - 데이터 전처리 개요

허점이 있다!

데이터가 올바르지 않으면 출력도 좋지 않다.

데이터의 중요성이 크다!

시각화도!

데이터가 무엇보다도 중요하다!

필요한 데이터가 많아야 한다.

raw 데이터를 가공을 통해 좋은 데이터로 만든다.

쓸모없는 데이터가 가장 중요한 데이터가 뭔지 판별할 수 있어야 한다.

Pandas를 사용하면 데이터 프레임구조를 가진다.

결측치는 0으로 채우거나, 그 행을 지우는 등의 방식으로 사용할 수 있다.

정답과의 상관관계가 가장 높은 것을 봐야 한다.

이 것은 결과를 통해 설명한다.

 

2차시 - 정형 데이터 전처리 실습

정형 데이터 - 엑셀과 같이 정리된 데이터들

데이터셋 위치

다운로드 받는 법

8개의 속성과 한개의 클래스

이러한 코드 진행을 통해 파일을 업로드하고, 읽을 수 있다.

일부 데이터만 확인하여 흐름을 확인할 수 있다.

데이터의 전반적인 내용을 확인할 수 있다.

non- null : 결측 데이터가 없다

평균, 분산, 개수 등 자세한 청보를 확인할 수 있다.

특정 열의 정보만 확인할 수 있다.

데이터 간의 상관 관계를 확인할 수 있다.

높을 수록 높은 상관성을 가지는 것이다.

히스토그램으로 표현

 

3차시 - 비정형 데이터 전처리 실습

라이브러리와 데이터를 불러온다.

데이터의 유형 확인

특정 데이터 출력

특정 데이터를 출력하는 방식은 다양하다!

데이터를 시각화해 보았다.

시각화를 통해 분석이 가능하다.

데이터 형식!

FCN을 사용할 때는 펼쳐야 된다.

데이터를 변환한다!

normalization도 진행해주었다.

위의 3줄 내용을 한번에 진행한 것이다.

라벨 확인을 진행

이 숫자를 그대로 사용할 수 없다. categorical을 진행해줘야 된다.

바이너리화 과정, 원 핫 인코딩 과정 이라고 부른다.

728x90