언어/R

빅데이터 분석 실무 1일 차

이게될까 2024. 7. 8. 18:49
728x90
728x90

R을 사용한다!

데이터 사이언스 

빅데이터 - 테라바이트 ~ 페타바이트에 이르는 크기로 용량이 크다.

빅 데이터의 특징 3V/4V
Volme - 대규모 데이터
Velocity - 실시간에 가까운 빠른 수집 속도 
Variety - 다양한 데이터 타입으로 정형, 비정형(영상, 소리, 이미지), 반정형
Value - 빅 데이터를 활용한 가치 창출 의미 부여  = 새로운 가치 창조 
3V를 통해 새로운 인사이트 Value를 창출한다.

설명 모델 - 대규모 데이터를 분석하고 실제 문제 해결에 적용하는 학문
예측 모델 - 

설명모델 - Clusterind : 군집 분석, Decision Tree: 의사 결정 나무, 선형 회귀(Linear Regression)
ex) 쇼핑물 모델에 따른 이탈 현상 

예측모델 - 

 

빅데이터 처리 과정
데이터 수집 -> 데이터 전처리 -> 데이터 탐색 -> 데이터 분석 모델 -> 해석 및 활용
데이터 수집 -> 데이터 준비 -> 데이터 탐색 -> 데이터 모델링 -> 활용 

확증적 데이터 분석 CDA - 세워진 가설을 검증

예측적 데이터 분석 PDA - 미래의 사건이나 결과 예측 = 머신 러닝 

 

데이터 분석 과정(수 전 탐 분 해)
데이터 수집 -> 데이터 전처리 -> 데이터 탐색 -> 데이터 분석 모델 -> 해석 및 활용
데이터 수집 -> 데이터 준비 -> 데이터 탐색 -> 데이터 모델링 -> 활용 

데이터 수집 - 수집된 데이터를 분석하거나 새롭게 수집하기, 적합하지 않은 데이터인 경우 

데이터 전처리 - 정제, 통합, 변환 
정제 - 결측치 처리, 중복 데이터 처리, 이상치 처리 등의 작업 
통합 - 2개 이상의 데이터를 하나의 객체로 합치는 작업 = 공통 분모를 기준으로 나머지 합치기 
변환 - 기존 데이터를 연산을 통해 새로운 변수를 생성 
결측치 처리 법 - 제거, 대체, 예측
이상치 처리 방법 - 제거, 대체, 변환

데이터 탐색 - 데이터 이해하기

데이터 분석 모델 - CDA(가설 검증), PDA(머신 러닝) 

 

 

R은 오픈 소스다 - 전 세계에 CRAN 아카이브 서버가 퍼져있다 -> 데이터가 저장되어 있다. 

데이터 분석 - 결정하는데 있어 수 많은 데이터에 의존하여 예측하는 것 

 

정형 데이터 = 관계형 데이터 베이스 - 열(속성, 라벨)과 행(인스턴스 별 레코드)으로 이루어져 있다.
비정형 데이터 = 구조화 되지 않은 데이터 - 파일형태나 NoSQL(스키마가 없다) 데이터 베이스를 사용하여 관리 
반정형 데이터 = 둘의 특징을 모두 가지고 있는 데이터 - JSON(키와 벨류), XML과 같은 형식 데이터 -> 벡터 형식으로 저장된다. - 대괄호로 찾아간다.

 

스키마 = 테이블 = 열 + 행 

 

의존한다 - R이 패키지 설치하고 돌아갈 때 자바가 필요하다.

 

728x90

'언어 > R' 카테고리의 다른 글

빅 데이터 분석 실무 필기 준비  (1) 2024.07.10
빅데이터 분석 실무 3일차  (0) 2024.07.10
빅데이터 분석 실무 2일차  (0) 2024.07.09