R을 사용한다!
데이터 사이언스
빅데이터 - 테라바이트 ~ 페타바이트에 이르는 크기로 용량이 크다.
빅 데이터의 특징 3V/4V
Volme - 대규모 데이터
Velocity - 실시간에 가까운 빠른 수집 속도
Variety - 다양한 데이터 타입으로 정형, 비정형(영상, 소리, 이미지), 반정형
Value - 빅 데이터를 활용한 가치 창출 의미 부여 = 새로운 가치 창조
3V를 통해 새로운 인사이트 Value를 창출한다.
설명 모델 - 대규모 데이터를 분석하고 실제 문제 해결에 적용하는 학문
예측 모델 -
설명모델 - Clusterind : 군집 분석, Decision Tree: 의사 결정 나무, 선형 회귀(Linear Regression)
ex) 쇼핑물 모델에 따른 이탈 현상
예측모델 -
빅데이터 처리 과정
데이터 수집 -> 데이터 전처리 -> 데이터 탐색 -> 데이터 분석 모델 -> 해석 및 활용
데이터 수집 -> 데이터 준비 -> 데이터 탐색 -> 데이터 모델링 -> 활용
확증적 데이터 분석 CDA - 세워진 가설을 검증
예측적 데이터 분석 PDA - 미래의 사건이나 결과 예측 = 머신 러닝
데이터 분석 과정(수 전 탐 분 해)
데이터 수집 -> 데이터 전처리 -> 데이터 탐색 -> 데이터 분석 모델 -> 해석 및 활용
데이터 수집 -> 데이터 준비 -> 데이터 탐색 -> 데이터 모델링 -> 활용
데이터 수집 - 수집된 데이터를 분석하거나 새롭게 수집하기, 적합하지 않은 데이터인 경우
데이터 전처리 - 정제, 통합, 변환
정제 - 결측치 처리, 중복 데이터 처리, 이상치 처리 등의 작업
통합 - 2개 이상의 데이터를 하나의 객체로 합치는 작업 = 공통 분모를 기준으로 나머지 합치기
변환 - 기존 데이터를 연산을 통해 새로운 변수를 생성
결측치 처리 법 - 제거, 대체, 예측
이상치 처리 방법 - 제거, 대체, 변환
데이터 탐색 - 데이터 이해하기
데이터 분석 모델 - CDA(가설 검증), PDA(머신 러닝)
R은 오픈 소스다 - 전 세계에 CRAN 아카이브 서버가 퍼져있다 -> 데이터가 저장되어 있다.
데이터 분석 - 결정하는데 있어 수 많은 데이터에 의존하여 예측하는 것
정형 데이터 = 관계형 데이터 베이스 - 열(속성, 라벨)과 행(인스턴스 별 레코드)으로 이루어져 있다.
비정형 데이터 = 구조화 되지 않은 데이터 - 파일형태나 NoSQL(스키마가 없다) 데이터 베이스를 사용하여 관리
반정형 데이터 = 둘의 특징을 모두 가지고 있는 데이터 - JSON(키와 벨류), XML과 같은 형식 데이터 -> 벡터 형식으로 저장된다. - 대괄호로 찾아간다.
스키마 = 테이블 = 열 + 행
의존한다 - R이 패키지 설치하고 돌아갈 때 자바가 필요하다.
'언어 > R' 카테고리의 다른 글
빅 데이터 분석 실무 필기 준비 (1) | 2024.07.10 |
---|---|
빅데이터 분석 실무 3일차 (0) | 2024.07.10 |
빅데이터 분석 실무 2일차 (0) | 2024.07.09 |