단변량 분석 - 범주형
·
KT AIVLE School/데이터 처리 및 분석
범주형 분석하는 방법1. 범주별 개수를 세기2. 범주별 빈도수, 비율- value_counts()normalize=True : 비율, 없으면 갯수로 표현titanic['Embarked'].value_counts(normalize = True) 3. 시각화하기 : Bar plot- sns.countplot- plt.pieplt.pie(temp.values, labels = temp.index, autopct = '%.2f%%')
단변량 분석 - 숫자형
·
KT AIVLE School/데이터 처리 및 분석
1. 숫자형 정리하는 두가지 방법1-1. 도수분포표구간나누고 빈도수 계산으로 나누기 1-2. 기초 통계량정보의 대푯값으로 나누기 - 사분위수데이터를 오름차순으로 정렬한 후, 4등분으로하여 24%, 50%, 75%를 의미 1-3. describe()- 시리즈.describe() - 데이터프레임.describe().T.T를 붙이면 행,열을 바꿔서 볼 수 있음 2. 시각화하기2-1. Histogram- plt.hist (변수명, bins=구간수, edgecolor ='gray')-edgecolor : bar의 윤곽선을 회색으로 표시plt.hist(titanic.Fare, bins = 30, edgecolor = 'gray')  - sns.histplot(x = 변수명, data = 데이터, bins = 구간수..
시각화 라이브러리
·
KT AIVLE School/데이터 처리 및 분석
데이터의 시각화데이터의 비즈니스가 담겨 있습니다.비즈니스의 인사이트를 파악하는 것이 중요합니다. - 환경 준비import pandas as pdimport numpy as np# 시각화 라이브러리import matplotlib.pyplot as pltimport seaborn as sns - dropna 결측치 없애기(NaN, Null 등)axis = 0 : 행을 기준으로inplace = True : 진짜 날려라path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality_simple2.csv'data = pd.read_csv(path)data['Date'] = pd.to_datetime(data['Date'])#결측치 없애기data..
데이터분석 방법론
·
KT AIVLE School/데이터 처리 및 분석
CRISP-DM비즈니스 문제해결 방법론① 비즈니스 문제 이해 - 가설 수립무엇이 문제인가?가설 수립1. 해결해야 할 문제가 무엇인가? (y, 목표, 관심사)2. Y를 설명하기 위한 요인을 찾기 (x)  3. 가설의 구조를 정의 (x → y) ② 데이터 이해1. 초기 가설과 준비된 데이터 셋데이터 원본 식별 및 취득 (있는 데이터, 없는 데이터 확인) 2. 분석을 위한 구조 만들기 3. 데이터 탐색 EDA : 탐색적 데이터 분석 (그래프, 통계량) CDA : 확증적 데이터 분석 (가설검정, 실험) 4. 가설 확인, 전처리 대상 정리, 데이터와 비즈니스에 대해 이해 ③ 데이터 준비모델링을 위한 데이터 구조 만들기1. 모든 셀은 값이 있어야 한다. (결측치 조치)2. 모든 값은 숫자여야 한다. (가변수 화)3..
시계열 데이터 처리
·
KT AIVLE School/데이터 처리 및 분석
시계열 데이터의 기준시간의 순서와 흐름이 있다.시간의 등간격이 동일해야 한다. 1. 날짜 데이터 요소1-1. 날짜 타입으로 변환pd.to_datetimedata['Date'] = pd.to_datetime(data['Date'], format = "%d/%m/%Y') 1-2. 날짜 요소 추출  2. .shift()정보를 이동시켜 이전 값 옆에 붙이기  3. .rolling()일정 기간 동안 평균을 이동하면서 구하기 min_periods : NaN없이 최소 1번째부터 평균구하기 4. .diff()이전 데이터와의 차이 구하기.diff(2) : 2개 전 데이터와 차이 구하기# 전날대비 매출액 증감여부 (증가 1, 감소 -1, 동일 0)data['Grocery_diff'] = np.where(data['Groc..
데이터프레임 결합
·
KT AIVLE School/데이터 처리 및 분석
하나의 데이터셋으로 만드는 과정! 👉 환경 설정import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 1. pd.concat데이터 프레임 구조에 맞게 합치기 - 인덱스, 열 기준pd.concat([df1, df2], axis = 0, join = 'inner', ignore_index=True) 데이터프레임에 ' '를 붙이지 않음 - axisaxis = 0 : 행으로 붙임(세로로 붙임) axis = 1 : 열로 붙임(가로로 붙임)- joinouter : 모든 행,열 합치기inner : 같은 행,열 합치기 - ignore_index=True기존의 행 번호 무시하기 2. pd.merge지정한 값을 기준..
데이터프레임 변경
·
KT AIVLE School/데이터 처리 및 분석
1 . 열 이름 변경- columns : 모든 열 이름 변경data.columns=['~','~'] - rename() : 지정 열 이름 변경 > 딕셔너리로 설정inplace =True : 진짜 변경해줘! (False가 디폴트 - 조회)data.rename( columns={'원래이름' : '변경이름','~':'~'}, inplace = True ) 2. 열 추가- data['새로운컬럼']data.insert(1, '새로운컬럼이름', data['다른컬럼'] + data['다른컬럼'])- insert()data.insert(1, '새로운컬럼이름', data['다른컬럼'] + data['다른컬럼'])맨 앞에 1은 컬럼 위치 ※ 열 조회 3가지list(data)data['열이름'].value_counts()d..