시계열 데이터
·
KT AIVLE School/데이터 분석 및 의미 찾기
보통 사용하는 시각화 그래프histplot x, boxplot x, countplot x, kospi x, regplot x, barplot x - 시간의 흐름에 따라 패턴 찾기1. 라인 차트x축 = 시간축plt.figure(figsize = (12,4))sns.lineplot(x = 'Date', y = 'Close', data = kospi, linewidth = .7)plt.show() # 축을 양쪽에 두고 그립시다.plt.figure(figsize = (12,5))# 왼쪽 축ax1 = sns.lineplot(x = 'Date', y = 'Close', data = kospi, label = 'Close', color = 'blue', linewidth = .5)plt.legend(loc='uppe..
이변량 분석 : 숫자 → 범주
·
KT AIVLE School/데이터 분석 및 의미 찾기
시각화밖에 없다. import pandas as pdimport numpy as npimport random as rdimport matplotlib.pyplot as pltimport seaborn as snsfrom statsmodels.graphics.mosaicplot import mosaic #mosaic plot!import scipy.stats as spst 1. KDEplot- sns.kdeplot(x='숫자', data = 데이터, hue = '범주', common_norm =False)sns.kdeplot(x='Age', data = titanic, hue ='Survived', common_norm = False)plt.show()  1. common_norm = False ..
이변량 분석 : 범주 → 범주
·
KT AIVLE School/데이터 분석 및 의미 찾기
교차표 - pd.crosstab('범주',범주')pd.crosstab(titanic['Survived'], titanic['Sex'])normalize : 컬럼안에서 비율 계산 (columns, index, all)pd.crosstab(titanic['Survived'], titanic['Sex'], normalize = 'columns') - 외) pd.crosstab(x,y)temp = pd.crosstab(titanic['Pclass'], titanic['Survived'], normalize = 'index')print(temp)temp.plot.bar(stacked=True)plt.axhline(1-titanic['Survived'].mean(), color = 'r')plt.show() 시각화..
이변량 분석 : 범주 → 숫자
·
KT AIVLE School/데이터 분석 및 의미 찾기
분석방법 - 평균 비교 1. 시각화 : barplot범주 x : 생존여부수치 y : Agesns.barplot(x="Survived", y="Age", data=titanic)plt.grid()plt.show() 2. T-test : 두 집단의 평균(2개)의 차이사망자 나이 평균 - 생존자 나이 평균차이가 크면 관련이 있겠죠?차이가 작다면 관련이 없겠죠?이처럼, 신뢰구간의 차이가 크면 관련이 있다고 봅니다.  - T통계량은 얼만큼 크고 작아야지 차이가 있는 걸까?t-통계량 : -2보다 작거나, 2보다 크면 차이가 있다.p-value :0.05보다 작으면 차이가 있다. - spst.ttest_ind먼저 NaN값을 없애야 합니다.# NaN값 확인titanic.isna().sum()# NaN 행 제외temp ..
평균 추정과 신뢰구간
·
KT AIVLE School/데이터 분석 및 의미 찾기
분산, 표준편차값이 평균보다 얼마나 벗어나 있는 지를 나타내는 값 (이탈도, deviation) x-는 평균을 뜻함  중심극한정리(Central Limit Theorem)표본 평균으로 모평균을 추정할 수 있다.표본이 얼마나 믿을 만 한가?작은 표본들의 평균들의 분포는 모평균과 상관없이 정규분포에 가까워짐 표준오차모평균 : 추정하고 싶은 정답표본평균 : 모평균의 추정치오차 : 모평균과 표본평균의 차이표준 오차 : 표준평균분포의 표준편차 표준오차 : 표본을 가지고 모평균에서 추정했을때, 추정치에서의 오차(표준오차)SE = 데이터가 많으면 표준편차가 줄어든다. 95% 신뢰구간100번 정도 뽑으면 95번 정도는 95% 신뢰구간 안에 모평균을 포함한다.즉, 신뢰구간 안에 모평균이 포함될 확률이 95%이다.
이변량 분석 : 숫자 → 숫자
·
KT AIVLE School/데이터 분석 및 의미 찾기
보이는게 전부가 아님을 꼭 명심하세요!기준 = 유의수준 : 직선상관계수( r ) : 누가 강한 관계를 가졌는지 수치화 한것.강한, 약한 관계에 대한 가이드라인을 제시한다.~1 또는 1에 가까울 수록 강한 관계를 가졌다.기준 : 1 ~ 0.5(강한), ~ 0.2(중간), ~ 0.1(약한), ~ 0(관계없음) 절대값 r로하면 상관관계를 살펴보는 값이다. p-value : 0.05(5%)를 기준으로 차이를 판결하는 것이다.p-value가 0.05보다 작을 수록 차이가 큰것, 0.05보다 크면 차이가 작은것0에 수렵하면 관련이 많다라는 뜻이다.  1. 산점도 (Scatter)그대로 점을 찍어서 그래프를 그려 봅시다.직선(Linarity)를 보는 관점이 중요합니다. 산점도 코드 - plt.scatter(air['..
가설검정
·
KT AIVLE School/데이터 분석 및 의미 찾기
- 과학 연구 절차기존 가설 ←→ 기존에 반하는 증거1. 새로운 가설2. 데이터 수집3. 가설 검정(동료검토)4. 채택 OR 가설 업데이트- 표본은 모집단을 위해 존재한다.모집단 : 알고 싶은 전체 영역표본 : 그 대상의 일부 영역  가설검정 : 표본을 가지고 가설이 진짜인지 검증 대립가설 Η0 : 내가 주장한 가설귀무가설 Η1 : 아무관련이 없다고 느끼는 입장  - 가설 판단통계적 검정1. 가설 X → Y : X에 따라서 Y에 차이가 있다.2. 차이는 기준과 분포가 있다면 판단이 가능하다. 3. p-value가 0.05(5%)보다 작아야 차이가 있다고 판단한다. p-value : 8을 기준으로 8보다 큰 분포에서 해당 하는 그래프 아래의 면적이 전체에서 차지하는 비율 - 검정 2가지단측 검정 : 어느 ..