분석방법 - 평균 비교
1. 시각화 : barplot
범주 x : 생존여부
수치 y : Age
sns.barplot(x="Survived", y="Age", data=titanic)
plt.grid()
plt.show()
2. T-test : 두 집단의 평균(2개)의 차이
사망자 나이 평균 - 생존자 나이 평균
차이가 크면 관련이 있겠죠?
차이가 작다면 관련이 없겠죠?
이처럼, 신뢰구간의 차이가 크면 관련이 있다고 봅니다.
- T통계량은 얼만큼 크고 작아야지 차이가 있는 걸까?
t-통계량 : -2보다 작거나, 2보다 크면 차이가 있다.
p-value :0.05보다 작으면 차이가 있다.
- spst.ttest_ind
먼저 NaN값을 없애야 합니다.
# NaN값 확인
titanic.isna().sum()
# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]
# 두 그룹으로 데이터 저장
died = temp.loc[temp['Survived']==0, 'Age']
survived = temp.loc[temp['Survived']==1, 'Age']
spst.ttest_ind(died, survived)
3. 분산 분석 : 셋 이상 집단의 숫자 비교 - ANOVA
F통계량 = 전체평균과 집단 간의 분산/집단 내 분산
2 ~ 3 이상이면 차이가 있다고 판단한다.
크면 클수록 차이가 크다!!
t-통계량을 제곱한 거라고 생각하면됌.
- spst.f_oneway
# 1) 분산 분석을 위한 데이터 만들기
# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]
# 그룹별 저장
P_1 = temp.loc[temp.Pclass == 1, 'Age']
P_2 = temp.loc[temp.Pclass == 2, 'Age']
P_3 = temp.loc[temp.Pclass == 3, 'Age']
spst.f_oneway(P_1, P_2, P_3)
'KT AIVLE School > 데이터 분석 및 의미 찾기' 카테고리의 다른 글
이변량 분석 : 숫자 → 범주 (0) | 2024.09.13 |
---|---|
이변량 분석 : 범주 → 범주 (0) | 2024.09.13 |
평균 추정과 신뢰구간 (0) | 2024.09.12 |
이변량 분석 : 숫자 → 숫자 (0) | 2024.09.11 |
가설검정 (0) | 2024.09.11 |