이변량 분석 : 범주 → 숫자

2024. 9. 12. 16:36·KT AIVLE School/데이터 분석 및 의미 찾기

 

분석방법 - 평균 비교 

1. 시각화 : barplot

범주 x : 생존여부

수치 y : Age

sns.barplot(x="Survived", y="Age", data=titanic)
plt.grid()
plt.show()

빨간색은 신뢰구간

 

2. T-test : 두 집단의 평균(2개)의 차이

사망자 나이 평균 - 생존자 나이 평균

차이가 크면 관련이 있겠죠?

차이가 작다면 관련이 없겠죠?

이처럼, 신뢰구간의 차이가 크면 관련이 있다고 봅니다.

 

 

- T통계량은 얼만큼 크고 작아야지 차이가 있는 걸까?

t-통계량 : -2보다 작거나, 2보다 크면 차이가 있다.

p-value :0.05보다 작으면 차이가 있다.

 

- spst.ttest_ind

먼저 NaN값을 없애야 합니다.

# NaN값 확인
titanic.isna().sum()

# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]
# 두 그룹으로 데이터 저장
died = temp.loc[temp['Survived']==0, 'Age']
survived = temp.loc[temp['Survived']==1, 'Age']
spst.ttest_ind(died, survived)

 

 

 

3. 분산 분석 : 셋 이상 집단의 숫자 비교 - ANOVA

F통계량 = 전체평균과 집단 간의 분산/집단 내 분산

2 ~ 3 이상이면 차이가 있다고 판단한다.

크면 클수록 차이가 크다!!

t-통계량을 제곱한 거라고 생각하면됌.

 

- spst.f_oneway

# 1) 분산 분석을 위한 데이터 만들기
# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]
# 그룹별 저장
P_1 = temp.loc[temp.Pclass == 1, 'Age']
P_2 = temp.loc[temp.Pclass == 2, 'Age']
P_3 = temp.loc[temp.Pclass == 3, 'Age']

 

spst.f_oneway(P_1, P_2, P_3)

 

'KT AIVLE School > 데이터 분석 및 의미 찾기' 카테고리의 다른 글

이변량 분석 : 숫자 → 범주  (0) 2024.09.13
이변량 분석 : 범주 → 범주  (0) 2024.09.13
평균 추정과 신뢰구간  (0) 2024.09.12
이변량 분석 : 숫자 → 숫자  (0) 2024.09.11
가설검정  (0) 2024.09.11
'KT AIVLE School/데이터 분석 및 의미 찾기' 카테고리의 다른 글
  • 이변량 분석 : 숫자 → 범주
  • 이변량 분석 : 범주 → 범주
  • 평균 추정과 신뢰구간
  • 이변량 분석 : 숫자 → 숫자
Rabet
Rabet
  • 블로그 메뉴

    • 관리자
    • 글쓰기
  • Rabet
    卯
    Rabet
  • 전체
    오늘
    어제
    • Root (141)
      • KT AIVLE School (85)
        • Start (4)
        • Python프로그래밍 & 라이브러리 (6)
        • 데이터 처리 및 분석 (7)
        • 데이터 분석 및 의미 찾기 (7)
        • 웹크롤링 (10)
        • 머신러닝 (10)
        • 딥러닝 (6)
        • 시각지능 딥러닝 (10)
        • 언어지능 딥러닝 (6)
        • JAVA (4)
        • SQL (2)
        • 가상화 클라우드 (5)
        • 프로젝트 (8)
      • QA (3)
        • 오류사항 (1)
      • 웹공부 (14)
        • SPRING (11)
        • React (1)
      • 코딩 알고리즘 스터디 (23)
      • 코딩테스트 (9)
        • JAVA (8)
        • HTML (1)
      • CS공부 (3)
      • 자격증공부 (4)
        • 정보처리기사 (1)
        • 컴퓨터활용능력 1급 (1)
        • AICE Associate (1)
        • ISTQB (1)
  • 인기 글

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.2
Rabet
이변량 분석 : 범주 → 숫자
상단으로

티스토리툴바