KT AIVLE School/데이터 분석 및 의미 찾기

이변량 분석 : 숫자 → 범주

Rabet 2024. 9. 13. 14:02

 

시각화밖에 없다.

 

import pandas as pd
import numpy as np
import random as rd

import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.graphics.mosaicplot import mosaic      #mosaic plot!

import scipy.stats as spst

 

1. KDEplot

- sns.kdeplot(x='숫자', data = 데이터, hue = '범주', common_norm =False)

sns.kdeplot(x='Age', data = titanic, hue ='Survived', common_norm = False)
plt.show()

 

 

1. common_norm = False : 각각 면적의 합이 1인 그래프 2개

그래프가 겹치는 부분이 전체평균,

전체평균보다 높은 부분은 전체평균보다 더 높은 부분

 

외) common_norm = True : 두개의 면적의 합이 1인 그래프

왼쪽이 common_norm = True(잘 안씀), 오른쪽이 common_norm=False
아무런 차이가 없으면 나오는 그래프

 

2. multiple = 'fill'

sns.kdeplot(x='Age', data = titanic, hue ='Survived'
            , multiple = 'fill')
plt.axhline(titanic['Survived'].mean(), color = 'r')
plt.show()

 

 

2. 히스토그램

- histplot(bins=,hue=,mutiple='fill)

sns.histplot(x='Age', data = titanic, bins = 16
             , hue ='Survived', multiple = 'fill')
plt.axhline(titanic['Survived'].mean(), color = 'r')
plt.show()

Fare → Survived