1. 숫자형 정리하는 두가지 방법
1-1. 도수분포표
구간나누고 빈도수 계산으로 나누기
1-2. 기초 통계량
정보의 대푯값으로 나누기
- 사분위수
데이터를 오름차순으로 정렬한 후, 4등분으로하여 24%, 50%, 75%를 의미
1-3. describe()
- 시리즈.describe()
- 데이터프레임.describe().T
.T를 붙이면 행,열을 바꿔서 볼 수 있음
2. 시각화하기
2-1. Histogram
- plt.hist
(변수명, bins=구간수, edgecolor ='gray')-
edgecolor : bar의 윤곽선을 회색으로 표시
plt.hist(titanic.Fare, bins = 30, edgecolor = 'gray')
- sns.histplot
(x = 변수명, data = 데이터, bins = 구간수)
sns.histplot(x= 'Fare', data = titanic, bins = 20)
plt.show()
2-2. Density Plot(KDE Plot)
- sns.kdeplot
(변수명) or (x='변수명', data=데이터)
sns.kdeplot(titanic['Fare'])
sns.kdeplot( x='Fare', data=titanic)
kde=True
2-3. Box Plot
- 박스(box), 수염(whisker)
1. 박스 : 4분위수
2. 수염 : 1.5 * IQR 범위 내에서 최솟값,최댓값
IQR(박스의 길이) = 3사분위수 - 1사분위수
- 생성
1. NaN 없애기
df.isna().sum() : nan살펴보기
notnull(), notna() : null값 없애기
temp = titanic.loc[titanic['Age'].notnull()] # notnuall(), notna(), / isnull(), isna()
2. boxplot
(x='변수명', data=데이터) or (y='변수명', data=데이터)
sns.boxplot(x='Fare',data=titanic)
plt.show()
'KT AIVLE School > 데이터 처리 및 분석' 카테고리의 다른 글
단변량 분석 - 범주형 (0) | 2024.09.10 |
---|---|
시각화 라이브러리 (0) | 2024.09.10 |
데이터분석 방법론 (0) | 2024.09.10 |
시계열 데이터 처리 (0) | 2024.09.09 |
데이터프레임 결합 (0) | 2024.09.09 |