데이터의 시각화
데이터의 비즈니스가 담겨 있습니다.
비즈니스의 인사이트를 파악하는 것이 중요합니다.
- 환경 준비
import pandas as pd
import numpy as np
# 시각화 라이브러리
import matplotlib.pyplot as plt
import seaborn as sns
- dropna
결측치 없애기(NaN, Null 등)
axis = 0 : 행을 기준으로
inplace = True : 진짜 날려라
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality_simple2.csv'
data = pd.read_csv(path)
data['Date'] = pd.to_datetime(data['Date'])
#결측치 없애기
data.dropna(axis = 0, inplace = True)
data.head()
1. Matplotlib
1-1. 기본 코드 구조
- plt.plot(), plt.show()
- 1차원 차트
x축 : 인덱스
y축 : 값
# 차트 그리기
plt.plot(data['Temp'])
# 타이트하게 만들기
plt.tight_layout()
# 화면에 보여주기
plt.show()
1-2. x,y축 지정
# 1
plt.plot(data['Date'], data['Temp'])
plt.show()
# 2
plt.plot('Date', 'Temp', data = 데이터플로우)
plt.show()
2. 꾸미기
2-1. x축 값 기울기 조정하기
- xticks, xlabel, title
plt.plot(data['Date'], data['Ozone'])
plt.xticks(rotation = 30) # x축 값 꾸미기 : 방향을 30도 틀어서
plt.xlabel('Date') # x축 이름 지정
plt.ylabel('Ozone') # y축 이름 지정
plt.title('Daily Airquality') # 타이틀
plt.show()
2-2. 라인 스타일 조정하기
- plot(color, linestyle, marker)
plt.plot(data['Date'], data['Ozone']
,color='green' # 칼러
, linestyle='dotted' # 라인스타일
, marker='o') # 값 마커(모양)
plt.xlabel('Date')
plt.ylabel('Ozone')
plt.title('Daily Airquality')
plt.xticks(rotation=45)
plt.show()
2-3. 여러 그래프 겹치기
# 첫번째 그래프
plt.plot(data['Date'], data['Ozone'], color='green', linestyle='dotted', marker='o')
# 두번째 그래프
plt.plot(data['Date'], data['Temp'], color='r', linestyle='-', marker='s')
plt.xlabel('Date')
plt.ylabel('Ozone')
plt.title('Daily Airquality')
plt.xticks(rotation=45)
# 위 그래프와 설정 한꺼번에 보여주기
plt.show()
2-4. 범례, 그리드 추가
- legend, grid
plt.legend(loc = 'upper right') # loc = : 위치 (위쪽,오른쪽)
plt.grid() # 바탕에 선
2-5. 크기 조정
- figure
기본값 : 6.4 : 4.4
plt.figure(figsize = (12,8))
shift + 오른쪽 클릭 : 사진 복사 가능
3. 여러 그래프 나눠서 그리기
- subplot(row, column, index)
행, 열, 순서
plt.subplot(1,3,1)
plt.subplot(1,3,2)
plt.subplot(1,3,3)
4. 추가 기능
- 데이터프레임.plot()
data.plot(x = 'Date', y = ['Ozone','Temp','Wind'],title='Airquality',figsize = (12,8))
plt.xlabel('Date')
plt.legend(loc = 'upper right')
plt.grid() # 바탕에 선
plt.show()
- xlim, ylim : 축 범위 조정
plt.ylim(0, 100)
plt.xlim(0,10)
- axhline, axvline : 수평선, 수직선 추가
plt.axhline(40, color = 'grey', linestyle = '--')
plt.axvline(10, color = 'red', linestyle = '--')
- text : 텍스트 추가
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')
'KT AIVLE School > 데이터 처리 및 분석' 카테고리의 다른 글
단변량 분석 - 범주형 (0) | 2024.09.10 |
---|---|
단변량 분석 - 숫자형 (0) | 2024.09.10 |
데이터분석 방법론 (0) | 2024.09.10 |
시계열 데이터 처리 (0) | 2024.09.09 |
데이터프레임 결합 (0) | 2024.09.09 |