728x90
필요한 라이브러리 불러오기
import pandas as pd
* pd : pandas를 별칭으로 줄여서 씀
numpy, seaborn
import numpy as np
import seaborn as sns
- numpy : 고성능의 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리
- seaborn : 데이터 시각화를 위한 라이브러리
matplotlib
import matplotlib.pyplot as plt
- matplotlib : 데이터 시각화 라이브러리
시각화를 위한 폰트 설정
1) 한글 폰트 설정
- 알맞은 OS에 따라 plt.rc 소스 실행
- 주석 처리 단축키: Ctrl(cmd) + /
2) minus 폰트 깨짐 방지
plt.rc('axes', unicode_minus=False)
3) retina 설정 - 글씨 선명하게
from IPython.display import set_matplotlib_formats
set_matplotlif_formats('retina')
데이터 로드하기 & 데이터 미리보기
df = pd.read_csv("csv 파일 저장 경로", low_memory=False)
# low_memory : 데이터를 나눠서 읽을 것인지(True) - 메모리 사용이 적음, 한 번에 읽을 것인지(False) - 안정적으로 작동
df.shape # 행, 열 데이터 크기 확인
df.head() # 앞에서부터 5개 데이터를 기본값으로 확인 가능, () 안에 숫자를 넣으면 그 수만큼 데이터 확인 가능
df.tail() # 뒤에서부터 5개 데이터를 기본값으로 확인 가능, () 안에 숫자를 넣으면 그 수만큼 데이터 확인 가능
데이터 요약하기
df.info() # 데이터 요약을 볼 수 있다.
df.columns # 모든 컬럼명 확인 가능
df.dtypes # 데이터 타입 확인 가능
반응형
'🇳 Naver BoostCourse > 파이썬으로 시작하는 데이터 사이언스' 카테고리의 다른 글
[서울 종합병원 분포 확인하기] 6. 위경도 데이터 sactterplot, Folium (0) | 2024.08.11 |
---|---|
[서울 종합병원 분포 확인하기] 5. 데이터 색인 (0) | 2024.08.08 |
[서울 종합병원 분포 확인하기] 4. 문자열 데이터 요약 - pandas, seaborn 시각화 (0) | 2024.08.06 |
[서울 종합병원 분포 확인하기] 3. 수치 데이터 요약 - 기술통계 값 (0) | 2024.08.06 |
[서울 종합병원 분포 확인하기] 2. 결측치 처리 (0) | 2024.08.06 |