728x90
중복 제거한 값 보기
# 1) 상권업종대분류명
df["상권업종대분류명"].unique()
# 결과: array(['의료'], dtype=object)
# unique는 값의 종류가 몇 개인지를 보여준다.
df["상권업종대분류명"].nunique()
# 결과: 1
그룹화된 요약값 보기 - value_counts
: 카테고리 형태의 데이터 갯수를 세어준다.
df["시도명"].value_counts()
df["시도명"].value_counts(normalize=True)
# normalize 옵션: 전체에서 차지하는 비율
df["시도명"].value_counts().plot.barh()
df["시도명"].value_counts().plot.pie(figsize=(7, 7))
seaborn으로 그래프 그려보기
sns.countplot(data=df, y="시도명")
- seaborn은 대체로 x, y, data를 기본으로 넣어줘야 하지만 countplot은 x,y 중 하나만 넣어도 된다.
- seaborn의 장점 : 고급 통계 기능을 그래프 내부에서 제공
- seaborn의 단점 : 데이터 크기가 클수록 속도가 느림
반응형
'🇳 Naver BoostCourse > 파이썬으로 시작하는 데이터 사이언스' 카테고리의 다른 글
[서울 종합병원 분포 확인하기] 6. 위경도 데이터 sactterplot, Folium (0) | 2024.08.11 |
---|---|
[서울 종합병원 분포 확인하기] 5. 데이터 색인 (0) | 2024.08.08 |
[서울 종합병원 분포 확인하기] 3. 수치 데이터 요약 - 기술통계 값 (0) | 2024.08.06 |
[서울 종합병원 분포 확인하기] 2. 결측치 처리 (0) | 2024.08.06 |
[서울 종합병원 분포 확인하기] 1. 데이터 로드하고 데이터 미리보기 (0) | 2024.08.06 |