728x90
기초 통계 값
- 데이터 타입이 수치형일 경우 기초통계값을 확인할 수 있다.
# 1. 평균값
df['위도'].mean()
# 2. 중앙값
df["위도"].median()
# 3. 최댓값
df["위도"].max()
# 4. 최솟값
df["위도"].min()
# 5. 개수
df["위도"].count()
요약값 확인
df["위도"].describe()
- 25%는 앞에서 1/4 되는 값이고, 1사분위수
- 50%는 중앙값이고, 2사분위수
- 75%는 앞에서 3/4 번째 되는 수고, 3사분위수
- mean, min, max는 각각 평균, 최소값, 최대값
2개 이상의 column 요약
df[["위도", "경도"]].describe()
- 2개 이상은 2차원 데이터 구조가 되므로 DataFrame으로 출력
- 2개 이상의 데이터를 출력하려면 list 형태로 column을 넣어야 한다.
특정 데이터만 요약
# 1. 숫자로 된 데이터만 요약: number
df.describe(include="number")
# 2. 문자열 데이터만 요약: object
df.describe(include="object")
# 3. 모든 데이터 요약: all
df.describe(include="all")
- 결측치는 요약하지 않는다.
- top 은 가장 높은 빈도로 저장된 데이터, freq는 그 데이터의 빈도수
반응형
'🇳 Naver BoostCourse > 파이썬으로 시작하는 데이터 사이언스' 카테고리의 다른 글
[서울 종합병원 분포 확인하기] 6. 위경도 데이터 sactterplot, Folium (0) | 2024.08.11 |
---|---|
[서울 종합병원 분포 확인하기] 5. 데이터 색인 (0) | 2024.08.08 |
[서울 종합병원 분포 확인하기] 4. 문자열 데이터 요약 - pandas, seaborn 시각화 (0) | 2024.08.06 |
[서울 종합병원 분포 확인하기] 2. 결측치 처리 (0) | 2024.08.06 |
[서울 종합병원 분포 확인하기] 1. 데이터 로드하고 데이터 미리보기 (0) | 2024.08.06 |