[서울 종합병원 분포 확인하기] 6. 위경도 데이터 sactterplot, Folium
·
🇳 Naver BoostCourse/파이썬으로 시작하는 데이터 사이언스
특정 지역만 보기df_seoul = df[df["시도명"] == "서울특별시"].copy()plt.figure(figsize=(9, 6))sns.countplot(data=df_seoul, y="시군구명") # Pandas 의 plot.scatter 를 통해 경도와 위도를 표시df_seoul[["경도", "위도", "시군구명"]].plot.scatter( x="경도", y="위도", figsize=(9, 7), grid=True)# seaborn의 scatterplot 을 통해 구별 경도와 위도를 표시plt.figure(figsize=(16, 12))sns.scatterplot(data=df_seoul, x='경도', y='위도', hue='시군구명') ..
[서울 종합병원 분포 확인하기] 5. 데이터 색인
·
🇳 Naver BoostCourse/파이썬으로 시작하는 데이터 사이언스
== 활용하기df["상권업종중분류명"] == "약국/한약방"  # df["상권업종중분류명"] == "약국/한약방"에 df[]을 덮어쓰면 해당 조건에 True인 데이터만 가져온다.df_medical = df[df["상권업종중분류명"] == "약국/한약방"]df_medical.head(1)20364049더블유스토어수지점수지점S의료S02약국/한약방S02A01약국G47811...4146510100107120002026238NaN경기도 용인시 수지구 문정로 32448170.016837.0NaN1NaN127.09552237.3235281 rows × 39 columns2개의 조건 사용하기, 조건에 맞는 데이터 개수 세기 shop_type = df["상권업종대분류명"] == "의료"df.loc[shop_type, "..
[서울 종합병원 분포 확인하기] 4. 문자열 데이터 요약 - pandas, seaborn 시각화
·
🇳 Naver BoostCourse/파이썬으로 시작하는 데이터 사이언스
중복 제거한 값 보기# 1) 상권업종대분류명 df["상권업종대분류명"].unique()# 결과: array(['의료'], dtype=object)# unique는 값의 종류가 몇 개인지를 보여준다. df["상권업종대분류명"].nunique()# 결과: 1 그룹화된 요약값 보기 - value_counts: 카테고리 형태의 데이터 갯수를 세어준다. df["시도명"].value_counts()df["시도명"].value_counts(normalize=True)# normalize 옵션: 전체에서 차지하는 비율  df["시도명"].value_counts().plot.barh()df["시도명"].value_counts().plot.pie(figsize=(7, 7))  seaborn으로 그래프 그려보기sns.cou..
[서울 종합병원 분포 확인하기] 3. 수치 데이터 요약 - 기술통계 값
·
🇳 Naver BoostCourse/파이썬으로 시작하는 데이터 사이언스
기초 통계 값- 데이터 타입이 수치형일 경우 기초통계값을 확인할 수 있다. # 1. 평균값df['위도'].mean()# 2. 중앙값df["위도"].median()# 3. 최댓값df["위도"].max()# 4. 최솟값df["위도"].min()# 5. 개수df["위도"].count() 요약값 확인df["위도"].describe() - 25%는 앞에서 1/4 되는 값이고, 1사분위수- 50%는 중앙값이고, 2사분위수- 75%는 앞에서 3/4 번째 되는 수고, 3사분위수- mean, min, max는 각각 평균, 최소값, 최대값 2개 이상의 column 요약df[["위도", "경도"]].describe() - 2개 이상은 2차원 데이터 구조가 되므로 DataFrame으로 출력- 2개 이상의 데이터를 출력하려면 ..
[서울 종합병원 분포 확인하기] 2. 결측치 처리
·
🇳 Naver BoostCourse/파이썬으로 시작하는 데이터 사이언스
결측치 확인null_count = df.isnull().sum()null_count - null_count 라는 변수에 isnull().sum() 해서 각 column 별 결측치 개수 확인- boolean indexing 사용 -> isnull()이 True 이면 1, sum() 은 True의 개수를 세어줌 결측치 시각화null_count.plot() # 기본 그래프 - linenull_count.plot.bar(rot=60) # bar 그래프 # rot 옵션 지정 시 글자들이 회전하여 표시null_count.plot.barh(figsize=(5,7)) # 세로 막대형 그래프, figsize: 사이즈 지정 line / bar / barh  데이터 프레임 형태로 변형# 1. 인덱스 초기화 df_null_c..
[서울 종합병원 분포 확인하기] 1. 데이터 로드하고 데이터 미리보기
·
🇳 Naver BoostCourse/파이썬으로 시작하는 데이터 사이언스
필요한 라이브러리 불러오기import pandas as pd* pd : pandas를 별칭으로 줄여서 씀numpy, seabornimport numpy as npimport seaborn as sns- numpy : 고성능의 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리- seaborn : 데이터 시각화를 위한 라이브러리matplotlibimport matplotlib.pyplot as plt- matplotlib : 데이터 시각화 라이브러리시각화를 위한 폰트 설정1) 한글 폰트 설정- 알맞은 OS에 따라 plt.rc 소스 실행- 주석 처리 단축키: Ctrl(cmd) + /2) minus 폰트 깨짐 방지plt.rc('axes', unicode_minus=False)3) retin..
[PyTorch 기본] 프로젝트 구조
·
🇳 Naver BoostCourse
Jupyter notebook초기 단계 - 대화식 개발 과정이 유리학습 과정과 디버깅 등 지속적인 확인배포 및 공유 단계 - 공유의 어려움쉬운 재현의 어려움, 실행 순서 꼬임DL 코드도 하나의 프로그램개발 용이성 확보와 유지보수 향상 필요 OOP + 모듈 -> 프로젝트      인공지능 기초 다지기https://www.boostcourse.org/ai100/lecture/1539261?isDesc=false 인공지능 기초 다지기부스트코스 무료 강의www.boostcourse.org
[PyTorch 기본] PyTorch Basics
·
🇳 Naver BoostCourse
보호되어 있는 글입니다.
[PyTorch 기본] Introduction to PyTorch
·
🇳 Naver BoostCourse
pytorch와 tensorflow의 가장 큰 차이점 pytorch - dynamic computation graph (실행 시점에서 그래프를 생성하는 방식)tensorflow - define and run (그래프를 먼저 정의 -> 실행 시점에 데이터 feed) computational graph: 연산의 과정을 그래프로 표현 pytorch - dynamic graphs : 한 번에 알아서 미분까지 일어나는 그래프를 사용-> debug 부분에서 편해짐 (중간중간 값을 확인할 수 있다.) Why PyTorch- Define by Run의 장점: 즉시 확인 가능 -> pythonic code (가장 큰 장점)- GPU support, Good API and community- 사용하기 편한 장점이 가장 큼..