[Pandas] 데이터 입출력
·
📈 Data-Science/Pandas
1. 외부 파일 읽어오기 1-1. CSV 파일 - 데이터 값을 쉼표(,)로 구분하고 있다는 의미로 CSV(comma-seperated values)라고 부르는 텍스트 파일 - 쉼표로 열을 구분, 줄바꿈으로 행을 구분 #CSV파일 -> 데이터프레임 import pandas pandas.read_csv("파일 경로(이름)") #header 옵션 #'열 이름'이 되는 행을 지정 import pandas as pd file_path = './read_csv_sample.csv' #read_csv() 함수로 데이터프레임 변환 df1 = pd.read_csv(file_path) #header 옵션 - '열 이름'이 되는 행을 지정 #header 옵션이 없으면, CSV 파일의 첫 행의 데이터가 열 이름이 된다. df..
[Pandas] 산술연산
·
📈 Data-Science/Pandas
1. 시리즈 연산 시리즈 vs 숫자 시리즈와 숫자 연산: Series 객체 + 연산자(+, -, *, /) + 숫자 - 시리즈 객체에 어떤 숫자를 더하면 시리즈의 개별 원소에 각각 연산한 결과를 시리즈 객체로 반환한다. 시리즈 vs 시리즈 시리즈와 시리즈 연산: Series 1 + 연산자(+, -, *, /) + Series - 시리즈의 모든 인덱스에 대하여 같은 인덱스를 가진 원소끼리 계산 - 인덱스에 연산 결과를 매칭하여 새 시리즈를 반환 - 인덱스 순서가 달라도 같은 인덱스를 찾아 정렬한 후 같은 인덱스의 데이터 값끼리 연산한다. - 연산을 하는 두 시리즈의 원소 개수가 다르거나, 시리즈의 크기가 같더라도 인덱스 값이 다를 경우, 또 한 쪽의 데이터 값이 NaN인 경우, >> NaN 처리 연산 메소..
[Pandas] 인덱스 활용
·
📈 Data-Science/Pandas
특정 열을 행 인덱스로 설정 - set_index() 메소드 사용 특정 열을 행 인덱스로 설정: DataFrame 객체.set_index( [ ' 열이름 ' ] 또는 '열 이름') - 원본 데이터프레임을 바꾸지 않고 새로운 데이터프레임 객체를 반환한다. - 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제된다. - 2개의 열을 행 인덱스로 지정한 경우 멀티인덱스(MultiIndex)라고 한다. 행 인덱스 재배열 새로운 배열로 행 인덱스를 재지정: DataFrame 객체.reindex( 새로운 인덱스 배열 ) - 새로운 데이터프레임 객체 반환 - 기존 데이터프레임에 존재하지 않는 행 인덱스가 새롭게 추가되는 경우 그 행의 데이터 값은 NaN 값이 입력된다. (NaN : "Not a Number" 라는 뜻으..
[Pandas] 자료구조
·
📈 Data-Science/Pandas
* 판다스의 1차원적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것 1. 시리즈(Series) - 1차원 배열의 형태 - 인덱스(index)는 데이터 값(value)과 일대일 대응 - 인덱스는 데이터 값의 위치를 나타내는 이름표(데이터 주소) 역할 시리즈 만들기 #딕셔너리 -> 시리즈 변환 #pandas 불러오기 import pandas as pd #key:value 쌍으로 딕셔너리를 만들고, 변수 dict_data에 저장 dict_data= {'a':1,'b':2,'c':3} #판다스 Series() 함수로 dictionary를 Series로 변환. 변수 sr에 저장 sr = pd.Series(dict_data) #sr의 자료형 출력 print(type(sr)) print(..