-
pandas 도구와 기능 사용방법Coding 2023. 11. 22. 20:31
Pandas 라이브러리의 다양한 도구와 기능들의 사용 방법을 간략하게 설명해드리겠습니다. 이 예시들은 Pandas를 사용하는 방법에 대한 기본적인 이해를 제공합니다.
1.DataFrame & Series 생성:
DataFrame 생성: pd.DataFrame(data, columns)
Series 생성: pd.Series(data, index)
2.데이터 입출력:
CSV 파일 읽기: pd.read_csv('file.csv')
Excel 파일 읽기: pd.read_excel('file.xlsx')
데이터프레임을 CSV 파일로 저장: df.to_csv('file.csv')
3.데이터 정리 및 전처리:
결측치 처리: df.dropna() (결측치 제거), df.fillna(value) (결측치 채우기)
데이터 필터링: df[df['column'] > value]
4.데이터 조작:
데이터 정렬: df.sort_values(by='column')
데이터 병합: pd.merge(df1, df2, on='column')
데이터 그룹화: df.groupby('column')
데이터 집계: df.groupby('column').agg({'column2': 'sum'})
5.시계열 데이터 지원:
날짜 타입으로 변환: pd.to_datetime(df['column'])
시계열 데이터 리샘플링: df.resample('D').mean()
6.기술 통계:
기술 통계 요약: df.describe()
평균 계산: df['column'].mean()
7.데이터 시각화:
기본적인 선 그래프: df.plot()
특정 열에 대한 히스토그램: df['column'].hist()
8.성능 향상을 위한 도구:
범주형 데이터 타입 사용: df['column'].astype('category')
이러한 기본적인 사용 예시들은 Pandas의 다양한 기능을 이해하고 시작하는 데 도움이 됩니다. 실제 사용 시에는 각 함수와 메소드의 매개변수와 옵션을 상황에 맞게 조정하여 사용해야 합니다. Pandas의 공식 문서를 참조하면 각 기능에 대한 더 자세한 정보와 고급 사용법을 확인할 수 있습니다.
기능 사용 예시
이 예시들은 실제 코드에서 어떻게 활용될 수 있는지를 보여줍니다.
1. DataFrame & Series 생성
import pandas as pd # DataFrame 생성 data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 34, 29, 32]} df = pd.DataFrame(data) # Series 생성 ages = pd.Series([28, 34, 29, 32], name='Age')
2. 데이터 입출력
# CSV 파일 읽기 df = pd.read_csv('file.csv') # Excel 파일 읽기 df = pd.read_excel('file.xlsx') # 데이터프레임을 CSV 파일로 저장 df.to_csv('output.csv')
3. 데이터 정리 및 전처리
# 결측치 제거 df_cleaned = df.dropna() # 결측치를 평균값으로 채우기 df_filled = df.fillna(df.mean()) # 특정 조건을 만족하는 행 필터링 df_filtered = df[df['Age'] > 30]
4. 데이터 조작
# 특정 열 기준으로 데이터 정렬 df_sorted = df.sort_values(by='Age') # 두 데이터프레임 병합 merged_df = pd.merge(df1, df2, on='key_column') # 그룹화 및 집계 grouped_df = df.groupby('Category').agg({'Price': 'mean'})
5. 시계열 데이터
# 날짜 타입으로 변환 df['Date'] = pd.to_datetime(df['Date']) # 일별로 데이터 리샘플링 및 평균 계산 daily_df = df.resample('D', on='Date').mean()
6. 기술 통계
# 기술 통계 요약 summary = df.describe() # 특정 열의 평균 계산 average_age = df['Age'].mean()
7. 데이터 시각화
# 선 그래프로 데이터 시각화 df.plot(kind='line') # 열에 대한 히스토그램 df['Age'].hist()
8. 성능 향상을 위한 도구
# 열을 범주형 데이터로 변환 df['Category'] = df['Category'].astype('category')
이러한 예시들은 Pandas의 기본적인 사용 방법을 보여주며, 실제 작업에서는 더 복잡한 데이터와 요구 사항에 맞게 코드를 조정해야 합니다. Pandas는 매우 강력하고 유연한 라이브러리이므로, 다양한 데이터 분석 및 처리 상황에 적용할 수 있습니다.
'Coding' 카테고리의 다른 글
WASM의 특징과 사용 (0) 2023.12.01 파이썬 사용 환경 특징과 트렌드 (0) 2023.11.30 Python 설치 와 환경변수 설정 (5) 2023.11.27 Python의 라이브러리 pandas란? (0) 2023.11.26 GitHub Copilot 사용하는 방법과 기능 (0) 2023.11.21 ms word에 소스코드 넣는 여러 방법 (0) 2023.11.21 Unable to import 'streamlit' 오류 해결 방법 (0) 2023.11.15 XML이란 무엇이며 wordpress에서 어떻게 사용할 수 있을까 (0) 2023.07.05