-
pandas 도구와 기능 사용방법Coding 2023. 11. 22. 20:31
Pandas 라이브러리의 다양한 도구와 기능들의 사용 방법을 간략하게 설명해드리겠습니다. 이 예시들은 Pandas를 사용하는 방법에 대한 기본적인 이해를 제공합니다.
1.DataFrame & Series 생성:
DataFrame 생성: pd.DataFrame(data, columns)
Series 생성: pd.Series(data, index)
2.데이터 입출력:
CSV 파일 읽기: pd.read_csv('file.csv')
Excel 파일 읽기: pd.read_excel('file.xlsx')
데이터프레임을 CSV 파일로 저장: df.to_csv('file.csv')
3.데이터 정리 및 전처리:
결측치 처리: df.dropna() (결측치 제거), df.fillna(value) (결측치 채우기)
데이터 필터링: df[df['column'] > value]
4.데이터 조작:
데이터 정렬: df.sort_values(by='column')
데이터 병합: pd.merge(df1, df2, on='column')
데이터 그룹화: df.groupby('column')
데이터 집계: df.groupby('column').agg({'column2': 'sum'})
5.시계열 데이터 지원:
날짜 타입으로 변환: pd.to_datetime(df['column'])
시계열 데이터 리샘플링: df.resample('D').mean()
6.기술 통계:
기술 통계 요약: df.describe()
평균 계산: df['column'].mean()
7.데이터 시각화:
기본적인 선 그래프: df.plot()
특정 열에 대한 히스토그램: df['column'].hist()
8.성능 향상을 위한 도구:
범주형 데이터 타입 사용: df['column'].astype('category')
이러한 기본적인 사용 예시들은 Pandas의 다양한 기능을 이해하고 시작하는 데 도움이 됩니다. 실제 사용 시에는 각 함수와 메소드의 매개변수와 옵션을 상황에 맞게 조정하여 사용해야 합니다. Pandas의 공식 문서를 참조하면 각 기능에 대한 더 자세한 정보와 고급 사용법을 확인할 수 있습니다.
기능 사용 예시
이 예시들은 실제 코드에서 어떻게 활용될 수 있는지를 보여줍니다.
1. DataFrame & Series 생성
import pandas as pd # DataFrame 생성 data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 34, 29, 32]} df = pd.DataFrame(data) # Series 생성 ages = pd.Series([28, 34, 29, 32], name='Age')
2. 데이터 입출력
# CSV 파일 읽기 df = pd.read_csv('file.csv') # Excel 파일 읽기 df = pd.read_excel('file.xlsx') # 데이터프레임을 CSV 파일로 저장 df.to_csv('output.csv')
3. 데이터 정리 및 전처리
# 결측치 제거 df_cleaned = df.dropna() # 결측치를 평균값으로 채우기 df_filled = df.fillna(df.mean()) # 특정 조건을 만족하는 행 필터링 df_filtered = df[df['Age'] > 30]
4. 데이터 조작
# 특정 열 기준으로 데이터 정렬 df_sorted = df.sort_values(by='Age') # 두 데이터프레임 병합 merged_df = pd.merge(df1, df2, on='key_column') # 그룹화 및 집계 grouped_df = df.groupby('Category').agg({'Price': 'mean'})
5. 시계열 데이터
# 날짜 타입으로 변환 df['Date'] = pd.to_datetime(df['Date']) # 일별로 데이터 리샘플링 및 평균 계산 daily_df = df.resample('D', on='Date').mean()
6. 기술 통계
# 기술 통계 요약 summary = df.describe() # 특정 열의 평균 계산 average_age = df['Age'].mean()
7. 데이터 시각화
# 선 그래프로 데이터 시각화 df.plot(kind='line') # 열에 대한 히스토그램 df['Age'].hist()
8. 성능 향상을 위한 도구
# 열을 범주형 데이터로 변환 df['Category'] = df['Category'].astype('category')
이러한 예시들은 Pandas의 기본적인 사용 방법을 보여주며, 실제 작업에서는 더 복잡한 데이터와 요구 사항에 맞게 코드를 조정해야 합니다. Pandas는 매우 강력하고 유연한 라이브러리이므로, 다양한 데이터 분석 및 처리 상황에 적용할 수 있습니다.