pandas 도구와 기능 사용방법

pandas 도구와 기능 사용방법

Coding 2023. 11. 22. 20:31
Pandas 라이브러리의 다양한 도구와 기능들의 사용 방법을 간략하게 설명해드리겠습니다. 이 예시들은 Pandas를 사용하는 방법에 대한 기본적인 이해를 제공합니다.

1.DataFrame & Series 생성:

DataFrame 생성: pd.DataFrame(data, columns)

Series 생성: pd.Series(data, index)

2.데이터 입출력:

CSV 파일 읽기: pd.read_csv('file.csv')

Excel 파일 읽기: pd.read_excel('file.xlsx')

데이터프레임을 CSV 파일로 저장: df.to_csv('file.csv')

3.데이터 정리 및 전처리:

결측치 처리: df.dropna() (결측치 제거), df.fillna(value) (결측치 채우기)

데이터 필터링: df[df['column'] > value]

4.데이터 조작:

데이터 정렬: df.sort_values(by='column')

데이터 병합: pd.merge(df1, df2, on='column')

데이터 그룹화: df.groupby('column')

데이터 집계: df.groupby('column').agg({'column2': 'sum'})

5.시계열 데이터 지원:

날짜 타입으로 변환: pd.to_datetime(df['column'])

시계열 데이터 리샘플링: df.resample('D').mean()

6.기술 통계:

기술 통계 요약: df.describe()

평균 계산: df['column'].mean()

7.데이터 시각화:

기본적인 선 그래프: df.plot()

특정 열에 대한 히스토그램: df['column'].hist()

8.성능 향상을 위한 도구:

범주형 데이터 타입 사용: df['column'].astype('category')

이러한 기본적인 사용 예시들은 Pandas의 다양한 기능을 이해하고 시작하는 데 도움이 됩니다. 실제 사용 시에는 각 함수와 메소드의 매개변수와 옵션을 상황에 맞게 조정하여 사용해야 합니다. Pandas의 공식 문서를 참조하면 각 기능에 대한 더 자세한 정보와 고급 사용법을 확인할 수 있습니다.

기능 사용 예시

이 예시들은 실제 코드에서 어떻게 활용될 수 있는지를 보여줍니다.

1. DataFrame & Series 생성

import pandas as pd # DataFrame 생성 data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 34, 29, 32]} df = pd.DataFrame(data) # Series 생성 ages = pd.Series([28, 34, 29, 32], name='Age')

2. 데이터 입출력

# CSV 파일 읽기 df = pd.read_csv('file.csv') # Excel 파일 읽기 df = pd.read_excel('file.xlsx') # 데이터프레임을 CSV 파일로 저장 df.to_csv('output.csv')

3. 데이터 정리 및 전처리

# 결측치 제거 df_cleaned = df.dropna() # 결측치를 평균값으로 채우기 df_filled = df.fillna(df.mean()) # 특정 조건을 만족하는 행 필터링 df_filtered = df[df['Age'] > 30]

4. 데이터 조작

# 특정 열 기준으로 데이터 정렬 df_sorted = df.sort_values(by='Age') # 두 데이터프레임 병합 merged_df = pd.merge(df1, df2, on='key_column') # 그룹화 및 집계 grouped_df = df.groupby('Category').agg({'Price': 'mean'})

5. 시계열 데이터

# 날짜 타입으로 변환 df['Date'] = pd.to_datetime(df['Date']) # 일별로 데이터 리샘플링 및 평균 계산 daily_df = df.resample('D', on='Date').mean()

6. 기술 통계

# 기술 통계 요약 summary = df.describe() # 특정 열의 평균 계산 average_age = df['Age'].mean()

7. 데이터 시각화

# 선 그래프로 데이터 시각화 df.plot(kind='line') # 열에 대한 히스토그램 df['Age'].hist()

8. 성능 향상을 위한 도구

# 열을 범주형 데이터로 변환 df['Category'] = df['Category'].astype('category')

이러한 예시들은 Pandas의 기본적인 사용 방법을 보여주며, 실제 작업에서는 더 복잡한 데이터와 요구 사항에 맞게 코드를 조정해야 합니다. Pandas는 매우 강력하고 유연한 라이브러리이므로, 다양한 데이터 분석 및 처리 상황에 적용할 수 있습니다.
저작자표시 (새창열림)
관련글 관련글 더보기

ABOUT ME

GoldenKey GoldenKey

기능 사용 예시

티스토리툴바

ABOUT ME

기능 사용 예시

관련글 관련글 더보기

티스토리툴바