ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • pandas 도구와 기능 사용방법
    Coding 2023. 11. 22. 20:31

    Pandas 라이브러리의 다양한 도구와 기능들의 사용 방법을 간략하게 설명해드리겠습니다. 이 예시들은 Pandas를 사용하는 방법에 대한 기본적인 이해를 제공합니다.

     

    1.DataFrame & Series 생성:

    DataFrame 생성: pd.DataFrame(data, columns)

    Series 생성: pd.Series(data, index)

     

    2.데이터 입출력:

    CSV 파일 읽기: pd.read_csv('file.csv')

    Excel 파일 읽기: pd.read_excel('file.xlsx')

    데이터프레임을 CSV 파일로 저장: df.to_csv('file.csv')

     

    3.데이터 정리 및 전처리:

    결측치 처리: df.dropna() (결측치 제거), df.fillna(value) (결측치 채우기)

    데이터 필터링: df[df['column'] > value]

     

    4.데이터 조작:

    데이터 정렬: df.sort_values(by='column')

    데이터 병합: pd.merge(df1, df2, on='column')

    데이터 그룹화: df.groupby('column')

    데이터 집계: df.groupby('column').agg({'column2': 'sum'})

     

    5.시계열 데이터 지원:

    날짜 타입으로 변환: pd.to_datetime(df['column'])

    시계열 데이터 리샘플링: df.resample('D').mean()

     

    6.기술 통계:

    기술 통계 요약: df.describe()

    평균 계산: df['column'].mean()

     

    7.데이터 시각화:

    기본적인 선 그래프: df.plot()

    특정 열에 대한 히스토그램: df['column'].hist()

     

    8.성능 향상을 위한 도구:

    범주형 데이터 타입 사용: df['column'].astype('category')

     

    이러한 기본적인 사용 예시들은 Pandas의 다양한 기능을 이해하고 시작하는 데 도움이 됩니다. 실제 사용 시에는 각 함수와 메소드의 매개변수와 옵션을 상황에 맞게 조정하여 사용해야 합니다. Pandas의 공식 문서를 참조하면 각 기능에 대한 더 자세한 정보와 고급 사용법을 확인할 수 있습니다.

     

    기능 사용 예시

    이 예시들은 실제 코드에서 어떻게 활용될 수 있는지를 보여줍니다.

    1. DataFrame & Series 생성

    import pandas as pd
    
    # DataFrame 생성
    data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
            'Age': [28, 34, 29, 32]}
    df = pd.DataFrame(data)
    
    # Series 생성
    ages = pd.Series([28, 34, 29, 32], name='Age')

    2. 데이터 입출력

    # CSV 파일 읽기
    df = pd.read_csv('file.csv')
    
    # Excel 파일 읽기
    df = pd.read_excel('file.xlsx')
    
    # 데이터프레임을 CSV 파일로 저장
    df.to_csv('output.csv')

    3. 데이터 정리 및 전처리

    # 결측치 제거
    df_cleaned = df.dropna()
    
    # 결측치를 평균값으로 채우기
    df_filled = df.fillna(df.mean())
    
    # 특정 조건을 만족하는 행 필터링
    df_filtered = df[df['Age'] > 30]

    4. 데이터 조작

    # 특정 열 기준으로 데이터 정렬
    df_sorted = df.sort_values(by='Age')
    
    # 두 데이터프레임 병합
    merged_df = pd.merge(df1, df2, on='key_column')
    
    # 그룹화 및 집계
    grouped_df = df.groupby('Category').agg({'Price': 'mean'})

    5. 시계열 데이터

    # 날짜 타입으로 변환
    df['Date'] = pd.to_datetime(df['Date'])
    
    # 일별로 데이터 리샘플링 및 평균 계산
    daily_df = df.resample('D', on='Date').mean()

    6. 기술 통계

    # 기술 통계 요약
    summary = df.describe()
    
    # 특정 열의 평균 계산
    average_age = df['Age'].mean()

    7. 데이터 시각화

    # 선 그래프로 데이터 시각화
    df.plot(kind='line')
    
    # 열에 대한 히스토그램
    df['Age'].hist()

    8. 성능 향상을 위한 도구

    # 열을 범주형 데이터로 변환
    df['Category'] = df['Category'].astype('category')

    이러한 예시들은 Pandas의 기본적인 사용 방법을 보여주며, 실제 작업에서는 더 복잡한 데이터와 요구 사항에 맞게 코드를 조정해야 합니다. Pandas는 매우 강력하고 유연한 라이브러리이므로, 다양한 데이터 분석 및 처리 상황에 적용할 수 있습니다.

Copyright 2024