“`html

쉽고 강력한 데이터 분석 도구, Pandas 입문

big, data, keyboard, computer, internet, online, www, surfing, amount of data, word, flood of data, database, bulk data, collect, evaluate, data volume, data retention, data storage, market research, records, data processing, complex, data collection, database, database, database, database, database, market research, data collection

서론: 데이터 분석의 필수, Pandas

데이터 분석은 현대 사회에서 점점 더 중요해지고 있습니다. 기업은 고객 데이터를 분석하여 마케팅 전략을 수립하고, 과학자는 실험 데이터를 분석하여 새로운 발견을 이끌어냅니다. 이처럼 다양한 분야에서 데이터 분석은 의사 결정을 돕는 핵심 도구로 자리 잡았습니다.

하지만 방대한 데이터를 효과적으로 분석하기 위해서는 강력한 도구가 필요합니다. 바로 여기서 Python의 대표적인 데이터 분석 라이브러리인 Pandas가 등장합니다. Pandas는 데이터를 효율적으로 저장하고 처리할 수 있는 강력한 기능을 제공하여 데이터 분석 과정을 훨씬 쉽고 빠르게 만들어줍니다. 제 경험상, Pandas를 사용하기 전과 후는 데이터 분석의 효율성 면에서 큰 차이를 보였습니다.

이 글에서는 Pandas의 기본적인 개념부터 시작하여 실제 데이터 분석에 활용할 수 있는 실용적인 방법까지 자세하게 알아보겠습니다. 초보자도 쉽게 이해할 수 있도록 친절하게 설명하고, 다양한 예시를 통해 Pandas의 강력함을 직접 느껴볼 수 있도록 구성했습니다.

Pandas 기본 개념: Series와 DataFrame

Series: 1차원 데이터 구조

Pandas의 가장 기본적인 데이터 구조는 Series입니다. Series는 1차원 배열과 유사하며, 각 데이터에 레이블(index)을 붙여 관리할 수 있습니다. 마치 엑셀 시트의 한 열과 같은 형태라고 생각하면 이해하기 쉽습니다. 예를 들어, 학생들의 시험 점수를 Series로 표현할 수 있습니다.


import pandas as pd

# Series 생성
scores = pd.Series([85, 90, 75, 80, 95], index=['Alice', 'Bob', 'Charlie', 'David', 'Eve'])

print(scores)

위 코드에서 `pd.Series()` 함수를 사용하여 Series를 생성하고, `index` 파라미터를 통해 각 점수에 해당하는 학생 이름을 지정했습니다. Series는 다양한 데이터 타입(정수, 실수, 문자열 등)을 저장할 수 있습니다.

DataFrame: 2차원 데이터 구조

DataFrame은 Pandas에서 가장 많이 사용되는 데이터 구조입니다. DataFrame은 테이블 형태의 데이터를 표현하며, 여러 개의 Series가 합쳐진 형태입니다. 마치 엑셀 시트 전체와 같은 모습이라고 생각하면 됩니다. 각 열은 서로 다른 데이터 타입을 가질 수 있으며, 각 행과 열에는 레이블(index)을 붙여 관리할 수 있습니다. 개인적으로는 DataFrame 덕분에 복잡한 데이터도 훨씬 쉽게 다룰 수 있게 되었습니다.


import pandas as pd

# DataFrame 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 28, 22, 27],
    'Score': [85, 90, 75, 80, 95]
}

df = pd.DataFrame(data)

print(df)

위 코드에서 `pd.DataFrame()` 함수를 사용하여 DataFrame을 생성하고, 각 열에 해당하는 데이터와 이름을 지정했습니다. DataFrame은 다양한 방식으로 데이터를 입력받을 수 있습니다 (딕셔너리, 리스트, NumPy 배열 등).

데이터 불러오기 및 저장하기

CSV 파일 불러오기

Pandas는 다양한 파일 형식의 데이터를 불러올 수 있는 기능을 제공합니다. 그중에서도 가장 많이 사용되는 형식은 CSV(Comma Separated Values) 파일입니다. CSV 파일은 쉼표로 구분된 텍스트 파일이며, 엑셀에서도 쉽게 열고 편집할 수 있습니다. 실제로 사용해보니, Pandas로 CSV 파일을 불러오는 것은 매우 간단하고 편리했습니다.


import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('data.csv')

print(df.head()) # 처음 5행 출력

위 코드에서 `pd.read_csv()` 함수를 사용하여 `data.csv` 파일을 불러왔습니다. `df.head()` 함수는 DataFrame의 처음 5행을 출력하여 데이터가 제대로 불러와졌는지 확인할 수 있습니다.

데이터 저장하기

Pandas는 데이터를 다양한 파일 형식으로 저장할 수 있는 기능도 제공합니다. CSV 파일 외에도 엑셀, JSON, SQL 데이터베이스 등 다양한 형식으로 데이터를 저장할 수 있습니다.


import pandas as pd

# DataFrame을 CSV 파일로 저장
df.to_csv('output.csv', index=False)

위 코드에서 `df.to_csv()` 함수를 사용하여 DataFrame을 `output.csv` 파일로 저장했습니다. `index=False` 파라미터는 DataFrame의 인덱스를 파일에 저장하지 않도록 설정합니다.

데이터 탐색 및 전처리

데이터 정보 확인하기

데이터를 불러온 후에는 데이터의 정보를 확인하는 것이 중요합니다. Pandas는 데이터의 크기, 데이터 타입, 결측치(missing value) 등을 확인할 수 있는 다양한 기능을 제공합니다.


import pandas as pd

# DataFrame 정보 확인
print(df.info()) # 데이터 타입, 결측치 정보 등
print(df.describe()) # 통계 정보 (평균, 표준편차, 최소값, 최대값 등)
print(df.isnull().sum()) # 결측치 개수 확인

`df.info()` 함수는 DataFrame의 데이터 타입, 결측치 정보 등을 출력합니다. `df.describe()` 함수는 DataFrame의 통계 정보(평균, 표준편차, 최소값, 최대값 등)를 출력합니다. `df.isnull().sum()` 함수는 각 열별 결측치 개수를 출력합니다.

결측치 처리하기

결측치는 데이터 분석의 정확도를 떨어뜨리는 요인이 될 수 있습니다. Pandas는 결측치를 처리하는 다양한 방법을 제공합니다. 예를 들어, 결측치를 특정 값으로 채우거나, 결측치가 포함된 행을 삭제할 수 있습니다.


import pandas as pd

# 결측치를 특정 값으로 채우기
df['Age'].fillna(df['Age'].mean(), inplace=True) # 평균값으로 채우기

# 결측치가 포함된 행 삭제하기
df.dropna(inplace=True)

`df[‘Age’].fillna(df[‘Age’].mean(), inplace=True)` 코드는 ‘Age’ 열의 결측치를 평균값으로 채웁니다. `df.dropna(inplace=True)` 코드는 결측치가 포함된 행을 삭제합니다.

데이터 분석 및 시각화

데이터 필터링 및 정렬

Pandas는 조건에 맞는 데이터를 필터링하고 정렬하는 기능을 제공합니다. 이를 통해 원하는 데이터를 추출하고 분석할 수 있습니다.


import pandas as pd

# 특정 조건에 맞는 데이터 필터링
filtered_df = df[df['Age'] > 25] # 나이가 25세 초과인 데이터만 추출

# 데이터 정렬
sorted_df = df.sort_values(by='Score', ascending=False) # 'Score' 열 기준으로 내림차순 정렬

`df[df[‘Age’] > 25]` 코드는 ‘Age’ 열의 값이 25보다 큰 행만 추출합니다. `df.sort_values(by=’Score’, ascending=False)` 코드는 ‘Score’ 열을 기준으로 내림차순으로 데이터를 정렬합니다.

데이터 시각화

Pandas는 Matplotlib과 같은 시각화 라이브러리와 연동하여 데이터를 시각화할 수 있습니다. 이를 통해 데이터의 패턴과 추세를 파악하고, 분석 결과를 효과적으로 전달할 수 있습니다. 제 경험상, 데이터를 시각화하면 숨겨진 인사이트를 발견하는 데 큰 도움이 됩니다.


import pandas as pd
import matplotlib.pyplot as plt

# 히스토그램 그리기
df['Score'].hist()
plt.show()

# 산점도 그리기
plt.scatter(df['Age'], df['Score'])
plt.xlabel('Age')
plt.ylabel('Score')
plt.show()

`df[‘Score’].hist()` 코드는 ‘Score’ 열의 히스토그램을 그립니다. `plt.scatter(df[‘Age’], df[‘Score’])` 코드는 ‘Age’ 열과 ‘Score’ 열의 산점도를 그립니다.

결론: Pandas, 데이터 분석의 강력한 동반자

지금까지 Pandas의 기본적인 개념부터 시작하여 데이터 불러오기, 전처리, 분석, 시각화까지 다양한 기능을 살펴보았습니다. Pandas는 데이터 분석을 위한 필수적인 도구이며, 다양한 분야에서 활용될 수 있습니다.

Pandas를 꾸준히 학습하고 활용한다면 데이터 분석 능력을 향상시키는 데 큰 도움이 될 것입니다. 다음 단계로는 Pandas의 고급 기능 (그룹화, 병합, 피벗 테이블 등)을 학습하고, 실제 데이터 분석 프로젝트에 적용해보는 것을 추천합니다. 데이터 분석 여정을 응원합니다!

“`

Select a plan

Monthly plan

Yearly plan

All plans include

Search for an article