Pandas Part 3. 연산과 함수

Date: 2023.03.19 Updated: 2023.03.19

카테고리: Basic

누락된 데이터 체크

튜토리얼의 데이터와 다르게 현실 데이터는 일부 누락되어 있응 형태가 많음
```
dataframe.isnull()
dataframe.notnull()
```

dataframe.dropna()
dataframe['전화번호'] = dataframe['전화번호'].fillna('전화번호 없음')

Series 연산

numpy array에서 사용했던 Series연산자들을 동일하게 활용할 수 있음

A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B
A.add(B, fill_value=0)  # B에 없는 A의 데이터는 0으로 처리해서 덧셈해라

DataFrame 연산

add(+), sub(-), mul(*), div(/)

A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=list("AB"))
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("BAC"))
A + B
A.add(B, fill_value=0)

집계함수

numpy array에서 사용했던 sum, mean 등의 집계함수를 동일하게 사용할 수 있음

data = {
'A' : [i+5 for i in range(3)],
'B' : [i**2 for i in range(3)]
}
df = pd.DataFrame(data)
df['A'].sum()  # 18
df.sum()
df.mean()

값으로 정렬하기

sort_values()

df= pd.DataFrame({
  'col1': [2, 1, 9, 8, 7, 4],
  'col2': ['A', 'A', 'B', np.nan, 'D', 'C'],
  'col3': [0, 1, 9, 4, 2, 3],
})

df.sort_valuee('col1')

df.sort_values('col1', ascending=False)

df.sort_values(['col2', 'col1'])

Do0_Kim

Pandas Part 3. 연산과 함수

누락된 데이터 체크

Series 연산

DataFrame 연산

집계함수

값으로 정렬하기

Basic 카테고리 내 다른 글 보러가기

댓글 남기기

최근 글 10 개 :)