Pandas Part 3. 연산과 함수

Date:     Updated:

카테고리:

태그:

누락된 데이터 체크

  • 튜토리얼의 데이터와 다르게 현실 데이터는 일부 누락되어 있응 형태가 많음
    dataframe.isnull()
    dataframe.notnull()
    

    image



dataframe.dropna()
dataframe['전화번호'] = dataframe['전화번호'].fillna('전화번호 없음')

image

Series 연산

  • numpy array에서 사용했던 Series연산자들을 동일하게 활용할 수 있음
    A = pd.Series([2, 4, 6], index=[0, 1, 2])
    B = pd.Series([1, 3, 5], index=[1, 2, 3])
    A + B
    A.add(B, fill_value=0)  # B에 없는 A의 데이터는 0으로 처리해서 덧셈해라
    

    image

DataFrame 연산

  • add(+), sub(-), mul(*), div(/)
    A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=list("AB"))
    B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("BAC"))
    A + B
    A.add(B, fill_value=0)
    

    image

집계함수

  • numpy array에서 사용했던 sum, mean 등의 집계함수를 동일하게 사용할 수 있음
    data = {
    'A' : [i+5 for i in range(3)],
    'B' : [i**2 for i in range(3)]
    }
    df = pd.DataFrame(data)
    df['A'].sum()  # 18
    df.sum()
    df.mean()
    

    image

값으로 정렬하기

sort_values()

df= pd.DataFrame({
  'col1': [2, 1, 9, 8, 7, 4],
  'col2': ['A', 'A', 'B', np.nan, 'D', 'C'],
  'col3': [0, 1, 9, 4, 2, 3],
})

image


df.sort_valuee('col1')

image


df.sort_values('col1', ascending=False)

image


df.sort_values(['col2', 'col1'])

image


Basic 카테고리 내 다른 글 보러가기

댓글 남기기