colab python 데이터가공 중복값

개념

데이터 가공(Data manipulation)

데이터 분석의 80% 이상 데이터 전처리(pre-processing)에 쓰인다.

  • 결측값(missing values) 처리
  • 중복값(duplicated values) 처리
  • 오류값(error values) 처리
  • 기존 값을 가공해 새로운 값을 만들기
  • 등등...

데이터 가공하기(Data manipulation)

중복값(duplicated values) 처리

중복값은 여러 이유로 생길 수 있다. 판다스에서 중복값은 다음과 같이 확인 가능하다.

data = pd.DataFrame(
  {'k1': ['one', 'two'] * 3 + ['two'], 
  'k2': [1, 1, 2, 3, 3, 4, 4]})
# 데이터프레임 확인
data
# 중복값을 확인하는 매소드 중복값은 True로 나온다
data.duplicated()

중복값을 제거하고 싶을 때는 drop_duplicates()를 쓴다.

data.drop_duplicates()

기본적으로 판다스는 모든 컬럼의 값이 동일해야 중복값으로 판단한다. 직접 중복값 판단의 기준이 되는 컬럼을 지정해줄 수 있다.

# 컬럼 리스트를 넣어준다 (['k1'])
data.drop_duplicates(['k1'])
# 첫번째로 나온 one, two만 두고 나머지 중복값을 모두 지운다. 0과 1행만 남음.

기본적으로 drop_duplicates는 중복값 중 첫번째 값을 남긴다. 마지막 값을 남기고 싶다면 keep 파라미터를 사용한다.

data.drop_duplicates(['k1', 'k2'], keep='last')
# 이번에는 5번 행이 제거된 것을 볼 수 있다

좋은 웹페이지 즐겨찾기