colab python 데이터가공 중복값
개념
데이터 가공(Data manipulation)
데이터 분석의 80% 이상 데이터 전처리(pre-processing)에 쓰인다.
- 결측값(missing values) 처리
- 중복값(duplicated values) 처리
- 오류값(error values) 처리
- 기존 값을 가공해 새로운 값을 만들기
- 등등...
데이터 가공하기(Data manipulation)
중복값(duplicated values) 처리
중복값은 여러 이유로 생길 수 있다. 판다스에서 중복값은 다음과 같이 확인 가능하다.
data = pd.DataFrame(
{'k1': ['one', 'two'] * 3 + ['two'],
'k2': [1, 1, 2, 3, 3, 4, 4]})
# 데이터프레임 확인
data
# 중복값을 확인하는 매소드 중복값은 True로 나온다
data.duplicated()
중복값을 제거하고 싶을 때는 drop_duplicates()
를 쓴다.
data.drop_duplicates()
기본적으로 판다스는 모든 컬럼의 값이 동일해야 중복값으로 판단한다. 직접 중복값 판단의 기준이 되는 컬럼을 지정해줄 수 있다.
# 컬럼 리스트를 넣어준다 (['k1'])
data.drop_duplicates(['k1'])
# 첫번째로 나온 one, two만 두고 나머지 중복값을 모두 지운다. 0과 1행만 남음.
기본적으로 drop_duplicates는 중복값 중 첫번째 값을 남긴다. 마지막 값을 남기고 싶다면 keep
파라미터를 사용한다.
data.drop_duplicates(['k1', 'k2'], keep='last')
# 이번에는 5번 행이 제거된 것을 볼 수 있다
Author And Source
이 문제에 관하여(colab python 데이터가공 중복값), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@ghj616/colab-python-데이터가공-중복값저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)