pandas 중복치 횟수 통계 방법 실현

본고는 주로 판다스가 중복치 횟수를 통계하는 방법의 실현을 소개하고 여러분에게 공유하고자 한다. 구체적으로는 다음과 같다.


from pandas import DataFrame

df = DataFrame({'key1':['a','a','b','b','a','a'],
        'key2':['one','two','one','two','one','one'],
        'data1':[1,2,3,2,1,1],
        # 'data2':np.random.randn(5)
        })
#  
print(df)
#  data1 key1 key2
# 0   1  a one
# 1   2  a two
# 2   3  b one
# 3   2  b two
# 4   1  a one
# 5   1  a one

#  
print(df[df.duplicated()])
#  data1 key1 key2
# 4   1  a one
# 5   1  a one

#  
dup=df[df.duplicated()].count()
print(dup) #  
# data1  2
# key1   2
# key2   2

#  
nodup=df[-df.duplicated()]
print(nodup)
#  data1 key1 key2
# 0   1  a one
# 1   2  a two
# 2   3  b one
# 3   2  b two

pandas에서 데이터 프레임 중복 요소 개수 가져오기

방법은 다음과 같다.
1. duplicated 방법을 호출하면 중복되지 않은 요소는 False로 표시되고 중복된 요소는 True로 표시됩니다.


count = 0
for i in users_info['user_id'].duplicated():
  if i == True:
    count = count + 1
count

[주1]users_info는 dataframe 상자,user_id 는 다음 열 중 하나입니다.
[주2]duplicated () 방법은 중복된 원소만 True로 표시하고 중복된 원소는 표시하지 않는다
2. 이 코드의 속도가 더 빨라요,drop_duplicates(['user_id']) 방법은 user_id열에서 같은 요소


users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]

[주]shape[0]는 줄 수를 얻기 위해
판다스의 중복치 횟수 통계 방법에 대한 이 글을 소개합니다. 판다스의 중복치 횟수 통계에 대한 더 많은 내용은 저희 이전의 글을 검색하거나 아래의 관련 글을 계속 훑어보십시오. 앞으로 많은 응원 부탁드립니다!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

【Pandas】DatetimeIndex란?　no.29

안녕하세요, 마유미입니다. Pandas에 대한 기사를 시리즈로 작성하고 있습니다. 이번은 제29회의 기사가 됩니다. 에서 Pandas의 시간에 대한 모듈에 대해 씁니다. 이번 기사에서는, 「DatetimeIndex」...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다