pandas 중복치 횟수 통계 방법 실현

1791 단어 pandas통계중복값
본고는 주로 판다스가 중복치 횟수를 통계하는 방법의 실현을 소개하고 여러분에게 공유하고자 한다. 구체적으로는 다음과 같다.

from pandas import DataFrame

df = DataFrame({'key1':['a','a','b','b','a','a'],
        'key2':['one','two','one','two','one','one'],
        'data1':[1,2,3,2,1,1],
        # 'data2':np.random.randn(5)
        })
#  
print(df)
#  data1 key1 key2
# 0   1  a one
# 1   2  a two
# 2   3  b one
# 3   2  b two
# 4   1  a one
# 5   1  a one

#  
print(df[df.duplicated()])
#  data1 key1 key2
# 4   1  a one
# 5   1  a one

#  
dup=df[df.duplicated()].count()
print(dup) #  
# data1  2
# key1   2
# key2   2

#  
nodup=df[-df.duplicated()]
print(nodup)
#  data1 key1 key2
# 0   1  a one
# 1   2  a two
# 2   3  b one
# 3   2  b two


pandas에서 데이터 프레임 중복 요소 개수 가져오기


방법은 다음과 같다.
1. duplicated 방법을 호출하면 중복되지 않은 요소는 False로 표시되고 중복된 요소는 True로 표시됩니다.

count = 0
for i in users_info['user_id'].duplicated():
  if i == True:
    count = count + 1
count
[주1]users_info는 dataframe 상자,user_id 는 다음 열 중 하나입니다.
[주2]duplicated () 방법은 중복된 원소만 True로 표시하고 중복된 원소는 표시하지 않는다
2. 이 코드의 속도가 더 빨라요,drop_duplicates(['user_id']) 방법은 user_id열에서 같은 요소

users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]
[주]shape[0]는 줄 수를 얻기 위해
판다스의 중복치 횟수 통계 방법에 대한 이 글을 소개합니다. 판다스의 중복치 횟수 통계에 대한 더 많은 내용은 저희 이전의 글을 검색하거나 아래의 관련 글을 계속 훑어보십시오. 앞으로 많은 응원 부탁드립니다!

좋은 웹페이지 즐겨찾기