pandas 중복치 횟수 통계 방법 실현
from pandas import DataFrame
df = DataFrame({'key1':['a','a','b','b','a','a'],
'key2':['one','two','one','two','one','one'],
'data1':[1,2,3,2,1,1],
# 'data2':np.random.randn(5)
})
#
print(df)
# data1 key1 key2
# 0 1 a one
# 1 2 a two
# 2 3 b one
# 3 2 b two
# 4 1 a one
# 5 1 a one
#
print(df[df.duplicated()])
# data1 key1 key2
# 4 1 a one
# 5 1 a one
#
dup=df[df.duplicated()].count()
print(dup) #
# data1 2
# key1 2
# key2 2
#
nodup=df[-df.duplicated()]
print(nodup)
# data1 key1 key2
# 0 1 a one
# 1 2 a two
# 2 3 b one
# 3 2 b two
pandas에서 데이터 프레임 중복 요소 개수 가져오기
방법은 다음과 같다.
1. duplicated 방법을 호출하면 중복되지 않은 요소는 False로 표시되고 중복된 요소는 True로 표시됩니다.
count = 0
for i in users_info['user_id'].duplicated():
if i == True:
count = count + 1
count
[주1]users_info는 dataframe 상자,user_id 는 다음 열 중 하나입니다.[주2]duplicated () 방법은 중복된 원소만 True로 표시하고 중복된 원소는 표시하지 않는다
2. 이 코드의 속도가 더 빨라요,drop_duplicates(['user_id']) 방법은 user_id열에서 같은 요소
users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]
[주]shape[0]는 줄 수를 얻기 위해판다스의 중복치 횟수 통계 방법에 대한 이 글을 소개합니다. 판다스의 중복치 횟수 통계에 대한 더 많은 내용은 저희 이전의 글을 검색하거나 아래의 관련 글을 계속 훑어보십시오. 앞으로 많은 응원 부탁드립니다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
【Pandas】DatetimeIndex란? no.29안녕하세요, 마유미입니다. Pandas에 대한 기사를 시리즈로 작성하고 있습니다. 이번은 제29회의 기사가 됩니다. 에서 Pandas의 시간에 대한 모듈에 대해 씁니다. 이번 기사에서는, 「DatetimeIndex」...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.