[Python]정렬: H-Index

문제 설명

H-Index는 과학자의 생산성과 영향력을 나타내는 지표입니다. 어느 과학자의 H-Index를 나타내는 값인 h를 구하려고 합니다. 위키백과1에 따르면, H-Index는 다음과 같이 구합니다.

어떤 과학자가 발표한 논문 n편 중, h번 이상 인용된 논문이 h편 이상이고 나머지 논문이 h번 이하 인용되었다면 h의 최댓값이 이 과학자의 H-Index입니다.

어떤 과학자가 발표한 논문의 인용 횟수를 담은 배열 citations가 매개변수로 주어질 때, 이 과학자의 H-Index를 return 하도록 solution 함수를 작성해주세요.

제한사항

과학자가 발표한 논문의 수는 1편 이상 1,000편 이하입니다.
논문별 인용 횟수는 0회 이상 10,000회 이하입니다.

입출력 예

citations	return
[3, 0, 6, 1, 5]	3

입출력 예 설명

이 과학자가 발표한 논문의 수는 5편이고, 그중 3편의 논문은 3회 이상 인용되었습니다. 그리고 나머지 2편의 논문은 3회 이하 인용되었기 때문에 이 과학자의 H-Index는 3입니다.

내 코드

먼저 H-Index에 대해 이해가 잘 안돼서 참고 하였다.
핵심적인 얘기는 "전체 논문중 많이 인용된 순으로 정렬한 후, 피인용수가 논문수와 같아지거나 피인용수가 논문수보다 작아지기 시작하는 숫자가 바로 나의 h가 됩니다." 이다.

첫 번째 시도

def solution(citations):
    sort_c = sorted(citations, reverse=True)
    answer = 0
    for num in sort_c:
        idx = sort_c.index(num) + 1
        if num <= idx:
            answer = num
            break
    return answer

먼저 내림차순으로 정렬한 후, 논문의 피인용수가 인덱스(논문의 수) 보다 작아지는 곳을 찾게 코드를 짰다.

테스트 1 〉 실패 (1.77ms, 10.2MB)
테스트 2 〉 실패 (3.24ms, 10.2MB)
테스트 3 〉 실패 (2.38ms, 10.1MB)
테스트 4 〉 실패 (2.67ms, 10.2MB)
테스트 5 〉 실패 (3.66ms, 10.3MB)
테스트 6 〉 실패 (4.30ms, 10.2MB)
테스트 7 〉 실패 (1.05ms, 10.2MB)
테스트 8 〉 실패 (0.04ms, 10.2MB)
테스트 9 〉 실패 (0.12ms, 10.2MB)
테스트 10 〉 실패 (1.36ms, 10.2MB)
테스트 11 〉 통과 (4.72ms, 10.3MB)
테스트 12 〉 실패 (0.24ms, 10.2MB)
테스트 13 〉 실패 (4.33ms, 10.2MB)
테스트 14 〉 실패 (3.79ms, 10.3MB)
테스트 15 〉 실패 (3.99ms, 10.2MB)
테스트 16 〉 통과 (0.00ms, 10.2MB)

채점 결과
정확성: 12.5
합계: 12.5 / 100.0

빨간 세상이 펼쳐졌다..

만약 citations = [12, 11, 10, 9, 8, 1] 이면 5가 출력되어야 하는데 위 코드대로라면 1이 출력된다. 이 때까지 나는 무조건 리스트 안의 숫자가 나와야한다고 생각했는데 그게 아닌가보다.

두 번째 시도

def solution(citations):
    len_c = len(citations)
    while True:
        cnt = 0
        for num in citations:
            if num >= len_c:
                cnt += 1
        if cnt >= len_c:
            return len_c
        len_c -= 1

프로그래머스 사이트의 질문하기 를 보던 중, 테스트 케이스 모음을 보게되었고, 보다보니 return값이 citations의 길이보다 무조건 작거나 같다는 것을 알게되었다.

len_c에 citations의 길이를 저장한다.
cnt = 0 으로 놓고 citations 리스트에서 한 개씩 값을 꺼내면서 만약 꺼낸 값이 len_c보다 크다면 cnt에 1씩 더한다.
만약 cnt의 값이 len_c보다 크거나 같으면 len_c가 H-Index가 된다.
len_c를 1씩 줄여가며 반복한다.

다른 사람의 생각

비슷한 풀이

def solution(citations):
    citations = sorted(citations)
    l = len(citations)
    for i in range(l):
        if citations[i] >= l-i:
            return l-i
    return 0

생각은 똑같은데 코드가 훨씬 간결하다. 정렬해서 작은 값부터 len(citations)와 비교하고 리스트 안의 값과 l-i로 값을 줄여가면서 찾아서 리턴해주며 만약 찾지못하면 0을 리턴하게 했다.

고수의 풀이

def solution(citations):
    citations.sort(reverse=True)
    answer = max(map(min, enumerate(citations, start=1)))
    return answer

정말 대단한 사람인거 같다..
1. sort로 내림차순으로 정렬한 후, enumerate로 (index, value)형태로 묶는다.
2. 최댓값(start = 1)부터 각 value에 대해 최솟값 value의 값을 min으로 추출하고, 이 추출된 값은 enumerate가 끝나는 citations 리스트의 크기에 해당하는 갯수가 나온다.
3. 이들을 map으로 묶으면, 한 value의 입장에서 보는 최솟값 value의 집합이 나온다. 즉 h값들의 집합이나온다. h값 중 최대값을 max로 뽑아서 출력하면 된다.

예를 들어 citations=[12, 11, 10, 9, 8, 1] 이면

list(enumerate(citations, start=1)) 의 결과 값은 [(1, 12), (2, 11), (3, 10), (4, 9), (5, 8), (6, 1)] 이다.
list(map(min, enumerate(citations, start=1))) 의 결과 값은 [1, 2, 3, 4, 5, 1] 이다.

Author And Source

이 문제에 관하여([Python]정렬: H-Index), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@fiifa92/파이썬정렬-H-Index

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)