[번역] KDD 컵 정말 음악 추천 인가?

7434 단어 알고리즘 학술
링크: http://musicmachinery.com/2011/02/22/is-the-kdd-cup-really-music-recommendation/
KDD Cup: http://kddcup.yahoo.com/index.php
배경
KDD Cup 2011 의 주 제 는 음악 추천 으로, 데이터 세트 는 아직 공식 적 으로 발표 되 지 않 았 지만 관련 논 의 는 이미 예열 되 기 시작 했다.이번 데이터 집합의 특징 중 하 나 는 평가 대상 이 노래 뿐만 아니 라 앨범, 예술가 와 음악 유파 도 포함 되 어 사용자 의 선 호가 상대 적 으로 풍부 하고 차원 화 된 것 이다.그러나 콘 텐 츠 - based 의 연구자 들 은 의견 이 많 고 음악 정보 도 익명 으로 만들어 져 놀 수가 없 었 다.
사실 개인 적 으로 사용자 의 평 점 과 자원 데이터 가 있어 도 특정한 목표 함 수 를 최적화 대상 으로 하 는 경 기 는 실제 응 용 된 음악 추천 시스템 과 큰 차이 가 있다 고 생각 합 니 다.왜냐하면 우 리 는 몇 개의 prediction 지 표를 가지 고 효 과 를 평가 할 수 없다. 게다가 일상적인 실제 응용 에 있어 상대 적 으로 느 린 음악 데이터 집합 을 업데이트 하 는 데 있어 서 하고 싶 은 것 은 한 번 의 추천 이 아니다.아니면 그 정확 한 쓸데없는 말 인지 데이터, 알고리즘, 제품 이 하나 도 없어 서 는 안 된다.
번역문
KDD Cup 은 1 년 에 한 번 씩 열 리 는 데이터 마 이 닝 과 지식 발견 경연 대회 로, 더 ACM 스 페 셜 인 터 레 스 트 그룹 온 지식 디 스 커버 리 앤 데이터 마 이 닝 이 주최한다.올해 KDD Cup 의 주 제 는 learn the rhythm, predict the musical scores (리듬 운율 이해, 음악 평 점 예측) 다.야후 음악 은 1 백만 명 이 넘 는 익명 사용자 의 3 억 건의 평 점 데 이 터 를 제 공 했 는데 이런 평 점 은 각각 노래, 앨범, 예술가 와 음악 유 파 를 대상 으로 한다.이번 경기 의 목 표 는 (1) 사용자 의 평 점 을 정확하게 예측 하 는 것 이다 (2) 사용자 가 좋아 하 는 노래 와 다른 노래 를 구분 하 는 것 이다.
이것 은 매우 흥 분 된 데이터 세트 이다.아마도 사상 최대 의 공개 음악 데이터 세트 일 것 이다.어느 정도 이 데이터 세트 가 음악 추천 분야 에서 넷 플 릭 스 상과 유사 한 큰 추진 역할 을 할 것 으로 기대 할 수 있다.그러나 문제 가 존재 한다. 이 데 이 터 는 완전히 익명 이다. 사용자 의 익명 뿐만 아니 라 노래, 앨범, 예술가, 유파, 모든 것 이 익명 이다.그래서 모든 데 이 터 는 '사용자 X 가 춘 형 에 게 5 성 평 가 를 한 것' 이 아니 라 '사용자 X 가 가수 Y 에 게 5 성 평 가 를 한 것' 으로 보인다.다음은 데이터 샘플 입 니 다.
3|14  # user ID 3 has 14 ratings
5980    90      3811    13:24:00   # item 5980 got a score of 90/100
11059   90      3811    13:24:00   # 3811 is a day offset from an
21931   90      3811    13:24:00   #     undisclosed date
74262   90      3811    13:24:00   #
146781  90      3811    13:24:00   # 13:24 is the time on day 3811
173094  90      3811    13:24:00
175835  90      3811    13:24:00
180037  90      3811    13:24:00
194044  90      3811    13:24:00
267723  90      3811    13:24:00
290303  90      3811    13:24:00
366723  90      3811    13:24:00
432968  90      3811    13:24:00
451800  90      3811    13:24:00

아 이 템 ID 를 실제 음악 아 이 템 과 대응 할 수 없 기 때문에 이 경 기 는 음악 추천 이 아 닌 협동 필터 링 알고리즘 (CF) 에 관 한 경기 와 같 습 니 다.Oscar Celma ('Music Recommendation and Discovery' 의 저자) 가 KDD Cup 포럼 에서 말 한 것 처럼:
  • 가수 / 노래 제목 이 없어 서 저 는 이 데이터 세트 에 관심 이 없습니다.현재 이것 은 진정한 '음악 데이터 세트' 나 '음악 추천' 경기 가 아니 라 CF 알고리즘 을 커 다란 데이터 세트 에 응용 하 는 것 이다.어느 정도 CF 연구자 들 의 좋 은 소식 이다.그러나 이 분야 에 서 는 새로운 지식 이 나 오지 않 는 다. 직언 을 용서 하 세 요. 의미 가 없습니다.

  • 연구자 Amelie Anglade 는 다음 과 같이 덧 붙 였 다.
  • 실제 예술가 와 곡 명 을 얻 으 면 할 수 있 는 일이 많다. 음악 정보 검색 기술 을 사용 하면 우 리 는 오디 오 데이터 (리듬, 코드, 멜로디, 음색 등), 득점, 가사, 예술가 간 의 관련 등 을 분석 할 수 있다.실제로 점점 더 많은 사람들 이 이런 방향 에서 일 을 하고 있다. 이번 경 기 는 유파 (역할 에 한계 가 있다) 를 제외 하고 어떠한 내용 도 제공 하지 않 는 것 이 전체 연구 분야 에 대한 무시 이다.

  • 데 이 터 를 아낌없이 제공 하 는 야후 직원 들 도 실제 음악 정보의 부족 이 음악 정보 검색 지역 사회의 연구원 들 이 경기 에 참여 하 는 데 가 져 온 어려움 을 인식 하고 있다.하지만 올해 KDD Cup 의 주최자 중 한 명 은 Noam 입 니 다. Koenigstein 은 익명 의 데 이 터 를 제공 하 는 것 은 주로 사용자 평 점 데 이 터 를 둘 러 싼 대량의 법 적 논란 과 소송 위험 (넷 플 릭 스 소송 참조) 을 고려 한 것 이 라 고 말 했다.Noam 강조:
  • 이 데이터 세트 에서 6 개 월 동안 의 작업 을 통 해 저 는 음악 을 바탕 으로 하 는 CF 와 다른 유형의 CF 에 차이 가 있다 고 대담 하 게 말 할 수 있 습 니 다.예 를 들 어 음악 과 영화 (Netflix) 가 유행 하 는 추세 에서 다르다.따라서 시간 효 과 를 고려 해 야 하 는 CF 시스템 은 음악 분야 에서 도 달라 질 수 있다.다른 면 에 서 는 차이 가 있 지만 더 이상 밝 히 기 가 곤란 합 니 다.

  • 저 는 Noam 의 관점 에 찬성 합 니 다. 음악 평가 데이터 와 다른 데이터 사이 에 재 미 있 는 차이 가 많 습 니 다. 이런 차 이 를 연구 하면 CF 의 연구 현황 과 기술 수준 을 향상 시 킬 것 입 니 다.하지만 저도 Oscar 와 Amelie 에 찬성 합 니 다. 실제 평 점 받 은 아 이 템 을 알 면 더 많이 할 수 있 습 니 다.
    음악 추천 분야 에는 이미 두 개의 매우 활발 한 연구 지역사회 가 있다.RecSys 커 뮤 니 티 는 전통 적 인 추천 시스템 의 방법 으로 협동 여과 기술 에 의 해 추천 된다.이 지역 사회 에서 볼 때 사용자 행위 데 이 터 를 바탕 으로 하 는 발굴 은 추천 하기에 충분 하 다.음악 정보 검색 (MIR) 커 뮤 니 티 는 음악 자 체 를 매우 중시 하고 오디 오 데이터 분석 과 content - based (CB) 의 방법 을 바탕 으로 추천 응용 을 구축한다.모든 방법 은 자신의 장점 과 단점 이 있다.가장 좋 은 시스템 은 종종 이 두 가지 방법 을 결합 시 켜 야 한다.
    KDD Cup 데이터 세트 는 아주 좋 은 데이터 입 니 다. 이 데이터 들 이 RecSys 커 뮤 니 티 에서 CF 알고리즘 을 개선 하 는 데 도움 이 될 것 이 라 고 확신 합 니 다.한편, MIR 커 뮤 니 티 도 자신의 산업 급 연구 데 이 터 를 만 들 고 있다. 최근 에 발 표 될 Million Song Data Set 은 CB 기술 을 개선 하 는 데 사용 된다.나 는 어느 날 우리 가 대량의 평가 데이터 와 내용 데 이 터 를 포함 한 종합 데이터 세트 를 제공 할 수 있 기 를 바란다.이 데 이 터 를 연구원 들 에 게 넘 기 면 소득 은 말 하지 않 아 도 알 수 있다.어쩌면 이것 이 진정한 문제 일지 도 모른다.제 레 미 리드 의 트 위 터 에 따 르 면 생물의 학 연구원 들 은 불법 물질 에 대한 연 구 를 얻 을 수 있 지만 우 리 는 할 수 없다.그 렇 기 때문에 우 리 는 그 쓸모없는 사용 자 를 찾 을 수 있 습 니 다!
    당신 도 좋아 할 수 있 습 니 다.
    KDD Cup 2011: Yahoo 가 후원 하 는 음악 추천
    KDD Cup 2010: 교육 데이터 발굴 경연 대회
    전재: 음악 추천 시스템 평가
    전재: 디지털 음악 개성화 추천 시스템 분석
    Hulu 새로운 추천 시스템 페이지 발표
    찾 을 수 없 는 네트워크 에서 온 글:
    구 글 클 라 우 드 음악 서비스 발표 구 글 뮤 직 테스트 단계 무료 (@ alibuybuy)
    MSN 로봇 추가: 12 개 언어 무장 애 번역 (@ alibuybuy)
    자동화 시대 의 기계공, KDD 2009 우승자 보고서 (@ wentrue)
    번역 소프트웨어 Babylon Pro 7.0.3.24 18 개 언어의 전문 번역 (@ alibuybuy)
    Toby’s Lessons on recommendation systems (@guwendong)
    찾 지 못 하 다

    좋은 웹페이지 즐겨찾기