등급 행렬에 대한 전처리

8380 단어 pandasPython3
등급 행렬은 행이 사용자이고 열이 항목이 되는 행렬입니다.
요소는 유저가 아이템에 대해 붙인 점수 등을 상정하고 있다.

그것을 만들기 전에 전처리 노트.

실제 데이터라고 하는 것은 데이터 사이언티스트가 입수했을 경우, 레이팅 행렬 담당하고 있는 것은 아니고, 아래의 「샘플 데이터」의 단락에 있도록(듯이),
ユーザー, アイテム, 点数의 행이 된 것이 대량으로 있는 것을 가리킨다. (예: Movielens)

이 기사에서는
  • 특정 횟수 이상의 사용자 및 항목으로 짜내고 싶습니다
  • 유저, 아이템에 index를 붙인다

  • 할 때의 코드를 나타냅니다.

    데이터 로드


    import pandas as pd
    
    df = pd.read_csv('./rating.csv')
    df.head()
    

    출력



    사용자
    item
    rating


    0
    A
    a
    1

    1
    A
    b
    2

    2
    B
    a
    1

    3
    B
    b
    3

    4
    B
    d
    4


    특정 출현 횟수 이상의 데이터로 좁히는 방법


    users = df['user'].value_counts() # user別に集計
    items = df['item'].value_counts() # item別に集計
    

    사용자의 내용
    C    5
    D    5
    B    4
    A    2
    Name: user, dtype: int64
    

    items 내용
    a    4
    b    3
    d    3
    e    2
    c    2
    g    1
    f    1
    Name: item, dtype: int64
    

    출현 빈도의 하한을 얻는다


    min_user = 5
    min_item = 2
    users_filtered = users[users >= min_user] # 2
    items_filtered = items[items >= min_item] # 5
    
    reduced_df = df.merge(pd.DataFrame({'user': users_filtered.index})).merge(pd.DataFrame({'item': items_filtered.index}))
    
    reduced_df 는 원래 데이터에서

    「5회 이상 평가한 유저 또는 2회 이상 등장한 아이템」

    만 추출했다.

    사용자와 항목에 색인을 추가


    users = reduced_df['user'].value_counts()
    items = reduced_df['item'].value_counts()
    
    import numpy as np
    user_index = pd.DataFrame({'user': users.index, 'user_id': np.arange(users.shape[0])})
    item_index = pd.DataFrame({'item': items.index, 
                                  'item_id': np.arange(items.shape[0])})
    
    reduced_df2 = reduced_df.merge(user_index).merge(item_index)
    print(reduced_df2.shape)
    reduced_df2.head(10)
    

    출력



    index를 붙인다는 것은, 원래의 유저, 아이템을

    사용자
    - 사용자 C -> 0
    - 사용자 D -> 1

    아이템
  • item a -> 0
  • item b -> 4
  • item c -> 1
  • item d -> 2
  • item e -> 3

  • 라는 대응시키는 조작에 해당한다.


    n
    table = pd.pivot_table(reduced_df, values='rating', index=['user'],
                        columns=['item'])
    



    등급 행렬에서 요소가 있는 부분의 백분율 계산
    reduced_df.shape[0]/(len(reduced_df.user.unique()) * len(reduced_df.item.unique()))
    

    => 0.8

    샘플 데이터


    user,item,rating
    A,a,1
    A,b,2
    B,a,1
    B,b,3
    B,d,4
    B,e,4
    C,a,1
    C,b,1
    C,c,1
    C,d,1
    C,e,1
    D,a,5
    D,c,4
    D,d,2
    D,f,3
    D,g,4
    

    좋은 웹페이지 즐겨찾기