등급 행렬에 대한 전처리
요소는 유저가 아이템에 대해 붙인 점수 등을 상정하고 있다.
그것을 만들기 전에 전처리 노트.
실제 데이터라고 하는 것은 데이터 사이언티스트가 입수했을 경우, 레이팅 행렬 담당하고 있는 것은 아니고, 아래의 「샘플 데이터」의 단락에 있도록(듯이),
ユーザー, アイテム, 点数
의 행이 된 것이 대량으로 있는 것을 가리킨다. (예: Movielens)이 기사에서는
할 때의 코드를 나타냅니다.
데이터 로드
import pandas as pd
df = pd.read_csv('./rating.csv')
df.head()
출력
사용자
item
rating
0
A
a
1
1
A
b
2
2
B
a
1
3
B
b
3
4
B
d
4
특정 출현 횟수 이상의 데이터로 좁히는 방법
users = df['user'].value_counts() # user別に集計
items = df['item'].value_counts() # item別に集計
사용자의 내용
C 5
D 5
B 4
A 2
Name: user, dtype: int64
items 내용
a 4
b 3
d 3
e 2
c 2
g 1
f 1
Name: item, dtype: int64
출현 빈도의 하한을 얻는다
min_user = 5
min_item = 2
users_filtered = users[users >= min_user] # 2
items_filtered = items[items >= min_item] # 5
reduced_df = df.merge(pd.DataFrame({'user': users_filtered.index})).merge(pd.DataFrame({'item': items_filtered.index}))
reduced_df
는 원래 데이터에서
「5회 이상 평가한 유저 또는 2회 이상 등장한 아이템」
만 추출했다.
사용자와 항목에 색인을 추가
users = reduced_df['user'].value_counts()
items = reduced_df['item'].value_counts()
import numpy as np
user_index = pd.DataFrame({'user': users.index, 'user_id': np.arange(users.shape[0])})
item_index = pd.DataFrame({'item': items.index,
'item_id': np.arange(items.shape[0])})
reduced_df2 = reduced_df.merge(user_index).merge(item_index)
print(reduced_df2.shape)
reduced_df2.head(10)
출력
index를 붙인다는 것은, 원래의 유저, 아이템을
사용자
- 사용자 C -> 0
- 사용자 D -> 1
아이템
import pandas as pd
df = pd.read_csv('./rating.csv')
df.head()
users = df['user'].value_counts() # user別に集計
items = df['item'].value_counts() # item別に集計
사용자의 내용
C 5
D 5
B 4
A 2
Name: user, dtype: int64
items 내용
a 4
b 3
d 3
e 2
c 2
g 1
f 1
Name: item, dtype: int64
출현 빈도의 하한을 얻는다
min_user = 5
min_item = 2
users_filtered = users[users >= min_user] # 2
items_filtered = items[items >= min_item] # 5
reduced_df = df.merge(pd.DataFrame({'user': users_filtered.index})).merge(pd.DataFrame({'item': items_filtered.index}))
reduced_df
는 원래 데이터에서
「5회 이상 평가한 유저 또는 2회 이상 등장한 아이템」
만 추출했다.
사용자와 항목에 색인을 추가
users = reduced_df['user'].value_counts()
items = reduced_df['item'].value_counts()
import numpy as np
user_index = pd.DataFrame({'user': users.index, 'user_id': np.arange(users.shape[0])})
item_index = pd.DataFrame({'item': items.index,
'item_id': np.arange(items.shape[0])})
reduced_df2 = reduced_df.merge(user_index).merge(item_index)
print(reduced_df2.shape)
reduced_df2.head(10)
출력
index를 붙인다는 것은, 원래의 유저, 아이템을
사용자
- 사용자 C -> 0
- 사용자 D -> 1
아이템
min_user = 5
min_item = 2
users_filtered = users[users >= min_user] # 2
items_filtered = items[items >= min_item] # 5
reduced_df = df.merge(pd.DataFrame({'user': users_filtered.index})).merge(pd.DataFrame({'item': items_filtered.index}))
users = reduced_df['user'].value_counts()
items = reduced_df['item'].value_counts()
import numpy as np
user_index = pd.DataFrame({'user': users.index, 'user_id': np.arange(users.shape[0])})
item_index = pd.DataFrame({'item': items.index,
'item_id': np.arange(items.shape[0])})
reduced_df2 = reduced_df.merge(user_index).merge(item_index)
print(reduced_df2.shape)
reduced_df2.head(10)
출력
index를 붙인다는 것은, 원래의 유저, 아이템을
사용자
- 사용자 C -> 0
- 사용자 D -> 1
아이템
라는 대응시키는 조작에 해당한다.
덤
n
table = pd.pivot_table(reduced_df, values='rating', index=['user'],
columns=['item'])
등급 행렬에서 요소가 있는 부분의 백분율 계산
reduced_df.shape[0]/(len(reduced_df.user.unique()) * len(reduced_df.item.unique()))
=> 0.8
샘플 데이터
user,item,rating
A,a,1
A,b,2
B,a,1
B,b,3
B,d,4
B,e,4
C,a,1
C,b,1
C,c,1
C,d,1
C,e,1
D,a,5
D,c,4
D,d,2
D,f,3
D,g,4
Reference
이 문제에 관하여(등급 행렬에 대한 전처리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/gp333/items/c24ac629eec432d9a660
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
n
table = pd.pivot_table(reduced_df, values='rating', index=['user'],
columns=['item'])
reduced_df.shape[0]/(len(reduced_df.user.unique()) * len(reduced_df.item.unique()))
user,item,rating
A,a,1
A,b,2
B,a,1
B,b,3
B,d,4
B,e,4
C,a,1
C,b,1
C,c,1
C,d,1
C,e,1
D,a,5
D,c,4
D,d,2
D,f,3
D,g,4
Reference
이 문제에 관하여(등급 행렬에 대한 전처리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/gp333/items/c24ac629eec432d9a660텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)