import time
import operator

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")


# Data Source : https://grouplens.org/datasets/movielens
rating_file_path = '/home/jaeyoon89/python-data-analysis/data/ml-1m/ratings.dat'
movie_file_path = '/home/jaeyoon89/python-data-analysis/data/ml-1m/movies.dat'
user_file_path = '/home/jaeyoon89/python-data-analysis/data/ml-1m/users.dat'

rating_data = pd.io.parsers.read_csv(rating_file_path,
                                    names=['user_id', 'movie_id', 'rating', 'time'],
                                    delimiter='::')
movie_data = pd.io.parsers.read_csv(movie_file_path, 
                                    names=['movie_id', 'title', 'genre'], delimiter='::')
user_data = pd.io.parsers.read_csv(user_file_path, 
                                   names=['user_id', 'gender', 'age', 'occupation', 'zipcode'], delimiter='::')


rating_data.head()


movie_data.head()


user_data.head()


print("total number of movie in data:", len(movie_data['movie_id'].unique()))

movie_data['year'] = movie_data['title'].apply(lambda x:x[-5:-1])
movie_data['year'].value_counts().head(10)

total number of movie in data: 3883

1996    345
1995    342
1998    337
1997    315
1999    283
1994    257
1993    165
2000    156
1986    104
1992    102
Name: year, dtype: int64


unique_genre_dict = {}
for index, row in movie_data.iterrows():
    
    genre_combination = row['genre']
    parsed_genre = genre_combination.split('|')
    
    for genre in parsed_genre:
        if genre in unique_genre_dict:
            unique_genre_dict[genre] += 1
        else:
            unique_genre_dict[genre] = 1


plt.rcParams['figure.figsize'] = [20,16]
sns.barplot(list(unique_genre_dict.keys()), list(unique_genre_dict.values()),
           alpha=0.8)
plt.title('Popular genre in movies')
plt.ylabel('Count of genre', fontsize=12)
plt.xlabel('Genre', fontsize=12)
plt.show()


print("total number of user in data :", len(user_data['user_id'].unique()))

total number of user in data : 6040


movie_rate_count =  rating_data.groupby('movie_id')['rating'].count().values
plt.rcParams['figure.figsize'] = [8,8]
fig = plt.hist(movie_rate_count, bins = 200)
plt.ylabel('Count', fontsize=12)
plt.xlabel("Movie's rated count", fontsize=12)
plt.show()

print("total number of movie in data :", len(movie_data['movie_id'].unique()))
print("total number of movie rated below 100 :", len(movie_rate_count[movie_rate_count<100]))

total number of movie in data : 3883
total number of movie rated below 100 : 1687


movie_grouped_rating_info = rating_data.groupby("movie_id")['rating'].agg(['count','mean'])
movie_grouped_rating_info.columns = ['rated_count', 'rating_mean']


movie_grouped_rating_info.head(5)


movie_grouped_rating_info['rating_mean'].hist(bins=150, grid=False)

<AxesSubplot:>


rating_data.head()


rating_table = rating_data[['user_id', 'movie_id', 'rating']].set_index(["user_id", "movie_id"]).unstack()
rating_table.head(10)


plt.rcParams['figure.figsize'] = [10, 10]
plt.imshow(rating_table)
plt.grid(False)
plt.xlabel("Movie")
plt.ylabel("User")
plt.title("User-movie Matrix")
plt.show()


from surprise import SVD, Dataset, Reader, accuracy
from surprise.model_selection import train_test_split


reader = Reader(rating_scale=(1,5))
data = Dataset.load_from_df(rating_data[['user_id', 'movie_id', 'rating']], reader)
train_data = data.build_full_trainset()


train_start = time.time()
model = SVD(n_factors=8,
           lr_all=0.005,
           reg_all=0.02,
           n_epochs=100)
model.fit(train_data)
train_end = time.time()
print("training time of model: %.2f seconds" % (train_end - train_start))

training time of model: 45.03 seconds


target_user_id = 4
target_user_data = rating_data[rating_data['user_id']==target_user_id]
target_user_data.head(5)


target_user_movie_rating_dict = {}

for index, row in target_user_data.iterrows():
    movie_id = row['movie_id']
    target_user_movie_rating_dict[movie_id] = row['rating']

print(target_user_movie_rating_dict)

{3468: 5, 1210: 3, 2951: 4, 1214: 4, 1036: 4, 260: 5, 2028: 5, 480: 4, 1196: 2, 1198: 5, 1954: 5, 1097: 4, 3418: 4, 3702: 4, 2366: 4, 1387: 5, 3527: 1, 1201: 5, 2692: 5, 2947: 5, 1240: 5}


test_data = []
for index, row in movie_data.iterrows():
    movie_id = row['movie_id']
    rating = 0
    if movie_id in target_user_movie_rating_dict:
        continue
    test_data.append((target_user_id, movie_id, rating))


target_user_predictions = model.test(test_data)


def get_user_predicted_ratings(predictions, user_id, user_history):
    target_user_movie_predict_dict = {}
    for uid, mid, rating, predicted_rating, _ in predictions:
        if user_id == uid:
            if mid not in user_history:
                target_user_movie_predict_dict[mid] = predicted_rating
    return target_user_movie_predict_dict

target_user_movie_predict_dict = get_user_predicted_ratings(predictions=target_user_predictions, 
                                                            user_id=target_user_id, 
                                                            user_history=target_user_movie_rating_dict)


target_user_top10_predicted = sorted(target_user_movie_predict_dict.items(), 
                                     key=operator.itemgetter(1), reverse=True)[:10]


target_user_top10_predicted

[(106, 5),
 (326, 5),
 (527, 5),
 (602, 5),
 (615, 5),
 (858, 5),
 (912, 5),
 (922, 5),
 (1096, 5),
 (1104, 5)]


movie_dict = {}
for index, row in movie_data.iterrows():
    movie_id = row['movie_id']
    movie_title = row['title']
    movie_dict[movie_id] = movie_title


for predicted in target_user_top10_predicted:
    movie_id = predicted[0]
    predicted_rating = predicted[1]
    print(movie_dict[movie_id], ":", predicted_rating)

Nobody Loves Me (Keiner liebt mich) (1994) : 5
To Live (Huozhe) (1994) : 5
Schindler's List (1993) : 5
Great Day in Harlem, A (1994) : 5
Bread and Chocolate (Pane e cioccolata) (1973) : 5
Godfather, The (1972) : 5
Casablanca (1942) : 5
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950) : 5
Sophie's Choice (1982) : 5
Streetcar Named Desire, A (1951) : 5


reader = Reader(rating_scale=(1,5))
data = Dataset.load_from_df(rating_data[['user_id', 'movie_id', 'rating']], reader)
train_data, test_data = train_test_split(data, test_size=0.2)


train_start = time.time()
model = SVD(n_factors=8,
           lr_all=0.005,
           reg_all=0.02,
           n_epochs=100)
model.fit(train_data)
train_end = time.time()
print("training time of model: %.2f seconds" % (train_end - train_start))

predictions = model.test(test_data)

print("RMSE of test in SVD model:")
accuracy.rmse(predictions)

training time of model: 45.04 seconds
RMSE of test in SVD model:
RMSE: 0.8607

0.8606913183397654


test_data = []
for index, row in movie_data.iterrows():
    movie_id = row['movie_id']
    if movie_id in target_user_movie_rating_dict:
        rating = target_user_movie_rating_dict[movie_id]
        test_data.append((target_user_id, movie_id, rating))


target_user_predictions = model.test(test_data)


def get_user_predicted_ratings(predictions, user_id, user_history):
    target_user_movie_predict_dict = {}
    for uid, mid, rating, predicted_rating, _ in predictions:
        if user_id == uid:
            if mid in user_history:
                target_user_movie_predict_dict[mid] = predicted_rating
    return target_user_movie_predict_dict


target_user_movie_predict_dict = get_user_predicted_ratings(predictions=target_user_predictions, 
                                                            user_id=target_user_id, 
                                                            user_history=target_user_movie_rating_dict)


target_user_movie_predict_dict

{260: 3.9430986951928593,
 480: 3.682508876258768,
 1036: 4.361131075846246,
 1097: 4.254047176433112,
 1196: 3.669192083937819,
 1198: 4.373158139422043,
 1201: 4.4762447217678565,
 1210: 3.0923035755733803,
 1214: 4.498483394791014,
 1240: 4.487038891028856,
 1387: 4.643582253537883,
 1954: 4.8516889512440144,
 2028: 4.431559624604528,
 2366: 4.059585582700539,
 2692: 4.001241103390469,
 2947: 4.323632665147499,
 2951: 4.304399345628873,
 3418: 4.009121087715634,
 3468: 4.634814838398916,
 3527: 3.903596607901292,
 3702: 4.346687656334132}


origin_rating_list = []
predicted_rating_list = []
movie_title_list = []
idx = 0
for movie_id, predicted_rating in target_user_movie_predict_dict.items():
    idx = idx + 1
    predicted_rating = round(predicted_rating,2)
    origin_rating = target_user_movie_rating_dict[movie_id]
    movie_title = movie_dict[movie_id]
    print("movie", str(idx), ":", movie_title, ":", origin_rating, "/", predicted_rating)
    origin_rating_list.append(origin_rating)
    predicted_rating_list.append(predicted_rating)
    movie_title_list.append(str(idx))

movie 1 : Star Wars: Episode IV - A New Hope (1977) : 5 / 3.94
movie 2 : Jurassic Park (1993) : 4 / 3.68
movie 3 : Die Hard (1988) : 4 / 4.36
movie 4 : E.T. the Extra-Terrestrial (1982) : 4 / 4.25
movie 5 : Star Wars: Episode V - The Empire Strikes Back (1980) : 2 / 3.67
movie 6 : Raiders of the Lost Ark (1981) : 5 / 4.37
movie 7 : Good, The Bad and The Ugly, The (1966) : 5 / 4.48
movie 8 : Star Wars: Episode VI - Return of the Jedi (1983) : 3 / 3.09
movie 9 : Alien (1979) : 4 / 4.5
movie 10 : Terminator, The (1984) : 5 / 4.49
movie 11 : Jaws (1975) : 5 / 4.64
movie 12 : Rocky (1976) : 5 / 4.85
movie 13 : Saving Private Ryan (1998) : 5 / 4.43
movie 14 : King Kong (1933) : 4 / 4.06
movie 15 : Run Lola Run (Lola rennt) (1998) : 5 / 4.0
movie 16 : Goldfinger (1964) : 5 / 4.32
movie 17 : Fistful of Dollars, A (1964) : 4 / 4.3
movie 18 : Thelma & Louise (1991) : 4 / 4.01
movie 19 : Hustler, The (1961) : 5 / 4.63
movie 20 : Predator (1987) : 1 / 3.9
movie 21 : Mad Max (1979) : 4 / 4.35


origin = origin_rating_list
predicted = predicted_rating_list


plt.rcParams['figure.figsize'] = (10,6)
index = np.arange(len(movie_title_list))
bar_width = 0.2


rects1 = plt.bar(index, origin, bar_width,
                color = 'orange',
                label = 'Origin')
rects2 = plt.bar(index + bar_width, predicted, bar_width,
                color = 'green',
                label = 'Predicted')
plt.xticks(index, movie_title_list)
plt.legend()
plt.show()

	user_id	movie_id	rating	time
0	1	1193	5	978300760
1	1	661	3	978302109
2	1	914	3	978301968
3	1	3408	4	978300275
4	1	2355	5	978824291

	movie_id	title	genre
0	1	Toy Story (1995)	Animation\|Children's\|Comedy
1	2	Jumanji (1995)	Adventure\|Children's\|Fantasy
2	3	Grumpier Old Men (1995)	Comedy\|Romance
3	4	Waiting to Exhale (1995)	Comedy\|Drama
4	5	Father of the Bride Part II (1995)	Comedy

	rated_count	rating_mean
movie_id
1	2077	4.146846
2	701	3.201141
3	478	3.016736
4	170	2.729412
5	296	3.006757

	user_id	movie_id	rating	time
0	1	1193	5	978300760
1	1	661	3	978302109
2	1	914	3	978301968
3	1	3408	4	978300275
4	1	2355	5	978824291

	rating
movie_id	1	2	3	4	5	6	7	8	9	10	...	3943	3944	3945	3946	3947	3948	3949	3950	3951	3952
user_id
1	5.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	NaN	NaN	NaN	NaN	NaN	2.0	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
6	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
7	NaN	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
8	4.0	NaN	NaN	3.0	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9	5.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	3.0	NaN	NaN	NaN	NaN
10	5.0	5.0	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	NaN

speed&direction

티스토리 뷰

이것이 데이터 분석이다 with 파이썬 ch3-3(미래에 볼 영화의 평점 예측하기)

3.3 미래에 볼 영화의 평점 예측하기¶

step.1 탐색: MovieLens 데이터 살펴보기¶

step.2 분석: 탐색적 데이터 분석하기¶

step.3 예측: 수학적 기법을 활용해 평점 예측하기¶

step.4 평가: 예측 모델 평가하기¶

'이것이 데이터분석이다 with 파이썬' 카테고리의 다른 글

티스토리툴바

	user_id	movie_id	rating	time
233	4	3468	5	978294008
234	4	1210	3	978293924
235	4	2951	4	978294282
236	4	1214	4	978294260
237	4	1036	4	978294282

이것이 데이터 분석이다 with 파이썬 ch5-2(구매 데이터를 분석하여 상품 추천하기) (0)	2021.04.24
이것이 데이터 분석이다 with 파이썬 ch4-1(타이타닉 생존자 가려내기) (0)	2021.04.16
이것이 데이터 분석이다 with 파이썬 ch3-2(비트코인 시세 예측하기) (0)	2021.04.14
이것이 데이터 분석이다 with 파이썬 ch3-1(프로야구 선수의 다음 해 연봉 예측하기) (0)	2021.04.12
이것이 데이터 분석이다 with 파이썬 ch1-2(국가별 음주 데이터 분석하기) (0)	2021.04.11

	user_id	gender	age	occupation	zipcode
0	1	F	1	10	48067
1	2	M	56	16	70072
2	3	M	25	15	55117
3	4	M	45	7	02460
4	5	M	25	20	55455

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30