一、引言:推荐系统的魔法与现实意义

在Netflix每年节省10亿美元内容采购成本的背后,在YouTube占据用户80%观看时长的推荐算法中,推荐系统正悄然改变内容消费模式。本文将带您从零开始构建一个具备用户画像展示的电影推荐系统,通过协同过滤算法捕捉用户偏好,用Flask框架实现可视化交互。项目完成后,您将理解推荐系统的核心原理,并掌握从数据预处理到Web部署的全流程。

二、技术栈解析与项目架构

  1. 核心算法层:Surprise库实现SVD矩阵分解;
  2. 数据处理层:Pandas进行数据清洗与特征工程;
  3. 交互展示层:Flask框架构建RESTful API与前端模板;
  4. 数据源:MovieLens 100k数据集(包含943用户×1682电影的10万条评分)。

三、环境准备与数据集加载

# 安装依赖(在终端执行)
!pip install surprise pandas flask scikit-surprise # 数据加载脚本
import pandas as pd
from surprise import Dataset, Reader # 加载评分数据
ratings = pd.read_csv('ml-100k/u.data',
sep='\t',
names=['user_id', 'item_id', 'rating', 'timestamp']) # 定义Surprise数据格式
reader = Reader(rating_scale=(1,5))
data = Dataset.load_from_df(ratings[['user_id', 'item_id', 'rating']], reader)

四、协同过滤核心:SVD矩阵分解实现

4.1 算法原理简析

SVD(奇异值分解)将用户-物品评分矩阵分解为:

复制代码

R ≈ P * Σ * Q^T

其中:

  • P:用户潜在特征矩阵
  • Q:物品潜在特征矩阵
  • Σ:奇异值对角矩阵

通过分解后的矩阵预测缺失评分,实现推荐。

4.2 Surprise实现代码

from surprise import SVD, accuracy
from surprise.model_selection import train_test_split # 划分训练集/测试集
trainset, testset = train_test_split(data, test_size=0.25) # 初始化SVD模型
model = SVD(n_factors=100, # 潜在因子数
n_epochs=20, # 迭代次数
lr_all=0.005, # 学习率
reg_all=0.02) # 正则化系数 # 训练模型
model.fit(trainset) # 评估模型
predictions = model.test(testset)
accuracy.rmse(predictions) # 输出RMSE评估指标

五、用户画像构建与相似度计算

5.1 用户特征提取

def get_user_features(user_id):
# 获取用户评分记录
user_ratings = ratings[ratings['user_id'] == user_id] # 计算评分分布特征
avg_rating = user_ratings['rating'].mean()
rating_counts = user_ratings['rating'].value_counts().sort_index() # 获取用户潜在向量
user_vector = model.pu[user_id-1] # Surprise内部使用0-based索引 return {
'avg_rating': avg_rating,
'rating_distribution': rating_counts.to_dict(),
'latent_factors': user_vector
}

5.2 用户相似度计算

from surprise.prediction_algorithms.matrix_factorization import SVD

def find_similar_users(target_user, n=5):
# 获取所有用户潜在向量
users = model.pu # 计算余弦相似度
similarities = []
for user in users:
sim = cosine_similarity(users[target_user-1], user)
similarities.append((sim, user)) # 返回最相似的n个用户
return sorted(similarities, reverse=True, key=lambda x: x[0])[:n]

六、Flask推荐服务实现

6.1 Web服务架构设计

/                   -> 主页(用户输入界面)
/recommend/<user_id>-> 推荐结果页
/user/<user_id> -> 用户画像页

6.2 核心路由实现

from flask import Flask, render_template, request

app = Flask(__name__)

@app.route('/')
def index():
return render_template('index.html') @app.route('/recommend/<int:user_id>')
def recommend(user_id):
# 生成推荐(Top-N推荐)
user_items = ratings[ratings['user_id'] == user_id]['item_id'].unique()
all_items = ratings['item_id'].unique() predictions = []
for item in all_items:
if item not in user_items:
pred = model.predict(str(user_id), str(item))
predictions.append((item, pred.est)) # 按预测评分排序
recommendations = sorted(predictions, key=lambda x: x[1], reverse=True)[:10] # 获取电影元数据
movies = pd.read_csv('ml-100k/u.item',
sep='|',
encoding='latin-1',
usecols=['movie id', 'movie title', 'release date', 'genres']) # 合并推荐结果与电影信息
recommended_movies = []
for item_id, score in recommendations:
movie = movies[movies['movie id'] == item_id].iloc[0]
recommended_movies.append({
'title': movie['movie title'],
'year': movie['release date'],
'genres': movie['genres'].split('|'),
'score': round(score, 2)
}) return render_template('recommendations.html',
movies=recommended_movies,
user_id=user_id) @app.route('/user/<int:user_id>')
def user_profile(user_id):
# 获取用户画像数据
profile = get_user_features(user_id) # 获取相似用户
similar_users = find_similar_users(user_id) return render_template('profile.html',
profile=profile,
similar_users=similar_users) if __name__ == '__main__':
app.run(debug=True)

七、前端模板设计(Jinja2示例)

7.1 用户画像模板(profile.html)

<div class="profile-card">
<h2>用户画像:User {{ user_id }}</h2>
<p>平均评分:{{ profile.avg_rating | round(2) }}</p>
<div class="rating-distribution">
{% for rating, count in profile.rating_distribution.items() %}
<div class="rating-bar">
<span class="rating-label">★{{ rating }}</span>
<div class="bar-container">
<div class="bar" style="width: {{ (count / total_ratings) * 100 }}%"></div>
</div>
<span class="count">{{ count }}</span>
</div>
{% endfor %}
</div> <h3>相似用户:</h3>
<ul class="similar-users">
{% for sim, user in similar_users %}
<li>User {{ user + 1 }} (相似度:{{ sim | round(3) }})</li>
{% endfor %}
</ul>
</div>

7.2 推荐结果模板(recommendations.html)

<div class="recommendations">
<h2>为您推荐(User {{ user_id }})</h2>
{% for movie in movies %}
<div class="movie-card">
<h3>{{ movie.title }} ({{ movie.year }})</h3>
<p>类型:{% for genre in movie.genres %}<span class="genre">{{ genre }}</span>{% endfor %}</p>
<div class="score">预测评分:★{{ movie.score }}</div>
</div>
{% endfor %}
</div>

八、系统优化方向

  1. 冷启动问题:集成内容过滤(使用电影元数据)
  2. 实时更新:添加增量训练模块
  3. 深度学习扩展:尝试Neural Collaborative Filtering
  4. 性能优化:使用Faiss实现近似最近邻搜索
  5. 可视化增强:添加评分分布热力图、用户-物品关系图

九、完整项目部署指南

  1. 下载MovieLens数据集:https://grouplens.org/datasets/movielens/

  2. 创建项目目录结构:

    movie_rec_system/
    ├── app.py
    ├── templates/
    │ ├── index.html
    │ ├── profile.html
    │ └── recommendations.html
    ├── static/
    │ ├── css/
    │ └── js/
    └── ml-100k/
    ├── u.data
    ├── u.item
    └── ...
  3. 启动服务:python app.py

  4. 访问:http://localhost:5000/

十、结语:推荐系统的未来展望

随着Transformer架构在自然语言处理领域的成功,推荐系统正在经历从协同过滤到序列建模的范式转变。未来工作可以将用户行为序列建模为时间序列,使用Transformer捕捉长期兴趣,同时结合多模态数据(如海报图像、剧情简介)构建更全面的用户画像。

注:实际部署时应添加异常处理、日志记录等生产级功能。

通过这个项目,您不仅掌握了推荐系统的核心技术,还完成了从算法实现到Web服务的完整工程实践。这种全栈能力正是构建智能应用的关键竞争力。

基于Surprise和Flask构建个性化电影推荐系统:从算法到全栈实现的更多相关文章

  1. 基于Spark Mllib,SparkSQL的电影推荐系统

    本文测试的Spark版本是1.3.1 本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累 整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户 ...

  2. Python全栈工程师之从网页搭建入门到Flask全栈项目实战(1) - ES6标准入门和Flex布局

    1.简述 1.什么是ES6?ES6, 全称 ECMAScript 6.0,是 JavaScript 的下一个版本标准,2015年6月份发版.ES6的主要目的是为了解决 ES5 的先天不足. 2.了解E ...

  3. 转】用Hadoop构建电影推荐系统

    原博文出自于: http://blog.fens.me/hadoop-mapreduce-recommend/ 感谢! 用Hadoop构建电影推荐系统 Hadoop家族系列文章,主要介绍Hadoop家 ...

  4. Python基于机器学习方法实现的电影推荐系统

    推荐算法在互联网行业的应用非常广泛,今日头条.美团点评等都有个性化推荐,推荐算法抽象来讲,是一种对于内容满意度的拟合函数,涉及到用户特征和内容特征,作为模型训练所需维度的两大来源,而点击率,页面停留时 ...

  5. 基于Mahout的电影推荐系统

    基于Mahout的电影推荐系统 1.Mahout 简介 Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域 ...

  6. 基于pytorch的电影推荐系统

    本文介绍一个基于pytorch的电影推荐系统. 代码移植自https://github.com/chengstone/movie_recommender. 原作者用了tf1.0实现了这个基于movie ...

  7. 基于Spark的电影推荐系统(电影网站)

    第一部分-电影网站: 软件架构: SpringBoot+Mybatis+JSP 项目描述:主要实现电影网站的展现 和 用户的所有动作的地方 技术选型: 技术 名称 官网 Spring Boot 容器 ...

  8. 基于Spark的电影推荐系统(推荐系统~2)

    第四部分-推荐系统-数据ETL 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去 前置准备: spark +hive vim $SPARK_HOME/conf/hive-site.x ...

  9. 基于Spark的电影推荐系统(推荐系统~4)

    第四部分-推荐系统-模型训练 本模块基于第3节 数据加工得到的训练集和测试集数据 做模型训练,最后得到一系列的模型,进而做 预测. 训练多个模型,取其中最好,即取RMSE(均方根误差)值最小的模型 说 ...

  10. 基于Spark的电影推荐系统(推荐系统~7)

    基于Spark的电影推荐系统(推荐系统~7) 22/100 发布文章 liuge36 第四部分-推荐系统-实时推荐 本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影. ...

随机推荐

  1. linux命令操作android手机

    目的 通过一台linux机器操作android手机做一些常用的操作 复杂的操作都是由简单操作开始的, 可以自行发掘 环境 笔记本: thinkpad t480 操作系统: archlinux adb版 ...

  2. 用 Facebook Hydra 参数配置框架来简化程序配置

    用 Facebook Hydra 参数配置框架来简化程序配置 目录 用 Facebook Hydra 参数配置框架来简化程序配置 0x00 摘要 0x01 问题描述 0x02 概述 0x03 使用 3 ...

  3. Centos 7 安装Redis5 详细步骤 备忘录笔记

    通过wget下载tar包 wget http://download.redis.io/releases/redis-5.0.5.tar.gz 解压包 tar -zxvf redis-5.0.5.tar ...

  4. JUC并发—2.Thread源码分析及案例应用

    大纲 1.什么是线程以及并发编程 2.微服务注册中心案例 3.以工作线程模式开启微服务的注册和心跳线程 4.微服务注册中心的服务注册功能 5.微服务注册中心的心跳续约功能 6.微服务的存活状态监控线程 ...

  5. 查看 OceanBase 执行计划

    使用benchmarksql压测数据库,产生高消耗的sql并测试数据库性能 压测环境部署 benchmarksql下载 git clone https://github.com/meiq4096/be ...

  6. [NOIP2018] 旅行 题解

    明显要以 \(1\) 为起点. 原图是树 这种情况下,走路不能回头,只能用 \(dfs\) 的思路走.当然肯定每次都走较小的那棵子树,\(vector\) 存图后排序即可达到这种效果. 时间复杂度 \ ...

  7. linux下安装 elasticsearch

    一.基础环境 操作系统环境:Red Hat Enterprise Linux Server release 6.4 (Santiago) ES版本:elasticsearch-7.8.0-linux- ...

  8. 机器学习 | 强化学习(6) | 策略梯度方法(Policy Gradient Method)

    6-策略梯度方法(Policy Gradient Method) 策略梯度概论(Introduction) 基于策略(Policy-Based) 的强化学习 对于上一节课(价值函数拟合)中采用参数\( ...

  9. 理解Rust引用及其生命周期标识(上)

    写在前面 作为Rust开发者,你是否还没有完全理解引用及其生命周期?是否处于教程一看就会,但在实际开发过程中不知所措?本文将由浅入深,手把手教你彻底理解Rust引用与生命周期. 关于本文的理解门槛 本 ...

  10. wikidata介绍和查询

      Wikidata是一个大型结构化开源知识图,为维基百科等项目提供支持.我们可使用SPARQL(Wikidata官方Tutorial)对其进行查询.SPARQL是一种专为 RDF(Resource ...