Python爬取imdb电影数据并存储到mysql数据库

数据获取方式：微信搜索关注【靠谱杨阅读人生】回复【电影】。
整理不易，资源付费，谢谢支持。

Python爬虫代码：

  1 import re

  2 import time

  3 import traceback

  4

  5 from bs4 import BeautifulSoup

  6 from lxml import etree

  7 import pymysql

  8 import requests

  9 #连接数据库  获取游标

 10 def get_conn():

 11     """

 12     :return: 连接，游标

 13     """

 14     # 创建连接

 15     conn = pymysql.connect(host="82.157.112.34",

 16                     user="root",

 17                     password="root",

 18                     db="MovieRankings",

 19                     charset="utf8")

 20     # 创建游标

 21     cursor = conn.cursor()  # 执行完毕返回的结果集默认以元组显示

 22     if ((conn != None) & (cursor != None)):

 23         print("数据库连接成功！游标创建成功！")

 24     else:

 25         print("数据库连接失败！")

 26     return conn, cursor

 27 #关闭数据库连接和游标

 28 def close_conn(conn, cursor):

 29     if cursor:

 30         cursor.close()

 31     if conn:

 32         conn.close()

 33     return 1

 34 def get_imdb():

 35

 36     # url='https://www.imdb.cn/feature-film/1-0-0-0/?page=1'

 37     headers={

 38         'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'

 39     }

 40     dataRes=[]      #最终结果集

 41     temp_list=[]        #暂时结果集

 42

 43     # print(all_li)

 44

 45     for i in range(200,202):

 46             url_='https://www.imdb.cn/feature-film/1-0-0-0/?page='+str(i)

 47             response = requests.get(url=url_, headers=headers)

 48             # print(response)

 49             response.encoding = 'utf-8'

 50             page_text = response.text

 51             # print(page_text)

 52             etree_ = etree.HTML(page_text)

 53             all_li = etree_.xpath('//div[@class="hot_box"]/ul/li')      #获取所有li

 54             #判断all_li是否为空

 55             if(len(all_li)==0):

 56                 print("爬取结束，all_list为空！")

 57                 if(len(dataRes)!=0):

 58                     return dataRes;

 59                 else:

 60                     return ;

 61             print(url_)

 62             for li in all_li:

 63                 name=li.xpath('./a[1]/img/@alt')

 64                 if(len(name)==0):

 65                     name.append("电影名错误")

 66                 # print(name)

 67                 #存姓名

 68                 temp_list.append(name[0])

 69

 70                 score=li.xpath('./span[@class="img_score"]/@title')

 71                 if(len(score)==0):

 72                     score.append("imdb暂无评分")

 73                 # print(score)

 74                 #存分数

 75                 temp_list.append(score[0])

 76                 # print(temp_list)

 77                 #存到dataRes 把temp_list置为空

 78                 dataRes.append(temp_list)

 79                 temp_list=[]

 80             print(dataRes)

 81     return dataRes

 82 def insert_imdb():

 83     """

 84         插入imdb数据

 85         :return:

 86         """

 87     cursor = None

 88     conn = None

 89     try:

 90         list_=[]

 91         list = get_imdb()

 92         if(type(list)!=type(list_)):

 93             return ;

 94         print(f"{time.asctime()}开始插入imdb数据")

 95         conn, cursor = get_conn()

 96         sql = "insert into movieimdb (id,name,score) values(%s,%s,%s)"

 97         for item in list:

 98             try:

 99                 print(item)

100                 cursor.execute(sql, [0, item[0], item[1]])

101             except pymysql.err.IntegrityError:

102                 print("重复！跳过！")

103             conn.commit()  # 提交事务 update delete insert操作

104             print(f"{time.asctime()}插入imdb数据完毕")

105     finally:

106         close_conn(conn, cursor)

107     return;

108 # def get_dblen():

109 #     conn,cursor=

110 #     num_=

111

112 if __name__ == '__main__':

113     # get_imdb()

114     insert_imdb()

数据库

Python爬取imdb电影数据并存储到mysql数据库的更多相关文章

Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
爬取豆瓣电影top250并存储到mysql数据库
import requests from lxml import etree import re import pymysql import time conn= pymysql.connect(ho ...
node 爬虫 --- 将爬取到的数据，保存到 mysql 数据库中
步骤一:安装必要模块 (1)cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器. (2)request模块,让http请求变的更加简单 (3)mysql模块,node连接mysq ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
python 爬取豆瓣电影评论，并进行词云展示
python 爬取豆瓣电影评论,并进行词云展示本文旨在提供爬取豆瓣电影<我不是药神>评论和词云展示的代码样例 1.分析URL 2.爬取前10页评论 3.进行词云展示 1.分析URL 我不 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...

随机推荐

html+css:小米顶部菜单+二级菜单
1.源码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF- ...
win32 - 使用Safer API创建受限的令牌
#include <Windows.h> #include <WinSafer.h> #include <stdio.h> #include <sddl.h& ...
麒麟系统开发笔记（六）：安装QtCreator开发IDE中的中文输入环境Fcitx输入法
前言中文输入法,QtCreator中无法输入中文也是ubuntu中一个常规问题,在麒麟系统中也此问题,要解决此问题,主要是安装和使用Fcitx输入法. 本文章最终结果是失败的,但是读者的系统未 ...
【Azure Developer】Python代码获取的Token出现'Authentication_MissingOrMalformed'问题
问题描述 Python 调用Azure AD中所注册的应用生成Token代码: import requests, json client_id = 'yourclientid' client_secr ...
TLS数据包重组
TLS解密参考以下链接:Wireshark 解密 TLS报文_在线tls解密-CSDN博客总结: 配置环境变量 wireshark首选项配置 TLS解密例子 Frame 2700 Frame 27 ...
linux用户权限相关命令笔记
1,用户和权限的基本概念 1.1 ls 扩展 ls -l 1.2 chmod 简单使用(重要) + 是加权限, - 是减权限 chmod 修改文件权限 chmod 修改目录权限: 想要在目录下执 ...
开源：Taurus.Idempotent 分布式幂等性锁框架，支持 .Net 和 .Net Core 双系列版本
分布式幂等性锁介绍: 分布式幂等性框架的作用是确保在分布式系统中的操作具有幂等性,即无论操作被重复执行多少次,最终的结果都是一致的.幂等性是指对同一操作的多次执行所产生的效果与仅执行一次的效果相同. ...
sentinel 持久化
1. 概述在前面的关于Sentinel的使用中,可以发现,Sentinel-dashboard配置的规则,在我们的微服务以及控制台重启的时候就清空了,因为他是基于内存的. 所以我们有必要将规则配置进 ...
Github无法读取远程仓库
主页个人微信公众号:密码应用技术实战个人博客园首页:https://www.cnblogs.com/informatics/ Git无法访问今早起来访问Github炸了,Git不能用了,提示: ...
maven打包出现 ��applets.user.service.UserService��-2022新项目
一.问题由来新项目的框架刚搭建好,还不能正常的运行,我们这边就开始写代码,因为项目还在设计阶段,很多东西比如说需求都还在讨论之中.分层架构采用的是cola4.0的架构,具体的代码由我们自己来进行实 ...

Python爬取imdb电影数据并存储到mysql数据库

Python爬虫代码：

数据库

Python爬取imdb电影数据并存储到mysql数据库的更多相关文章

随机推荐

热门专题