爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库

import requests
from lxml import etree
import re
import pymysql
import time

conn = pymysql.connect(host='localhost',user='root',passwd='123456',db='mydb',port=3306,charset='urf8')
cursor = conn.cursor()

headers = { 'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)' }

def get_movie_url(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
movie_hrefs = selector.xpath('//div[@class="hd"]/a/@href')
for movie_href in movie_hrefs:
get_movie_info(movie_href)

def get_movie_info(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
try:
name = selector.xpath('//*[@id="content"]/h1/span[1]/text()')[0]
director = selector.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]
actors = selector.xpath('//*[@id="info"]/span[3]/span[2]')[0]
actor = actors.xpath('string(.)')
style = re.findall('(.*?)',html.text,re.S)[0]
country = re.findall('制片国家/地区:(.*?) ',html.text,re.S)[0]
release_time = re.findall('上映时间:.*?>(.*?)',html.text,re.S)[0]
time = re.findall('片长:.*?>(.*?)',html.text,re.S)[0]
score = selector.xpath('//*[@id="interest_sect"]/div[1]/div[2]/strong/text()')[0]
cursor.execute("insert into doubanmovie (name,director,actor,style,country,release_time,time,score)values(%s,%s,%s,%s,%s,%s,%s,%s)"(str(name),str(director),str(actor),str(style,str(country),str(release_time),str(time),str(score))))
except IndexError:
pass

if __name__ =='__main__':
urls = ['https://movie.douban.com/top250?strart={}'.format(str(i)) for i in range(0,250,25)]
for url in urls:
get_movie_url(url)
time.sleep(2)
conn.commit()
问题：无法连接数据库无法检测代码运行

爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库的更多相关文章

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
requests爬取豆瓣top250电影信息
''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
python3爬取豆瓣top250电影
需求:爬取豆瓣电影top250的排名.电影名称.评分.评论人数和一句话影评环境:python3.6.5 准备工作: 豆瓣电影top250(第1页)网址:https://movie.douban.co ...
Python-爬虫实战简单爬取豆瓣top250电影保存到本地
爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
爬取豆瓣TOP250电影
自己跟着视频学习的第一个爬虫小程序,里面有许多不太清楚的地方,不如怎么找到具体的电影名字的,那么多级关系,怎么以下就找到的是那个div呢? 诸如此类的,有许多,不过先做起来再说吧,后续再取去弄懂. i ...
80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库
一.下载页面并处理二.提取数据观察该网站 html 结构可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签在 ol 标签中 ...
团队-爬取豆瓣Top250电影-团队-阶段互评
团队名称:咣咣踹电脑学号:2015035107217姓名:耿文浩得分10 原因:组长带领的好,任务分配的好,积极帮助组员解决问题学号:2015035107213姓名:周鑫得分8 原因:勇于分担,积 ...
selenium自动化方式爬取豆瓣热门电影
爬取的代码如下: from selenium import webdriver from bs4 import BeautifulSoup import time #发送请求,获取响应 def get ...

随机推荐

os模块操作文件
os模块: path=os.path.join(os.path.dirname(os.path.dirname(__file__)),'images') path:运行脚本的当前文件下的上一个文件的地 ...
Linux上的文件管理类命令都有哪些，其常用的使用方法及其相关示例演示
目录管理命令ls:列出指定目录下的内容格式: ls [OPTION]... [FILE]... -a:显示所有文件包括隐藏文件 -A:显示除.和..之外的所有文件 -l,--long:显示 ...
学习笔记 : python 文件操作
1.如果文件路径带有 \ 比如 open('c:\python\test.txt') 会报:SyntaxError: (unicode error) 'unicodeescape' codec ...
python机器学习——使用scikit-learn训练感知机模型
这一篇我们将开始使用scikit-learn的API来实现模型并进行训练,这个包大大方便了我们的学习过程,其中包含了对常用算法的实现,并进行高度优化,以及含有数据预处理.调参和模型评估的很多方法. 我 ...
mailx加163邮箱发邮件
mailx加163邮箱发邮件参考:https://www.cnblogs.com/myvic/p/9579954.html 配置 $ yum install mailx -y $ vim /etc/ ...
visible:hidden和dispaly:none的区别
display:none和visible:hidden都能把网页上某个元素隐藏起来,但两者有区别: display:none ---不为被隐藏的对象保留其物理空间,即该对象在页面上彻底消失,通俗来说就 ...
Arduino 处理JSON格式的数据
Arduino 处理JSON格式的数据 1.安装 ArduinoJson这个包 2.程序代码 # include <ArduinoJson.h> #define ALINK_BODY_FO ...
pat 1149 Dangerous Goods Packaging（25 分）
1149 Dangerous Goods Packaging(25 分) When shipping goods with containers, we have to be careful not ...
（二十九）golang--map
map:是key-value数据结构,又称为字段或者关联数组,类似其它编程语言的集合: 基本语法:var 名称 map[键类型]值类型 key的类型可以是:bool.数字.string.指针.管道,还 ...
python高阶函数的使用
目录 python高阶函数的使用 1.map 2.reduce 3.filter 4.sorted 5.小结 python高阶函数的使用 1.map Python内建了map()函数,map()函数接 ...

爬取电影top250 电影名 导演 演员 风格 国家 时长 评分 录入mySQL数据库

爬取电影top250 电影名 导演 演员 风格 国家 时长 评分 录入mySQL数据库的更多相关文章

随机推荐

热门专题

爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库

爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库的更多相关文章