猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库

还是以猫眼电影为例，这次用pyquery库进行爬取

1.简单demo，看看如何使用pyquery提取信息，并将提取到的数据进行组合

# coding: utf-8

# author: hmk

import requests

from pyquery import PyQuery as pq

url = 'http://maoyan.com/board/4'

header = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

              "Accept-Encoding": "gzip, deflate, sdch",

              "Accept-Language": "zh-CN,zh;q=0.8",

              "Cache-Control": "max-age=0",

              "Connection": "keep-alive",

              "Host": "maoyan.com",

              "Referer": "http://maoyan.com/board",

              "Upgrade-Insecure-Requests": "",

              "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36"}

r = requests.get(url, headers=header)

r.encoding = r.apparent_encoding

html = r.text

print(type(html))

doc = pq(html)

# print((doc('dd').find('.board-index')))

# print(doc('.name').text())

# print(doc('.releasetime').text())

# print(doc('dd').find('.integer').text()+doc('.fraction').text())

list = []

for t in doc('dd'):

   index = pq(t).find('.board-index').text()

   print(index)

   movie = pq(t).find('.name').text()

   print(movie)

   time = pq(t).find('.releasetime').text()

   print(time)

   score = pq(t).find('.integer').text() + pq(t).find('.fraction').text()

   print(score)

   list.append([index, movie, time, score])

print(list)

2.正式代码

# coding: utf-8

# author: hmk

import requests

from pyquery import PyQuery as pq

import pymysql.cursors

def get_html(url, header):

    try:

         r = requests.get(url=url, headers=header)

         r.encoding = r.apparent_encoding

         return r.text

    except:

        return None

def get_data(html, list_data):

    doc = pq(html)

    for t in doc('dd'):

        index = pq(t).find('.board-index').text()

        print(index)

        movie = pq(t).find('.name').text()

        print(movie)

        time = pq(t).find('.releasetime').text()

        print(time)

        score = pq(t).find('.integer').text() + pq(t).find('.fraction').text()

        print(score)

        list_data.append([index, movie, time, score])

def write_sql(data):

    conn = pymysql.connect(host='localhost',

                           user='root',

                           password='',

                           db='test',

                           charset='utf8')

    cur = conn.cursor()

    for i in data:

        """这里的data参数是指正则匹配并处理后的列表数据(是一个大列表，包含所有电影信息，每个电影信息都存在各自的一个列表中；

        对大列表进行迭代，提取每组电影信息，这样提取到的每组电影信息都是一个小列表，然后就可以把每组电影信息写入数据库了)"""

        movie = i  # 每组电影信息，这里可以看做是准备插入数据库的每组电影数据

        sql = "insert into maoyan_movie(ranking,movie,release_time,score) values(%s, %s, %s, %s)"  # sql插入语句

        try:

            cur.execute(sql, movie)  # 执行sql语句，movie即是指要插入数据库的数据

            conn.commit()  # 插入完成后，不要忘记提交操作

            print('导入成功')

        except:

            print('导入失败')

    cur.close()  # 关闭游标

    conn.close()  # 关闭连接

def main():

    start_url = 'http://maoyan.com/board/4'

    depth = 10  # 爬取深度(翻页)

    header = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

              "Accept-Encoding": "gzip, deflate, sdch",

              "Accept-Language": "zh-CN,zh;q=0.8",

              "Cache-Control": "max-age=0",

              "Connection": "keep-alive",

              "Host": "maoyan.com",

              "Referer": "http://maoyan.com/board",

              "Upgrade-Insecure-Requests": "",

              "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36"}

    for i in range(depth):

        url = start_url + '?offset=' + str(10 * i)

        html = get_html(url, header)

        list_data = []

        get_data(html, list_data)

        write_sql(list_data)

        # print(list_data)

if __name__ == "__main__":

    main()

其实就这个例子来说，使用pyquery来提取信息是最简单省事的了，直接使用css选择器就可以把想要的数据拿到

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库的更多相关文章

爬取网贷之家平台数据保存到mysql数据库
# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库
上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码可以看 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块
一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib ...
单线程多任务协程vip电影爬取
单线程多任务协程vip电影爬取 --仅供学习使用勿作商用如有违规后果自负!!! 这几天一直在使用python爬取电影,主要目的也是为了巩固前段时间强化学习的网络爬虫,也算是一个不错的检验吧,面对众 ...
python3 爬取汽车之家所有车型数据操作步骤（更新版）
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
python3 爬取boss直聘职业分类数据(未完成)
import reimport urllib.request # 爬取boss直聘职业分类数据def subRule(fileName): result = re.findall(r'<p cl ...

随机推荐

account_log,pay_log,user_account 三个表的用途与区别
mysql> DESC zbphp.com_account_log; +--------------+-----------------------+------+-----+--------- ...
第一次参加acm区域赛
什么,这周天就要去参加acm焦作赛,简直不敢相信.从大一暑假七月份中旬到今天十一月23日,加入acm将近四个多月的时间,如今到了检验自己的时候了.aaaaaaaaaa.乌拉,必胜.打印个模板,在跑个步 ...
Yum自动下载RPM包及其所有依赖的包
前几天我尝试去创建一个仅包含我们经常在 CentOS 7 下使用的软件的本地仓库.当然,我们可以使用 curl 或者 wget 下载任何软件包,然而这些命令并不能下载要求的依赖软件包.你必须去花一些时 ...
TI 多模雷达1843毫米波雷达做自动泊车（用了8个雷达）
http://e2e.ti.com/blogs_/b/behind_the_wheel/archive/2019/01/09/how-mmwave-sensors-enable-autonomous- ...
R class of subset of matrix and data.frame
a = matrix( c(2, 4, 3, 1, 5, 7), # the data elements nrow=2, # number of rows ...
ORM框架之 Entity Framework
Entity Framework 1.ADO.NET Entity Framework是以ADO.NET为基础所发展出来的对象关系对应(O/R Mapping)解决方案,早起被称为ObjectSpac ...
oracle 之安装后pl/sql登录报ora-12154
这个问题一开始困扰了很久. 查的资料是复制一小段代码到tnsnames.ora中 SID名 = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = ...
(转) 干货 | 图解LSTM神经网络架构及其11种变体（附论文）
干货 | 图解LSTM神经网络架构及其11种变体(附论文) 2016-10-02 机器之心选自FastML 作者:Zygmunt Z. 机器之心编译参与:老红.李亚洲就像雨季后非洲大草原许多野 ...
Python3 list sort排序
转自:https://blog.csdn.net/u010758410/article/details/79737498 当带排序列表的元素由多字段构成时,我们可以通过sorted(iterable ...
tomcat中配置https请求
一. 创建tomcat证书这里使用JDK自带的keytool工具来生成证书: 1. 在jdk的安装目录\bin\keytool.exe下打开keytool.exe 2. 在命令行中输入以下命令: ...

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库

1.简单demo，看看如何使用pyquery提取信息，并将提取到的数据进行组合

2.正式代码

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库的更多相关文章

随机推荐

热门专题