pyhon-爬虫实战抓取豆瓣top250到mysql

采集地址https://movie.douban.com/top250

一、创建mysql数据库

CREATE TABLE `t_doubantop` (

  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,

  `num` int(11) DEFAULT NULL,

  `name` varchar(255) DEFAULT NULL,

  `charactor` varchar(255) DEFAULT NULL,

  `remark` varchar(255) DEFAULT NULL,

  `score` varchar(255) DEFAULT NULL,

  PRIMARY KEY (`id`)

) ENGINE=InnoDB AUTO_INCREMENT=273 DEFAULT CHARSET=utf8;

二、采集代码

from bs4 import BeautifulSoup

import pymysql

import requests

import re

import os

#链接数据库

def connect_db():

    connect = pymysql.connect(  # 连接数据库

        user="root",

        password="password",

        host="127.0.0.1",

        db="test",

        port=3306,

        charset=("utf8"),  # 注意编码一定要设置，否则gbk你懂的

        use_unicode=True,

    )

    return connect

def get_html(web_url):  # 爬虫获取网页没啥好说的

    header = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.5.1.15355"}

    html = requests.get(url=web_url, headers=header).text

    Soup = BeautifulSoup(html, "lxml")

    data = Soup.find("ol").find_all("li")  # 还是有一点要说，就是返回的信息最好只有你需要的那部分，所以这里进行了筛选

    return data

def get_info(all_move, connect, cursor):

    for info in all_move:

        #    编号

        nums = re.findall(r'<em class="">\d+</em>', str(info), re.S | re.M)  # 编号我使用的是正则表达式来获取

        nums = re.findall(r'\d+', str(nums), re.S | re.M)

        num = nums[0]

        #    名字

        names = info.find("span")  # 名字比较简单 偷了一下懒直接获取第一个span就是

        name = names.get_text()

        #    导演

        charactors = info.find("p")  # 这段信息中有太多非法符号你需要替换掉

        charactor = charactors.get_text().replace(" ", "").replace("\n", "")  # 使信息排列规律

        charactor = charactor.replace("\xa0", "").replace("\xee", "").replace("\xf6", "").replace("\u0161", "").replace("\xf4", "").replace("\xfb", "").replace("\u2027", "")

        #    评语

        remarks = info.find_all("span", {"class": "inq"})

        print(remarks)

        if remarks:  # 这个判断是因为有的电影没有评语，你需要做判断

            remark = remarks[0].get_text().replace("\u22ef", "")

        else:

            remark = "此影片没有评价"

        #    评分

        scores = info.find_all("span", {"class": "rating_num"})  # 没啥好说 匹配就行

        score = scores[0].get_text()

        data = {'num':num, 'name':name, 'charactor':charactor, 'remark':remark, 'score':score}

        print(data)

        # 保存数据

        cursor.execute("insert into t_doubantop(num,name,charactor,remark,score)values(%s,%s,%s,%s,%s)",

                       [data['num'], data['name'], data['charactor'], data['remark'], data['score']])

        # 提交

        connect.commit()

    return

if __name__ == "__main__":

    connect = connect_db()#链接数据库

    cursor = connect.cursor()  # 设置游标

    page = 0  # 初始化页数，TOP一共有250部   每页25部

    while page <= 225:

        web_url = "https://movie.douban.com/top250?start=%s&filter=" % page

        all_move = get_html(web_url)  # 返回每一页的网页

        data = get_info(all_move, connect, cursor)  # 匹配对应信息并保存

        page += 25

    connect.close()  # 最后记得关掉连接

三、数据库保存结果

pyhon-爬虫实战抓取豆瓣top250到mysql的更多相关文章

Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
简单的爬虫例子——爬取豆瓣Top250的电影的排名、名字、评分、评论数
爬取思路: url从网页上把代码搞下来bytes decode ---> utf-8 网页内容就是我的待匹配的字符串ret = re.findall(正则,待匹配的字符串), ret 是所有匹配 ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
抓取豆瓣的电影排行榜TOP100
#!/usr/bin/env python # -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...

随机推荐

Linux中VMware虚拟机增加磁盘空间的扩容操作
用VMwareware虚拟机安装的Red Hat Enterprise Linux系统剩余空间不足,造成软件无法正常安装.如果重新装一遍系统就需要重新配置好开发环境和软件的安装配置.通过上网搜集的资料 ...
在 Mac OSX 上安装 nginx
今天在使用 brew 安装 nginx 时,提示错误,安装不上去: brew install nginx, 提示:/usr/local is not writable. 这个是需要修改 /usr/lo ...
[Perl]Windows 系统 Unicode 文件名操作（新建、重命名、枚举、复制）全攻略
[Perl] Windows 系统 Unicode 文件名操作(新建.重命名.枚举.复制)全攻略环境 XP/WIN7 Perl v5.16 编辑整理:PerlMonk.523066680 常见的那些 ...
Binder学习笔记（一）
网上看了很多关于binder的文章,但我还是想把自己的心路历程记录下来,有些是跟着别人的脚步领略险峻风景,有些则是自己只身探入代码深处打捞出的收获.我不确定是否全部融会贯通,更担心一两个月后会完全不记 ...
day10学python socket用户交互+MD5加密
socket用户交互+MD5加密利用socket从client传输文件指令于server 再返还字节大小与内容 socketserver的使用(重要) 注意: ##client.recv(1024) ...
JS延时器定时器暂停器中断器
// numberMillis 毫秒 function sleep(numberMillis) { var now = new Date(); var exitTime = now.getTime() ...
mycat 1.6.6.1 distinct报错问题
以前在mysql5.7上执行如下sql语句没有问题 SELECT DISTINCT u.*,c.content userCategory FROM m_user u LEFT JOIN m_categ ...
django2使用xadmin打造适合国人的后台管理系统（1）
python火了之后,学习python的人也越来越多了,python做web开发的话,flask.django是比较火的框架了,django是一个比较大的框架,也是一个快速开发利器.但是,django ...
《[MySQL技术内幕：SQL编程》读书笔记
<[MySQL技术内幕:SQL编程>读书笔记 2019年3月31日23:12:11 严禁转载!!! <MySQL技术内幕:SQL编程>这本书是我比较喜欢的一位国内作者姜承尧, ...
Machine learning 吴恩达第二周coding作业(必做题）
1.warmUpExercise: function A = warmUpExercise() %WARMUPEXERCISE Example function in octave % A = WAR ...

pyhon-爬虫实战抓取豆瓣top250到mysql

pyhon-爬虫实战抓取豆瓣top250到mysql的更多相关文章

随机推荐

热门专题