Python Spider 抓取猫眼电影TOP100

"""

抓取猫眼电影TOP100

"""

import re

import time

import requests

from bs4 import BeautifulSoup

class SpiderMaoyan(object):

    def __init__(self):

        # 通过分析URL可以发现, 猫眼电影TOP100页面是通过 offset + 10 来分页的

        self.url = "http://maoyan.com/board/4?offset={0}"

        # 设置一下UA, 否则有可能提示你访问被禁止了

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "

                          "Chrome/66.0.3359.139 Safari/537.36"

        }

        # 定义需要提取的内容字段

        self.fields = ("id", "name", "movieUrl", "imgUrl", "star", "releaseTime", "score")

    def handler(self, offset=0):

        while offset < 100:

            response = requests.get(self.url.format(offset), headers=self.headers)

            if response.status_code == 200:

                print("INFO -> Current URL: <%s>" % response.url)

                # 编码处理一下, 不然有可能中文显示乱码

                r_html = response.text.encode(response.encoding).decode("utf-8")

                # 构建一个 BeautifulSoup 对象, 用于后续的标签、内容提取

                soup = BeautifulSoup(r_html, "html5lib")

                # 继续分析网页源代码, 发现每部影片都存在 <dd></dd> 标签中

                tags = soup.select("dd")

                # 提取内容

                for tag in tags:

                    # id、name、movieUrl

                    obj = tag.find("p", class_="name").select_one("a")

                    _id = re.search(r"movieId:(\d+)", obj.get("data-val")).group(1)

                    _name = obj.string

                    _movieUrl = "http://maoyan.com" + obj.get("href")

                    # img

                    # Tips: 可以将图片地址后面的分辨率去掉, 保存高清大图地址 .split("@")[0]

                    _imgUrl = tag.find("img", class_="board-img").get("data-src")

                    # star

                    # Tips: 中文标点

                    _star = tag.find("p", class_="star").string.strip().split("：")[-1]

                    # releaseTime

                    # Tips: 中文标点

                    _releaseTime = tag.find("p", class_="releasetime").string.split("：")[-1]

                    # score

                    _score = tag.find("p", class_="score").get_text()

                    # 接下来就可以将数据写入存储了

                    # Tips: 这种 SQL 生成方式有必要验证 key/val 是否成对出现

                    print(

                        "INSERT INTO TABLE_NAME (%s) VALUE %s;" % (

                            ", ".join(self.fields), tuple([_id, _name, _movieUrl, _imgUrl, _star, _releaseTime, _score])

                        )

                    )

                # 偏移量自增

                offset += 10

                # 有必要停顿一下

                time.sleep(.9)

            else:

                print(response.reason)

                exit(999)

if __name__ == "__main__":

    spider = SpiderMaoyan()

    spider.handler()

Python Spider 抓取猫眼电影TOP100的更多相关文章

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
python应用-爬取猫眼电影top100
import requests import re import json import time from requests.exceptions import RequestException d ...
爬虫_python3_抓取猫眼电影top100
使用urllib,request,和正则表达式,多线程进行秒抓,以及异常处理结果: import urllib,re,json from multiprocessing import Pool#多进程 ...
Requests+正则表达式抓取猫眼电影TOP100
spider.py # -*- coding:utf-8 -*- import requests import re import json import codecs from requests.e ...
python requests抓取猫眼电影
1. 网址:http://maoyan.com/board/4? 2. 代码: import json from multiprocessing import Pool import requests ...
抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法
import requests import re import json import time from bs4 import BeautifulSoup from pyquery import ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...

随机推荐

在浏览器中输入一个URL后都发生了什么
这道题目没有所谓的完全的正确答案,这个题目可以让你在任意的一个点深入下去, 只要你对这个点是熟悉的.以下是一个大概流程: 浏览器向DNS服务器查找输入URL对应的IP地址. DNS服务器返回网站的IP ...
git 报错及解决
报错:fatal: refusing to merge unrelated histories==== 解决办法:git pull加上参数,如:git pull –allow-unrelated-hi ...
hadoop入门学习教程--DKHadoop完整安装步骤
使用hadoop版本是DKH标准三节点发行版,DKHadoop版本的易用性比较好,环境部署要简单的多,参考此篇安装前请先下载DKHadoop版本,网盘链接:https://pan.baidu.com/ ...
联想服务器配置 RAID
联想服务器配置 RAID BIOS 中配置 RAID 阵列卡 x3650 和 x3850 一．进入 RAID 1.在开机自检时按 F1 进入 UEFI 配置界面 2.选择 System Setting ...
4G的添加
(ZTE 中兴 ME3760_V2 ) 1. 复制myLte文件到相关目录,设置权限为755 2.修改openwrt1407/package/base-files/files/etc/rc.local ...
Python 中的变量
Python采用基于值得内存管理模式,赋值语句的执行过程是:首先把等号右侧标识的表达式计算出来,然后在内存中找一个位置把值存放进去,最后创建变量并指向这个内存地址.Python中的变量并不直接存储值, ...
jenkins 执行python脚本断言失败就可以构建失败
可以配合try: 那个语句去搭配
Linux 期中架构 rsync
上篇 Rsync rysnc查看版本 --version 全量与增量在效率上有区别 cp mv scp --全量复制 rsync --增量复制 rsync利用的是quick ch ...
python 之决策树分类算法
发现帮助新手入门机器学习的一篇好文,首先感谢博主!:用Python开始机器学习(2:决策树分类算法) J. Ross Quinlan在1975提出将信息熵的概念引入决策树的构建,这就是鼎鼎大名的ID3 ...
未来的趋势发展 802.11v网络协议解析
目前的无线网络中,一个基站通常与拥有最强信号的接入点联系在一起.但是,这个接入点也许过载了.在802.11v标准中,包括了一个指令,接入点能够使用这个指令要求一个基站报告它支持的无线电信道.传输的功率 ...

Python Spider 抓取猫眼电影TOP100

Python Spider 抓取猫眼电影TOP100的更多相关文章

随机推荐

热门专题