Python3.5：爬取网站上电影数据

首先我们导入几个pyhton3的库:

from urllib import request
import urllib
from html.parser import HTMLParser

在Python2和Python3之间一个重要区别就是，在Python2有urllib,urllib2两个库，在Python3整合到一起，里面的函数方式也有一点变，先定义一个函数，将header,url,request，都打包成一个函数方便调用，且看下面代码：

def print_movies(url):

    # 伪装成浏览器访问网站，但其实没啥用，很容易被中间件检测出来，但没有又不行，所以蛮写吧

    header = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'}

    # Python3的urllib

    req = urllib.request.Request(url, headers=header)

    s = urllib.request.urlopen(req)

    parser = MovieParser()

    parser.feed((s.read()).decode('utf-8'))

    s.close()

再重载HTMLParser库的handle_starttag(self, tag, attrs),系统就会默认调用用户重载的，具体调用方式在官方文档里面详细介绍：HTMLParser,

class MovieParser(HTMLParser):

    def __init__(self):

        HTMLParser.__init__(self)

        self.movies = []

        # 重载HTMLParser自带的函数

    def handle_starttag(self, tag, attrs):

        def _attr(attrlist, attrname):

            for attr in attrlist:

                if attr[0] == attrname:

                    return attr[1]

            return None

        # 可以在这class后面找到每个li标签的特征属性比如catrgory在下面判断

        if tag == 'li' and _attr(attrs, 'data-title'):

            movie= {}

            movie['title'] = _attr(attrs, 'data-title')

            movie['rate'] = _attr(attrs, 'data-rate')

            movie['director'] = _attr(attrs, 'data-director')

            movie['actors'] = _attr(attrs, 'data-actors')

            self.movies.append(movie)

            print('%(title)s|%(rate)s|%(director)s|%(actors)s' % movie)

当我们执行到parser.feed((s.read()).decode('utf-8'))时，知道为什么要这样写，首先parser时HTMLParser的子类所以包括feed()，在注入数据时，s.read()是返回bytes类型，但feed()只接受str类型，所以直接在后面加个decode('utf-8')即转码(三个bytes转换为一个中文),又可以转换为str，基本获取数据就这么简单，要是想获取别的网站的数据，可以换个url和条件判断就可以了，我把全部代码贴上来：

from urllib import request

import urllib

from html.parser import HTMLParser

class MovieParser(HTMLParser):

    def __init__(self):

        HTMLParser.__init__(self)

        self.movies = []

        # 重载HTMLParser自带的函数

    def handle_starttag(self, tag, attrs):

        def _attr(attrlist, attrname):

            for attr in attrlist:

                if attr[0] == attrname:

                    return attr[1]

            return None

        # 可以在这class后面找到每个li标签的特征属性比如catrgory在下面判断

        if tag == 'li' and _attr(attrs, 'data-title'):

            movie= {}

            movie['title'] = _attr(attrs, 'data-title')

            movie['rate'] = _attr(attrs, 'data-rate')

            movie['director'] = _attr(attrs, 'data-director')

            movie['actors'] = _attr(attrs, 'data-actors')

            self.movies.append(movie)

            print('%(title)s|%(rate)s|%(director)s|%(actors)s' % movie)

def print_movies(url):

    # 伪装成浏览器访问网站，但其实没啥用，很容易被中间件检测出来，但没有又不行，所以蛮写吧

    header = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'}

    # Python3的urllib

    req = urllib.request.Request(url, headers=header)

    s = urllib.request.urlopen(req)

    parser = MovieParser()

    parser.feed((s.read()).decode('utf-8'))

    s.close()

if __name__ == '__main__':

    url = 'https://movie.douban.com/'

    # 返回一个电影列表

    print_movies(url)

运行结果为：

Python3.5：爬取网站上电影数据的更多相关文章

Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
使用Selenium爬取网站表格类数据
本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
C# 爬取网页上的数据
最近工作中需求定时爬取不同城市每天的温度.其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程..NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebReque ...
Python3爬虫爬取淘宝商品数据
这次的主要的目的是从淘宝的搜索页面获取商品的信息.其实分析页面找到信息很容易,页面信息的存放都是以静态的方式直接嵌套的页面上的,很容易找到.主要困难是将信息从HTML源码中剥离出来,数据和网页源码结合 ...
python3 requests_html 爬取智联招聘数据（简易版）
PS重点:我回来了-----我回来了-----我回来了 1. 基础需要: python3 基础 html5 CS3 基础 2.库的选择: 原始库 urllib2 (这个库早些年的用过,后来淡忘了) ...
python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL 获取首页元素信息: 首页的URL链接获取: 遍历第一次返回的结果: 递归循环遍历: 全部代码如下: 小结: python3.6 requests && ...
Python转页爬取某铝业网站上的数据
天行健,君子以自强不息:地势坤,君子以厚德载物! 好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据.刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不 ...

随机推荐

C/S架构自动化测试入门
所谓C/S架构即Client/Server(客户端/服务器架构).虽然近年来C/S架构产品越来越少,大有被B/S(Browser/Server 浏览器/服务器)架构超越的趋势,但C/S还是有B/S不可 ...
python自动发邮件库yagmail
#### 一般发邮件方法我以前在通过Python实现自动化邮件功能的时候是这样的: import smtplib from email.mime.text import MIMEText from ...
leetcode#42 Trapping rain water的五种解法详解
leetcode#42 Trapping rain water 这道题十分有意思,可以用很多方法做出来,每种方法的思想都值得让人细细体会. 42. Trapping Rain WaterGiven n ...
CCF-201503-2-数字排序
问题描述试题编号: 201503-2 试题名称: 数字排序时间限制: 1.0s 内存限制: 256.0MB 问题描述: 问题描述给定n个整数,请统计出每个整数出现的次数,按出现次数从多到少的顺序 ...
Angular4.0引入laydate.js日期插件方法
Angular是不支持直接引入js文件的,下面介绍项目如果引入laydate.js的方法一.将下载的laydate中的js和theme文件放到一个统一的文件下面,我把它放到asset下二.在ang ...
利用spring，实现package下的类扫描
项目中需要用到包扫描的情况是很多的,一般是在项目初始化的时候,根据一些条件来对某个package下的类进行特殊处理.现在想实现的功能是,在一个filter或interceptor初始化的时候,扫描指定 ...
setTimeout和setInterval和单线程
我们知道,js是单线程执行的(单线程j就是说在程序执行时,所走的程序路径按照连续顺序排下来,前面的必须处理好,后面的才会执行).所以其实setTimeout和setInterval所谓的"异 ...
webrc视频数据发送处理流程详解
mysql 基本语法
################################################################# #author: 陈月白 #_blogs: http://www.c ...
dubbo源码—SPI
Java中的SPI SPI,Service Provider Interface,java中提供的一种使程序可扩展的方式,系统定义好接口规范,供其他服务提供方实现,服务提供方将自己jar包META-I ...

Python3.5：爬取网站上电影数据

Python3.5：爬取网站上电影数据的更多相关文章

随机推荐

热门专题