Python 爬虫个人记录（一）豆瓣电影250

一、爬虫环境

Python3.6
scrapy1.4
火狐浏览器
qq浏览器

二、scrapy shell 测试并获取 xpath

1、进入scrapy shell

2 、获取html

fetch('https://movie.douban.com/top250')

DEBUG: Crawled (403) GET https://movie.douban.com/top250访问失败
失败原因：豆瓣250拒绝爬虫访问
解决方案：为访问添加header,伪装成浏览器访问
浏览器header参考位置

scrapy shell 添加header参考：http://blog.csdn.net/qq_30242609/article/details/54581674

$ scrapy shell

...

>>> from scrapy import Request

>>> req = Request('yoururl.com', headers={'User-Agent':'Mozilla/5.0'}) 

>>> fetch(req)

如下

成功获取网页
使用qq浏览器 ‘查看元素’ 获取所需元素的xpath（火狐浏览器查看方法自行搜索）

得到

*[@id=”content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]

response.xpath(‘//*[@id=”content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()’).extract()

类比分析网页得到电影名字：

Xpath = ‘//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()’

在shell中验证结果

验证通过，在shell中已经得到了所需xpath

三、编写python代码

1、分析豆瓣250网址
https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=25&filter=
.
.
.

得到需要打开的网址表达式

for i in range(10):

        page_url = 'https://movie.douban.com/top250?start=' + str(i*25) + '&filter='

2、如何在python中运用xpath（）筛选数据

from lxml import etree

#html 为urllib.request.urlopen(url).read()文本

html = url_open(page_url)

        selector = etree.HTML(html)

        result = selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')

至此已经获得了xpath路径，爬虫网址源代码已经没有难度了

3 源代码参考

import urllib.request

import os

from lxml import etree

#打开一个网页操作

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3226.400 QQBrowser/9.6.11681.400')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

#找到数据进行xpath分析

def find_urls(page = 1):

    result_data = []

    file_urls = []

    url = 'https://movie.douban.com/top250?start=0&filter='

    for i in range(10):

        page_url = 'https://movie.douban.com/top250?start=' + str(i*25) + '&filter='

        html = url_open(page_url)

        selector = etree.HTML(html)

        result = selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')

        for each in result:

            result_data.append(each)

    return result_data

#将数据保存在本地

def save(name):

    file_name = '豆瓣250.txt'

    with open(file_name, 'w') as f:

        for each in name:

            f.write(each)

            f.write('\n')

            print(each)    

if __name__ == '__main__':

    name = find_urls()

    save(name)

4、爬虫结果

四、总结

1、获取xpath
2、获取爬虫网址
3、编写python代码

五、最后说两句

第一次编写教程，也是边学边写写，第一次教程会稍微啰嗦点，后面较复杂的会尽量写的简洁易懂些。

Python 爬虫个人记录（一）豆瓣电影250的更多相关文章

python爬虫--用xpath爬豆瓣电影
步骤将目标网站下的页面抓取下来将抓取下来的数据根据一定规则进行提取具体流程将目标网站下的页面抓取下来 1. 倒库 import requests 2.头信息(有时候可不写) headers ...
Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...
Python爬虫个人记录（二）获取fishc 课件下载链接
参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析获取http://bbs.fishc.com/for ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Python爬虫入门教程：豆瓣Top电影爬取
基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一. ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...

随机推荐

Redis集群部署（redis + cluster + sentinel）
概述说明说明:本次实验采用c1.c2.c3三台虚拟机完成,每台服务器上都部署一个master.一个slave和一个sentinel.当某主节点的挂了,相应的从节点替位:当某主节点及主节点对应的从节点 ...
git 第一次关联远程仓库
1.首先需要先git pull origin master 2.然后合并两个无关的仓库 git pull origin master --allow-unrelated-histories
[转]extern与头文件(*.h)的区别和联系
用#include可以包含其他头文件中变量.函数的声明,为什么还要extern关键字? 如果我想引用一个全局变量或函数a,我只要直接在源文件中包含#include<xxx.h> (xxx. ...
利用XMLHttpRequest(XHR)对象实现与web服务器通信
XMLHttpRequest对象:XMLHttpRequest是一个JS对象,页面利用它与web服务器通信.XHR对象的基本思想是让JS代码自己发送请求,以便随时获取数据,这种请求是异步的,也就是说请 ...
jquery中美元符号命名冲突问题解决
在Jquery中,$是JQuery的别名,所有使用$的地方也都可以使用JQuery来替换,如$('#msg')等同于JQuery('#msg') 的写法.然而,当我们引入多个js库后,在另外一个js库 ...
flask配置日志输出文件
1.flask可以通过日志库来指点日志输出的路径, 配置日志输出的连接:www.gaodin.com
python初步学习-练习题
1.实现1-100的所有的和 #!/usr/bin/env python #encoding:utf8 '''实现1-100的所有的和 1. 使用列表解析获取0-100的列表 2. 使用reduce内 ...
Java学习笔记——继承、接口、多态
浮点数的运算需要注意的问题: BigDecimal operand1 = new BigDecimal("1.0"); BigDecimal operand2 = new BigD ...
【TortoiseSVN】windows中连接SVN服务器的工具
1.下载安装包: 可以到我的服务器地址进行下载,有32和64位的安装包: http://qiaoliqiang.cn/fileDown/TortoiseSVN-1.8.8.25755-win32-sv ...
crond检查服务状态
代码如下: * */1 * * * /etc/init.d/ntpd status;if [ $? -ne 0 ];then /etc/init.d/ntpd start; fi