Scrapy爬虫实战-爬取体彩排列5历史数据

网站地址:http://www.17500.cn/p5/all.php

1、新建爬虫项目

scrapy startproject pfive

2、在spiders目录下新建爬虫

scrapy genspider pfive_spider www.17500.cn

3、在爬虫文件中修改入口url

start_urls = ['http://www.17500.cn/p5/all.php']

4、添加爬取条目

class PfiveItem(scrapy.Item):

    #开奖期号

    awardID = scrapy.Field()

    #开奖日期

    awardDate = scrapy.Field()

    #开奖号码

    awardNum = scrapy.Field()

5、编写爬虫，通过xpath解析网站

class PfiveSpiderSpider(scrapy.Spider):

    name = 'pfive_spider'

    allowed_domains = ['www.17500.cn']

    start_urls = ['http://www.17500.cn/p5/all.php']

    def parse(self, response):

        list = response.xpath("//table/tbody/tr/td/table/tbody/tr[3]/td[@class='normal']/table/tbody/tr[@bgcolor='#ffffff']")

        for l in list:

            pfiveItem = PfiveItem()

            pfiveItem['awardID'] = l.xpath('./td[1]/text()').extract_first()

            pfiveItem['awardDate'] = l.xpath('./td[2]/text()').extract_first()

            pfiveItem['awardNum'] = l.xpath('./td[3]/text()').extract_first()

            yield pfiveItem

6、在配置文件中忽略robots.txt文件(仅学习用)

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

7、在配置文件中打开User_Agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

8、编写启动文件main.py

from scrapy import cmdline

cmdline.execute('scrapy crawl pfive_spider'.split())

按理说这样就可以了,但是却抓不到东西!!!

通过查看response.text，发现表格数据是异步加载的，百度如何处理这种网页

https://blog.csdn.net/dangsh_/article/details/78633566

这个博主通过使用selenium 自动化测试包解决了这个问题。

9、首先编写下载中间件，并在配置中添加

class JavaScriptMiddleware(object):

    def process_request(self, request, spider):

        if spider.name == "pfive_spider":

            driver = webdriver.Chrome("G:\\Crawler\chromedriver.exe") #指定使用的浏览器

            driver.get(request.url)

            time.sleep(1)

            js = "var q=document.documentElement.scrollTop=10000" #模拟浏览页面

            driver.execute_script(js) #可执行js，模仿用户操作。此处为将页面拉至最底端。

            time.sleep(3)

            body = driver.page_source

            print ("访问"+request.url)

            return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)

        else:

            return None

注意闭坑：chromedriver.exe的版本要和本机chrom浏览器的版本一致。

http://chromedriver.storage.googleapis.com/index.html

OK，到此为止，大功告成

不对，这还只是第一页的数据。。。等下补更

Scrapy爬虫实战-爬取体彩排列5历史数据的更多相关文章

第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
scrapy入门实战-爬取代理网站
入门scrapy. 学习了有这几点 1.如何使用scrapy框架对网站进行爬虫: 2.如何对网页源代码使用xpath进行解析: 3.如何书写spider爬虫文件,对源代码进行解析: 4.学会使用scr ...
手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料
之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...
scrapy爬虫案例--爬取阳关热线问政平台
阳光热线问政平台:http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1 爬取最新问政帖子的编号.投诉标题.投诉内容以 ...
Scrapy爬虫Demo 爬取资讯分类
爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 效果演示图: items.py import scrapy import sys reload(sys) sys.se ...

随机推荐

PHP 常用自定义函数
模拟 POST.GET 请求 /** * 模拟post进行url请求 * @param string $url * @param string $param */ protected function ...
[题解]Magic Line-计算几何（2019牛客多校第三场H题）
题目链接:https://ac.nowcoder.com/acm/contest/883/H 题意: 给你偶数个点的坐标,找出一条直线将这n个点分成数量相等的两部分并在这条直线上取不同的两个点,表示 ...
with cats as pets get cataracts and macular degeneration
I really enjoyed this talk, optimistic and helpful. May I offer a small but perhaps helpful bit of k ...
Python面试题之如何用Python来发送邮件？
python实现发送和接收邮件功能主要用到poplib和smtplib模块. poplib用于接收邮件,而smtplib负责发送邮件. 代码如下: 1 #! /usr/bin/env python 2 ...
[Fw]中断的初始化
要使用中断肯定得初始化,这些初始化在系统启动时已经为你做好了,但是我们还是来看看怎样初始化的,这样就能更好的理解中断机制了.先看下面函数: 355 void __init init_ISA_irqs ...
Java Console/控制台打印表格
功能:控制台打印表格,支持字段动态长度,左对齐,右对齐,居中,设置最大列长,设置列间隔符,设置最多打印多少行. 类下载地址:http://download.csdn.net/download/j506 ...
利用hover，制作点击有缩放效果
.tab-pic-wrap .pic-wrap .list li a:hover img { transform: scale(1.03); } .tab-pic-wrap .pic-wrap .li ...
pytorch中onehot编码转为普通label标签
label转onehot的很多,但是onehot转label的有点难找,所以就只能自己实现以下,用的topk函数,不知道有没有更好的实现 one_hot = torch.tensor([[0,0,1] ...
MYSQL 查询脚本优化
业务需要,优化一段多表查询脚本. 总结下来,采取以下步骤. 分析语句分析语句,了解逻辑,是否可以先优化逻辑. 查询语句的查询范围,是否是全表查询,如果是,尽量优化为按索引查询. 查看语句数量,是否有 ...
2018-10-8-如何安装-btsync
title author date CreateTime categories 如何安装 btsync lindexi 2018-10-8 9:15:6 +0800 2018-2-13 17:23:3 ...

Scrapy爬虫实战-爬取体彩排列5历史数据

1、新建爬虫项目

2、在spiders目录下新建爬虫

3、在爬虫文件中修改入口url

4、添加爬取条目

5、编写爬虫，通过xpath解析网站

6、在配置文件中忽略robots.txt文件(仅学习用)

7、在配置文件中打开User_Agent

8、编写启动文件main.py

9、首先编写下载中间件，并在配置中添加

Scrapy爬虫实战-爬取体彩排列5历史数据的更多相关文章

随机推荐

热门专题