Scrapy爬虫入门实例

网上关于Scracpy的讲述已经非常丰富了，而且还有大神翻译的官方文档，我就不重复造轮子了，自己写了一个小爬虫，遇到不少坑，也学到不少东西，在这里给大家分享一下，自己也做个备忘录。

主要功能就是爬取cnvd漏洞库每个漏洞的名称、发布时间，漏洞描述，漏洞编号...

先说下我的环境：

Ubuntu 16.04

python 2.7

scracpy 1.0.3

1、Scracpy的如何自定义UA？

因为某些网站有根据ua做反爬机制，Scracpy已经为我们定义好了处理机制，首先在settings.py中设置处理request的类，然后实现类即可。

settings.py中增加如下内容

#网上找代码，有侵权请通知

WNLOADER_MIDDLEWARES = {

    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

    #工程名（cnvd）、类文件名（middlewares）、文件中类名(RotateUserAgentMiddleware)

    'cnvd.middlewares.RotateUserAgentMiddleware':400,

}

在同目录下新建文件Middlewares.py，代码如下

#网上找的代码，有侵权请告知

#!/usr/bin/python

#-*-coding:utf-8-*-  

import random

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware  

class RotateUserAgentMiddleware(UserAgentMiddleware):

    def __init__(self, user_agent=''):

        self.user_agent = user_agent  

    def process_request(self, request, spider):

        #随机选择list中的ua

        ua = random.choice(self.user_agent_list)

        if ua:

            #设置request头部中的ua信息

            request.headers.setdefault('User-Agent', ua)  

    #the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape

    #for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php

    user_agent_list = [\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\

        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\

        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\

        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\

        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\

        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\

        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

       ]

2、Scracpy中log怎么用？

在网上搜索和官方例子中用的是log.msg("log msg", level=DEBUG)，但是自己使用的时候提示该方法已经被废弃，建议使用python的logging模块。使用方法如下

import logging

logging.debug("msg")

3、yield什么意思

我对python也是一知半解，一直不明白这个是怎么个用法，也说不好，看代码注释吧

#Scracpy会自动向url发一个请求，并使用index_parse解析response

yield scrapy.Request(url, callback=self.index_parse)

#实现回调函数

def index_parse(self, response):

4、Xpath的一些小知识

#获得a标签的href属性值

response.xpath(//tr[@class='current']/td/a/@href)

#查找文本是xxx的标签/对与查找汉字，需要在字符串前加u

response.xpath(u"//td[text()='漏洞描述'])

#找到当前节点的所有兄弟节点

response.xpath(u"//td[text()='漏洞描述']/following-sibling::*")

测试xpath的方法：

1、使用scracpy shell url，会返回一个交互终端，可以使用response.xpath("")查看该url页面的匹配结果。个人不喜欢这种方式，终端操作，不好看。

2、使用firefox插件WebDriver Element Locator，安装之后，当在页面选中元素右击，可以看到该元素的xpath，然并卵，大多时候不是我们想要的方式

3、使用firefox插件firebug，firexpath，在firebug页面会出现一个firepath的框，输入xpath可以测试匹配是否成功，个人比较喜欢这种方式

5、数据库操作

直接上数据库操作的代码

import logging

from cnvd.items import CnvdItem

import MySQLdb

import MySQLdb.cursors

class CnvdPipeline(object):

    def __init__(self):

        self.conn = MySQLdb.connect(user='root', passwd ='', db='cnvddb', host='localhost', charset='utf8')

        self.cursor = self.conn.cursor()

        self.cursor.execute("truncate table cnvd")

        self.conn.commit()

    def process_item(self, item, spider):

        self.cursor.execute("insert into cnvd(cnvd_id, name, time, description) values(%s, %s, %s, %s)",

                           (item['cnvd_id'], item['name'], item['time'], item['description']))

        self.conn.commit()

        logging.debug(item['name'])

        logging.debug(item['cnvd_id'])

        logging.debug(item['time'])

        return item

总结：

曾经使用urllib2写过一个爬虫爬cnnvd上的漏洞库，爬了一天发现网站漏洞页面不能访问来，用手机4G可以访问，猜测是把公司的ip加入黑名单来，本来想用scracpy再实现一个，奈何页面打不开，不好调试。于是选择来cnvd这个漏洞库，不过测试也仅仅是用了一页，没有全爬，担心再被拉黑。各位测试的时候最好也注意一下。。。

附件是完整的代码，仅仅是一个小demo，后来要做的还有数据库查重，反反爬，漏洞其他信息的爬取等等，但是作为一个demo，够用了

完整代码

Scrapy爬虫入门实例的更多相关文章

Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性
抓取到的item 会被发送到Item Pipeline进行处理 Item Pipeline常用于 cleansing HTML data validating scraped data (checki ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
10个python爬虫入门实例
昨天和伙伴萌一块学习,写了几个简单的入门实例涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件的打开,保存 ...
Scrapy 爬虫入门 +实战
爬虫,其实很早就有涉及到这个点,但是一直没有深入,今天来搞爬虫.选择了,scrapy这个框架 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tut ...
scrapy爬虫框架实例二
本实例主要通过抓取慕课网的课程信息来展示scrapy框架抓取数据的过程. 1.抓取网站情况介绍抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部 ...
Scrapy爬虫入门Request和Response（请求和响应）
开发环境:Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站. 通常,Request对 ...
Python 爬虫入门实例（爬取小米应用商店的top应用apk）
一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载. ...
scrapy爬虫框架实例一，爬取自己博客
本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http:/ ...

随机推荐

Dictionary CovertTo List
示例代码假设有如下一个Dictionary 要转换成List Dictionary<string, string> dicNumber = new Dictionary<strin ...
【转载】sql注入之入门
原文在:https://smelond.com MySql基础语法 mysql无非就是增删改查 mysql数据库结构: 数据库 test,test1 表名 admin,manage 数据 id,use ...
skype客户端搜不到联系人解决办法
1.确认skype客户端登陆的配置信息按住Ctrl 键不放,右击右下角任务栏 skype 图标,选择:配置信息,确认skype的:GAL搜索或基于服务器的搜索为:基于服务器的搜索,如下图所示: 2. ...
[BZOJ 1568][JSOI2008]Blue Mary开公司
[BZOJ 1568][JSOI2008]Blue Mary开公司题意 \(n\) 次操作, 维护一个一次函数集合 \(S\). 有两种操作: 给定 \(b\) 和 \(k\), 向 \(S\) 中 ...
[python]通过uiautomator实现返回当前程序包名
# -*- coding: utf-8 -*- from uiautomator import device as d def getCurrentPackageName(): info = d.in ...
MyBatis insert操作插入,返回主键from官方
下面就是 insert,update 和 delete 语句的示例: <insert id="insertAuthor" parameterType="domain ...
7.Solr查询参数
一.基本查询 q 查询的关键字,此参数最为重要,例如,q=id:1,默认为q=*:*, fl (field list)指定返回哪些字段,用逗号或空格分隔,注意:字段区分大小写,例如,fl= id, ...
关于requests.exceptions.SSLError: HTTPSConnectionPool
问题: requests.exceptions.SSLError: HTTPSConnectionPool(host='mall.christine.com.cn', port=443): Max r ...
PHP百万级数据导出方案（多csv文件压缩）
本文转自网络仅供学习之用概述: 最近公司项目要求把数据除了页面输出也希望有导出功能,虽然之前也做过几个导出功能,但这次数据量相对比较大,差不多一天数据就20W条,要求导7天或者30天,那么数据量就轻 ...
Windows连接Linux虚拟机里面的Docker容器
一.Windows.Linux虚拟机.docker关系图如果此时在Windows宿主机中pingDocker容器是ping不同的,因为在宿主机上没有通往172.17.0.0/24网络的路由,宿主机会 ...

Scrapy爬虫入门实例

Scrapy爬虫入门实例的更多相关文章

随机推荐

热门专题