操作excel文件爬取nvd.nist数据

#!/usr/bin/env python

# encoding: utf-8

#@author: jack

import random

from time import sleep

import pandas as pd

from openpyxl import load_workbook

from urllib import request

from lxml import etree

wb = load_workbook('cve.xlsx')#要读取的excel文件名，用openpyxl考虑到wrxl库网友反馈对excel后面版本兼容不是太好

sheet = wb['Sheet1']#默认excel右下角表名称

cve_list =[]

for i in sheet["D"][1:25]:#第D列第一行开始读起到24结束

    cve_code = i.value#读取到的每个列表参数

    cve_list.append(cve_code)#前面定义的空列表来存放excel读取的数据

    start_url = 'https://nvd.nist.gov/vuln/detail/'#老美网站待爬数据，右击页面看到数据是静态的爬起来舒服

    score_li=[]

    vector3_li=[]

    vector2_li=[]

    for url_code in cve_list:#取列表参数

        url = '{}{}'.format(start_url,url_code)#url拼接

        response = request.urlopen(url)

        result = response.read().decode()

        html = etree.HTML(result)

        v3BaseScore = html.xpath('//span[@data-testid="vuln-cvssv3-base-score"]/text()')#etree定位so easy

        Vector3 = html.xpath('//span[@data-testid="vuln-cvssv3-vector"]/text()')

        Vector2 = html.xpath('//span[@data-testid="vuln-cvssv2-vector"]/text()')

        score_li.append(' '.join(v3BaseScore))#格式化保存页面提取的数据

        vector3_li.append(' '.join(Vector3))

        vector2_li.append(' '.join(Vector2))

    df1 = pd.DataFrame({'v3BaseScore': score_li})#构建表头字段pandas方法

    df2 = pd.DataFrame({'Vector3': vector3_li})

    df3 = pd.DataFrame({'Vector2': vector2_li})

    All = [df1, df2, df3]

    writer = pd.ExcelWriter('test1.xlsx')#新建excel文件，

    df1.to_excel(writer, sheet_name='Sheet1', startcol=1, index=False)#指定列逐行写入数据

    df2.to_excel(writer, sheet_name='Sheet1', startcol=2, index=False)

    df3.to_excel(writer, sheet_name='Sheet1', startcol=3, index=False)

    writer.save()

    writer.close()

业务需求现学pandas和openpyxl，

1、页面分析

2、定位分析

3、数据读写分析

4、网站容易爬挂，并发调低，user-agent代理可以搞起

import base64

import random

from multiprocessing.pool import ThreadPool

import time

import pandas as pd

from openpyxl import load_workbook

from urllib import request

from lxml import etree

from proxies import *

def task1():

    user_agent_list = [

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

    ]

    # count = 0

    header = {}

    header['User-Agent'] = random.choice(user_agent_list)

    header.update({

        'Host':' nvd.nist.gov',

        'User-Agent:':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

    })

    time.sleep(0.3)

    # read cve excle

    wb = load_workbook('cve.xlsx')

    sheet = wb['Sheet1']

    cve_list = []

    # part request

    for i in sheet["D"][1:]:

        cve_code = i.value

        cve_list.append(cve_code)

        start_url = 'https://nvd.nist.gov/vuln/detail/'

        score_li = []

        vector3_li = []

        vector3_href_li = []

        vector2_li = []

        vector2_href_li = []

        for url_code in cve_list:

            url = '{}{}'.format(start_url, url_code)

            res = request.Request(url,headers=header)

            response = request.urlopen(res)

            result = response.read().decode()

            # 数据清洗部分

            html = etree.HTML(result)

            score_list = html.xpath('//span[@data-testid="vuln-cvssv3-base-score"]/text()')

            vector3_list = html.xpath('//span[@data-testid="vuln-cvssv3-vector"]/text()')

            vector2_list = html.xpath('//span[@data-testid="vuln-cvssv2-vector"]/text()')

            vector3_href_list = html.xpath('//span[@data-testid="vuln-cvssv3-vector"]//a/@href')

            vector2_href_list = html.xpath('//span[@data-testid="vuln-cvssv2-vector"]//a/@href')

            score_li.append(' '.join(score_list))

            vector3_li.append(' '.join(vector3_list))

            vector3_href_li.append(' '.join(vector3_href_list))

            vector2_li.append(' '.join(vector2_list))

            vector2_href_li.append(' '.join(vector2_href_list))

            # create some Pandas DateFrame from some data

            df1 = pd.DataFrame({'CVSSv3.0BaseScore': score_li})

            df2 = pd.DataFrame({'CVSS v3.0 Vector': vector3_li})

            df3 = pd.DataFrame({'CVSS v3.0 Vector link': vector3_href_li})

            df4 = pd.DataFrame({'CVSS v2.0 Vector': vector2_li})

            df5 = pd.DataFrame({'CVSS v2.0 Vector link': vector2_href_li})

            All = [df1, df2, df3, df4, df5]

            # create a Pandas Excel writer using xlswriter

            writer = pd.ExcelWriter('basescore.xlsx')

            df1.to_excel(writer, sheet_name='Sheet2', startcol=2, index=False)

            df2.to_excel(writer, sheet_name='Sheet2', startcol=3, index=False)

            df3.to_excel(writer, sheet_name='Sheet2', startcol=4, index=False)

            df4.to_excel(writer, sheet_name='Sheet2', startcol=5, index=False)

            df5.to_excel(writer, sheet_name='Sheet2', startcol=6, index=False)

            writer.save()

            writer.close()

def process_request(self, request, spider):

    PROXIES = [

        {'ip_port': '61.160.233.8', 'user_pass': ''},

        {'ip_port': '125.93.149.186', 'user_pass': ''},

        {'ip_port': '58.38.86.181', 'user_pass': ''},

        {'ip_port': '119.142.86.110', 'user_pass': ''},

        {'ip_port': '124.161.16.89', 'user_pass': ''},

        {'ip_port': '61.160.233.8', 'user_pass': ''},

        {'ip_port': '101.94.131.237', 'user_pass': ''},

        {'ip_port': '219.157.162.97', 'user_pass': ''},

        {'ip_port': '61.152.89.18', 'user_pass': ''},

        {'ip_port': '139.224.132.192', 'user_pass': ''}

    ]

    proxy = random.choice(PROXIES)

    if proxy['user_pass'] is not None:

        request.meta['proxy'] = "http://%s" % proxy['ip_port']

        encodebytes = base64.b64encode(proxy['user_pass'].encode(encoding='utf-8'))  # 注意encodebytes类型是byte,不是str

        encoded_user_pass = str(encodebytes, 'utf-8')

        request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

    else:

        request.meta['proxy'] = "http://%s" % proxy['ip_port']

if __name__ == '__main__':

    pool = ThreadPool()

    pool.apply_async(task1)

    pool.apply_async(process_request)

    pool.close()

    pool.join()

优化版

操作excel文件爬取nvd.nist数据的更多相关文章

Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下
大家好我是小帅b 是一个练习时长两年半的练习生喜欢唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本 ...
Java生成和操作Excel文件(转载)
Java生成和操作Excel文件 JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该A ...
Java生成和操作Excel文件
JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该API非Windows操作系统也可以通过 ...
java 操作excel 文件
JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该API非Windows操作系统也可以通过 ...
C#操作Excel文件（转）
摘要:本文介绍了Excel对象.C#中的受管代码和非受管代码,并介绍了COM组件在.net环境中的使用. 关键词:受管代码:非受管代码:Excel对象:动态连接库引言 Excel是微软公司办公自动化 ...
python 操作Excel文件
1 安装xlrd.xlwt.xlutils cmd下输入: pip install xlrd #读取excel pip install xlwt #写入excel pi ...

随机推荐

Unity Shader 屏幕后效果——Bloom外发光
Bloom的原理很简单,主要是提取渲染图像中的亮部区域,并对亮部区域进行模糊处理,再与原始图像混合而成. 一般对亮部进行模糊处理的部分采用高斯模糊,关于高斯模糊,详见之前的另一篇博客: https:/ ...
axios浏览器异步请求方法封装 XMLHttpRequest
axios学习笔记defaults(浏览器端异步请求处理方式) 浏览器异步请求方法封装,主要使用XMLHttpRequest lib/adapters/xhr.js //入口 var utils = ...
Dart：3.Dart运算符、流程控制
一 . 运算符以下列出 Dart 的运算符,从高到低按照优先级排列: 描述运算符一元运算符(后置) expr++ expr-- () [] . ?. 一元运算符(前置) -expr !expr ...
spring-session（二）与spring-boot整合实战
前两篇介绍了spring-session的原理,这篇在理论的基础上再实战. spring-boot整合spring-session的自动配置可谓是开箱即用,极其简洁和方便.这篇文章即介绍spring- ...
阿里云 OSS 如何设置防盗链, 上个月图床流量耗费50G+，请求次数10W+,什么鬼？
欢迎关注个人微信公众号: 小哈学Java, 文末分享阿里 P8 高级架构师吐血总结的 <Java 核心知识整理&面试.pdf>资源链接!! 个人网站: https://www.ex ...
OCaml （ML家族语言）很好很强大
理由如下: 1. 强类型,写着放心 2. 函数式. 且不是pure functional, 不用像 Haskell 那样极端.. 3. Algebric Data Types 的模式匹配实在太爽了 ...
Visual Studio Code创建C#项目
Visual Studio Code是一个支持跨平台的文本编辑器,同其他文本文本编辑器一样,不但占用磁盘空间小,性能也比较快:近几年由于不断的升级和许多开发者提供大量的插件,它已经成为了一个非常强大的 ...
ArrayList集合的
import java.util.ArrayList; /* * 如果想向集合ArrayList中存储基本数据类型,必须使用基本数据类型的“包装类” * * 基本类型包装类(引用类型,包装类型都位于 ...
实验吧——who are you?（insert into注入二分法时间盲注）
题目地址:http://ctf5.shiyanbar.com/web/wonderkun/index.php 根据提示 “我要把攻击我的人都记录db中去!” 猜测这是insert into注入,会 ...
JVM常见面试题及答案
11.JVM内存分哪几个区,每个区的作用是什么? java虚拟机主要分为以下一个区: 方法区:1. 有时候也成为永久代,在该区内很少发生垃圾回收,但是并不代表不发生GC,在这里进行的GC主要是对方法区 ...

操作excel文件爬取nvd.nist数据

操作excel文件爬取nvd.nist数据的更多相关文章

随机推荐

热门专题