操作excel文件爬取nvd.nist数据
#!/usr/bin/env python
# encoding: utf-8
#@author: jack
import random
from time import sleep
import pandas as pd
from openpyxl import load_workbook
from urllib import request
from lxml import etree wb = load_workbook('cve.xlsx')#要读取的excel文件名,用openpyxl考虑到wrxl库网友反馈对excel后面版本兼容不是太好
sheet = wb['Sheet1']#默认excel右下角表名称
cve_list =[]
for i in sheet["D"][1:25]:#第D列第一行开始读起到24结束
cve_code = i.value#读取到的每个列表参数
cve_list.append(cve_code)#前面定义的空列表来存放excel读取的数据
start_url = 'https://nvd.nist.gov/vuln/detail/'#老美网站待爬数据,右击页面看到数据是静态的爬起来舒服
score_li=[]
vector3_li=[]
vector2_li=[]
for url_code in cve_list:#取列表参数
url = '{}{}'.format(start_url,url_code)#url拼接
response = request.urlopen(url)
result = response.read().decode()
html = etree.HTML(result)
v3BaseScore = html.xpath('//span[@data-testid="vuln-cvssv3-base-score"]/text()')#etree定位so easy
Vector3 = html.xpath('//span[@data-testid="vuln-cvssv3-vector"]/text()')
Vector2 = html.xpath('//span[@data-testid="vuln-cvssv2-vector"]/text()')
score_li.append(' '.join(v3BaseScore))#格式化保存页面提取的数据
vector3_li.append(' '.join(Vector3))
vector2_li.append(' '.join(Vector2))
df1 = pd.DataFrame({'v3BaseScore': score_li})#构建表头字段pandas方法
df2 = pd.DataFrame({'Vector3': vector3_li})
df3 = pd.DataFrame({'Vector2': vector2_li})
All = [df1, df2, df3]
writer = pd.ExcelWriter('test1.xlsx')#新建excel文件,
df1.to_excel(writer, sheet_name='Sheet1', startcol=1, index=False)#指定列逐行写入数据
df2.to_excel(writer, sheet_name='Sheet1', startcol=2, index=False)
df3.to_excel(writer, sheet_name='Sheet1', startcol=3, index=False)
writer.save()
writer.close()
业务需求现学pandas和openpyxl,
1、页面分析
2、定位分析
3、数据读写分析
4、网站容易爬挂,并发调低,user-agent代理可以搞起
import base64
import random
from multiprocessing.pool import ThreadPool
import time
import pandas as pd
from openpyxl import load_workbook
from urllib import request
from lxml import etree
from proxies import * def task1():
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
] # count = 0
header = {} header['User-Agent'] = random.choice(user_agent_list)
header.update({
'Host':' nvd.nist.gov',
'User-Agent:':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}) time.sleep(0.3)
# read cve excle
wb = load_workbook('cve.xlsx')
sheet = wb['Sheet1']
cve_list = [] # part request
for i in sheet["D"][1:]:
cve_code = i.value
cve_list.append(cve_code)
start_url = 'https://nvd.nist.gov/vuln/detail/' score_li = []
vector3_li = []
vector3_href_li = []
vector2_li = []
vector2_href_li = []
for url_code in cve_list:
url = '{}{}'.format(start_url, url_code)
res = request.Request(url,headers=header)
response = request.urlopen(res)
result = response.read().decode() # 数据清洗部分
html = etree.HTML(result)
score_list = html.xpath('//span[@data-testid="vuln-cvssv3-base-score"]/text()')
vector3_list = html.xpath('//span[@data-testid="vuln-cvssv3-vector"]/text()')
vector2_list = html.xpath('//span[@data-testid="vuln-cvssv2-vector"]/text()')
vector3_href_list = html.xpath('//span[@data-testid="vuln-cvssv3-vector"]//a/@href')
vector2_href_list = html.xpath('//span[@data-testid="vuln-cvssv2-vector"]//a/@href')
score_li.append(' '.join(score_list))
vector3_li.append(' '.join(vector3_list))
vector3_href_li.append(' '.join(vector3_href_list))
vector2_li.append(' '.join(vector2_list))
vector2_href_li.append(' '.join(vector2_href_list)) # create some Pandas DateFrame from some data
df1 = pd.DataFrame({'CVSSv3.0BaseScore': score_li})
df2 = pd.DataFrame({'CVSS v3.0 Vector': vector3_li})
df3 = pd.DataFrame({'CVSS v3.0 Vector link': vector3_href_li})
df4 = pd.DataFrame({'CVSS v2.0 Vector': vector2_li})
df5 = pd.DataFrame({'CVSS v2.0 Vector link': vector2_href_li})
All = [df1, df2, df3, df4, df5] # create a Pandas Excel writer using xlswriter
writer = pd.ExcelWriter('basescore.xlsx') df1.to_excel(writer, sheet_name='Sheet2', startcol=2, index=False)
df2.to_excel(writer, sheet_name='Sheet2', startcol=3, index=False)
df3.to_excel(writer, sheet_name='Sheet2', startcol=4, index=False)
df4.to_excel(writer, sheet_name='Sheet2', startcol=5, index=False)
df5.to_excel(writer, sheet_name='Sheet2', startcol=6, index=False) writer.save()
writer.close() def process_request(self, request, spider):
PROXIES = [
{'ip_port': '61.160.233.8', 'user_pass': ''},
{'ip_port': '125.93.149.186', 'user_pass': ''},
{'ip_port': '58.38.86.181', 'user_pass': ''},
{'ip_port': '119.142.86.110', 'user_pass': ''},
{'ip_port': '124.161.16.89', 'user_pass': ''},
{'ip_port': '61.160.233.8', 'user_pass': ''},
{'ip_port': '101.94.131.237', 'user_pass': ''},
{'ip_port': '219.157.162.97', 'user_pass': ''},
{'ip_port': '61.152.89.18', 'user_pass': ''},
{'ip_port': '139.224.132.192', 'user_pass': ''}
]
proxy = random.choice(PROXIES)
if proxy['user_pass'] is not None:
request.meta['proxy'] = "http://%s" % proxy['ip_port']
encodebytes = base64.b64encode(proxy['user_pass'].encode(encoding='utf-8')) # 注意encodebytes类型是byte,不是str
encoded_user_pass = str(encodebytes, 'utf-8')
request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
else:
request.meta['proxy'] = "http://%s" % proxy['ip_port'] if __name__ == '__main__': pool = ThreadPool()
pool.apply_async(task1)
pool.apply_async(process_request)
pool.close()
pool.join()
优化版
操作excel文件爬取nvd.nist数据的更多相关文章
- Python:将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中 通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
- Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表 任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
- 用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程 本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
- python爬虫25 | 爬取下来的数据怎么保存? CSV 了解一下
大家好 我是小帅b 是一个练习时长两年半的练习生 喜欢 唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思 我又走错片场了 接下来的几篇文章 小帅b将告诉你 如何将你爬取到的数据保存下来 有文本 ...
- Java生成和操作Excel文件(转载)
Java生成和操作Excel文件 JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该A ...
- Java生成和操作Excel文件
JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该API非Windows操作系统也可以通过 ...
- java 操作excel 文件
JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该API非Windows操作系统也可以通过 ...
- C#操作Excel文件(转)
摘要:本文介绍了Excel对象.C#中的受管代码和非受管代码,并介绍了COM组件在.net环境中的使用. 关键词:受管代码:非受管代码:Excel对象:动态连接库 引言 Excel是微软公司办公自动化 ...
- python 操作Excel文件
1 安装xlrd.xlwt.xlutils cmd下输入: pip install xlrd #读取excel pip install xlwt #写入excel pi ...
随机推荐
- python 进程数据通信
进程通信的第一种方式from multiprocessing import Process,Queue def f(q): q.put([42,2,'hello']) print('zi q id:' ...
- Python 发送企业微信消息
1.获取企业微信信息 1)我的企业 --> 企业信息 --> 企业ID 2)创建一个应用,记录该应用的 AgentId.Secret 2.python代码 #!/usr/bin/env p ...
- Flink之state processor api原理
无论您是在生产环境中运行Apache Flink or还是在过去将Flink评估为计算框架,您都可能会问自己一个问题:如何在Flink保存点中访问,写入或更新状态?不再询问!Apache Flink ...
- Guarded Suspension设计模式
Guarded Suspension 设计模式可以保证,当线程在访问某个对象时,发现条件不满足,就挂起等待条件满足时再次访问 public class GuardedSuspensionQueue { ...
- spring的15个经典面试题
总结Spring框架的15个经典面试题. 什么是Spring框架? Spring是一种轻量级框架,旨在提高开发人员的开发效率以及系统的可维护性. 我们一般说的Spring框架就是Spring Fram ...
- 针对接口编程能帮助达到面向对象开发和设计中"低耦合"的要求. 某公司...打印机...(笔试中遇到的题目)
针对接口编程能帮助达到面向对象开发和设计中"低耦合"的要求. 举个例子:某公司有一台特殊打印机,还可以使用一年,一年后可能换为另一种打印机,这两种打印机都特殊而贵. ...
- asp.net 路由注册
webapi的路由注册 mvc的路由注册 urlRoutingModule路由
- LinQ实现DataTable不定行转列 行列转换,有图
<%@ Page Language="C#" AutoEventWireup="true" CodeFile="LinqDemo2.aspx.c ...
- template might not exist or might not be accessible by any of the configured Template Resolvers 完美解决
初学者在maven spring boot web项目中使用thymeleaf 模板,经常会遇到 “template might not exist or might not be accessib ...
- elementUI,设置日期,只能选择今天和今天以后的, :picker-options="pickerOptions"
1. html 加 :picker-options="pickerOptions" <el-date-picker v-model="shop.receive_ti ...