Python-爬取CVE漏洞库

最近吧准备复现一下近几年的漏洞，一个一个的去找太麻烦了。今天做到第几页后面过几天再来可能就不记得了。所以我想这搞个爬虫给他爬下来做个excel表格，那就清楚多了。奈何还没写过爬虫，之前就一直对爬虫挺感兴趣的，但是一直没去研究过。今天正好碰到了，躲是躲不掉了，我也尝试找找网上有没有现成的，毕竟我们强大的互联网，找是找到了，还找到好几个，奈何都用不了，并且还看不太懂大佬写的代码。今天搞了一下午搞出了个蹩脚的代码，以后慢慢的再去改进改进吧，毕竟我觉着速度不太快。爬了36000多条数据就花了我20分钟，后面慢慢改进吧。有大佬指导指导更好！如果代码有什么问题可以直接在下面评论！，下面上代码：

python3写的代码：

#作者：胖三斤的博客

#时间：2021/11/5

import requests

from bs4 import BeautifulSoup

import xlsxwriter

workbook = xlsxwriter.Workbook('loudong.xlsx') # 建立文件

worksheet = workbook.add_worksheet()

worksheet.write(0,0,'URL')      #这个是写进第一行第一列

worksheet.write(0,1,'cve')      #这个是写进第一行第二列

worksheet.write(0,2,'time')     #后面以此类推

worksheet.write(0,3,'name')

k=1

i=1

for j in range(1,3601):       # 开始页数到结束页数，自行设置

    burp0_url = f"http://cve.scap.org.cn:80/vulns/{j}?view=global"

    burp0_cookies = {"_csrf_token": "629b8310c3efb5aca85b39726ef56d29b505dc91", "session": "eyJfY3NyZl90b2tlbiI6IjYyOWI4MzEwYzNlZmI1YWNhODViMzk3MjZlZjU2ZDI5YjUwNWRjOTEiLCJfZnJlc2giOmZhbHNlfQ.YYTTIA.E-cwfm_arSSLqc772cS3GqCIPu0", "Hm_lvt_1ac51b9b492db88525810a29c7aa73cd": "1636092045", "Hm_lpvt_1ac51b9b492db88525810a29c7aa73cd": "1636094752"}

    burp0_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8", "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2", "Accept-Encoding": "gzip, deflate", "Connection": "close", "Referer": "http://cve.scap.org.cn/vulns/2?view=global", "Upgrade-Insecure-Requests": "1"}

    data = requests.get(burp0_url, headers=burp0_headers, cookies=burp0_cookies).text

    soup = BeautifulSoup(data, 'lxml')

    for link in soup.find_all('td'):

        if i%6 == 1:

            href = link.a.attrs['href']

            cve = link.a.string.strip()

            worksheet.write(k, 0, "http://cve.scap.org.cn"+href)

            worksheet.write(k, 1, cve)

        if i%6 == 2:

            time = link.string

            worksheet.write(k, 2, time)

        if i%6 == 4:

            name = link.string

            worksheet.write(k, 3, name)

        if i%6 == 0:

            k = k+1

        i = i+1

    print(f"已爬取数据：第{j}条")

workbook.close()

Python-爬取CVE漏洞库👻的更多相关文章

基于python爬虫的github-exploitdb漏洞库监控与下载
基于python爬虫的github-exploitdb漏洞库监控与下载 offensive.py(爬取项目历史更新内容) #!/usr/bin/env python # -*- coding:utf- ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

随机推荐

Go学习【01】：初步学习需要的知识
理解以下知识,初步写简单go项目就足够了语言参考(基础篇) 基本语法基本组成包声明引入包函数变量语句 & 表达式注释其它(可忽略) go没有像php.js那样需要在文件开始申 ...
Linux系列（40） - 自动同步时间chrony
前言 Centos8开始取消了ntp同步时间,改为chrony同步 chrony工具安装 yum -y install chrony 修改配置文件将配置文件中的同步服务器修改为国内的时间服务器(推荐 ...
P3244-[HNOI2015]落忆枫音【dp】
正题题目链接:https://www.luogu.com.cn/problem/P3244 题目大意给出一个\(\text{DAG}\),保证\(1\)可以到达所有点.然后再加入一条边(之后不一定 ...
mysql从零开始之MySQL 教程
MySQL 教程 MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数 ...
VS运行时 /MD、/MDd 和 /MT、/MTd之间的区别
程序运行时出现问题,选择的是Release,win64位的模式,并且已经看到了宏定义NDEBUG,但是程序依然进入上面的部分解决方案是将属性->C/C++->代码生成器->运行库里 ...
JOIN US | SphereEx 精英集结
新环境.新气象,SphereEx 欢迎志同道合的你加入! 关于 SphereEx 北京思斐软件技术有限公司(sphere-ex.com),是一家致力于构建新型分布式数据基础设施的公司,秉承开源.共享. ...
FastAPI 学习之路（十）请求体的字段
系列文章: FastAPI 学习之路(一)fastapi--高性能web开发框架 FastAPI 学习之路(二) FastAPI 学习之路(三) FastAPI 学习之路(四) FastAPI 学习之 ...
mysql group by语句流程是怎么样的
group by流程是怎么样的注意点: select id%10 as m, count(*) as c from t1 group by m; group by是用于对数据进行分组,我们排序用到了 ...
C 编译预处理和宏
前置知识 0x00 cmd编译运行程序 https://blog.csdn.net/WWIandMC/article/details/106265734 0x01 --save-temps gcc m ...
哈工大知识图谱(Knowledge Graph)课程概述
一.什么是知识图谱知识(Knowledge)可以理解为精炼的数据,知识图谱(Knowledge Graph)即是对知识的图形化表示,本质上是一种大规模语义网络 (semantic network) ...

Python-爬取CVE漏洞库👻

Python-爬取CVE漏洞库

Python-爬取CVE漏洞库👻的更多相关文章

随机推荐

热门专题