Python 爬取SeeBug poc

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 # @Date    : 2017-08-24 21:42:52

 # @Author  : EnderZhou (zptxwd@gmail.com)

 # @Link    : http://www.cnblogs.com/enderzhou/

 # @Version : $Id$

 import requests

 from bs4 import BeautifulSoup as bs

 import threading

 import Queue

 import urllib

 # import os

 import time

 main_url ='https://www.seebug.org/vuldb/vulnerabilities?category=&order_time=1&order_rank=1&has_all=default&has_vm=default&submitTime=all&has_affect=default&has_poc=true&has_detail=default&level=all&page='#+pagenumber

 bug_url = 'https://www.seebug.org/vuldb/ssvid-'#

 dl_url = 'https://www.seebug.org/vuldb/downloadPoc/'#

 #SeeBug防爬机制教强，若仅修改cookie无效，请替换全部header头信息

 headers = {

 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

 'Accept-Encoding':'gzip, deflate, br',

 'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.6',

 'AlexaToolbar-ALX_NS_PH':'AlexaToolbar/alx-4.0.1',

 'Cache-Control':'max-age=0',

 'Connection':'keep-alive',

 'Cookie':'请填写自己的cookie',

 'Referer':'https://www.seebug.org/vuldb/vulnerabilities',

 'Upgrade-Insecure-Requests':'',

 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',

 }

 class SeeBugPoc(threading.Thread):

     def __init__(self,queue):

         threading.Thread.__init__(self)

         self._queue = queue

     def run(self):

         while not self._queue.empty():

             url = self._queue.get_nowait()

             self.spidet(url)

     def spidet(self,url):

         r = requests.get(url=url,headers=headers)

         soup = bs(r.content,'html.parser')

         vullist = soup.find_all(name='a',attrs={'class':'vul-title'})

         for u in vullist:

             name = u['href'].split('/')[-1]

             l = dl_url+u['href'].split('-')[-1]

             print name + '----' + l

             d = requests.get(url=l,headers=headers)

             f =  open(name+'.txt','w')

             f.write(d.content)

             f.close

             time.sleep(7.5)

 #SeeBug防爬机制教强，此处设置延时7.5秒。后续看心情是否更新添加代理功能

 def main():

     queue = Queue.Queue()

     for i in range(1,2185):

         queue.put(main_url+str(i))

     threads = []

     thread_count = 1

     for i in range(thread_count):

         threads.append(SeeBugPoc(queue))

     for t in threads:

         t.start()

     for t in threads:

         t.join()

 if __name__ == '__main__':

     main()

Python 爬取SeeBug poc的更多相关文章

Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

随机推荐

hiho #1043 : 完全背包
01背包和完全背包解析在上一节的01背包中,每种物品只能使用一次. 初始化j=V,逆序推能够保证 dp[v-c[i]] 保存的是状态是 dp[i-1][v-c[i]] ,也就是每个物品只被使用了一次 ...
Acwing-283-多边形(区间DP)
链接: https://www.acwing.com/problem/content/285/ 题意: "多边形游戏"是一款单人益智游戏. 游戏开始时,给定玩家一个具有N个顶点N条 ...
python中oepen及fileobject初步整理之划水篇
open选项参考官方文档,很多东西也没有看懂,将自己理解的部分先整理到这里,以后还是要参阅官方文档的. open (file, mode='r', buffering=-1, encoding=No ...
Qtcreator 之中文目录
由于编码格式问题, qtcreator 所有关于目录的引用和存放均不出现中文,否则编译可以通过,运行时 crashed !!!
转载：tcp详解
TCP详解转自:http://www.cnblogs.com/kzloser/articles/2582957.html 首部格式图释: 各个段位说明: 源端口和目的端口: 各占 2 字节.端口是 ...
Unity3D_(数据)JsonUtility创建和解析Json
Json 百度百科:传送门 LitJson创建和解析Json 传送门 Json数据解析在Unity3d中的应用传送门一.使用JsonUnity创建Json using System.Collect ...
python 判断是字母的多种方法
方法一:isalpha() "a".isalpha() 方法二:string.letters string.uppercase import string s=" ...
关于 oracle10g、oracle client和plsql devement 三者之间的关系
oracle10g是服务器,如果本机安装了oracle10g,没有必要安装oracle client,只要配置好DNS,就可以使用plsql devement连接当然你也可以同时安装orac ...
套接字选项之 SO_REUSEADDR && SO_REUSEPORT
说明本文下面内容基本上是截取自stackoverflow,针对这两个选项,在另外一篇文章中做了总结,请移步<Linux TCP套接字选项之 SO_REUSEADDR && S ...
React 中 refs 的作用是什么？
Refs 是 React 提供给我们的安全访问 DOM 元素或者某个组件实例的句柄.我们可以为元素添加 ref 属性然后在回调函数中接受该元素在 DOM 树中的句柄,该值会作为回调函数的第一个参数返回 ...

Python 爬取SeeBug poc

Python 爬取SeeBug poc的更多相关文章

随机推荐

热门专题