Python 爬虫练习（二）爬取补天公益SRC厂商域名URL (2017年11月22日)

介绍下：

补天是国内知名的漏洞响应平台，旨在企业和白帽子共赢。

白帽子在这里提交厂商漏洞，获得库币和荣誉，厂商从这里发布众测、获取漏洞报告和修复建议。

在2017年3月份之前，补天的厂商域名URL是非常好爬取的，即使没有登陆到平台依然可以用轻松获取到批量的厂商URL地址，然后白帽子用大型漏洞扫描工具进行批量漏扫。

后来，补天平台可能为了尽可能的保护厂商的URL被滥用，采取了一些措施。

这些措施限定了：

1). 必须登陆到平台

2). 点击厂商名并进入提交漏洞页面

3). 只在提交页面显示厂商URL域名

下面，就以一段Python 代码来获取最新的补天厂商URL，之后如何利用就随读者个人意愿了。

介绍：

1. 先登陆补天平台，复制Cookie到代码中的位置

2. 这里只演示爬取前三页，每页30个厂商

3. 使用正则提取URL

4. 爬取结果保存在脚本同级目录的 'butian_company_url.txt' 文件，如果不够90个URL，可能是有的厂商没有填写(即空)

import requests,re,json,time

head = {'User-Agent': \

            'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36'}

cook = {"Cookie": "这里写你登陆补天后的Cookie"}

url = 'http://butian.360.cn/Reward/pub'

for page in range(1,3): #前三页

    data = {'s': '1', 'p': page, 'token': ''}

    html = requests.post(url, headers = head, data=data, cookies = cook).content

    jsCont = json.loads(html.decode())

    jsData = jsCont['data']

    for i in jsData['list']:

        linkaddr = 'http://butian.360.cn/Loo/submit?cid=' + i['company_id']

        print(linkaddr,end='\t')

        shtml = requests.get(linkaddr,headers = head, cookies = cook).content

        #正则模版<input class="input-xlarge" type="text" name="host" placeholder="请输入厂商域名" value="www.grgtest.com" />

        company_url = re.findall('<input class="input-xlarge" type="text" name="host" placeholder="请输入厂商域名" value="(.*)" />',shtml.decode())

        time.sleep(0.5)  # 控制爬取速度

        print(company_url[0])

        com_url = company_url[0]

        with open('butian_company_url.txt','a+') as f:

            f.write(com_url + '\n')

运行结果：

Python 爬虫练习（二）爬取补天公益SRC厂商域名URL (2017年11月22日)的更多相关文章

Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...

随机推荐

win10 uwp 获得缩略图
有时候需要获得文件或视频的缩略图. 本文提供两个方法,用于获得文件的缩略图和截取视频指定时间的显示图片. 文件缩略图如果有一个文件需要获得缩略图,可以使用 GetThumbnailAsync 或 G ...
突发小事件，USB接口问题
昨天遇到的突发事件,突然USB接口全部瘫了,键盘鼠标全部不能用,换到别人电脑上可以,吓尿了,以为本子主板挂了,但是发现插U盘竟然可以识别而且可以打开,感觉可能是静电问题,果然,彻底关机,拔掉电池,然后 ...
脚本div实现拖放功能
脚本div实现拖放功能网页上有很多拖曳的操作,比如拖动树状列表,可拖曳的图片等. 1.原生拖放实现 <!doctype html> <html lang="en" ...
使用速卖通开放平台云API调用菜鸟组件实现云打印
公司是跨境电商,使用速卖通平台卖玩具,我们自己研发的ERP是基于速卖通开放平台API,实现订单的发货提交,打印面单等功能近期公司要求使用菜鸟组件云打印,去平台里看下,有这个API,如下图所示实现也 ...
LeetCode 11. Container With Most Water （装最多水的容器）
Given n non-negative integers a1, a2, ..., an, where each represents a point at coordinate (i, ai). ...
开发手机APP的神器 --- ionic
前言在如今的生活中,手机已经与我们的生活紧紧的联系在了一起.而手机APP更是其中,重要的一环.今天,影子就为大家介绍一种开发手机APP的超级神器---ionic. ioni ...
VNC 远程连接vmware下centOS7
VNC ( Virtual Network Computing)是一个linux下提供远程桌面支持的服务,类似于windows下的远程桌面服务,本来我是准备用xmanager来远程连我虚拟机中的cen ...
Linux系列教程（八）——Linux常用命令之压缩和解压缩命令
前面一篇博客我们讲解了Linux帮助和用户管理命令,对于帮助命令,man 命令能获得命令和配置文件的帮助信息,help命令能获得shell内置命令的帮助信息.我们可以通过which来区分什么是shel ...
HDU 6121 Build a tree（找规律+模拟）
Build a tree Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 524288/524288 K (Java/Others)To ...
[转载]ACM搜索算法总结（总结）
原文地址:ACM搜索算法总结(总结)作者:GreenHand 搜索是ACM竞赛中的常见算法,本文的主要内容就是分析它的特点,以及在实际问题中如何合理的选择搜索方法,提高效率.文章的第一部分首先分析了 ...

Python 爬虫练习（二）爬取补天公益SRC厂商域名URL (2017年11月22日)

Python 爬虫练习（二）爬取补天公益SRC厂商域名URL (2017年11月22日)的更多相关文章

随机推荐

热门专题