python 爬取乌云所有厂商名字，url，漏洞总数并存入数据库

需要：MySQLdb
下面是数据表结构：

/*

Navicat MySQL Data Transfer

Source Server         : 127.0.0.1

Source Server Version : 50509

Source Host           : 127.0.0.1:3306

Source Database       : wooyun

Target Server Type    : MYSQL

Target Server Version : 50509

File Encoding         : 65001

Date: 2015-09-24 17:38:14

*/

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------

-- Table structure for wooyun_vul

-- ----------------------------

DROP TABLE IF EXISTS `wooyun_vul`;

CREATE TABLE `wooyun_vul` (

  `id` int(8) NOT NULL AUTO_INCREMENT,

  `corpsname` varchar(255) DEFAULT NULL,

  `corpsurl` varchar(255) DEFAULT NULL,

  `vulcount` int(255) DEFAULT NULL,

  PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=latin1;

python 脚本：

#conding=utf-8

import urllib2

import urllib

import re

import MySQLdb

url = "http://wooyun.org/corps/page/"

def getWooyuncorps(url):

    request = urllib2.Request(url)

    request.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36')

    reponse = urllib2.urlopen(request)

    content = reponse.read()

    pattern1 = re.compile(r'<td width="370"><a href="\/corps\/(.*?)">.*?<\/a><\/td>')

    pattern2 = re.compile(r'<a rel="nofollow" href="(.*?)" target=')

    corps = pattern1.findall(content)

    corpsUrl = pattern2.findall(content)

    return corps,corpsUrl

def getcorpscount(url):

    request = urllib2.Request(url)

    request.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36')

    reponse = urllib2.urlopen(request)

    content = reponse.read()

    pattern = re.compile(r'<p class="page">.*?(\d+).*')

    count = pattern.findall(content)

    return count

corpslist = []

corpsurllist = []

countlist = []

for i in range(1,37):

    corps,corpsUrl = getWooyuncorps(url+str(i))

    for corp in corps:

        corpslist.append(corp)

    for urls in corpsUrl:

        corpsurllist.append(urls)

print len(corpslist),len(corpsurllist)

for i in range(0,len(corpslist)):

    newurl = "http://www.wooyun.org/corps/"+urllib.quote(corpslist[i])

    #print newurl

    count = getcorpscount(newurl)

    #print count

    for countA in count:

        countlist.append(countA)

#print len(countlist)

conn = MySQLdb.connect('localhost','root','','wooyun')

cur = conn.cursor()

sql = "set names 'utf8'"

cur.execute(sql)

conn.commit()

for s in range(0,len(countlist)):

    sql = 'insert into wooyun_vul(corpsname,corpsurl,vulcount) values("%s","%s",%d)' %(corpslist[s],corpsurllist[s],int(countlist[s]))

    print sql

    cur.execute(sql)

    conn.commit()

conn.close()

print "success"

python 爬取乌云所有厂商名字，url，漏洞总数并存入数据库的更多相关文章

Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
用selenium 自动爬取某一本小说章节及其内容，并存入数据库中
from selenium import webdriver import pymysql from selenium.webdriver.support.ui import WebDriverWai ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取LOL英雄皮肤
Python爬取LOL英雄皮肤 Python 爬虫一实现分析在官网上找到英雄皮肤的真实链接,查看多个后发现前缀相同,后面对应为英雄的ID和皮肤的ID,皮肤的ID从00开始顺序递增,而英雄ID跟 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
steam夏日促销悄然开始，用Python爬取排行榜上的游戏打折信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
Python爬取 | 唯美女生图片
这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...
Python爬取 | 王者荣耀英雄皮肤海报
这里只展示代码,具体介绍请点击下方链接. Python爬取 | 王者荣耀英雄皮肤海报 import requests import re import os import time import wi ...

随机推荐

用户故事驱动的敏捷开发 – 2. 创建backlog
本系列的第一篇[用户故事驱动的敏捷开发 – 1. 规划篇]跟大家分享了如何使用用户故事来帮助团队创建需求的过程,在这一篇中,我们来看看如何使用这些用户故事和功能点形成产品backlog.产品backl ...
Windows on Device 项目实践 5 - 姿态控制灯制作
在前面几篇文章中,我们学习了如何利用Intel Galileo开发板和Windows on Device来设计并完成PWM调光灯.感光灯.火焰报警器和智能风扇的制作,涉及到了火焰传感器.DC直流电机. ...
Oracle如何实现创建数据库、备份数据库及数据导出导入的一条龙操作
Oracle中对数据对象和数据的管理,无疑都是使用PL/SQL Developer来进行管理,该工具也提供给我们很多方便.快捷的操作,使得我们不再为Oracle本身丑陋.难用的UI而抱怨.由于我们一般 ...
CentOS 6.5 安装 MySQL5.6 并用Navicat for MySQL 连接
环境 : MySQL 5.6.21 64位 CentOS 6.5 64位 VMware 10 Navicat for MySQL 11 1.卸载自带mysql [root@localhost ~]# ...
Linux系统查看系统是32位还是64位方法总结
这篇博客是总结.归纳查看Linux系统是32位还是64位的一些方法,很多内容来自网上网友的博客.本篇只是整理.梳理这方面的知识,方便自己忘记的时候随时查看. 方法1:getconf LONG_BIT ...
.NET笔记(二)
null合并运算符 ?? 运算符称作null 合并运算符.如果此运算符的左操作数不为null,则此运算符将返回左操作数:否则返回右操作数. 使用Average而产生的一个错误因为数据中有DBNull ...
phpRedis安装、配置及简单使用
安装phpRedis前,请先安装Redis,再安装phpRedis插件. 1.下载安装在linux服务器上,命令行执行以下命令(cd ./usr local/src 一般源码放在这里(推荐源码安装) ...
不懂前端的程序员不是好美工——UI框架metronic使用教程——程序员视角
本着不懂前端的程序员不是好美工的观点,所以作为一个仅懂一点前端的程序员,为了成为一个好美工,所以只能用些取巧的方法伪装一下. metronic一个基于bootstrap的响应式的后台管理平台的UI框架 ...
.NET 缩略图服务器 ResizingServer
之前写过一篇文章 .NET 响应式自动缩略图服务器之后对此Image Server又进行了基于ImageResizer的改写基于.NET 图片服务器支持缩略图格式基于 ImageResizer ...
关于LogStash运行在AIX 64位机器上的问题与临时解决方案
需求;logstash运行在SUSE,LINUX,PPC LINUX,AIX机器上,并监控文件发送日志到KAFKA中去, 问题:在AIX机器上,file插件总是报异常,无法完成数据的读取 NotImp ...

python 爬取乌云所有厂商名字，url，漏洞总数 并存入数据库

python 爬取乌云所有厂商名字，url，漏洞总数 并存入数据库的更多相关文章

随机推荐

热门专题

python 爬取乌云所有厂商名字，url，漏洞总数并存入数据库

python 爬取乌云所有厂商名字，url，漏洞总数并存入数据库的更多相关文章