wooyun本地数据抓取

----

#-*-coding:utf-8-*-

import re

import urllib

import MySQLdb

import time

from urllib import unquote

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    html = html.replace('\n', '')

    html = html.replace('       ', ' ')

    html = html.replace('   ', '')

    html = html.replace('   ', '')

    #html = html.replace(' ','')

    return html

    return mylist

def gettitle(mylist):

    reg = (r'<a href="/bugs/wooyun-.+">(.*?)</a></td>')

    listre = re.compile(reg)

    mytitle = re.findall(listre, mylist)

    return mytitle

def getoper(html):

    reg = (r'/whitehats/(.*?)">')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist[0]

#-------------------------------------------------

def GetTitle(html):

    reg = (r"漏洞标题：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def BugNum(html):

    reg = (r'http://wooyun.org/bugs/(.*?)">查看原始来源')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def JiaFang(html):

    reg = (r'http://www.wooyun.org/corps/(.*?)">')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def SubmitTime(html):

    reg = (r"提交时间：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def OpenTime(html):

    reg = (r"公开时间：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def BugClass(html):

    reg = (r"漏洞类型：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def level(html):

    reg = (r"危害等级：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def BugState(html):

    reg = (r"漏洞状态：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    mylist = mylist[0].strip()

    return mylist

def BugSave(html):

    reg = (r'<a id="collection_num">(.*?)</a>人收藏')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def OkTime(html):

    reg = (r"确认时间：(.*?)</p>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def Bugrank(html):

    reg = (r"漏洞Rank：(.*?)</p>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def BugMark(html):

    reg = (r"Tags标签：(.*?)</h3>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def ignoreTime(html):

    reg = (r"忽略时间：(.*?)</p>")

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    if len(mylist)!=0:

        mylist=mylist

    else:

        mylist='1900-01-01 00:00:00'

    return mylist

def Bugeye(html):

    reg = (r'<span id="attention_num">(.*)</span>')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    mylist = mylist[0].strip()

    return mylist

conn= MySQLdb.connect(

        host='192.168.1.1',

        port = 3306,

        user='root',

        passwd='root',

        db ='wooyunTongji',

        charset='utf8'

        )

mark = 0

for i in range(53022, 89250, 1):

    try:

        Url = 'http://192.168.1.106/wooyun/select.php?id='+str(i)

        Html = getHtml(Url)

        Htmleye = getHtmleye(Url)

    except:

        print 'error'

    if len(Html)>100:

        if len(OkTime(Html)) == 0:

            whotime = ignoreTime(Html)[0].strip()

            whostyle = '忽略'

        else:

            whotime = OkTime(Html)[0].strip()

            whostyle = '确认'

        if len(Bugrank(Html)) < 1:

            BugrankFal='0'

        else:

            BugrankFal=Bugrank(Html)[0]

        print GetTitle(Html)[0].strip() \

            ,BugNum(Html)[0].strip() \

            ,unquote(JiaFang(Html)[0].strip()) \

            ,unquote(getoper(Html)) \

            ,SubmitTime(Html)[0].strip() \

            ,OpenTime(Html)[0].strip() \

            ,BugClass(Html)[0].strip() \

            ,level(Html)[0] \

            ,BugrankFal\

            ,BugState(Html) \

            ,whotime \

            ,whostyle \

            ,BugMark(Html)[0].strip()

        #f = open('wooyunlist.txt', 'a')

        mark += 1

        #f.close()

        cur = conn.cursor()

        mysql1='insert into alldata (id,title,BugNum,jiafang,oper,submittime,opentime,bugclass,level,bugrank,bugstate,oktime,okstyle,bugmark) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'

        cur.execute(mysql1,(mark,GetTitle(Html)[0].strip(),BugNum(Html)[0].strip(),unquote(JiaFang(Html)[0].strip()),unquote(getoper(Html)),SubmitTime(Html)[0].strip(),OpenTime(Html)[0].strip(),BugClass(Html)[0].strip(),level(Html)[0],BugrankFal,BugState(Html),whotime,whostyle,BugMark(Html)[0].strip()))

        cur.close()

        conn.commit()

        print mark

conn.close()

print('Over!')

wooyun本地数据抓取的更多相关文章

python3爬虫再探之豆瓣影评数据抓取
一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取.直接上代码: import re import time import requests import xlsxwriter from bs4 imp ...
网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上
Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据.例如知乎回答列表.微博热门.微博评论.淘宝.天猫.亚马逊等电商 ...
Python数据抓取（1） —数据处理前的准备
(一)数据抓取概要为什么要学会抓取网络数据? 对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如 ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
Java实现多种方式的http数据抓取
前言: 时下互联网第一波的浪潮已消逝,随着而来的基于万千数据的物联网时代,因而数据成为企业的重要战略资源之一.基于数据抓取技术,本文介绍了java相关抓取工具,并附上demo源码供感兴趣的朋友测试! ...
R语言XML包的数据抓取
htmlParse 函数 htmlParse加抓HTML页面的函数. url1<-"http://www.caixin.com/"url<-htmlParse(url1 ...
Twitter数据抓取
说明:这里分三个系列介绍Twitter数据的非API抓取方法.有兴趣的QQ群交流: BitCrawler网络爬虫QQ群 322937592 1.Twitter数据抓取(一) 2.Twitter数据抓取 ...
数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置
数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上 ...

随机推荐

Silverlight项目笔记6:Linq求差集、交集&检查网络连接状态&重载构造函数复用窗口
1.使用Linq求差集.交集使用场景: 需要从数据中心获得用户数据,并以此为标准,同步系统的用户信息,对系统中多余的用户进行删除操作,缺失的用户进行添加操作,对信息更新了的用户进行编辑操作更新. 所 ...
android 使用HttpURLConnection方式提交get/post请求
源码链接 package com.zhangbz.submitdata.Utils; import java.io.ByteArrayOutputStream; import java.io.IOEx ...
关于Assets.car素材问题
最近在做自己的第一个App,由于全程都是自己一个人完成,所以原型设计.素材都得自己找,自己改.遇到了提取Assets.car中的素材的问题,通过网络找到了2中解决方法: themeEngine 使用 ...
MongoDB学习笔记——MongoDB 连接配置
MongoDB连接标准格式: mongodb://[username:password@]host1[:port1][,host2[:port2],...[,hostN[:portN]]][/[dat ...
用自然语言的角度理解JavaScript中的this关键字
转自:http://blog.leapoahead.com/2015/08/31/understanding-js-this-keyword/ 在编写JavaScript应用的时候,我们经常会使用th ...
【同步复制常见错误处理3】找不到存储的过程 sp_MSins_tablename
环境在SQL2008 R2同步复制时出错这个错误提示是由于在订阅端没有找到同步时调用的同步存储过程,MS错误说明: 当某个事务发布在 SQL SERVER自动同步设置选择订阅服务器插入. 更新和删除 ...
被废弃的 Thread.stop, Thread.suspend, Thread.resume 和Runtime.runFinalizersOnExit
最近学习多线程的知识,看到API里说这些方法被废弃了,就查了一下原因 Thread.stop 这个方法会解除被加锁的对象的锁,因而可能造成这些对象处于不一致的状态,而且这个方法造成的ThreadDea ...
proxool详细配置
proxool详细配置博客分类: Java 配置管理SQLServletprototypeXML proxool一个数据库连接池框架,提供了对你选择的其它类型的驱动程序的连接池封装.可以非常简单的 ...
Storm wordcount Read from file
source code: package stormdemo; import java.io.BufferedReader; import java.io.BufferedWriter; import ...
动手学习TCP：服务端状态变迁
上一篇文章介绍了TCP状态机,并且通过实验了解了TCP客户端正常的状态变迁过程. 那么,本篇文章就一起看看TCP服务端的正常状态变迁过程服务端状态变迁根据上一篇文章中的TCP状态变迁图,可以得到服 ...

wooyun本地数据抓取

wooyun本地数据抓取的更多相关文章

随机推荐

热门专题