从网页上抓取Windows补丁信息然后整型输出（Python）

Powershell实现：http://www.cnblogs.com/IvanChen/p/4488246.html

今天通过Python实现：

# coding=utf-8

import re

import requests

import csv

import sys

from lxml import etree

reload(sys)

sys.setdefaultencoding('utf8')

summaryurl = 'https://technet.microsoft.com/en-us/library/security/mt637763.aspx'

summarycontent = requests.get(summaryurl).content

selector = etree.HTML(summarycontent)

mslist = selector.xpath('//*[@id="mainBody"]/table/tr/td[2]/p/a/text()')

pattern_published_date = re.compile(r"[a-zA-Z]*?\s[0-9]*?,\s[0-9]*")

pattern_severity = re.compile(r"[a-zA-Z]*$")

pattern_kbnumber = re.compile(r"\d+")

pattern_vultype = re.compile(r"Information Disclosure|Remote Code Execution|Elevation of Privilege|Security Feature Bypass|Cumulative Security Update|Denial of Service|Tampering|Spoofing", re.I)

csvfile = file('eggs.csv', 'wb')

writer = csv.writer(csvfile, dialect="excel")

writer.writerow(['Date', 'MSRC', 'KB', 'Severity', 'Version', 'Summary', 'Type'])

for eachmsrc in mslist:

    msrcurl = "https://technet.microsoft.com/en-us/library/security/" + eachmsrc + ".aspx"

    msrc_content = requests.get(msrcurl).content

    msrc_selector = etree.HTML(msrc_content)

    published_date = msrc_selector.xpath('//*[@id="pubInfo"]/p[1]/text()')

    kbnumber = msrc_selector.xpath('//*[@id="mainBody"]/h2/text()')

    severity = msrc_selector.xpath('//*[@id="content"]/div[2]/h1/text()')

    version = msrc_selector.xpath('//*[@id="pubInfo"]/p[2]/text()')

    summary = msrc_selector.xpath('//*[@id="mainBody"]/div[3]/div/p[1]/text()')

    vultype = msrc_selector.xpath('string(//*[@id="mainBody"]/div[3]/div)')

    ft_published_date = re.search(pattern_published_date, published_date[0]).group()

    ft_kbnumber = re.search(pattern_kbnumber, kbnumber[0]).group()

    ft_severity = re.search(pattern_severity, severity[0].strip('\n ')).group()

    ft_version = version[1]

    ft_summary = summary[0]

    ft_vultype = re.search(pattern_vultype, vultype)

    if ft_vultype:

        writer.writerow([ft_published_date, eachmsrc, ft_kbnumber, ft_severity, ft_version, ft_summary, ft_vultype.group()])

    else:

        vultype = msrc_selector.xpath('string(//*[@id="mainBody"]/div[position()>3]/div/table)')

        ft_vultype = re.search(pattern_vultype, vultype)

        writer.writerow([ft_published_date, eachmsrc, ft_kbnumber, ft_severity, ft_version, ft_summary, ft_vultype.group()])

csvfile.close()

从网页上抓取Windows补丁信息然后整型输出（Python）的更多相关文章

从网页上抓取Windows补丁信息然后整型输出（PowerShell）
$report = [pscustomobject]@{'Date' = $null; 'MSRC' = $null; 'KB' = $null; 'Severity' = $null; 'Versi ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
Android登录client，验证码的获取，网页数据抓取与解析，HttpWatch基本使用
大家好,我是M1ko.在互联网时代的今天,假设一个App不接入互联网.那么这个App一定不会有长时间的生命周期,因此Android网络编程是每个Android开发人员必备的技能.博主是在校大学生,自学 ...
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...
爬虫---selenium动态网页数据抓取
动态网页数据抓取什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
教您使用java爬虫gecco抓取JD全部商品信息
gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定. JD网站的分析要抓取JD网站的全部商品信息, ...
python写的爬虫工具，抓取行政村的信息并写入到hbase里
python的版本是2.7.10,使用了两个第三方模块bs4和happybase,可以通过pip直接安装. 1.logger利用python自带的logging模块配置了一个简单的日志输出 2.get ...
FakeLogonScreen抓取Windows凭证
FakeLogonScreen抓取Windows凭证实践中使用的配置攻击者: 操作系统: Kali Linux 2020.1 IP: 192.168.1.13 目标: 作业系统: Windows ...

随机推荐

python解析git log后生成页面显示git更新日志信息
使用git log可以查到git上项目的更新日志. 如下两个git项目,我想把git的日志信息解析成一个便于在浏览器上查看的页面. https://github.com/gityf/lua https ...
ReactiveCocoa源码拆分解析(二)
(整个关于ReactiveCocoa的代码工程可以在https://github.com/qianhongqiang/QHQReactive下载) 上面抽丝剥茧的把最主要的信号机制给分离开了.但在RA ...
css中为了清除浮动经常用到的after样式
.cf:after { display: block; visibility: hidden; width:; height:; line-height:; font-size:; clear: bo ...
iOS上架ipa上传问题那些事
iOS上架ipa上传问题那些事原文: http://www.jianshu.com/p/1e22543285c2 字数513 阅读312 评论0 喜欢1 通过xcode直接打包上传,不会提示你的ip ...
[BZOJ3173][Tjoi2013]最长上升子序列
[BZOJ3173][Tjoi2013]最长上升子序列试题描述给定一个序列,初始为空.现在我们将1到N的数字插入到序列中,每次将一个数字插入到一个特定的位置.每插入一个数字,我们都想知道此时最长上 ...
Android 学习笔记
1.sleep(),wait(),notify(),notifyAll() sleep()是线程类的静态方法,阻塞线程一定时间后再次使线程处于可以被调度运行的状态wait(),notify(),not ...
PHP学习-链接数据库
链接数据库文件:conn.php <?php $conn = mysql_connect("localhost:3306","root","us ...
基于Z-WAVE 协议的LED智能照明系统的研究笔记
LED调光基础: ☆:LED照明调光控制信号的方式有两种: 1. 通过PWM信号控制LED灯具开关电源的占空比从而实现调光: 2. 通过调光控制信号和交流电源供电线合用的两线式或三线式(例如LED相控 ...
SQL创建字段信息(表值函数)
ALTER FUNCTION [dbo].[fnt_SplitString] ( @p1 varchar(Max), ) ) RETURNS @Table_Var TABLE ( c1 varchar ...
C语言笔记一
学习C语言已经有一段时间,然而发现越学不知道的东西越多,这是在印象笔记中记得一些东西,现在再回顾一遍顺便补充一些新东西. 一,基础知识运算符号优先级单目>算术>关系从高到低 ...

从网页上抓取Windows补丁信息然后整型输出（Python）

从网页上抓取Windows补丁信息然后整型输出（Python）的更多相关文章

随机推荐

热门专题