IP+IDC-chinaz抓取

#-*-coding:gbk-*-

#code by anyun.org

import urllib

import re

import time

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    html = html.replace('\n', '')

    html = html.replace('       ', ' ')

    html = html.replace('   ', '')

    html = html.replace('   ', '')

    # html = html.replace(' ','')

    return html

def getcontext(html):

    reg = (r'<span class="Whwtdhalf w15-0">(.*?)</span>')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def getadd(html):

    reg = (r'<span class="Whwtdhalf w50-0">(.*?)</span>')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

def geterr(html):

    reg = (r'<div class="col-red lh30 fz14 jspu">(.*?)</div>')

    listre = re.compile(reg)

    mylist = re.findall(listre, html)

    return mylist

if __name__ == '__main__':

	f =open('list.txt','r')

	for i in f.readlines():

		i=i.strip()

		try:

			Url='http://ip.chinaz.com/?ip=http://'+i

		except:

			print 'error'

		Html = getHtml(Url)

	#	print (getcontext(Html))

		if len(geterr(Html))==0:

			print getcontext(Html)[0],getcontext(Html)[3] \

			,getcontext(Html)[1],getcontext(Html)[4] \

			,getcontext(Html)[2],getcontext(Html)[5] \

			,getadd(Html)[0],getadd(Html)[1]

			f1 = open('ok.txt','a')

			print >>f1,getcontext(Html)[0],getcontext(Html)[3] \

			,getcontext(Html)[1],getcontext(Html)[4] \

			,getcontext(Html)[2],getcontext(Html)[5] \

			,getadd(Html)[0],getadd(Html)[1]

			f1.close()

		else:

			print i,'解析失败'

			f2=open('err.txt','a')

			print >>f2,i,'解析失败'

			f2.close()

		time.sleep(0.5)

	print 'over'

IP+IDC-chinaz抓取的更多相关文章

php 使用代理IP进行数据抓取
什么是代理?什么情况下会用到代理IP?代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户.形象的说:它是网络信息的中转站.通过代理IP访问目标站,可以隐藏用户的真实 ...
如何使用代理IP进行数据抓取，PHP爬虫抓取亚马逊商品数据
什么是代理?什么情况下会用到代理IP? 代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户.形象的说:它是网络信息的中转站.通过代理IP访问目标站,可以隐藏用户的真 ...
WireShark系列：使用WireShark过滤条件抓取特定数据流(zz)
应用抓包过滤,选择Capture | Options,扩展窗口查看到Capture Filter栏.双击选定的接口,如下图所示,弹出Edit Interface Settints窗口. 下图显示了Ed ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
c#批量抓取免费代理并验证有效性
之前看到某公司的官网的文章的浏览量刷新一次网页就会增加一次,给人的感觉不太好,一个公司的官网给人如此直白的漏洞,我批量发起请求的时候发现页面打开都报错,100多人的公司的官网文章刷新一次你给我看这个, ...
一站式学习Wireshark（八）：应用Wireshark过滤条件抓取特定数据流
应用抓包过滤,选择Capture | Options,扩展窗口查看到Capture Filter栏.双击选定的接口,如下图所示,弹出Edit Interface Settints窗口. 下图显示了Ed ...
如何让Python爬虫一天抓取100万张网页
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 王平源自:猿人学Python PS:如有需要Python学习资料的 ...
Python 3.6 抓取微博m站数据
Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ...
python爬虫成长之路（二）：抓取代理IP并多线程验证
上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的, ...
抓取代理IP
写脚本从指定网站抓取数据的时候,免不了会被网站屏蔽IP.所以呢,就需要有一些IP代理.随便在网上找了一个提供免费IP的网站西刺做IP抓取.本次实践抓取的是其提供的国内匿名代理.可以打开网站查看一下源码 ...

随机推荐

我遇到的CocoaPods的问题（也许后期会解决，持续更新）
在此博客中写下两类关于CocoaPods的问题: 未解决的问题:可以留着以后解决已经解决的问题:可以备份以后回头再参考解决同样的问题 <已解决的问题> 解决方法是:pod install ...
java网络---再论URL & URI
关于URL 和URI的关系,在本系列的第二篇:java网络---基本web概念中已经简述了. 这里重复一点,就是URI包含URL,或者说URI是父类,URL就是子类的概念. 本篇再来详述这2个概念. ...
最近开始研究PMD(一款采用BSD协议发布的Java程序代码检查工具)
PMD是一款采用BSD协议发布的Java程序代码检查工具.该工具可以做到检查Java代码中是否含有未使用的变量.是否含有空的抓取块.是否含有不必要的对象等.该软件功能强大,扫描效率高,是Java程序员 ...
对石家庄铁道大学网站首页进行UI分析
对石家庄铁道大学网站首页进行UI界面分析首先,铁道大学的网页首页分为图文热点,学校新闻,校内公告,媒体看铁大,学术咨询等等模块.通过分析这些模块,可以看出,学校网站首页针对的使用对象有很多,包括学校领 ...
Effective Java 20 Prefer class hierarchies to tagged classes
Disadvantage of tagged classes 1. Verbose (each instance has unnecessary irrelevant fields). 2. Erro ...
关于移动端的font和图片的问题
一.font-family 使用无衬线字体 body { font-family: "Helvetica Neue", Helvetica, STHeiTi, sans-serif ...
lucene索引
一.lucene索引 1.文档层次结构索引(Index):一个索引放在一个文件夹中: 段(Segment):一个索引中可以有很多段,段与段之间是独立的,添加新的文档可能产生新段,不同的段可以合并成一 ...
oracle序列
一.序列序列是oracle用来生产一组等间隔的数值.序列是递增,而且连续的.oracle主键没有自增类型,所以一般使用序列产生的值作为某张表的主键,实现主键自增.序列的编号不是在插入记录的时候自动生 ...
python 发送邮件函数模块
发送邮件函数功能 #!/usr/bin/env python # -*- coding:utf-8 -*- import smtplib from email.mime.text import MIM ...
git_sop 脚本使用说明
tags : git 前言脚本下载地址: git是功能非常强大的版本管理工具,同时它带来的是学习成本的上升.最近我们团队的部分项目采用了git进行版本管理,一部分小伙伴对于git使用不是很熟悉.一方 ...

IP+IDC-chinaz抓取

IP+IDC-chinaz抓取的更多相关文章

随机推荐

热门专题