Python 爬虫抓取代理IP，并检测联通性

帮朋友抓了一些代理IP，并根据测试联的通性，放在了不通的文件夹下。特将源码分享

注意：

1，环境Python3.5

2，安装BeautifulSoup4 requests

代码如下:

#-*- coding:gb18030 -*-

from bs4 import BeautifulSoup

import requests

import time

import os,sys

all_url_add={

'url2':'http://ip84.com/gn/',

}

def func(url):

r = requests.get(url)

content = r.text

soup = BeautifulSoup(content, "html.parser")

ListTable = soup.find_all("table", class_="list")

for table in ListTable:

ListTr = table.find_all("tr")

for tr in ListTr:

try:

ListTd = tr.find_all("td")

ipaddress = str(ListTd[0].get_text()).strip()

port = str(ListTd[1].get_text()).strip()

city = str(ListTd[2].get_text()).strip().replace("\n", "")

leixing = str(ListTd[3].get_text()).strip()

xieyi = str(ListTd[4].get_text()).strip()

shudu = str(ListTd[5].get_text()).strip()

time1 = str(ListTd[6].get_text()).strip()

f = open("ip" + '.txt', 'a')

f.write(ipaddress+":"+port+'\n')

f.close()

print('地址:'+ipaddress + "端口:" + port + "地区:" + city + "类型:" + leixing + "协议" + xieyi + "速度" + shudu + "时间:" + time1)

except Exception as e:

print (u"-------------------程序异常-----------------------")

return 'success'

print (u'本页抓取结束，正在跳转下一页')

def pin():

f2 = open('ip.txt', 'r')

count = len(open('ip.txt', 'rU').readlines())

for x in range(count):

ip = f2.readline().split(':')[0]

return1 = os.system('ping -n 5 -w 5 %s' % ip)

if return1:

print('测试失败')

else:

print('测试成功，正在写入新文件')

f3 = open('SuccessIp.txt', 'a')

f3.write(f2.readline() + '\n')

f3.close()

f2.close()

print('程序结束，可用IP已放在SuccessIp中')

if __name__=='__main__':

for x in all_url_add:

print (x)

for y in range(1,50):

url=all_url_add[x]+str(y)

print (url)

status=func(url)

if status=='success':

print(y,'页结束')

print (u'****程序抓取运行结束,正在检查所得IP连通性，请勿关闭窗口*****')

pin()

有点乱，有时间将数据存储在数据库，再将这个功能集成在博客当中。

Python 爬虫抓取代理IP，并检测联通性的更多相关文章

python爬虫爬取代理IP
# #author:wuhao # #--*------------*-- #-****#爬取代理IP并保存到Excel----#爬取当日的代理IP并保存到Excel,目标网站xicidaili.co ...
python爬虫成长之路（二）：抓取代理IP并多线程验证
上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的, ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python 爬虫抓取 MOOC 中国课程的讨论区内容
一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

matlab对文件目录进行自然排序
作者:tongqingliu 转载请注明出处: matlab对文件目录进行自然排序比如我新建一个tmp文件夹,在该文件夹下新建以下txt文件进行测试 a1.txt a2.txt a3.txt a11 ...
ci框架中表前缀的处理
后面的写死,前面的无论如何改变都没事,会自动的替换,以后如果数据库的表前缀被修改了,只需要修改上面的配置项,下面的不变
【hexo】如何在一个小时内搭载个人博客
版权申明:本文为博主原创文章,未经博主允许不得转载.如需转载,请私聊博主. 什么是hexo Hexo是一个开源的静态博客生成器,用node.js开发,作者是台湾大学生tommy351. 前期准备安装 ...
揭开Socket编程的面纱（留着自己慢慢看）
对TCP/IP.UDP.Socket编程这些词你不会很陌生吧?随着网络技术的发展,这些词充斥着我们的耳朵.那么我想问: 1. 什么是TCP/IP.UDP?2. Socket在哪里呢?3. Socket ...
进程间通信之AIDL
一.引言 AIDL是android内部进程通信接口的描述语言,是实现跨进程方法调用的一大利器,其中Binder和Messenger的实现机制都是AIDL. 二.使用下面结合示例说明其使用过程: 本次示 ...
RabbitMQ插件安装
RabbitMQ的有些插件没有集成在初始的安装中,它们需要额外安装,这些文件的后缀为.ez,安装时需要将.ez文件拷贝到安装的插件目录.以下是不同系统中默认安装的插件目录路径: 插件目录 Linux ...
[图形学] Chp8 使用双缓存创建帧动画
第八章的习题有动画的要求,之前并没有讲解动画如何制作,网上搜到一篇文章SCARA——OpenGL入门学习五六(三维变换.动画),按照里面的方法,使用双缓存和空闲回调函数实现了一个简单的帧动画. #in ...
Java并发编程深入学习
上周的面试中,被问及了几个并发开发的问题,自己回答的都不是很系统和全面,可以说是"头皮发麻",哈哈.因此果断购入<Java并发编程的艺术>一书,该书内容主要是对ifev ...
C#.NET 中visual studio生成的.pdb/ .vshost.exe/ .vshost.exe.manifest文件是什么
pdb文件: 英文全称:Program Database File 中文全称:程序数据库文件 Debug里的PDB是full,保存着调试和项目状态信息.有断言.堆栈检查等代码.可以对程序的调试配 ...
跨域访问之CORS
CORS:定义 2014年1月16日,W3C的Web应用工作组(Web Applications Working Group)和Web应用安全工作组(Web AppSec)联合发布了跨源资源共享(Cr ...

Python 爬虫抓取代理IP，并检测联通性

Python 爬虫抓取代理IP，并检测联通性的更多相关文章

随机推荐

热门专题