python 爬虫入门1 爬取代理服务器网址

刚学，只会一点正则，还只能爬1页。。以后还会加入测试

 #coding:utf-8

 import urllib

 import urllib2

 import re

 #抓取代理服务器地址

 Key = 1

 url = 'http://www.xicidaili.com/nt/%s' %Key

 #print url

 user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

 headers={'User-Agent' :user_agent}

 try:

     request = urllib2.Request(url,headers=headers)

     response=urllib2.urlopen(request)

     html=response.read()

     pattern=re.compile('<td class="country".*?<td>(\d+).(\d+).(\d+).(\d+)</td>.*?<td>(\d+)</td>',re.S)

     items=re.findall(pattern,html)

     for item in items:

     #    if item !='HTTP'or'HTTPS':

             print "%s.%s.%s.%s:%s" %(item[0],item[1],item[2],item[3],item[4])

 except urllib2.URLError,e:

     if hasattr(e,'code'):

         print e.code

     if hasattr(e,'reason'):

         print e.reason

Output

112.112.95.25:9999

113.66.236.53:9797

14.221.165.46:9797

123.121.79.213:9000

219.133.10.211:9797

113.109.248.12:9797

27.46.48.187:9797

115.183.11.158:9999

112.93.208.231:8080

113.78.254.84:9000

121.35.243.157:8080

42.157.5.154:9999

218.75.144.25:9000

113.65.8.221:9999

218.56.132.158:8080

59.59.144.135:53281

119.129.96.33:9797

115.213.60.99:53281

221.237.154.58:9797

120.86.180.173:9797

112.250.65.222:53281

27.37.22.243:9000

123.138.89.133:9999

175.171.184.36:53281

113.76.96.161:9797

183.29.130.106:9000

119.90.63.3:3128

175.171.186.171:53281

183.184.194.15:9797

218.241.234.48:8080

113.200.159.155:9999

218.6.145.11:9797

218.56.132.156:8080

223.199.175.107:808

14.221.166.140:9000

220.249.185.178:9999

122.72.18.34:80

139.224.24.26:8888

122.72.18.60:80

61.163.139.168:9797

202.120.46.180:443

122.72.18.61:80

125.45.87.12:9999

116.85.24.26:8080

222.86.191.44:8080

112.74.94.142:3128

61.163.139.168:9797

114.255.212.17:808

118.178.228.175:3128

122.72.18.35:80

101.37.79.125:3128

113.89.52.86:9999

113.118.96.132:9797

101.81.142.10:9000

61.155.164.106:3128

114.115.140.25:3128

171.37.176.140:9797

58.252.6.165:9000

61.163.39.70:9999

121.8.170.53:9797

175.174.118.141:8080

118.119.168.172:9999

171.37.143.140:9797

119.39.68.212:808

124.90.30.103:8118

59.38.61.23:9797

1.196.161.163:9999

113.116.76.212:8088

122.136.212.132:53281

203.174.112.13:3128

221.217.49.196:9000

14.29.84.50:8080

175.17.156.139:8080

175.17.174.218:9000

114.221.125.161:8118

123.139.56.238:9999

113.87.163.152:808

101.6.33.113:8123

61.155.164.112:3128

180.140.161.138:9797

221.7.49.209:53281

120.9.75.45:9999

183.184.112.78:9797

116.236.151.166:8080

119.122.2.160:9000

119.129.96.142:9797

116.52.195.113:9999

61.155.164.109:3128

112.86.248.163:8118

115.171.47.184:9000

116.30.218.76:9000

123.7.38.31:9999

218.29.111.106:9999

114.101.35.113:54214

124.89.33.75:9999

114.254.4.208:9797

183.54.192.211:9797

218.17.8.110:8118

183.30.201.123:9797

119.123.244.95:9000

***Repl Closed***

python 爬虫入门1 爬取代理服务器网址的更多相关文章

Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门(一)——爬取糗百
爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关 ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
python 爬虫入门案例----爬取某站上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSou ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
Python爬虫入门：爬取pixiv
终于想开始爬自己想爬的网站了.于是就试着爬P站试试手. 我爬的图的目标网址是: http://www.pixiv.net/search.php?word=%E5%9B%9B%E6%9C%88%E3%8 ...
python - 爬虫入门练习爬取链家网二手房信息
import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db&qu ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

003-SaltStack入门篇之远程执行和配置管理
第一条命令: [root@linux-node1 master]# salt '*' test.ping linux-node2.example.com: True linux-node1.examp ...
火车采集用到的access查询命令小结
#For zencart #图片网址路径替换 UPDATE Content SET v_products_image=replace(v_products_image, '<img src=&q ...
fastjson的方法应用与java JSONObject
Fastjson是一个Java语言编写的高性能功能完善的JSON库.fastjson采用独创的算法,将parse的速度提升到极致,超过所有json库,包括曾经号称最快的jackson.并且还超越了go ...
[易学易懂系列|rustlang语言|零基础|快速入门|（1）|开篇]
今天我们来开一个新系列. 从零学习rustlang. 简单介绍下rustlang: Rust 是一门系统级编程语言,被设计为保证内存和线程安全,防止段错误产生.作为系统级编程语言,它的基本理念是 “零 ...
ZROI 19.08.01 生成函数方法
写在前面:由于我数学基础不好,加上缺乏生成函数知识,所以这一下午我都处在掉线和非掉线的叠加态.而且我写\(\LaTeX\)很慢,所以笔记相当混乱而且不全面.说白了就是我太菜了听不懂. 1.一般生成函数 ...
default关键字
default关键字在JDK8中有两个用处. 1.在switch语句的时候使用default int gender = 3; String genderString; switch (gender) ...
Nmap使用及常见的参数选项
概要当Nmap不带选项运行时,该选项概要会被输出,最新的版本在这里http://www.insecure.org/nmap/data/nmap.usage.txt.它有助于人们记住最常用的选项,但不 ...
mysql FIRST()函数语法
mysql FIRST()函数语法作用:返回指定的字段中第一个记录的值.直线电机选型语法:SELECT FIRST(column_name) FROM table_name 注释:可使用 ORD ...
字符串：StringBuilder()
String 字符串常量 StringBuffer 字符串变量(线程安全) StringBuilder 字符串变量(非线程安全) [1]String和StringBuffer String ...
python3：csv的读写
前言快要毕业那会儿,在下编写了一个招聘网站招聘岗位的爬虫提供给前女神参考,最开始我是存到mysql中,然后在到处一份csv文件给前女神.到了参加工作后,由于经常使用excel绘制图表(谁叫公司做报表全 ...

python 爬虫入门1 爬取代理服务器网址

python 爬虫入门1 爬取代理服务器网址的更多相关文章

随机推荐

热门专题