python 爬虫入门1 爬取代理服务器网址
刚学,只会一点正则,还只能爬1页。。以后还会加入测试
#coding:utf-8 import urllib
import urllib2
import re #抓取代理服务器地址
Key = 1
url = 'http://www.xicidaili.com/nt/%s' %Key
#print url user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
headers={'User-Agent' :user_agent} try:
request = urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
html=response.read()
pattern=re.compile('<td class="country".*?<td>(\d+).(\d+).(\d+).(\d+)</td>.*?<td>(\d+)</td>',re.S)
items=re.findall(pattern,html)
for item in items:
# if item !='HTTP'or'HTTPS':
print "%s.%s.%s.%s:%s" %(item[0],item[1],item[2],item[3],item[4])
except urllib2.URLError,e:
if hasattr(e,'code'):
print e.code
if hasattr(e,'reason'):
print e.reason
Output
112.112.95.25:9999
113.66.236.53:9797
14.221.165.46:9797
123.121.79.213:9000
219.133.10.211:9797
113.109.248.12:9797
27.46.48.187:9797
115.183.11.158:9999
112.93.208.231:8080
113.78.254.84:9000
121.35.243.157:8080
42.157.5.154:9999
218.75.144.25:9000
113.65.8.221:9999
218.56.132.158:8080
59.59.144.135:53281
119.129.96.33:9797
115.213.60.99:53281
221.237.154.58:9797
120.86.180.173:9797
112.250.65.222:53281
27.37.22.243:9000
123.138.89.133:9999
175.171.184.36:53281
113.76.96.161:9797
183.29.130.106:9000
119.90.63.3:3128
175.171.186.171:53281
183.184.194.15:9797
218.241.234.48:8080
113.200.159.155:9999
218.6.145.11:9797
218.56.132.156:8080
223.199.175.107:808
14.221.166.140:9000
220.249.185.178:9999
122.72.18.34:80
139.224.24.26:8888
122.72.18.60:80
61.163.139.168:9797
202.120.46.180:443
122.72.18.61:80
125.45.87.12:9999
116.85.24.26:8080
222.86.191.44:8080
112.74.94.142:3128
61.163.139.168:9797
114.255.212.17:808
118.178.228.175:3128
122.72.18.35:80
101.37.79.125:3128
113.89.52.86:9999
113.118.96.132:9797
101.81.142.10:9000
61.155.164.106:3128
114.115.140.25:3128
171.37.176.140:9797
58.252.6.165:9000
61.163.39.70:9999
121.8.170.53:9797
175.174.118.141:8080
118.119.168.172:9999
171.37.143.140:9797
119.39.68.212:808
124.90.30.103:8118
59.38.61.23:9797
1.196.161.163:9999
113.116.76.212:8088
122.136.212.132:53281
203.174.112.13:3128
221.217.49.196:9000
14.29.84.50:8080
175.17.156.139:8080
175.17.174.218:9000
114.221.125.161:8118
123.139.56.238:9999
113.87.163.152:808
101.6.33.113:8123
61.155.164.112:3128
180.140.161.138:9797
221.7.49.209:53281
120.9.75.45:9999
183.184.112.78:9797
116.236.151.166:8080
119.122.2.160:9000
119.129.96.142:9797
116.52.195.113:9999
61.155.164.109:3128
112.86.248.163:8118
115.171.47.184:9000
116.30.218.76:9000
123.7.38.31:9999
218.29.111.106:9999
114.101.35.113:54214
124.89.33.75:9999
114.254.4.208:9797
183.54.192.211:9797
218.17.8.110:8118
183.30.201.123:9797
119.123.244.95:9000 ***Repl Closed***
python 爬虫入门1 爬取代理服务器网址的更多相关文章
- Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图 来源:李英杰 链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
- Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
- Python 爬虫入门(一)——爬取糗百
爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关 ...
- python 爬虫入门----案例爬取上海租房图片
前言 对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
- python 爬虫入门案例----爬取某站上海租房图片
前言 对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSou ...
- Python爬虫入门:爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
- Python爬虫入门:爬取pixiv
终于想开始爬自己想爬的网站了.于是就试着爬P站试试手. 我爬的图的目标网址是: http://www.pixiv.net/search.php?word=%E5%9B%9B%E6%9C%88%E3%8 ...
- python - 爬虫入门练习 爬取链家网二手房信息
import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db&qu ...
- 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
随机推荐
- zencart 显示Deprecated: Assigning the return value of new by reference is deprecated
很多朋友的php程序当php的版本升级到5.3以后,会出现"Deprecated: Assigning the return value of new by reference is dep ...
- Java AtomicInteger类的使用方法详解_java - JAVA
文章来源:嗨学网 敏而好学论坛www.piaodoo.com 欢迎大家相互学习 首先看两段代码,一段是Integer的,一段是AtomicInteger的,为以下: public class Samp ...
- docker容器共享宿主机环境,从而为镜像体积减负
一.背景介绍 响应公司技术发展路线,开发的服务均需要将打成docker镜像,使用docker进行统一管理.可是随着服务越来越多,镜像也越来越多.每次制作镜像的时候都需要将依赖打进容器,这样一个jre的 ...
- 【shell】awk的next用法
awk的next相当于循环中continue的作用,next后面的语句将不再执行. 例如,下面的例子中,包含数字3的那行的print语句没有被执行. [root]$ seq | awk '{print ...
- 018:include函数详解
include函数详解(了解——虽然用的很少): include函数的用法,目前有三种使用方式: 1.include(module,namespace=None): module:子url的模块字符串 ...
- webpack-第一个demo
1.webpack概念 webpack是前端的一个项目构建工具,它是基于node.js开发出来的一个前端工具:借助webpack这个前端自动化构建工具,可以完美实现资源的合并.打包.压缩.混淆等诸多功 ...
- 消息队列之--Kafak
序言 消息丢失如何解决? 解耦 异步 并行 Docker安装Kafak 1.下载镜像 # zookeeper镜像 docker pull wurstmeister/zookeeper # kafka镜 ...
- ArrayList遍历的三种方法
在输出很多的ArrayList的元素时,用普通的for循环太麻烦,因此本文介绍三种遍历ArrayList的方法 package test; public class Student { private ...
- vue.js 深度监测
1.select 控件赋值改变,但是无法获取 解决方法,在监测时手动赋值新值 'model.UseType': { handler(newVal, oldVal) { $("#UseType ...
- 自定义springmvc参数解析器
实现spring HandlerMethodArgumentResolver接口 通过使用@JsonArg自定义注解来解析json数据(通过fastjson的jsonPath),支持多个参数(@Req ...