requests+正则表达式爬取ip

 #requests+正则表达式爬取ip

 #findall方法，如果表达式中包含有子组，则会把子组单独返回出来，如果有多个子组，则会组合成元祖

 import requests

 import re

 def get_ip(url):

     headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER'}

     response = requests.get(url,headers=headers)

     pattern= re.compile(r'(?:(?:[0-1]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}(?:[0-1]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5]).*\s*.*(?:\d+)')

     result = re.findall(pattern,response.text)

     #print(result)

     return result

 def make_iplist(iplist,result):

     for ip in result:

         ip = re.sub(r'</td>\s*.*<td>',':',ip)

         iplist.append(ip)

     return iplist

 def main(num):

     iplist = []

     for i in range(1,num):

         url = 'http://www.xicidaili.com/nt/'

         url =url + str(num)

         #print(url)

         result = get_ip(url)

         iplist = make_iplist(iplist,result)

     for j in iplist:

         print(j)

 if __name__ == '__main__':

     num=int(input('请输入要抓取的页数：'))

     main(num)

requests+正则表达式爬取ip的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
requests+正则表达式爬取妹子图
做了一个爬取妹子图某张索引页面的爬虫,主要用request和正则表达式. 感谢崔庆才大神的爬虫教学视频和 gitbook: B站:https://www.bilibili.com/video/a ...
使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片
需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoD ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...

随机推荐

JQ 判断浏览器打开的设备类型
<script> $(document).ready(function(){ var ua = navigator.userAgent; var ipad = ua.match(/(iPa ...
ajax利用FormData异步文件提交
通常情况下,我们上传文件都会使用form表单来提交文件.但有时候,我们会有异步提交文件的需求,在这种情况下,我们就需要新建一个Formdata来提交文件,后台如果使用的是PHP的话可以使用$_FILE ...
python-正铉
第一步:安装插件 pip install Numpypip install matploatlib 第二步导入包 import numpy as np import matplotlib.pylot ...
【Flask】使用Flask-Moment进行日期时间的管理
Flask-Moment Flask-Moment又是一个flask的扩展模块,用来处理时间日期等信息.用这个模块主要是考虑到两点,第一是为了让不同时区的用户看到的都是各自时区的实际时间,而不是服务器 ...
C++顺序容器知识总结
容器是一种容纳特定类型对象的集合.C++的容器可以分为两类:顺序容器和关联容器.顺序容器的元素排列和元素值大小无关,而是由元素添加到容器中的次序决定的.标准库定义了三种顺序容器的类型:vector.l ...
vs运行单个cpp文件
打开vs,新建项目,左侧win32见上图,右侧 win32控制台应用程序,填好名称后,确定----下一步,如下图,空项目紧接着如下图,通过现有项添加自己的cpp文件,便可以运行了
spring学习笔记一入门及配置
Spring是一个开源框架,为了解决企业应用开发的复杂性而创建的.主要优势之一就是其分层架构.Spring的核心是控制反转和面向切面.简单来说,Spring是一个分层的一站式轻量级开源框架. 使用Sp ...
【分布式系列之dubbo】SSM+Dubbo实战
对于传统的单一构架,也就是打成的war或者ear包部署在同一个Web容器里的构架,它虽然开发.测试.部署简单,但随着业务的不断发展,维护成本增加,可扩展性差,而且一台Tomcat的并发数在500左右, ...
Redis——常见面试题
一.memcached与redis的区别? 1.存储方式不同.memcached把数据全部存在内存之中,断电之后会挂掉,而redis虽然也用到了内存,但是会有部分数据存在硬盘中,保证数据持久性. 2. ...
c语言第一次作业——输入与输出格式
一.PTA实验作业 1.温度转换本题要求编写程序,计算华氏温度150°F对应的摄氏温度.计算公式:C=5×(F−32)/9,式中:C表示摄氏温度,F表示华氏温度,输出数据要求为整型. 1.实验代码 ...

requests+正则表达式爬取ip

requests+正则表达式爬取ip的更多相关文章

随机推荐

热门专题