第14.18节 爬虫实战4: request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池
写在前面:本文相关方法为作者独创,仅供参考学习爬虫技术使用,请勿用作它途,禁止转载!
一、 引言
在爬虫爬取网页时,有时候希望不同的时候能以不同公网地址去爬取相关的内容,去网上购买地址资源池是大部分人员的选择。老猿所在的环境有电信运输商部署的对外开放的WiFi,由于涉及对外开放支持不同用户接入,其分配的地址经过NAT地址转换,但其公网地址一定是一个地址池,对于需要公网地址池资源的人员来说,这就是一个免费的地址资源池。本节介绍的内容就是怎么借用这个地址资源池作为自己的地址池。
二、 要解决的问题
老猿仔细思考如何借用电信运营商提供给公众服务的WiFi,发现需要解决如下几个问题:
- Wi-Fi后面必须有个支持动态分配和映射的公网地址池,这个一般的公众服务Wi-Fi都是这样的,不存在问题;
- Wi-Fi最好支持账号、密码登录或自动登录功能,不能使用短信校验码登录,这个问题很关键,老猿所在区域的电信Wi-Fi需要使用手机+短信随机码方式登录,但登录一次后支持自动登录,即下次使用时无需再次认证,直接使用cookies信息自动登录;
- 需要能支持公网地址的动态分配,不能使用重复地址,这个一般公众服务的Wi-Fi都是动态分配地址,但有可能重复分配地址,需要爬虫应用读取公网地址判断是否重复;
- 确保所有爬虫应用访问数据都能从Wi-Fi连接出去,这个解决很简单,将其他网卡连接禁用就可以。
三、 实现方案关键点介绍
1、 要实现通过爬虫自动复位Wi-Fi连接并分配一个地址,需要通过对应操作系统命令去进行操作,老猿使用的windows7的操作系统,使用的命令是windows相关的命令,直接调用os模块的system指令执行命令;
2、 浏览器打开使用的是webbrowser模块;
3、 使用前必须公众WiFi支持登录一次后后续登录支持自动登录,否则老猿下面的代码不能直接使用,还需要自己增加登录相关处理;
4、 读取公网IP使用的是《第14.17节 爬虫实战3: request+BeautifulSoup实现自动获取本机上网公网地址》介绍的方法;
5、 dosomething()函数是各位自己应用的代码,需要自己处理。
四、 利用公众WiFi实现公网地址池的案例代码
大家在windows下把如下内容拷贝存入文件即可实现借用公众服务WiFi地址资源池的目的:
#代码中的:
#wifinet:为无线网卡的名字,各位需要替换为自己的无线网卡名
#wifiname:各位所使用公众WiFi的名字,各位需要替换为自己的公众WiFi名
#执行机器必须有Google浏览器,如果没有相关涉及浏览器的处理代码需要修改
from bs4 import BeautifulSoup
import urllib.request
import os
import webbrowser
import time
wifiname='wifi名' #存放wifi名
wifinet = 'MyWIFI' #存放无线网卡名
def isdupip(ipinfo):
#判断IP是否是原来已经分配过的IP
try: fp = open(r'c:\temp\netip.log','r+')
except FileNotFoundError:
fp = open(r'c:\temp\netip.log','w')
buff =''
else: buff = fp.read(None)
if buff.find(ipinfo)>=0:
print(f"本次的IP地址为以前分配过的重复公网IP地址:{ipinfo}")
fp.close()
return True
else:
fp.write(ipinfo+'\n')
fp.close()
return False
def getip():
#获取本机公网IP地址
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
cookie='BAIDUID=05715D2A65E185B06ECD6CB62056F630:FG=1; BIDUPSID=05715D2A65E185B06ECD6CB62056F630; PSTM=1563498219; BD_UPN=12314353; ispeed_lsm=2; MCITY=-%3A; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BD_HOME=1; H_PS_PSSID=1429_21095_29523_29519_29721_29568_29220_29072_29640; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; BD_CK_SAM=1; PSINO=7; ZD_ENTRY=baidu; sug=0; sugstore=1; ORIGIN=0; bdime=0; COOKIE_SESSION=15_0_9_9_18_35_0_4_9_5_0_0_69285_0_0_0_1567933423_0_1567941823%7C9%23278256_7_1564840597%7C2; H_PS_645EC=143a70YMQeyHbLrfwaFTZLdW6usn4%2FtO8C6yxMcDcF7RjvdnVWhYHMxScchloWr5ipmN; WWW_ST=1567941827974'
req = urllib.request.Request(url='https://www.baidu.com/s?ie=utf-8&mod=1&isbd=1&isid=05715D6F63032916&ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=IP&rsv_spt=1&oq=IP&rsv_pq=a0a4fcb40013a6aa&rsv_t=143a70YMQeyHbLrfwaFTZLdW6usn4%2FtO8C6yxMcDcF7RjvdnVWhYHMxScchloWr5ipmN&rqlang=cn&rsv_enter=0&rsv_dl=tb&inputT=4024&rsv_sug4=4105&bs=IP&rsv_sid=undefined&_ss=1&clist=&hsug=&f4s=1&csor=2&_cr1=28287',headers=header)
text = urllib.request.urlopen(req,timeout=5).read().decode()
soup = BeautifulSoup(text, 'lxml')
ipinfo=soup.select_one('table>tr>td span.c-gap-right').string[6:]
if not ipinfo:
print("访问百度获取公网IP地址失败")
return None
elif isdupip(ipinfo):return None
else:
print(f"本机公网地址为:{ipinfo}")
return ipinfo
def restartnet():
for i in range(1,5):
print(f"\n第{i}次尝试重新打开网络......")
print(rf"释放wifi IP:ipconfig /release {wifinet}>C:\TEMP\net.log")
os.system(rf'ipconfig /release {wifinet}>C:\TEMP\net.log')
print(f"停止wifi连接:netsh interface set interface {wifinet} disable")
os.system(rf'netsh interface set interface {wifinet} disabled>C:\TEMP\net.log')
print("尝试关闭谷歌浏览器... ")
os.system(r'taskkill /im chrome.exe >C:\TEMP\net.log')
print(f"启用WiFi连接:netsh interface set interface {wifinet} enabled")
os.system(rf'netsh interface set interface {wifinet} enabled>C:\TEMP\net.log')
time.sleep(10)
print("连接WiFi:netsh wlan connect name="+wifiname)
cmd=r'netsh wlan connect name='+wifiname+r'>C:\TEMP\net.log'
print(cmd)
os.system(cmd)
time.sleep(10)
print(r"刷新WiFi地址")
os.system(rf'ipconfig /renew {wifinet}>C:\TEMP\net.log')
time.sleep(5)
#启动浏览器访问网页,激活公众WiFi的自动登录功能
print("execute:尝试打开百度和sohu进行访问")
webbrowser.open('https://www.baidu.com/', new=0,autoraise=False)
time.sleep(5)
webbrowser.open('http://www.sohu.com', new=0,autoraise=False)
time.sleep(10)
print("execute:尝试打开CSDN进行访问")
webbrowser.open('https://blog.csdn.net', new=0,autoraise=False)
time.sleep(5)
webbrowser.open('https://blog.csdn.net/LaoYuanPython', new=0,autoraise=False)
time.sleep(20)
try:
ipinfo = getip()
if not ipinfo:
print("尝试重新连接WiFi失败,错误原因可能是重复的IP地址或访问网络失败")
continue
except Exception as e:
print(f"访问网络出现异常,异常内容为:\n{e}")
continue
else:return ipinfo
def dosomething():
print("******************请将自己要处理任务的代码放在dosomething函数中\n\n")
time.sleep(5)
return
def main():
while restartnet(): dosomething()
main()
注意,上述代码中的cookie内容请大家参考《第14.17节 爬虫实战3: request+BeautifulSoup实现自动获取本机上网公网地址》。
执行结果截图(涂抹部分为服务商wifi名字):

老猿Python,跟老猿学Python!
博客地址:https://blog.csdn.net/LaoYuanPython
老猿Python博客文章目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036
请大家多多支持,点赞、评论和加关注!谢谢!
第14.18节 爬虫实战4: request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池的更多相关文章
- 第14.16节 爬虫实战2:赠人玫瑰,手留余香! request+BeautifulSoup实现csdn博文自动点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在<第14.14节 爬虫实战准备:csdn博文点赞过程http请求和响应信息分析>老猿分析了csdn博文点赞处理的http请求和响应报 ...
- 第14.15节 爬虫实战1:使用Python和selenium实现csdn博文点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在开始学爬虫时,学习了csdn博客专家(id:明天依旧可好 | 柯尊柏)<实战项目二:实现CSDN自动点赞>的文章,文章介绍了通过Py ...
- 第14.17节 爬虫实战3: request+BeautifulSoup实现自动获取本机上网公网地址
一. 引言 一般情况下,没有特殊要求的客户,宽带服务提供商提供的上网服务,给客户家庭宽带分配的地址都是一个宽带服务提供商的内部服务地址,真正对外访问时通过NAT进行映射到一个公网地址,如果我们想确认自 ...
- 第14.14节 爬虫实战准备:csdn博文点赞过程http请求和响应信息分析
如果要对csdn博文点赞,首先要登录CSDN,然后打开一篇需要点赞的文章,如<第14.1节 通过Python爬取网页的学习步骤>按<第14.3节 使用google浏览器获取网站访问的 ...
- 第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
- (18) python 爬虫实战
一切从最简单开始 峰绘网 :http://www.ifenghui.com/ 一个比较好爬的漫画网,之所以选择这个网站,因为查看源代码能直接获得漫画的jpg连接,而且每一话所有的jpg一次性的都展示出 ...
- 爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件 通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据: DictRead ...
- 第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节 使用 ...
- 第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解 封装模块 #!/usr/bin/env python # -*- coding: utf- ...
随机推荐
- 服务网格istio概念应知应会
一.背景 最近架构组基于istio开发了服务网格(Service Mesh)平台,借此机会把相关的背景知识做一次学习和记录,方便回头查看. 初版的效果: 二.istio 官方手册:https://is ...
- ERP的主数据的操作与设计--开源软件诞生25
赤龙ERP主数据管理讲解--第25篇 用日志记录"开源软件"的诞生 [进入地址 点亮星星]----祈盼着一个鼓励 博主开源地址: 码云:https://gitee.com/redr ...
- lvs负载简介,原理,常见使用案例及Keepalived高可用
Lvs简介 基础概念 LVS(Linux Virtual Server)即Linux虚拟服务器,是由张文嵩博士主导的开源负载均衡项目,目前LVS已经被集成到Linux内核模块中(2.6及以上版本内核) ...
- 华为+京东数科(原京东金融)面经--Java后台开发
华为: 1.笔试中遇到的问题,如何解决的?(Scanner 如何结束循环读取数据,笔者在面试中因没有理解到Scanner类的hasNext()与hasNextLine()是阻塞方法,导致没有正确退出循 ...
- Linux 升级内核开启 TCP BBR 有多大好处
前言 如果你有订阅一些科技新闻,应该会有看过内核在4.9当中加入了一个新的算法,来解决在有一定的丢包率的情况下的带宽稳定的问题,这个是谷歌为我们带来的干货,新的 TCP 拥塞控制算法 BBR (Bot ...
- python爬虫 selenium 抓取 今日头条(ajax异步加载)
from selenium import webdriver from lxml import etree from pyquery import PyQuery as pq import time ...
- git操作之三:git reset
在上篇文章中介绍了git restore命令,该命令的可以看作是撤销命令,文件在不同的状态下,使用git restore <file> 命令,会撤销对文件的修改,是文件回到修改前的状态也就 ...
- Guitar Pro 教程之有效的几种泛音
学习音乐的朋友们都知道,泛音的种类分为好几种,一般分为自然泛音和人工泛音,击弦泛音,拨片泛音,半泛音等等.本章节采用图文结合的方式讲解{cms_selflink page='index' text=' ...
- 用Camtasia来快速地给视频添加水印
在日常生活中,视频的流行度越来越高,各种短视频的软件蜂拥上市,所以越来越多的人走上了自媒体的道路,在这条路上,谁的视频更加的精致,谁才能获得更多的关注度,相应的也能增加自己的人气. 但是在制作视频的过 ...
- jQuery 第十章 ajax 什么是回调地狱 优化回调地狱
回调地狱 什么是回调地狱,回调函数,一个嵌套着一个,到最后,缩略图成了 一个三角形, 造成了可阅读性差,可阅读性差就代表代码的可维护性 和 可迭代性差,最后还有一个就是可扩展性差. 也不符合设计模式的 ...