第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池

写在前面：本文相关方法为作者独创，仅供参考学习爬虫技术使用，请勿用作它途，禁止转载！

一、引言

在爬虫爬取网页时，有时候希望不同的时候能以不同公网地址去爬取相关的内容，去网上购买地址资源池是大部分人员的选择。老猿所在的环境有电信运输商部署的对外开放的WiFi，由于涉及对外开放支持不同用户接入，其分配的地址经过NAT地址转换，但其公网地址一定是一个地址池，对于需要公网地址池资源的人员来说，这就是一个免费的地址资源池。本节介绍的内容就是怎么借用这个地址资源池作为自己的地址池。

二、要解决的问题

老猿仔细思考如何借用电信运营商提供给公众服务的WiFi，发现需要解决如下几个问题：

Wi-Fi后面必须有个支持动态分配和映射的公网地址池，这个一般的公众服务Wi-Fi都是这样的，不存在问题；
Wi-Fi最好支持账号、密码登录或自动登录功能，不能使用短信校验码登录，这个问题很关键，老猿所在区域的电信Wi-Fi需要使用手机+短信随机码方式登录，但登录一次后支持自动登录，即下次使用时无需再次认证，直接使用cookies信息自动登录；
需要能支持公网地址的动态分配，不能使用重复地址，这个一般公众服务的Wi-Fi都是动态分配地址，但有可能重复分配地址，需要爬虫应用读取公网地址判断是否重复；
确保所有爬虫应用访问数据都能从Wi-Fi连接出去，这个解决很简单，将其他网卡连接禁用就可以。

三、实现方案关键点介绍

1、要实现通过爬虫自动复位Wi-Fi连接并分配一个地址，需要通过对应操作系统命令去进行操作，老猿使用的windows7的操作系统，使用的命令是windows相关的命令，直接调用os模块的system指令执行命令；

2、浏览器打开使用的是webbrowser模块；

3、使用前必须公众WiFi支持登录一次后后续登录支持自动登录，否则老猿下面的代码不能直接使用，还需要自己增加登录相关处理；

4、读取公网IP使用的是《第14.17节爬虫实战3： request+BeautifulSoup实现自动获取本机上网公网地址》介绍的方法；

5、 dosomething()函数是各位自己应用的代码，需要自己处理。

四、利用公众WiFi实现公网地址池的案例代码

大家在windows下把如下内容拷贝存入文件即可实现借用公众服务WiFi地址资源池的目的：

#代码中的：

#wifinet:为无线网卡的名字，各位需要替换为自己的无线网卡名

#wifiname：各位所使用公众WiFi的名字，各位需要替换为自己的公众WiFi名

#执行机器必须有Google浏览器，如果没有相关涉及浏览器的处理代码需要修改

from bs4 import BeautifulSoup

import urllib.request

import os

import webbrowser

import time

wifiname='wifi名'  #存放wifi名

wifinet = 'MyWIFI'  #存放无线网卡名

def isdupip(ipinfo):

#判断IP是否是原来已经分配过的IP

    try:  fp = open(r'c:\temp\netip.log','r+')

    except FileNotFoundError:

        fp = open(r'c:\temp\netip.log','w')

        buff =''

    else: buff = fp.read(None)

    if buff.find(ipinfo)>=0:

        print(f"本次的IP地址为以前分配过的重复公网IP地址:{ipinfo}")

        fp.close()

        return True

    else:

        fp.write(ipinfo+'\n')

        fp.close()

        return False

def getip():

#获取本机公网IP地址

    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}

    cookie='BAIDUID=05715D2A65E185B06ECD6CB62056F630:FG=1; BIDUPSID=05715D2A65E185B06ECD6CB62056F630; PSTM=1563498219; BD_UPN=12314353; ispeed_lsm=2; MCITY=-%3A; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BD_HOME=1; H_PS_PSSID=1429_21095_29523_29519_29721_29568_29220_29072_29640; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; BD_CK_SAM=1; PSINO=7; ZD_ENTRY=baidu; sug=0; sugstore=1; ORIGIN=0; bdime=0; COOKIE_SESSION=15_0_9_9_18_35_0_4_9_5_0_0_69285_0_0_0_1567933423_0_1567941823%7C9%23278256_7_1564840597%7C2; H_PS_645EC=143a70YMQeyHbLrfwaFTZLdW6usn4%2FtO8C6yxMcDcF7RjvdnVWhYHMxScchloWr5ipmN; WWW_ST=1567941827974'

    req = urllib.request.Request(url='https://www.baidu.com/s?ie=utf-8&mod=1&isbd=1&isid=05715D6F63032916&ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=IP&rsv_spt=1&oq=IP&rsv_pq=a0a4fcb40013a6aa&rsv_t=143a70YMQeyHbLrfwaFTZLdW6usn4%2FtO8C6yxMcDcF7RjvdnVWhYHMxScchloWr5ipmN&rqlang=cn&rsv_enter=0&rsv_dl=tb&inputT=4024&rsv_sug4=4105&bs=IP&rsv_sid=undefined&_ss=1&clist=&hsug=&f4s=1&csor=2&_cr1=28287',headers=header)

    text = urllib.request.urlopen(req,timeout=5).read().decode()

    soup = BeautifulSoup(text, 'lxml')

    ipinfo=soup.select_one('table>tr>td span.c-gap-right').string[6:]

    if not   ipinfo:

        print("访问百度获取公网IP地址失败")

        return None

    elif  isdupip(ipinfo):return None

    else:

        print(f"本机公网地址为:{ipinfo}")

        return ipinfo

def restartnet():

    for i in range(1,5):

        print(f"\n第{i}次尝试重新打开网络......")

        print(rf"释放wifi IP:ipconfig /release {wifinet}>C:\TEMP\net.log")

        os.system(rf'ipconfig /release {wifinet}>C:\TEMP\net.log')

        print(f"停止wifi连接:netsh interface set interface {wifinet} disable")

        os.system(rf'netsh interface set interface {wifinet} disabled>C:\TEMP\net.log')

        print("尝试关闭谷歌浏览器... ")

        os.system(r'taskkill /im chrome.exe >C:\TEMP\net.log')

        print(f"启用WiFi连接:netsh interface set interface {wifinet} enabled")

        os.system(rf'netsh interface set interface {wifinet} enabled>C:\TEMP\net.log')

        time.sleep(10)

        print("连接WiFi:netsh wlan connect name="+wifiname)

        cmd=r'netsh wlan connect name='+wifiname+r'>C:\TEMP\net.log'

        print(cmd)

        os.system(cmd)

        time.sleep(10)

        print(r"刷新WiFi地址")

        os.system(rf'ipconfig /renew {wifinet}>C:\TEMP\net.log')

        time.sleep(5)

        #启动浏览器访问网页，激活公众WiFi的自动登录功能

        print("execute:尝试打开百度和sohu进行访问")

        webbrowser.open('https://www.baidu.com/', new=0,autoraise=False)

        time.sleep(5)

        webbrowser.open('http://www.sohu.com', new=0,autoraise=False)

        time.sleep(10)

        print("execute:尝试打开CSDN进行访问")

        webbrowser.open('https://blog.csdn.net', new=0,autoraise=False)

        time.sleep(5)

        webbrowser.open('https://blog.csdn.net/LaoYuanPython', new=0,autoraise=False)

        time.sleep(20)

        try:

            ipinfo = getip()

            if not ipinfo:

                print("尝试重新连接WiFi失败，错误原因可能是重复的IP地址或访问网络失败")

                continue

        except Exception as e:

            print(f"访问网络出现异常，异常内容为：\n{e}")

            continue

        else:return ipinfo

def dosomething():

    print("******************请将自己要处理任务的代码放在dosomething函数中\n\n")

    time.sleep(5)

    return    

def main():

   while  restartnet():   dosomething()

main()

注意，上述代码中的cookie内容请大家参考《第14.17节爬虫实战3： request+BeautifulSoup实现自动获取本机上网公网地址》。

执行结果截图（涂抹部分为服务商wifi名字）：

老猿Python，跟老猿学Python!

博客地址：https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持，点赞、评论和加关注！谢谢！

第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池的更多相关文章

第14.16节爬虫实战2：赠人玫瑰，手留余香！ request+BeautifulSoup实现csdn博文自动点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在<第14.14节爬虫实战准备:csdn博文点赞过程http请求和响应信息分析>老猿分析了csdn博文点赞处理的http请求和响应报 ...
第14.15节爬虫实战1：使用Python和selenium实现csdn博文点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在开始学爬虫时,学习了csdn博客专家(id:明天依旧可好 | 柯尊柏)<实战项目二:实现CSDN自动点赞>的文章,文章介绍了通过Py ...
第14.17节爬虫实战3： request+BeautifulSoup实现自动获取本机上网公网地址
一. 引言一般情况下,没有特殊要求的客户,宽带服务提供商提供的上网服务,给客户家庭宽带分配的地址都是一个宽带服务提供商的内部服务地址,真正对外访问时通过NAT进行映射到一个公网地址,如果我们想确认自 ...
第14.14节爬虫实战准备：csdn博文点赞过程http请求和响应信息分析
如果要对csdn博文点赞,首先要登录CSDN,然后打开一篇需要点赞的文章,如<第14.1节通过Python爬取网页的学习步骤>按<第14.3节使用google浏览器获取网站访问的 ...
第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
(18) python 爬虫实战
一切从最简单开始峰绘网 :http://www.ifenghui.com/ 一个比较好爬的漫画网,之所以选择这个网站,因为查看源代码能直接获得漫画的jpg连接,而且每一话所有的jpg一次性的都展示出 ...
爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器会包含表头通过next函数可以跳过,但是它只能通过下标访问数据: DictRead ...
第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节使用 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...

随机推荐

.net 实现一二级分类
public List<Model.Category> CategoryPid(int id = 0) { string sql = "select * from categor ...
Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化: 1. 只支持等值连接 2. 底层会将写的HQL语句转换为MapRed ...
ohmyzsh的安装过程中失败拒绝连接问题的解决
1.打开官网https://ohmyz.sh/ 在官网能看到下面的界面有这两种自动安装的方式个人本次选择的是: wget https://raw.github.com/ohmyzsh/ohmyzs ...
js try catch 获取错误信息
try{ alert(i); }catch(e){ console.log(e.message,e.name,e.lineNumber) } message -- 错误提示信息 fileName -- ...
为什么使用MongoDB
MongoDB vs MySQL Nosql vs RDBMS(关系型数据库) MongoDB采用类似Json的形式存储数据而不是结构性的表 MongoDB的分片机制支持海量数据的存储和扩展,并有完整 ...
CSS3之径向渐变
设置最终形状参数: ellipse circle 设置长半轴和短半轴设置椭圆对称中心设置色标输出代码: radial-gradient(circle closest-side at ce ...
如何实现Http请求报头的自动转发[应用篇]
如今的应用部署逐渐向微服务化发展,导致一个完整的事务往往会跨越很多的应用或服务,出于分布式链路跟踪的需要,我们往往将从上游服务获得的跟踪请求报头无脑地向下游服务进行转发.本文介绍的这个名为Header ...
matlab 数组操作作业
写出下列语句的计算结果及作用 1.A= [2 5 7 3 1 3 4 2]; 创建二维数组并赋值 2.[rows, cols] = size(A); 把A的尺寸赋值给数组,rows为行, ...
C++深拷贝与浅拷贝区别
浅拷贝只是对指针的拷贝,浅拷贝后两个指针指向同一个内存空间: 深拷贝不仅对指针进行拷贝,而且对指针指向的内容进行拷贝,经深拷贝后的指针是指向两个不同地址的指针. 当对一个已知对象进行拷贝时,编译系统会 ...
Camtasia中对录制视频进行编辑——视觉效果
视频剪辑对很多人来说是一件很头痛的事,因为对着屏幕一下一下的进行调整会让人十分的心烦,导致花费了时间但是剪辑出来的视频质量却并不高.或许是因为你没有选择一款合适的软件,因为一款高质量的软件往往会给人带 ...

第14.18节 爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池

第14.18节 爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池的更多相关文章

随机推荐

热门专题

第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池

第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池的更多相关文章