原创:Python爬虫实战之爬取代理ip

　　编程的快乐只有在运行成功的那一刻才知道QAQ

　　目标网站:https://www.kuaidaili.com/free/inha/ #若有侵权请联系我

　　因为上面的代理都是http的所以没写这个判断

　　代码如下:

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 import urllib.request

 import re

 import time

 n = 1

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

 def web(url):

     req=urllib.request.Request(url=url,headers=headers)

     response = urllib.request.urlopen(url)

     html = response.read().decode('UTF-8','ignore')

     ip = r'[0-9]+(?:\.[0-9]+){3}'

     port = r'"PORT">(\d{0,1}\d{0,1}\d{0,1}\d{0,1}\d)<'

     out = re.findall(ip,html)

     out1 = re.findall(port,html)

     i = 0

     dictionary = {}

     while i <= 14:

         dictionary[0] = (out[i],out1[i])

         store(dictionary)

         i += 1

     print(out,'\n',out1)

 def store(dictionary):

     with open('ip.txt','a') as f:

         c = 'ip:' + dictionary[0][0] + '\tport:' + dictionary[0][1] + '\n'

         f.write(c)

         print('store successfully')

 while n <= 3313:

     url1 = "https://www.kuaidaili.com/free/inha/"

     url = url1 + str(n) +'/'

     web(url)

     time.sleep(5)

     n += 1

原创:Python爬虫实战之爬取代理ip的更多相关文章

原创:Python爬虫实战之爬取美女照片
这个素材是出自小甲鱼的python教程,但源码全部是我原创的,所以,猥琐的不是我注:没有用header(总会报错),暂时不会正则表达式(马上要学了),以下代码可能些许混乱,不过效果还是可以的. 爬虫 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...

随机推荐

20199324《Linux内核原理与分析》第十一周作业
SET-UID程序漏洞实验一.实验简介 Set-UID 是 Unix 系统中的一个重要的安全机制.当一个 Set-UID 程序运行的时候,它被假设为具有拥有者的权限.例如,如果程序的拥有者是root ...
Java BigInteger详解
BigInteger概述可用于无限大的整数计算所在的包 java.math.BigInteger; 构造函数 public BigInteger(String val) 成员函数比较大小函数 p ...
bootstrap-table 实现父子表
1.引入相关的css和js <link type="text/css" href="/components/bootstrap/3.3.7/css/bootstra ...
day37-进程-锁和信号量
#1.锁:房间的门上有一把锁,锁上有一把钥匙,一个人使用这把钥匙开锁之后,带上钥匙进入房间,把门给反锁了,他在房间干活, # 只要他不出来还锁,别人是无法进入房间的.同时只能有一个人在房间里干活.效率 ...
系统学习javaweb4----CSS层叠样式表（结束）
摘要:这几天临近过年,事情有点多,学习总是段段续续的,今天总算完成了CSS的基本知识学习. 学习笔记: 西瓜学习javaweb 1.css简述. 1.1 css是什么?有什么作用? HTML----- ...
Servlet&JSP复习笔记 04
1.状态管理因为HTTP协议是无状态协议,但很多时候需要将客户端和服务端的多次请求当做一个来对待.将多次交互中设计的数据进行保存. 状态:数据管理:对数据的维护 2.Cookie 客户端向服务器发 ...
“pip install tensorflow ”出现错误
在控制台命令窗口输入:pip install tensorflow之后出现一长串bug怎么解决网上百度了一些方法: 安装Python3.5 安装Python3.6 总结原因:Python3.7没有合 ...
Xshell中使用xftp怎么选择默认编辑器，如nodepad
工具-选项-高级-编辑器路径
Win7如何查看nvidia显卡（GPU）的利用率
1.在文件夹C:\Program Files\NVIDIA Corporation\NVSMI里找到文件nvidia-smi.exe2.把该文件拖到命令提示符窗口(win+R,再输入‘CMD’进入), ...
python数据类型：列表List和Set
python数据类型:列表List, Set集合序列是Python中最基本的数据结构序列中每个元素都分配一个数字,表示索引列表的数据项不需要具有相同的类型列表中的值可以重复并且有 ...

原创:Python爬虫实战之爬取代理ip

原创:Python爬虫实战之爬取代理ip的更多相关文章

随机推荐

热门专题