第二篇 - python爬取免费代理
代理的作用参考https://wenda.so.com/q/1361531401066511?src=140
免费代理很多,但也有很多不可用,所以我们可以用程序对其进行筛选。以能否访问百度为例。
1.获取网页内容。
import requests
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
r = requests.get(url)
content = r.text
return content
getData(url)
对于一般网站像这样获取源代码就可以了,不过,这个网站有反爬机制,所以得用如下代码。
import requests
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
getData(url)
header里面的内容可以自己用浏览器访问网站,审查元素,network,F5刷新看到,然后填入相应位置。
2.获取免费代理ip和端口号。
import requests
import re
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
content = getData(url)
ip_port = getIp(content)
print(ip_port)
3.检验这些代理ip是否可以访问百度
import requests
import re
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
def check_ip(ip_port):
url_baidu = "http://www.baidu.com/"
status = False
proxies = {
"http": f"{ip_port[0]}:{ip_port[1]}",
"https": f"{ip_port[0]}:{ip_port[1]}"
}
try:
r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)
L.append(proxies)
status = True
except Exception as e:
print(e)
pass
return status
if __name__ == '__main__':
url = "http://www.xicidaili.com/"#爬取免费ip
L = []#存储可用ip
content = getData(url)#获取网页源代码
ip_port = getIp(content)#获取免费ip
for item in ip_port:
check_ip(item)#得到可用的免费ip并存储到列表L中
print(L)
4.将L里面的Ip保存到txt文件中
with open('ip1.txt','w') as f:
for l in L:
f.write(l['http'])
f.write("\n")
补充:第三步检查速度有点慢,可以使用多线程进行优化。
import requests
import re
from multiprocessing.dummy import Pool as ThreadPool
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
def check_ip(ip_port):
url_baidu = "http://www.baidu.com/"
status = False
proxies = {
"http": f"{ip_port[0]}:{ip_port[1]}",
"https": f"{ip_port[0]}:{ip_port[1]}"
}
try:
r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)
L.append(proxies)
status = True
except Exception as e:
# print(e)
pass
return status
if __name__ == '__main__':
url = "http://www.xicidaili.com/"#爬取免费ip
L = []#存储可用ip
content = getData(url)#获取网页源代码
ip_port = getIp(content)#获取免费ip
# for item in ip_port:
# check_ip(item)#得到可用的免费ip并存储到列表L中
pool = ThreadPool(30)
pool.map(check_ip, ip_port)
pool.close()
pool.join()
print(L)
此时已经抓取到了可用的免费ip
第二篇 - python爬取免费代理的更多相关文章
- 极简代理IP爬取代码——Python爬取免费代理IP
这两日又捡起了许久不碰的爬虫知识,原因是亲友在朋友圈拉人投票,点进去一看发现不用登陆或注册,觉得并不复杂,就一时技痒搞一搞,看看自己的知识都忘到啥样了. 分析一看,其实就是个post请求,需要的信息都 ...
- python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
- golang爬取免费代理IP
golang爬取免费的代理IP,并验证代理IP是否可用 这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...
- 简单爬虫-爬取免费代理ip
环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...
- PHP简单爬虫 爬取免费代理ip 一万条
目标站:http://www.xicidaili.com/ 代码: <?php require 'lib/phpQuery.php'; require 'lib/QueryList.php'; ...
- python爬取微信小程序(实战篇)
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开 一.背景介绍 近期有需求需要抓 ...
- 手把手教你使用Python爬取西刺代理数据(下篇)
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
- python爬取github数据
爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
- c#批量抓取免费代理并验证有效性
之前看到某公司的官网的文章的浏览量刷新一次网页就会增加一次,给人的感觉不太好,一个公司的官网给人如此直白的漏洞,我批量发起请求的时候发现页面打开都报错,100多人的公司的官网文章刷新一次你给我看这个, ...
随机推荐
- 介绍Ajax与jQuery技术
Ajxs技术(异步的JavaScript与XML)已有多种技术的组合 Ajax的优点是什么? 1.可以实现客户端的异步请求操作2.进而在不需要刷新页面的情况下与服务器进行通信,减少用户的等待时间3.减 ...
- python爬虫之scrapy安装(一)
简介: Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrap ...
- Jmeter安装与使用(压测)
一.介绍 Apache JMeter是100%纯JAVA桌面应用程序,被设计为用于测试客户端/服务端结构的软件(例如web应用程序).它可以用来测试静态和动态资源的性能,例如:静态文件,Java Se ...
- k8s容器的资源限制
1.k8s支持内存和cpu的限制 requests:容器运行需求,最低保障limits:限制,硬限制(资源上限) CPU: 1颗逻辑CPU(1核CPU=4个逻辑CPU) 1物理核=1000个微核(mi ...
- python设计模式第五天【单例模式】
1. 定义 一个类只有一个实例,提供访问该实例的全局方法 2.应用场景 (1)多线程之间共享对象资源 (2)整个程序空间中的全局变量,共享资源 (3)大规模程序的节省创建对象的时间 3.代码实现(使用 ...
- ubuntu16.04下 搭建 lnmp 环境
apt-get install nginx apt-get php7.-mysql apt-get install mysql 编辑nginx配置文件 vim /etc/nginx/sites-ena ...
- 去掉AMD锐龙和Intel Kaby Lake的不支持的硬件的提示
Windows 7和Windows 8.1都不支持AMD Ryzen 锐龙系列和Intel最新的Kaby Lake系列,Windows Update 更新之后总是会提示“不支持的硬件(Unsuppor ...
- telerik reporting报表
Telerik Reporting是一个非常人性化的控件,一个报表的生成几乎不用写代码,都是通过"所见即所得"模式完成.由于客户需要在实际的项目中运用Telerik Reporti ...
- Windows 访问 CentOS 7 共享文件夹 Samba 配置
Windows 使用用户名.密码访问 CentOS 7 共享文件夹 执行命令,查看 Windows 工作组:net config workstation 执行命令,安装 Samba:yum insta ...
- codeforces492C
Vanya and Exams CodeForces - 492C Vanya wants to pass n exams and get the academic scholarship. He w ...