第二篇 - python爬取免费代理
代理的作用参考https://wenda.so.com/q/1361531401066511?src=140
免费代理很多,但也有很多不可用,所以我们可以用程序对其进行筛选。以能否访问百度为例。
1.获取网页内容。
import requests
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
r = requests.get(url)
content = r.text
return content
getData(url)
对于一般网站像这样获取源代码就可以了,不过,这个网站有反爬机制,所以得用如下代码。
import requests
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
getData(url)
header里面的内容可以自己用浏览器访问网站,审查元素,network,F5刷新看到,然后填入相应位置。
2.获取免费代理ip和端口号。
import requests
import re
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
content = getData(url)
ip_port = getIp(content)
print(ip_port)
3.检验这些代理ip是否可以访问百度
import requests
import re
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
def check_ip(ip_port):
url_baidu = "http://www.baidu.com/"
status = False
proxies = {
"http": f"{ip_port[0]}:{ip_port[1]}",
"https": f"{ip_port[0]}:{ip_port[1]}"
}
try:
r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)
L.append(proxies)
status = True
except Exception as e:
print(e)
pass
return status
if __name__ == '__main__':
url = "http://www.xicidaili.com/"#爬取免费ip
L = []#存储可用ip
content = getData(url)#获取网页源代码
ip_port = getIp(content)#获取免费ip
for item in ip_port:
check_ip(item)#得到可用的免费ip并存储到列表L中
print(L)
4.将L里面的Ip保存到txt文件中
with open('ip1.txt','w') as f:
for l in L:
f.write(l['http'])
f.write("\n")
补充:第三步检查速度有点慢,可以使用多线程进行优化。
import requests
import re
from multiprocessing.dummy import Pool as ThreadPool
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
def check_ip(ip_port):
url_baidu = "http://www.baidu.com/"
status = False
proxies = {
"http": f"{ip_port[0]}:{ip_port[1]}",
"https": f"{ip_port[0]}:{ip_port[1]}"
}
try:
r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)
L.append(proxies)
status = True
except Exception as e:
# print(e)
pass
return status
if __name__ == '__main__':
url = "http://www.xicidaili.com/"#爬取免费ip
L = []#存储可用ip
content = getData(url)#获取网页源代码
ip_port = getIp(content)#获取免费ip
# for item in ip_port:
# check_ip(item)#得到可用的免费ip并存储到列表L中
pool = ThreadPool(30)
pool.map(check_ip, ip_port)
pool.close()
pool.join()
print(L)
此时已经抓取到了可用的免费ip
第二篇 - python爬取免费代理的更多相关文章
- 极简代理IP爬取代码——Python爬取免费代理IP
这两日又捡起了许久不碰的爬虫知识,原因是亲友在朋友圈拉人投票,点进去一看发现不用登陆或注册,觉得并不复杂,就一时技痒搞一搞,看看自己的知识都忘到啥样了. 分析一看,其实就是个post请求,需要的信息都 ...
- python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
- golang爬取免费代理IP
golang爬取免费的代理IP,并验证代理IP是否可用 这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...
- 简单爬虫-爬取免费代理ip
环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...
- PHP简单爬虫 爬取免费代理ip 一万条
目标站:http://www.xicidaili.com/ 代码: <?php require 'lib/phpQuery.php'; require 'lib/QueryList.php'; ...
- python爬取微信小程序(实战篇)
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开 一.背景介绍 近期有需求需要抓 ...
- 手把手教你使用Python爬取西刺代理数据(下篇)
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
- python爬取github数据
爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
- c#批量抓取免费代理并验证有效性
之前看到某公司的官网的文章的浏览量刷新一次网页就会增加一次,给人的感觉不太好,一个公司的官网给人如此直白的漏洞,我批量发起请求的时候发现页面打开都报错,100多人的公司的官网文章刷新一次你给我看这个, ...
随机推荐
- 为linux主机增加file description
在benchmarked写的服务器的时候就遇到了too many file open 这个报错. 由于遇到过很多次了,所以知道应该是单机fd打满了. 首先来看看 机器最多支持多少fd cat /pro ...
- Learning to Rank for IR的评价指标—MAP,NDCG,MRR
转自: https://www.cnblogs.com/eyeszjwang/articles/2368087.html MAP(Mean Average Precision):单个主题的平均准确率是 ...
- Linq:使用Take和Skip实现分页
Skip,Take: list = list.Skip(pageNum * pageSize).Take(pageSize).ToList(); pageSize :表示一页多少条. pageNum: ...
- JavaScript 使用 toJSON 方法格式化日期
toJSON 方法可以将 Date 对象转换为 ISO-8601 标准的字符串:YYYY-MM-DDTHH:mm:ss. sssZ var date = new Date(); // toJSON() ...
- python与java的内存机制不一样;java的方法会进入方法区直到对象消失 方法才会消失;python的方法是对象每次调用都会创建新的对象 内存地址都不i一样
python与java的内存机制不一样;java的方法会进入方法区直到对象消失 方法才会消失;python的方法是对象每次调用都会创建新的对象 内存地址都不i一样
- codeforces-div2-449-B
题意:确定一个回文偶数十进制数字,输入k和q,求前k小的和对q取余的值 解题思路:首先确定一个,第k个回文偶数一定前半段一定是k,比如第12个,这个数就是1221: 代码: #include<i ...
- Nginx lingering_close延迟关闭
L:130
- 洛谷3823 [NOI2017] 蚯蚓排队 【哈希】
题目分析: 从$\sum|S|$入手.共考虑$\sum|S|$个$f(t)$.所以我们要一个对于每个$f(t)$在$O(1)$求解的算法.不难想到是哈希. 然后考虑分裂和合并操作.一次合并操作要考虑合 ...
- Android Studio导入jar包
使用开源框架是,可以直接复制源代码到自己的项目(本人在Android Studio中操作报R程序包不存在),也可以使用jar包,下面记录一下今天使用SmartImageView.jar的过程,不记录S ...
- 华为Python 算法面试题
华为算法面试题 """ 算法题: 提供一个序列,完成对这个序列的分割.要求分割后的两个序列彼此差值最小 实现函数,返回两个序列 """ de ...