第二篇 - python爬取免费代理

代理的作用参考https://wenda.so.com/q/1361531401066511?src=140

免费代理很多，但也有很多不可用，所以我们可以用程序对其进行筛选。以能否访问百度为例。

1.获取网页内容。

import requests

url = "http://www.xicidaili.com/"

#获取网页源代码

def getData(url):

    r = requests.get(url)

    content = r.text

    return content

getData(url)

对于一般网站像这样获取源代码就可以了，不过，这个网站有反爬机制，所以得用如下代码。

import requests

url = "http://www.xicidaili.com/"

#获取网页源代码

def getData(url):

    header = {

        'User-Agent': '',

        'Accept': '',

        'Accept-Encoding': '',

        'Accept-Language': ''

    }

    session1 = requests.Session()

    session1.headers.update(header)

    r = session1.get(url)

    content = r.text

    return content

getData(url)

header里面的内容可以自己用浏览器访问网站，审查元素，network，F5刷新看到，然后填入相应位置。

2.获取免费代理ip和端口号。

import requests

import re

url = "http://www.xicidaili.com/"

#获取网页源代码

def getData(url):

    header = {

        'User-Agent': '',

        'Accept': '',

        'Accept-Encoding': '',

        'Accept-Language': ''

    }

    session1 = requests.Session()

    session1.headers.update(header)

    r = session1.get(url)

    content = r.text

    return content

#获取免费IP和端口号

def getIp(content):

    #ip格式为192.168.1.1，端口号为2或4为数字，与源代码进行匹配，取出ip和端口号

    ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"

    ip_port = re.findall(ip_port_tmp,content)

    return ip_port

content = getData(url)

ip_port = getIp(content)

print(ip_port)

3.检验这些代理ip是否可以访问百度

import requests

import re

#获取网页源代码

def getData(url):

    header = {

        'User-Agent': '',

        'Accept': '',

        'Accept-Encoding': '',

        'Accept-Language': ''

    }

    session1 = requests.Session()

    session1.headers.update(header)

    r = session1.get(url)

    content = r.text

    return content

#获取免费IP和端口号

def getIp(content):

    #ip格式为192.168.1.1，端口号为2或4为数字，与源代码进行匹配，取出ip和端口号

    ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"

    ip_port = re.findall(ip_port_tmp,content)

    return ip_port

def check_ip(ip_port):

    url_baidu = "http://www.baidu.com/"

    status = False

    proxies = {

        "http": f"{ip_port[0]}:{ip_port[1]}",

        "https": f"{ip_port[0]}:{ip_port[1]}"

    }

    try:

        r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)

        L.append(proxies)

        status = True

    except Exception as e:

        print(e)

        pass

    return status

if __name__ == '__main__':

    url = "http://www.xicidaili.com/"#爬取免费ip

    L = []#存储可用ip

    content = getData(url)#获取网页源代码

    ip_port = getIp(content)#获取免费ip

    for item in ip_port:

        check_ip(item)#得到可用的免费ip并存储到列表L中

    print(L)

4.将L里面的Ip保存到txt文件中

with open('ip1.txt','w') as f:

    for l in L:

        f.write(l['http'])

        f.write("\n")

补充：第三步检查速度有点慢，可以使用多线程进行优化。

import requests

import re

from multiprocessing.dummy import Pool as ThreadPool

#获取网页源代码

def getData(url):

    header = {

        'User-Agent': '',

        'Accept': '',

        'Accept-Encoding': '',

        'Accept-Language': ''

    }

    session1 = requests.Session()

    session1.headers.update(header)

    r = session1.get(url)

    content = r.text

    return content

#获取免费IP和端口号

def getIp(content):

    #ip格式为192.168.1.1，端口号为2或4为数字，与源代码进行匹配，取出ip和端口号

    ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"

    ip_port = re.findall(ip_port_tmp,content)

    return ip_port

def check_ip(ip_port):

    url_baidu = "http://www.baidu.com/"

    status = False

    proxies = {

        "http": f"{ip_port[0]}:{ip_port[1]}",

        "https": f"{ip_port[0]}:{ip_port[1]}"

    }

    try:

        r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)

        L.append(proxies)

        status = True

    except Exception as e:

        # print(e)

        pass

    return status

if __name__ == '__main__':

    url = "http://www.xicidaili.com/"#爬取免费ip

    L = []#存储可用ip

    content = getData(url)#获取网页源代码

    ip_port = getIp(content)#获取免费ip

    # for item in ip_port:

    #     check_ip(item)#得到可用的免费ip并存储到列表L中

    pool = ThreadPool(30)

    pool.map(check_ip, ip_port)

    pool.close()

    pool.join()

    print(L)

此时已经抓取到了可用的免费ip

第二篇 - python爬取免费代理的更多相关文章

极简代理IP爬取代码——Python爬取免费代理IP
这两日又捡起了许久不碰的爬虫知识,原因是亲友在朋友圈拉人投票,点进去一看发现不用登陆或注册,觉得并不复杂,就一时技痒搞一搞,看看自己的知识都忘到啥样了. 分析一看,其实就是个post请求,需要的信息都 ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
golang爬取免费代理IP
golang爬取免费的代理IP,并验证代理IP是否可用这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...
简单爬虫-爬取免费代理ip
环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...
PHP简单爬虫爬取免费代理ip 一万条
目标站:http://www.xicidaili.com/ 代码: <?php require 'lib/phpQuery.php'; require 'lib/QueryList.php'; ...
python爬取微信小程序（实战篇）
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开一.背景介绍近期有需求需要抓 ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
python爬取github数据
爬虫流程在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
c#批量抓取免费代理并验证有效性
之前看到某公司的官网的文章的浏览量刷新一次网页就会增加一次,给人的感觉不太好,一个公司的官网给人如此直白的漏洞,我批量发起请求的时候发现页面打开都报错,100多人的公司的官网文章刷新一次你给我看这个, ...

随机推荐

Gevent 性能和 gevent.loop 的运用和带来的思考
知乎自己在底层造了非常多的轮子,而且也在服务器部署方面和数据获取方面广泛使用 gevent 来提高并发获取数据的能力.现在开始我将结合实际使用与测试慢慢完善自己对 gevent 更全面的使用和扫盲. ...
python设计模式第二十二天【备忘录模式】
1.应用场景 (1)能保存对象的状态,并能够恢复到之前的状态 2.代码实现 #!/usr/bin/env python #! _*_ coding:UTF-8 _*_ class Originator ...
rabbitmq 配置
1, 安装 apt-get install rabbitmq-server -y 2, 打开管理页面 sudo rabbitmq-plugins enable rabbitmq_management ...
CSS 背景图片添加重复和定位。
<!doctype html><html lang="en"> <head> <meta charset="UTF-8" ...
Lodop连续打印内容逐渐偏移怎么办
Lodop打印控件中,可以使用打印机自带的纸张名称,也可以自定义纸张.(SET_PRINT_PAGESIZE语句).通常进行打印开发,为了避免浪费纸张,会用虚拟打印机效果作为依据,虚拟打印机连续打印多 ...
当页面是动态时如果后台存储id可以通过查询后台方式获取对象;当后台没有存储时候只有通过前端标记了例如标记数量为10 我们根据传递过来的10循环取值
当页面是动态时如果后台存储id可以通过查询后台方式获取对象;当后台没有存储时候只有通过前端标记了例如标记数量为10 我们根据传递过来的10循环取值
DatasourceUtils类:获取连接池和数据库连接
本工具类用于获取连接池和数据库连接 package com.itheima.utils; import java.sql.Connection; import java.sql.ResultSet; ...
使用Guava获取某一个类的指定超类上的泛型Type T
package com.geostar.gfstack.operationcenter.log.common.hibernate; import com.geostar.gfstack.operati ...
LVS负载均衡群集
概述群集的类型:无论是哪种服务器,都至少包括两台节点服务器,而对外表现为一个整体,只提供一个访问入口(域名或IP地址),相当于一台大型计算机.根据群集所针对的目标差异,可以分为以下三个类型: 1.负 ...
Codeforces478D-Red-Green Towers-DP
不是特别难的一道dp题. 给r个红块,g个绿块,计算这些块能磊出的最高塔的方案数. 塔的每一层都比上一层多一块,每一层只能有一种颜色. dp[i][j]表示第i层,j个红块的方案数. 则dp[i][j ...

第二篇 - python爬取免费代理

第二篇 - python爬取免费代理的更多相关文章

随机推荐

热门专题