简单爬虫-爬取免费代理ip

环境：python3.6

主要用到模块：requests,PyQuery

代码比较简单，不做过多解释了

#!usr/bin/python

# -*- coding: utf-8 -*-

import requests

from pyquery import PyQuery as pq

class GetProxy(object):

    def __init__(self):

        # 代理ip网站

        self.url = 'http://www.xicidaili.com/nn/'

        self.header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}

        self.file = r'F:\python\code2\get_proxy\proxies.txt'

        # 用于检查代理ip是否可用

        self.check_url = 'https://www.python.org/'

        self.title = 'Welcome to Python.org'

    def get_page(self):

        response = requests.get(self.url, headers=self.header)

        # print(response.status_code)

        return response.text

    def page_parse(self, response):

        stores = []

        result = pq(response)('#ip_list')

        for p in result('tr').items():

            if p('tr > td').attr('class') == 'country':

                ip = p('td:eq(1)').text()

                port = p('td:eq(2)').text()

                protocol = p('td:eq(5)').text().lower()

                # if protocol == 'socks4/5':

                #     protocol = 'socks5'

                proxy = '{}://{}:{}'.format(protocol, ip, port)

                stores.append(proxy)

        return stores

    def start(self):

        response = self.get_page()

        proxies = self.page_parse(response)

        print(len(proxies))

        file = open(self.file, 'w')

        i = 0

        for proxy in proxies:

            try:

                check = requests.get(self.check_url, headers=self.header, proxies={'http': proxy}, timeout=5)

                check_char = pq(check.text)('head > title').text()

                if check_char == self.title:

                    print('%s is useful'%proxy)

                    file.write(proxy + '\n')

                    i += 1

            except Exception as e:

                continue

        file.close()

        print('Get %s proxies'%i)

if __name__ == '__main__':

    get = GetProxy()

    get.start()

简单爬虫-爬取免费代理ip的更多相关文章

PHP简单爬虫爬取免费代理ip 一万条
目标站:http://www.xicidaili.com/ 代码: <?php require 'lib/phpQuery.php'; require 'lib/QueryList.php'; ...
golang爬取免费代理IP
golang爬取免费的代理IP,并验证代理IP是否可用这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...
极简代理IP爬取代码——Python爬取免费代理IP
这两日又捡起了许久不碰的爬虫知识,原因是亲友在朋友圈拉人投票,点进去一看发现不用登陆或注册,觉得并不复杂,就一时技痒搞一搞,看看自己的知识都忘到啥样了. 分析一看,其实就是个post请求,需要的信息都 ...
C#多线程爬虫抓取免费代理IP
这里用到一个HTML解析辅助类:HtmlAgilityPack,如果没有网上找一个增加到库里,这个插件有很多版本,如果你开发环境是使用VS2005就2.0的类库,VS2010就使用4.0,以此类推.. ...
vb.net 多线程爬虫抓取免费代理IP
Class Program Public Shared masterPorxyList As List(Of proxy) = New List(Of proxy)() Public Class pr ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
第二篇 - python爬取免费代理
代理的作用参考https://wenda.so.com/q/1361531401066511?src=140 免费代理很多,但也有很多不可用,所以我们可以用程序对其进行筛选.以能否访问百度为例. 1. ...
Python 爬虫练习(一) 爬取国内代理ip
简单的正则表达式练习,爬取代理 ip. 仅爬取前三页,用正则匹配过滤出 ip 地址和端口,分别作为key.value 存入 validip 字典. 如果要确定代理 ip 是否真的可用,还需要再对代理 ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...

随机推荐

vmware 遇到 “无法打开内核设备 \\.\Global\vmx86” 解决
问题描述:vmware没有正常关闭,再次打开使用时蓝屏,在安全模式下再次打开不会蓝屏,但提示"无法打开内核设备 \.\Global\vmx86: 系统找不到指定的文件,你想要安装VMware ...
201521123117 《Java程序设计》第1周学习总结
第一周学习总结: 这周开始学习了Java,因为之前C语言没学好所以看部分东西还是一头雾水,但是在查阅资料和同学的帮助开始对Java有了一些了解,这周主要学习了Java的诞生发展以及运用包括JVN/JR ...
Java-错误处理机制学习（一）异常处理
注意:本文介绍Java中的异常处理理论知识及相关语法结构,对于实际应用来说是万万不够的.关于如何高效地使用异常,请查看Java-高效地使用Exception-实践. 异常处理的思想是,当应用程序处于异 ...
201521123111《Java程序设计》第14周学习总结
本次作业参考文件 MySql操作视频与数据库相关jar文件请参考QQ群文件. 1. 本周学习总结 1.1 以你喜欢的方式(思维导图.Onenote或其他)归纳总结多数据库相关内容. 连接数据库前,应先 ...
JS中的DOM对象及JS对document对像的操作
DOM对象 windows:属性:opener(打开者) 方法:open().close(),setTimeout().setInterval()... location:属性:href 方法:rel ...
ul中li居中显示的table方法
废话不多,贴代码 <ul> <li>1</li> <li>2</li> <li>3</li> <li>4 ...
java: Multiple encodings set for module chunk test "GBK" will be used by compiler
IDEA 进行编译代码的时候,特别是新项目特别容易出现编码错误,但是 File-Encoding中设置的又没有问题,而且maven 是能打包的,就是用 idea 自带的编译的时候就会出现提示 ...
Python学习笔记012_网络_异常
1,Python如何访问互联网? url + lib = urllib >>> # 使用urllib包下的request模块 >>> >>> i ...
XML功能
REF:https://www.baidu.com/link?url=_-UY8rZVAORlesKTth0F7C8LbvXCL4lSwz6vmQVnTEgmT06NFGdoaD9FbuEQhR7xG ...
c# 第一节课一些简单的应用
注册要钱我没钱

简单爬虫-爬取免费代理ip

简单爬虫-爬取免费代理ip的更多相关文章

随机推荐

热门专题