python_day06(ip代理池)

from urllib.request import Request, ProxyHandler

from urllib.request import build_opener

from bs4 import BeautifulSoup

import MySQLdb;

import redis

from urllib.request import urlopen

from lxml import etree

from lxml import etree

import re;

urlfront = "http://www.xicidaili.com"

url = "http://www.xicidaili.com/nn/1"

result = redis.Redis(host='127.0.0.1', port=,db=)

# def spider_IP(url):

# 获取整个页面

def get_allcode(url):

    # 设置代理IP

    proxy = {'https': '110.73.0.45:8123'}

    proxy_support = ProxyHandler(proxy);

    opener = build_opener(proxy_support)

    # 设置访问http协议头,模拟浏览器

    opener.addheaders = [

        ('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6')]

    r = opener.open(url)

    html = r.read().decode("UTF-8");

    # print(html)

    return str(html)

# lxml 方式 获取Ip

def find_ip(s):

    # s = get_allcode(url);

    selector = etree.HTML(s);

    links = selector.xpath('//tr[@class="odd"]/td/text()|//tr[@class=""]/td/text()');

    ip=[]

    port=[]

    for link in links:

        # print(link)

        if '-' in link:

            # print()

            pass

        elif link.isdigit():

            port.append(link)

            # f.write(link + '\n');

        elif '.' in link:

            ip.append(link)

            # f.write(link + ':');

    #  用redis 的 llist存 ip

    for i in range(len(ip)):

        # print(ip[i]+":"+port[i])

        ips=ip[i] + ":" + port[i]

        result.lpush('mylist',ips)

def get_next_page(s):

    selecter = etree.HTML(s);

    link = selecter.xpath('//div[@class="pagination"]/a[@class="next_page"]/@href');

    for i in link:

        if i == None:

            return None;

        return urlfront + i

def get_allcode_ip(url,ip):

    # 设置代理IP

    try:

        ip=str(ip, encoding="utf-8")# bytes与str相互转换

        timeout=

        proxy = {'http':ip}

        proxy_support = ProxyHandler(proxy);

        opener = build_opener(proxy_support)

        # 设置访问http协议头,模拟浏览器

        opener.addheaders = [

            ('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6')]

        # 加运行超时

        r = opener.open(url,None,timeout)

        html = r.read().decode("UTF-8");

        print('+++++++++++++++')

        # 将可用Ip放到redis的useable_ip中

        result.lpush('usable_ip',ip)

        print(ip)

        print('+++++++++++++++')

    except Exception as err:

        print(err)

while :

    print(url)

    s=get_allcode(url);

    url=get_next_page(s)

    print(url)

    if url==None:

        break

    find_ip(s)

    while :

        ip = result.lpop('mylist')

        print(ip)

        if ip == None:

            break

        get_allcode_ip(url, ip)

python_day06(ip代理池)的更多相关文章

开源IP代理池续——整体重构
开源IP代理池继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...
记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池
前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
scrapy_随机ip代理池
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访 ...
Python爬虫之ip代理池
可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...
5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...
python开源IP代理池--IPProxys
今天博客开始继续更新,谢谢大家对我的关注和支持.这几天一直是在写一个ip代理池的开源项目.通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip.拥有庞大稳定的ip代理,在爬虫工作中 ...
python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬. 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的 ...
IP代理池之验证是否有效
IP代理池之验证是否有效把proxy pool项目跑起来,但也不知道这些ip怎么用,爬虫的时候是否用代理去爬取,下面通过一个例子来看看. 代码如下: import requests PROXY_PO ...

随机推荐

LINUX 笔记-ps命令
使用该命令能确定有哪些进程正在运行和运行的状态.进程是否结束.进程有没有僵死.哪些进程占用了过多的资源等等 USER PID %CPU %MEM VSZ RSS TTY STAT START TIME ...
LeetCode 617. Merge Two Binary Tree （合并两个二叉树）
Given two binary trees and imagine that when you put one of them to cover the other, some nodes of t ...
ASP.NET Core中的OWASP Top 10 十大风险-SQL注入
不定时更新翻译系列,此系列更新毫无时间规律,文笔菜翻译菜求各位看官老爷们轻喷,如觉得我翻译有问题请挪步原博客地址本博文翻译自: https://dotnetcoretutorials.com/201 ...
How to change your password of your mysql account in WampServer
#1. use phpmyadmin to login mysql and click the account menu, and then click "Change the passwo ...
Dragon Balls
Dragon Balls Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total ...
ajax跨域请求解决方案
大家好,今天我们学习了js的跨域请求的解决方案,由于JS中存在同源策略,当请求不同协议名,不同端口号.不同主机名下面的文件时,将会违背同源策略,无法请求成功!需要进行跨域处理! 方案一.后台PHP进行 ...
FTP&samba 服务简单部署
第1章 FTP服务部署在Linux下,我们应用最广泛的FTP服务程序是 vsftpd ( TCP端口:而NMB服务是负责解析用的,类似与DNS实现的功能,NMB可以把Linux系统共享的工作组名称与 ...
浏览器怎么解析一个hmtl文档
注意 link里面的css文件是并行请求下载的 script里面的js文件是同步请求下载的 html页面中的语句都是从上往下执行的浏览器是同步加载 JavaScript 脚本,即渲染引擎遇到 def ...
Webpack 入门教程
Webpack 是一个前端资源加载/打包工具.它将根据模块的依赖关系进行静态分析,然后将这些模块按照指定的规则生成对应的静态资源. 本章节基于 Webpack3.0 测试通过. 从图中我们可以看出,W ...
Python文件夹备份
Python文件夹备份 import os,shutil def file_copy(path1,path2): f2 = [filename1 for filename1 in os.listdir ...

python_day06(ip代理池)

python_day06(ip代理池)的更多相关文章

随机推荐

热门专题