python爬虫爬取代理IP

#

#author:wuhao

#

#--*------------*--

#-****#爬取代理IP并保存到Excel----
#爬取当日的代理IP并保存到Excel,目标网站xicidaili.com
#如果访问频率太快的话，会被网站封掉IP

import urllib.request

import urllib.parse

import re

import xlwt

import http.cookiejar

import datetime

from bs4 import BeautifulSoup

import time

class GetProxyIp():

    def __init__(self,opener,):

        self.opener=opener

    def GetHtmlpage(self,url):

        html=self.opener.open(url)

        return html.read().decode("utf-8")

    def cleanHtml(self,html):

        #对网页进行清洗，获取IP,端口，类型，是否匿名，服务器地址

        ip=[]

        port=[]

        server_addr=[]

        Is_niming=[]

        type=[]

        time=[]

        soup=BeautifulSoup(html,"html.parser")

        #print(soup)

        try:

            ip_table=soup.find("table",id="ip_list")

            ip_result=ip_table.find_all("tr")

            for i in range(1,len(ip_result),1):

                result_td=ip_result[i].find_all("td")

                ip.append(result_td[1].string)

                port.append(result_td[2].string)

                try:

                    server_addr.append(result_td[3].a.string)

                except:

                    server_addr.append(result_td[3].string)

                Is_niming.append(result_td[4].string)

                type.append(result_td[5].string)

                time.append(result_td[9].string.split(" ")[0])

        except Exception:

            print(Exception)

            print("something wrong happened")

        return ip,port,server_addr,Is_niming,type,time

if __name__ == "__main__":

    #获取当前时间,并截除其前2位

    currentTime = datetime.datetime.now().strftime("%Y-%m-%d")[2:]

    #创建一个opener

    cookie=http.cookiejar.CookieJar()

    cookieHandle=urllib.request.HTTPCookieProcessor(cookie)

    #proxy={"https":"https://222.85.50.64:808"}

    #proxyHandle=urllib.request.ProxyHandler(proxy)

    opener=urllib.request.build_opener(cookieHandle)

    #opener.add_handler(proxyHandle)

    #创建一个header，伪装成浏览器访问

    header=\

        {

            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36"

        }

    head=[]

    for key,value in header.items():

        enum=(key,value)

        head.append(enum)

    #为opener添加head

    opener.addheaders=head

    #需要爬取的地址

    url="http://www.xicidaili.com/nn/{num}/"

    Is_Over=True

    #实例化对象

    GPI=GetProxyIp(opener)

    #

    book=xlwt.Workbook()

    sheet=book.add_sheet(sheetname=currentTime)

    sheet.write(0, 0,"IP地址")

    sheet.write(0, 1, "端口")

    sheet.write(0, 2, "服务器地址")

    sheet.write(0, 3, "匿名")

    sheet.write(0, 4, "类型")

    sheet.write(0, 5 ,"日期")

    #初始化_num为1

    _num=1

    # 初始化位置为开头

    index = 0

    while(Is_Over):

        #temp用于记录是否是当日的代理IP,如果不是记录其位置

        temp=-1

        url1=url.format(num=_num)

        html=GPI.GetHtmlpage(url1)

        result=GPI.cleanHtml(html)

        for k in range(len(result[5])):

            if result[5][k]!=currentTime:

                temp=k

                Is_Over=False

                break

        #如果temp=-1，就全部进行写入

        if temp==-1:

            for i in range(len(result)):

                for j in range(len(result[i])):

                    print("yi写入"+str(result[i][j]))

                    sheet.write(index+j+1,i,result[i][j])

        else:

            for k in range(len(result)):

                for kk in range(temp):

                    print("yi写入" + str(result[k][kk]))

                    sheet.write(index+kk+1,k,  result[k][kk])

        _num += 1

        index+=len(result[0])

        time.sleep(16)

    #

    print("写入完成")

    book.save("proxy.xls")
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　#欢迎大家评论指导

python爬虫爬取代理IP的更多相关文章

python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
Python 爬虫抓取代理IP，并检测联通性
帮朋友抓了一些代理IP,并根据测试联的通性,放在了不通的文件夹下.特将源码分享注意: 1,环境Python3.5 2,安装BeautifulSoup4 requests 代码如下: 1 2 3 4 ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

随机推荐

CCNA+NP学习笔记—序章
本人就读于南京捷式泰网络科技有限公司学习CCIE,这几天准备将多年来的纸质版笔记全部写成电子版献给大家以留下自己学习的足迹.本章是基础篇章,内容较少,主要为之后的内容做铺垫.所有笔记的分类顺序为:序章 ...
1001.A+B Format (20)代码自查（补足版）
1001.A+B Format (20)代码自查(补足版) 谢谢畅畅酱的提醒,发现了代码中的不足,把变量名更改成更合理的名字,并且把注释也换成英文啦! 栋哥提供的代码自查的方式也帮助了我发现很多代码中 ...
团队作业8——第二次项目冲刺（Bata版本）--第二天
一.Daily Scrum Meeting照片二.燃尽图三.项目进展学号成员贡献比 201421123001 廖婷婷 15% 201421123002 翁珊 17% 201421123004 ...
201521123057 《Java程序设计》第9周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业常用异常 1.题目5-1 1.1 截图你的提交结果(出现学号) 答: 1.2 自己以前编写的代码中经 ...
201521123003《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业本次PTA作业题集多线程 1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) ...
Java课程设计猜数游戏团队博客
1.团队成员介绍(需要有照片) 曾飞远(组长):网络1513 201521123080 江鹭涛(组员):网络1513 201521123075 2. 项目git地址 3. 项目git提交记录截图(要体 ...
《Java课程设计》
一. 本组课题简易文件资源管理器需求分析查找文件功能:可以根据指定的目录名与待查找的文件,在指定目录中进行查找,并返回结果实现文件的拷贝与粘贴功能实现文本类文件(.txt, .java, . ...
201521123008《Java程序设计》第11周学习总结
1. 本周学习总结 2. 书面作业本次PTA作业题集多线程 1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synchronized修饰方法实现互斥同步访问, ...
php中的多条件查询
首先是查询所有,步骤不详述,连接数据库,查询表中的所有信息,foreach循环以表格的形式打印出来然后就是form表单中提交查询的数据,这里以post方式提交到本页面,所以要判断post中是否有值, ...
OC——关于KVO
我们知道在WPF.Silverlight中都有一种双向绑定机制,如果数据模型修改了之后会立即反映到UI视图上,类似的还有如今比较流行的基于MVVM设计模式的前端框架,例如Knockout.js.其实在 ...

python爬虫爬取代理IP

python爬虫爬取代理IP的更多相关文章

随机推荐

热门专题