python 爬取网页内的代理服务器列表（需调整优化）

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 # @Date    : 2017-08-30 20:38:23

 # @Author  : EnderZhou (zptxwd@gmail.com)

 # @Link    : http://www.cnblogs.com/enderzhou/

 # @Version : $Id$

 import requests

 from bs4 import BeautifulSoup as bs

 # 这种爬取网页内容中的列表的方式复用性差，不同的网站需要针对性的修改。每次使用均需要填写更换header头。后续将编写适用性更强的版本。

 url = 'http://www.kuaidaili.com/free/inha/'

 headers = {

 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

 'Accept-Encoding':'gzip, deflate',

 'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.6',

 'AlexaToolbar-ALX_NS_PH':'AlexaToolbar/alx-4.0.1',

 'Cache-Control':'max-age=0',

 'Connection':'keep-alive',

 'Cookie':'yd_cookie=a0d0f393-2812-44d0b1453fbf740f3ce870820ada37151e8c; _ydclearance=dd0b3de069ce8a768712e248-d97e-4bd9-8284-f2ef598da35b-1504104455; channelid=0; sid=1504099004948599; _ga=GA1.2.742898386.1504074603; _gid=GA1.2.583101265.1504074603; Hm_lvt_7ed65b1cc4b810e9fd37959c9bb51b31=1504074603,1504097260; Hm_lpvt_7ed65b1cc4b810e9fd37959c9bb51b31=1504099719',

 'Host':'www.kuaidaili.com',

 'Upgrade-Insecure-Requests':'',

 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',

 }

 def proxy_check(types,ip,port):

     headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}

     url = 'http://www.whatismyip.com.tw/'

     proxy = {}

     proxy[types.lower()] = '%s:%s' % (ip,port)

     print proxy

     try:

         r = requests.get(url,headers=headers,proxies=proxy)

         soup = bs(r.content,'html.parser')

         chack_ip = soup.find_all(name='b')

         print chack_ip[0].string+':'+port

     except Exception,e:

         # print e

         pass

 # proxy_check('http','183.62.11.242','8088')#可用于测试代理验证模块

 def main():

     r = requests.get(url=url,headers=headers)

     tr_soup = bs(r.content,'html.parser')

     tr = tr_soup.find_all(name='tr')

     for i in tr:

         # print i

         td_soup = bs(str(i),'html.parser')

         td = td_soup.find_all(name='td')

         if len(td) != 0:

             ip = str(td[0].string)

             port = str(td[1].string)

             types = str(td[3].string)

             proxy_check(types,ip,port)

 if __name__ == '__main__':

     main()

python 爬取网页内的代理服务器列表（需调整优化）的更多相关文章

python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
python 爬取网页简单数据---以及详细解释用法
一.准备工作(找到所需网站,获取请求头,并用到请求头) 找到所需爬取的网站(这里举拉勾网的一些静态数据的获取)----------- https://www.lagou.com/zhaopin/Pyt ...
python爬取网页文本、图片
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
第14.1节通过Python爬取网页的学习步骤
如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的: 一. 了解HTML语言及css知识这方面的知识请大家通过w3school 去学习,老猿对于html总 ...

随机推荐

深浅拷贝(copy)
目录 copy 模块 1.拷贝(赋值) 1). x为不可变数据类型 2). x为可变数据类型 3). 可变数据类型(比如列表)内,既有不可变元素,又有容器类型可变元素(比如列表) 2.浅拷贝 3.深拷 ...
Python 模块 Ⅱ
搜索路径当你导入一个模块,Python 解析器对模块位置的搜索顺序是: 1.当前目录 2.如果不在当前目录,Python 则搜索在 shell 变量 PYTHONPATH 下的每个目录. 3.如果都 ...
[深度学习] centos7上搭建基于Anaconda3的caffe+pycaffe环境(python3.6)
本文记录从零开始在CentOS7.x系统上搭建Caffe深度学习平台,并配置pycaffe环境.(由于在虚拟机上搭建,所以为CPU_ONLY模式) 1.选择CentOS7 mini版镜像安装虚拟机镜 ...
CSS层定位——固定定位，相对定位，绝对定位
主要写关于层定位的相关知识㈠定位概述 ⑴像图像软件中的图层一样可以对每一个layer能够精确定位操作 ⑵层定位的position属性决定了当前的一个网页元素,可以叠加到另一个网页元素上面,那么我们把 ...
10、堆叠窗口StackedWidget
新建项目,基类选择QMainWindow,勾选ui 堆叠窗口有三个page,每个page有个label button处,快捷菜单,转到槽,添加代码 void MainWindow::on_push ...
Linux命令-文件管理(二)
Linux命令-文件管理(二) Linux gitview命令 Linux gitview命令用于观看文件的内容,它会同时显示十六进制和ASCII格式的字码. 语法:gitview [-bchilv] ...
「雅礼集训 2017 Day5」远行
题目链接问题分析要求树上最远距离,很显然就想到了树的直径.关于树的直径,有下面几个结论: 如果一棵树的直径两个端点为\(a,b\),那么树上一个点\(v\)开始的最长路径是\(v\rightarr ...
超全详解Java开发环境搭建
摘自:https://www.cnblogs.com/wangjiming/p/11278577.html 超全详解Java开发环境搭建在项目产品开发中,开发环境搭建是软件开发的首要阶段,也是必 ...
2019秋Java学期课程总结
眨眼间,Java这门课程就快要到了尾声,这门课程主要学习到搭建了Java的编译环境,安装eclipse软件,会用Java写一些简单的程序. 主要学习到的知识点有以下几点 1:通过写pta上的作业知道 ...
一、基础篇--1.1Java基础-HTTP请求的GET与POST方式的区别【转】
http://www.cnblogs.com/logsharing/p/8448446.html 转载的这篇文章,很有意思,说的也很全面,学习下,防丢失,备份记录下 GET和POST是HTTP请求的两 ...

python 爬取网页内的代理服务器列表（需调整优化）

python 爬取网页内的代理服务器列表（需调整优化）的更多相关文章

随机推荐

热门专题