代理池抓取基础版-（python协程）--抓取网站（西刺-后期会持续更新）

 # coding = utf-

 __autor__ = 'litao'

 import urllib.request

 import urllib.request

 import urllib.error

 import socket

 import gevent

 from gevent import monkey

 from bs4 import BeautifulSoup

 import time

 import random

 home = "http://www.xicidaili.com/wt/"

 first_proxy_list = []

 end_proxy_list = []

 # proxy_support = urllib.request.ProxyHandler({"http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"})

 headers = {

     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"

 }

 monkey.patch_all()

 def test_proxy(proxy_key):

     # for i in range(len(first_proxy_list)):

         # proxy_support = urllib.request.ProxyHandler({"http":proxy_list[i]})

         print(proxy_key)

         proxy = {"http":proxy_key}

         url = "https://www.baidu.com/"

         proxy_support = urllib.request.ProxyHandler(proxy)

         opener = urllib.request.build_opener(proxy_support)

         urllib.request.install_opener(opener)

         res = urllib.request.Request(url=url, headers=headers)

         try:

             response = urllib.request.urlopen(res,timeout=)

             if response.code == :

                 end_proxy_list.append(proxy_key)

         except Exception as e:

             print("error:",e)

         # except socket.timeout as e:

         #     print("This proxy is socket.timeout")

         # except urllib.error.URLError as e:

         #     print("This proxy is timeout")

 def get_proxy_list():

     for i in range():

         url =home + str(i+)

         print(url)

         # proxy_support = urllib.request.ProxyHandler({"http":"123.125.5.100:3128"})

         # opener = urllib.request.build_opener(proxy_support)

         # urllib.request.install_opener(opener)

         res = urllib.request.Request(url=url, headers=headers)

         response =urllib.request.urlopen(res,timeout=).read().decode()

         soup = BeautifulSoup(response,'html.parser')

         print(response)

         content = soup.find_all("table",attrs={"id":"ip_list"})[].find_all('tr')[:]

         for i in range(len(content)):

             result = content[i].find_all('td')

             proxy_enum = result[].text+":"+result[].text

             print(proxy_enum)

             first_proxy_list.append(proxy_enum)

         time.sleep(random.randint(,))

 def join_gevent(first_proxy_list,gevent_list):

     for i in range(len(first_proxy_list)):

         gevent_list.append(gevent.spawn(test_proxy,first_proxy_list[i]))

 def main():

     gevent_list = []

     get_proxy_list()

     with open("proxy_first.txt",'a',encoding='utf-8') as f:

         for item in first_proxy_list:

             f.write(item+'\n')

     join_gevent(first_proxy_list, gevent_list)

     gevent.joinall(gevent_list)

     print(end_proxy_list)

     with open("proxy_end.txt",'a',encoding='utf-8') as f:

         for item in end_proxy_list:

             f.write(item+'\n')

 if __name__ == "__main__":

     main()

代理池抓取基础版-（python协程）--抓取网站（西刺-后期会持续更新）的更多相关文章

python协程爬取某网站的老赖数据
import re import json import aiohttp import asyncio import time import pymysql from asyncio.locks im ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python爬虫练习(多线程，进程，协程抓取网页)
详情点我跳转关注公众号"轻松学编程"了解更多. 一.多线程抓取网页流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据 e.启动线程 impo ...
零基础入门Python实战:四周实现爬虫网站 Django项目视频教程
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人, ...
Python协程与Go协程的区别二
写在前面世界是复杂的,每一种思想都是为了解决某些现实问题而简化成的模型,想解决就得先面对,面对就需要选择角度,角度决定了模型的质量, 喜欢此UP主汤质看本质的哲学科普,其中简洁又不失细节的介绍了人类 ...
python协程详解，gevent asyncio
python协程详解,gevent asyncio 新建模板小书匠 #协程的概念 #模块操作协程 # gevent 扩展模块 # asyncio 内置模块 # 基础的语法 1.生成器实现切换 [1] ...
Python核心技术与实战——十六|Python协程
我们在上一章将生成器的时候最后写了,在Python2中生成器还扮演了一个重要的角色——实现Python的协程.那什么是协程呢? 协程协程是实现并发编程的一种方式.提到并发,肯很多人都会想到多线程/多 ...
046.Python协程
协程 1 生成器初始化生成器函数返回生成器对象,简称生成器 def gen(): for i in range(10): #yield 返回便能够保留状态 yield i mygen = gen( ...
Python 协程总结
Python 协程总结理解协程,又称为微线程,看上去像是子程序,但是它和子程序又不太一样,它在执行的过程中,可以在中断当前的子程序后去执行别的子程序,再返回来执行之前的子程序,但是它的相关信息还是 ...

随机推荐

解锁 HTTPS原理
From今日头条:https://www.toutiao.com/a6534826865792647693/?tt_from=weixin&utm_campaign=client_share& ...
Java基础/利用fastjson序列化对象为JSON
利用fastjson序列化对象为JSON 参考博客:http://blog.csdn.net/zeuskingzb/article/details/17468079 Step1:定义实体类 //用户类 ...
pycharm中的Terminal 中无法使用git的问题
1.先找到git的安装路径,建议使用Everything工具 2.打开pycharm中的setting > tools > Terminal 3.把git的安装路径加上启动文件 bash. ...
HTML5随记
1.浏览器加载HTML的过程是从上至下,因此引用的第三方js文件一定要放到自己定义的js文件的前面,否则引入的js文件将会在加载时失效. 2.html的全局属性包括:accesskey.content ...
Elasticsearch7.X 入门学习第九课笔记-----聚合分析Aggregation
原文:Elasticsearch7.X 入门学习第九课笔记-----聚合分析Aggregation 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. ...
NLP 自然语言处理之综述
(1) NLP 介绍 NLP 是什么? NLP (Natural Language Processing) 自然语言处理,是计算机科学.人工智能和语言学的交叉学科,目的是让计算机处理或"理解 ...
Linux性能优化从入门到实战：16 文件系统篇：总结磁盘I/O指标/工具、问题定位和调优
(1)磁盘 I/O 性能指标文件系统和磁盘 I/O 指标对应的工具文件系统和磁盘 I/O 工具对应的指标 (2)磁盘 I/O 问题定位分析思路 (3)I/O 性能优化思路 Step 1:首先采用 ...
glob & fnmatch -- 使用Unix style通配符
通配符: ? 匹配单个字符 * 匹配 0+ 个字符 [seq] 匹配属于区间的单个字符 [!seq] 匹配不属于区间的单个字符注意: "." just a " ...
python面向对象--类的内置函数
#isinstance(obj,cls)判断obj是否是类cls的实例 #issubclass(cls,cls1)判断cls是否是cls1的子类或派生类 class Foo: pass class B ...
Python not and or
刷题时候,有道题目的答案是 return(num and (num % 9 or 9)) 看的有点懵逼,看来解释如下: 1.首先,’and’.’or’.’not’的优先级是not>and> ...

代理池抓取基础版-（python协程）--抓取网站（西刺-后期会持续更新）

代理池抓取基础版-（python协程）--抓取网站（西刺-后期会持续更新）的更多相关文章

随机推荐

热门专题