一.代理皮的简单使用

简单的看一二例子即可

import requests

#代理ip 高频的ip容易被封,所以使用ip代理

#免费代理 ip:www.goubanjia.com    快代理  西祠代理

headers={

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'

}

url='https://www.baidu.com/s?wd=ip'

#ip代理的使用proxies,先指定协议的类型,http,https,再指定ip的端口

page_text=requests.get(url=url,headers=headers,proxies={'https':'1.10.186.79:8080'}).text

with open('ip.html','w',encoding='utf-8') as f:

    f.write(page_text)

二.多进程爬取

import requests

import re

import random

from multiprocessing.dummy import Pool

from lxml import etree

#多线程爬取一定是在耗时比较多的情况下

headers={

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'

}

#爬取第一页数据

url='https://www.pearvideo.com/category_6'

page_text=requests.get(url=url,headers=headers).text

tree=etree.HTML(page_text)

#xpath解析返回一个列表

li_list=tree.xpath('//ul[@id="listvideoListUl"]/li')

# print(li_list)

#循环列表获取视频的url

#解析出视频详情页的url

video_url_list=[]

for li in li_list:

    detail_url='https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]

    detail_page_text=requests.get(url=detail_url,headers=headers).text

    ex='srcUrl="(.*?)",vdoUrl'

    video_url=re.findall(ex,detail_page_text,re.S)[0]#re.单行匹配,一定要记得写,返回的额还是列表

    # 存放的是所有视频的url

    video_url_list.append(video_url.rstrip('"'))

#从网页直接获取视频

def video_download(url):

    return requests.get(url=url,headers=headers).content

#保存下来的视频

def save_video(data):

    name=str(random.randint(1,5000))+'.mp4'

    with open(name,'wb') as f:

        f.write(data)

        print(name+'保存成功')

if __name__ == '__main__':

    # #获取视频数据和写入都是比较耗时间的,我我们就用多进程进行会比较块

    # #实例化一个进程池

    pool=Pool(5)

    #map函数接收两个参数,第一是函数,第二是可迭代对象,函数会依次作用到可迭代对象的每一个元素

    video_data=pool.map(video_download,video_url_list)

    print("-->",video_data)

    #持久化存储视频的过程也是比价耗时间的,所以需要多进程会比较块一点

    pool.map(save_video,video_data)

    pool.close()

    pool.join()

代理ip的使用以及多进程爬取的更多相关文章

python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据
1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...
Scrapy-redis改造scrapy实现分布式多进程爬取
一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件.它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(it ...
xpath+多进程爬取网易云音乐热歌榜。
用到的工具,外链转换工具网易云网站直接打开源代码里面并没有对应的歌曲信息,需要对url做处理, 查看网站源代码路径:发现把里面的#号去掉会显示所有内容, 右键打开的源代码路径:view-source ...
xpath+多进程爬取八零电子书百合之恋分类下所有小说。
代码 # 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 he ...
xpath+多进程爬取全书网纯爱耽美类别的所有小说。
# 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 heade ...
使用Python爬取代理ip
本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import tel ...

随机推荐

Luogu 3241 [HNOI2015]开店
BZOJ 4012权限题浙科协的网突然炸了,好慌…… 据说正解是动态点分治,然而我并不会,我选择树链剖分 + 主席树维护. 设$dis_i$表示$i$到$root(1)$的值,那么对于一个询问$u$ ...
eclipse——Maven插件创建java工程
目录结构如下注意默认JDK为1.5 更改默认JDK 方式一右键工程选中JRE1.5 Remove 双击JRE System Library 点击Finish 更改完成方式二配置maven ...
三维GIS
三维GIS数据结构三维GIS数据库三维渲染显示点云处理 cnki:http://kns.cnki.net/kns/brief/default_result.aspx
C# - dynamic 特性
dynamic是FrameWork4.0的新特性.dynamic的出现让C#具有了弱语言类型的特性.编译器在编译的时候不再对类型进行检查,编译期默认dynamic对象支持你想要的任何特性. 比如,即使 ...
Listview 利用Datapager进行分页
原文:http://lgm9128.blog.163.com/blog/static/421734292010513111851101/ <asp:ListView ID="ListV ...
关于eWebEditorAPI
1.获取HTML document.getElementById(Iframe的名称).contentWindow.getHTML();在线API http://www.ewebeditor.net/ ...
Linux中，关闭selinux
首先我们可以用命令来查看selinux的状态getenforce 这个命令可以查看到selinux的状态,当前可以看到是关闭状态的. 还有一个命令也可以查看出selinux的状态.sestatus - ...
使用memcache 存储session
session.save_handler = memcache //设置session的储存方式为memcache memcache.hash_strategy = "consistent& ...
[Essay]看《Re:从零开始的异世界生活》的一些感想
人生不能重来,但动漫可以. -- 故事背景 <介绍背景> 男主486通过不断重来,而改变了剧情的发展.整个动漫就像RPG游戏一般,只看了一遍没有完全理解,但后来再看萌娘百科才把整个剧情里所 ...
异常上报功能Bugly简介
目的:为了能够快速定位到线上版本bug位置,经过比较之后,决定使用腾讯家的Bugly. 1.注册产品官方文档使用指南 1.1 登录 - 使用 QQ 登录Bugly官网没有账号就注册,要实名就实名, ...

代理ip的使用以及多进程爬取

一.代理皮的简单使用

二.多进程爬取

代理ip的使用以及多进程爬取的更多相关文章

随机推荐

热门专题