用python爬校花网

import requests

import re

import hashlib,time

def get_index(url):

    response=requests.get(url)

    if response.status_code == 200:

        return response.text

def parse_index(res):

    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)

    return urls

def get_detail(urls):

    for url in urls:

        if not url.startswith('http'):

            url='http://www.xiaohuar.com%s' %url

        r1=requests.get(url)

        if r1.status_code == 200:

            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)

            if url_list:

                mp4_url=url_list[0]

                # print(mp4_url)

                save(mp4_url)

def save(url):

    print('Download:%s' %url)

    r2=requests.get(url)

    if r2.status_code == 200:

        m=hashlib.md5()

        m.update(url.encode('utf-8'))

        m.update(str(time.time()).encode('utf-8'))

        filename='%s.mp4' %m.hexdigest()

        file_path=r'D:\\爬虫视频\%s' % filename

        with open(file_path,'wb') as f:

            f.write(r2.content)

def main():

    for i in range(5):

        res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)

        res2=parse_index(res1)

        get_detail(res2)

if __name__ == '__main__':

    main()

基于上面代码开多线程爬取视频，优化下载速度

# 异步，多线程优化下载速度

import requests

import re

import hashlib,time

from concurrent.futures import ThreadPoolExecutor

p=ThreadPoolExecutor(30)

def get_index(url):

    response=requests.get(url)

    if response.status_code == 200:

        return response.text

def parse_index(res):

    res=res.result()

    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)

    # return urls

    for url in urls:

        p.submit(get_detail,url)

def get_detail(urls):

    for url in urls:

        if not url.startswith('http'):

            url='http://www.xiaohuar.com%s' %url

        r1=requests.get(url)

        if r1.status_code == 200:

            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)

            if url_list:

                mp4_url=url_list[0]

                # print(mp4_url)

                save(mp4_url)

def save(url):

    print('Download:%s' %url)

    r2=requests.get(url)

    if r2.status_code == 200:

        m=hashlib.md5()

        m.update(url.encode('utf-8'))

        m.update(str(time.time()).encode('utf-8'))

        filename='%s.mp4' %m.hexdigest()

        file_path=r'D:\\爬虫视频\%s' % filename

        with open(file_path,'wb') as f:

            f.write(r2.content)

def main():

    for i in range(5):

        p.submit(get_index,'http://www.xiaohuar.com/list-3-%s.html' %i).add_done_callback(parse_index)

        # res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)

        # res2=parse_index(res1)

        # get_detail(res2)

if __name__ == '__main__':

    main()

用python爬校花网的更多相关文章

Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
python_爬校花图片
如何用python爬取校花图片并保存到本地来? 1. 获取什么数据? 校花名字 name 校花所在学校 school 校花图片的url img_ulr 2.如何获取? 打开网页http://ww ...

随机推荐

HDU 1403 Longest Common Substring（后缀自动机——附讲解 or 后缀数组）
Description Given two strings, you have to tell the length of the Longest Common Substring of them. ...
POJ 3608 Bridge Across Islands（计算几何の旋转卡壳）
Description Thousands of thousands years ago there was a small kingdom located in the middle of the ...
js经典试题之w3规范系列
js经典试题之w3规范系列 1:w3c 制定的 javascript 标准事件模型的正确的顺序? 答案:事件捕获->事件处理->事件冒泡解析:先事件捕获从windows > doc ...
浅析Docker容器的应用场景
本文来自网易云社区作者:娄超过去几年开源界以openstack为代表的云计算持续火了好久,这两年突然又冒出一个叫Docker的容器技术,其发展之迅猛远超预料.网上介绍Docker容器的文章已经很多 ...
Bootstrap如何适配移动浏览器
移动设备优先 1.由meta标签决定的 <meta name="viewport" content="width=device-width, initial-sca ...
nargchk函数 matlab【转】
功能说明验证输入参数的个数函数语法 msgstring = nargchk(minargs, maxargs, numargs)msgstring = nargchk(minargs, max ...
BZOJ4765 普通计算姬（分块+树状数组）
对节点按编号分块.设f[i][j]为修改j号点对第i块的影响,计算f[i][]时dfs一遍即可.记录每一整块的sum.修改时对每一块直接更新sum,同时用dfs序上的树状数组维护子树和.查询时累加整块 ...
html的body内标签之图片及表格
<li> list 标签定义和用法: <li> 标签定义列表项目. <li> 标签可用在有序列表 (<ol>) 和无序列表 (<ul>) 中 ...
hihoCoder#1838 : 鎕鎕鎕贪心
---题面--- 题解: 神奇的贪心题,,,感觉每次做贪心题都无从下手... 我们首先按照a对所有卡片从小到大排序,然后从1开始,从连续的两张牌中取b最大的,最后一张单出来的也取了. 可以证明,这样的 ...
【简单算法】37.Shuffle an Array
题目: 打乱一个没有重复元素的数组. 示例: // 以数字集合 1, 2 和 3 初始化数组. ,,}; Solution solution = new Solution(nums); // 打乱数组 ...

用python爬校花网

用python爬校花网的更多相关文章

随机推荐

热门专题