用python爬校花网

import requests

import re

import hashlib,time

def get_index(url):

    response=requests.get(url)

    if response.status_code == 200:

        return response.text

def parse_index(res):

    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)

    return urls

def get_detail(urls):

    for url in urls:

        if not url.startswith('http'):

            url='http://www.xiaohuar.com%s' %url

        r1=requests.get(url)

        if r1.status_code == 200:

            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)

            if url_list:

                mp4_url=url_list[0]

                # print(mp4_url)

                save(mp4_url)

def save(url):

    print('Download:%s' %url)

    r2=requests.get(url)

    if r2.status_code == 200:

        m=hashlib.md5()

        m.update(url.encode('utf-8'))

        m.update(str(time.time()).encode('utf-8'))

        filename='%s.mp4' %m.hexdigest()

        file_path=r'D:\\爬虫视频\%s' % filename

        with open(file_path,'wb') as f:

            f.write(r2.content)

def main():

    for i in range(5):

        res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)

        res2=parse_index(res1)

        get_detail(res2)

if __name__ == '__main__':

    main()

基于上面代码开多线程爬取视频，优化下载速度

# 异步，多线程优化下载速度

import requests

import re

import hashlib,time

from concurrent.futures import ThreadPoolExecutor

p=ThreadPoolExecutor(30)

def get_index(url):

    response=requests.get(url)

    if response.status_code == 200:

        return response.text

def parse_index(res):

    res=res.result()

    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)

    # return urls

    for url in urls:

        p.submit(get_detail,url)

def get_detail(urls):

    for url in urls:

        if not url.startswith('http'):

            url='http://www.xiaohuar.com%s' %url

        r1=requests.get(url)

        if r1.status_code == 200:

            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)

            if url_list:

                mp4_url=url_list[0]

                # print(mp4_url)

                save(mp4_url)

def save(url):

    print('Download:%s' %url)

    r2=requests.get(url)

    if r2.status_code == 200:

        m=hashlib.md5()

        m.update(url.encode('utf-8'))

        m.update(str(time.time()).encode('utf-8'))

        filename='%s.mp4' %m.hexdigest()

        file_path=r'D:\\爬虫视频\%s' % filename

        with open(file_path,'wb') as f:

            f.write(r2.content)

def main():

    for i in range(5):

        p.submit(get_index,'http://www.xiaohuar.com/list-3-%s.html' %i).add_done_callback(parse_index)

        # res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)

        # res2=parse_index(res1)

        # get_detail(res2)

if __name__ == '__main__':

    main()

用python爬校花网的更多相关文章

Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
python_爬校花图片
如何用python爬取校花图片并保存到本地来? 1. 获取什么数据? 校花名字 name 校花所在学校 school 校花图片的url img_ulr 2.如何获取? 打开网页http://ww ...

随机推荐

第三周的psp
PSP: 进度条: 累计进度图: 本周PSP饼状图:
Thunder团队第二周 - Scrum会议4
Scrum会议4 小组名称:Thunder 项目名称:爱阅app Scrum Master:邹双黛工作照片: 宋雨同学在拍照,所以不再照片中. 参会成员: 王航:http://www.cnblogs ...
20172330 2017-2018-1 《Java程序设计》第九周学习总结
20172330 2017-2018-1 <程序设计与数据结构>第九周学习总结教材学习内容总结本周的学习包括两章内容,分别为异常和递归. 异常错误和异常都是对象,代表非正常情况或者无 ...
第一次课堂作业---circle
链接:circle
C#,Winform 文件的导入导出 File
1.导入导入对话框:OpenFileDialog private void sbtnsb_Click(object sender, EventArgs e) { try { OpenFileDial ...
图像检测算法Halcon 10的使用
安装完成HALCON之后,在VS项目中添加动态链接库配置项目,并修改此项目属性的包含目录.库目录和链接器.
ubuntu 只有客人会话登录（第一次深刻感受文件权限的威力　）
为了测试docker的挂载权限,把宿主机的/etc/passwd文件挂载到了虚机当中,进入虚机想看下能不能直接对我宿主机上的文件进行操作,把/etc/passwd删掉了最后十行...结果宿主机上的/e ...
ASP.Net MVC+Ibaties架构
1.配置Ibaties首先在DLL引用中添加Ibaties相关引用:IBatisNet.Common.dll;IBatisNet.Common.Logging.Log4Net.dll;IBatisNe ...
bzoj1968 约数研究
题意令\(f(i)\)表示\(i\)的约数个数,求\(\Sigma^n_{i=1}f(i)\). 做法我们直接算每个数的贡献,问题可以转化成每个数在\(1\)到\(n\)中有多少个倍数,累加答案. ...
NOI 97 (Vijos 1464)积木游戏(DP)
很普通的DP,设dp[i][j][k]为第i块积木放在第j堆且摆放状态为k的最高高度.方程很容易推出. # include <cstdio> # include <cstring&g ...

用python爬校花网

用python爬校花网的更多相关文章

随机推荐

热门专题