py3+requests+urllib+bs4+threading，爬取斗图图片

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：http://www.cnblogs.com/UncleYong/p/6892688.html
py3+requests+json+xlwt，爬取拉勾招聘信息：http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码：http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下：

#-*- coding:utf-8 -*-

import requests, threading, time

from lxml import etree

from bs4 import BeautifulSoup

# 获取源码

def get_html(url):

    # url = 'http://www.doutula.com/article/list/?page=1'

    headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}

    request = requests.get(url=url, headers=headers) # 网址发送get请求

    response = request.content.decode('utf-8') # 获取源码

    # print(response)

    return response

# 匹配图片url

def get_img_html(html):

    # soup = BeautifulSoup(html,'html.parser')

    soup = BeautifulSoup(html,'lxml') # 解析网页

    all_a = soup.find_all('a',class_='list-group-item') # 获取a标签，如果有class或id来命名，一定要加上名字

    # class="list-group-item"是a标签的名字

    # <a class="list-group-item" href="http://www.doutula.com/article/detail/7536783">

    # print(type(all_a)) # <class 'bs4.element.ResultSet'>

    # print(all_a)

    for i in all_a:

        # print(i['href'])

        img_html = get_html(i['href']) # 获取内页源码，i['href']表示获取属性值

        # print(img_html)

        get_img(img_html)

# 获取图片url

def get_img(html):

    # soup = etree.HTML(html) # 初始化源码

    # items = soup.xpath('//div[@class="artile_des"]') # //表示某个目录下,从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

    # # []表示过滤条件

    # for item in items:

    #     imgurl_list = item.xpath('table/tbody/tr/td/a/img/@onerror')

    #     # print(imgurl_list)

    #     # start_save_img(imgurl_list)

    soup = BeautifulSoup(html, 'lxml')

    items = soup.find('div',class_='swiper-slide').find_all('div',class_='artile_des')

    # 不能写成这样：find_all后面不能跟find，因为find是找一个，find_all是找多个，从多个中找一个是不对的

    # items = soup.find('div',class_='swiper-slide').find_all('div',class_='artile_des').find('img')['src']

    # print(items)

    imgurl_list = []

    for i in items:

        imgurl = i.find('img')['src'] # img标签下的src属性

        # print(type(imgurl)) # <class 'str'>

        # print(imgurl)

        imgurl_list.append(imgurl)

    start_save_img(imgurl_list) # 这里是对每一组套图做多线程

# 下载图片

x = 1

def save_img(img_url):

    # global x # 全局变量

    # x +=1

    # img_url = img_url.split('=')[-1][1:-2].replace('jp','jpg') # 以=分割

    # print('正在下载'+'http:'+img_url)

    # img_content = requests.get('http:'+img_url).content

    # with open('doutu/%s.jpg'%x, 'wb')  as f:# urllib下的retrieve也可以下载

    #     f.write(img_content)

    global x # 全局变量

    x +=1

    print('正在下载：'+img_url)

    geshi = img_url.split('.')[-1]  # 因为图片格式不一样，所以切片，把链接中图片后缀获取到，用于下面拼接文件名

    img_content = requests.get(img_url).content

    with open('doutu/%s.%s'%(x,geshi), 'wb')  as f: # urllib下的retrieve也可以下载

        f.write(img_content)

def start_save_img(imgurl_list):

    for i in imgurl_list:

        # print(i)

        th = threading.Thread(target=save_img,args=(i,)) # i后面加逗号表示args是一个元组

        # target是可调用对象，是一个函数名，线程启动后执行，

        th.start()

        th.join()

# 主函数

def main():

    start_url = 'http://www.doutula.com/article/list/?page={}'

    for i in range(1,2):

        # print(start_url.format(i))

        start_html = get_html(start_url.format(i))

        get_img_html(start_html) # 获取内页图片的url

if __name__ == '__main__': # 判断文件入口

    start_time = time.time()

    main()

    end_time = time.time()

    print(start_time)

    print(end_time)

    print(end_time-start_time)

py3+requests+urllib+bs4+threading，爬取斗图图片的更多相关文章

python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
python爬取斗图网中的 “最新套图”和“最新表情”
1.分析斗图网斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页可见,每一页的地址栏只有后面的pag ...
Python爬取斗图表情，让你成为斗图大佬
话不多说,上结果(只爬了10页内容) 上代码:(可直接运行) 用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/ ...
使用requests+BeaBeautiful Soup爬取妹子图图片
1. Requests:让 HTTP 服务人类 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定 ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
shell爬取斗图网
#!/bin/bash read -p "请输入要爬取的页面数(默认为10):" page_num page_num=${page_num:-} echo $page_num re ...
【原创】py3+requests+json+xlwt，爬取拉勾招聘信息
在拉勾搜索职位时,通过谷歌F12抓取请求信息发现请求是一个post请求,参数为: 返回的是json数据有了上面的基础,我们就可以构造请求了然后对获取到的响应反序列化,这样就获取到了json格式的 ...
py3+requests+json+xlwt，爬取拉勾招聘信息
在拉勾搜索职位时,通过谷歌F12抓取请求信息发现请求是一个post请求,参数为: 返回的是json数据有了上面的基础,我们就可以构造请求了然后对获取到的响应反序列化,这样就获取到了json格式的 ...

随机推荐

[原]Veracrypt使用Yubikey作为安全令牌
今天刚刚到货Yubikey 5 美亚直邮 ,易客满国际,国内居然是顺丰配送,点个赞. 必备的控件 https://developers.yubico.com/yubikey-manager-qt/R ...
Pupet自动化管理环境部署记录
废话不多说了,下面记录下Puppet在Centos下的部署过程: puppet是什么puppet是一种基于ruby语言开发的Lnux.Unix.windows平台的集中配置管理系统.它使用自有的pup ...
Ansible之playbook的使用总结 - 运维笔记
之前详细介绍了Ansible的安装, 配置, 以及Ansible常用模块的使用. 下面对Ansible的playbook用法做一小结. 为什么引入playbook?一般运维人员完成一个任务, 比如安装 ...
python-深浅copy-18
# 赋值运算l1 = [1,2,3]l2 = l1l1.append('a')print(l1,l2) # [1, 2, 3, 'a'] [1, 2, 3, 'a'] #copyl1 = [1,2,3 ...
Kruskal算法-HDU1863畅通工程
链接 [http://acm.hdu.edu.cn/showproblem.php?pid=1863] 题意 Problem Description 省政府"畅通工程"的目标是使全 ...
BugPhobia团队篇章：团队管理与Github源代码管理说明
0x00:序言 To the searching tags, you may well fall in love withhttp://xueba.nlsde.buaa.edu.cn/ 再见,无忧时光 ...
《Linux内核设计与实现》第十八章读书笔记
1.内核中的bug 内核中的bug表现得不像用户级程序中那么清晰——因为内核.用户以及硬件之间的交互会很微妙: 从隐藏在源代码中的错误到展现在目击者面前的bug,往往是经历一系列连锁反应的事件才可能触 ...
第三个Sprint冲刺第6天
成员:罗凯旋.罗林杰.吴伟锋.黎文衷
毕业设计心得与整理-APP-主题切换
1.定义主体颜色: 在style自定义了三个属性: <item name="textLight">@android:color/white</item> & ...
wordpress升级出错
服务器是腾讯云搜索到的解决方案有几个,试了好几个,不知道哪个是根本原因,反正都操作了. 设置wordpress文件夹和子文件夹的权限编辑wp-config.php,在文末添加如下: define( ...

py3+requests+urllib+bs4+threading，爬取斗图图片

py3+requests+urllib+bs4+threading，爬取斗图图片的更多相关文章

随机推荐

热门专题