python 抓取糗事百科糗图

1 首先看下要抓取的页面

这是糗事百科里面的糗图页面，每一页里面有很多的图片，我们要做的就是把这些图片抓取下来。

2 分析网页源代码

发现源代码里面的每张图是这样储存的，所以决定使用正则匹配出图片的url，然后下载下来。

3 编写程序

import requests

import re

import os

def main():

    url = 'https://www.qiushibaike.com/pic/page/{}/'

    ua_headers = { "User-Agent":'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}

    # 指定其实页码和结束页码

    page_start = int(input('请输入开始页面:'))

    page_end = int(input('请输入结束页面:'))

    # 找文件夹，如果没有则创建一个

    if not os.path.exists('Images'):

        os.mkdir('Images')

    # 循环下载

    for page in range(page_start, page_end+1):

        print('正在下载第%d页图片...'%page)

        new_url = url.format(page)

        responses = requests.get(url=new_url, headers=ua_headers)

        if responses.status_code == 200:

            res = responses.text

        else:

            print('页面没有响应')

        pattern = re.compile('''<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>''', re.S)

        items = re.findall(pattern, res)for item in items:

            url_image = 'https:' + item

            name_image = item.split('/')[-1]

            image_path = 'Images/' + name_image

            image_data = requests.get(url=url_image, headers=ua_headers).content

            with open(image_path, 'wb') as f:

                f.write(image_data)

if __name__ == '__main__':

    main()

3 查看爬取到的图片

一个很简单的小程序。

python 抓取糗事百科糗图的更多相关文章

python-爬取糗事百科热图
此次运用requests和beautifulSoup爬取糗事百科热图,常用的网络库有:urllib,urllib3,requests,选取其中之一就行了:HTML/XML解析器有:lxml,Beaut ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...

随机推荐

为什么MySQL数据库要用B+树存储索引?
小史:树的话,无非就是前中后序遍历.二叉树.二叉搜索树.平衡二叉树,更高级一点的有红黑树.B 树.B+ 树,还有之前你教我的字典树. 红黑树一听到红黑树,小史头都大了,开始抱怨了起来. 小史:红黑树 ...
这篇通俗实用的Vlookup函数教程，5分钟就可以包你一学就会
如何利用Vlookup函数获取学号中的班级信息.换言之,咱们源数据中放着姓名性别学号班级等信息,而在另一张表格中一定有学号信息,但其他信息就未必有,这需要我们将缺失的信息自动同步过去.使用vlooku ...
php unicode编码和字符串互转
php字符串转Unicode编码, Unicode编码转php字符百度了很多,都一样, 要么不对, 要不就是只是把字符串的汉字转Unicode 经过多次试验查找, 找到了如下方法, 注意:字符串编码 ...
放球游戏B
题目描述校园里在上活动课,Red和Blue两位小朋友在玩一种游戏,他俩在一排N个格子里,自左到右地轮流放小球,每个格子只能放一个小球.第一个人只能放1个球,之后的人最多可以放前一个人的两倍数目的球, ...
P1522 牛的旅行 Cow Tours floyed
题目描述农民 John的农场里有很多牧区.有的路径连接一些特定的牧区.一片所有连通的牧区称为一个牧场.但是就目前而言,你能看到至少有两个牧区通过任何路径都不连通.这样,Farmer John就有多个 ...
HDU 2243考研路茫茫——单词情结（AC自动机+矩阵快速幂）
背单词,始终是复习英语的重要环节.在荒废了3年大学生涯后,Lele也终于要开始背单词了. 一天,Lele在某本单词书上看到了一个根据词根来背单词的方法.比如"ab",放在单词前一般 ...
Relativelayout和LinearLayout对比分析
分析之前先了解下View的绘制流程首先view在windows中的布局样式如下图: view绘制在windows,windows与DecoverView的交互在VIewRoot中进行. view绘制 ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Centos 7安装python3（PY3.6）
# 安装 sudo yum install centos-release-scl sudo yum install rh-python36 #开启 scl enable rh-python36 bas ...
pta-树种统计
树种统计 (25 分) 随着卫星成像技术的应用,自然资源研究机构可以识别每一棵树的种类.请编写程序帮助研究人员统计每种树的数量,计算每种树占总数的百分比. 输入格式: 输入首先给出正整数N(≤105 ...

python 抓取糗事百科糗图

python 抓取糗事百科糗图的更多相关文章

随机推荐

热门专题