Python爬虫-爬取科比职业生涯高清图集

　　前面学习了Python爬取豆瓣电影Top250的数据，爬取的信息是电影信息的文本信息，但是在互联网上流行的图片才有更大的吸引力，本篇我们来使用python爬取网页上的图片并保存在本地硬盘上，很兴奋吧，Let's Go!

使用Python版本：3.7　

第三方库

requests: 解析url (强大，你不得不用！)
beautifulsoup4:不会正则表达式童鞋的福音，可以容易的提取到html文件中各种标签及其属性

安装方法：
pip install requests
pip install beautifulsoup4

爬取目标网页：科比职业生涯高清图集（来自百度网友分享）

https://baijiahao.baidu.com/s?id=1566820986637813&wfr=spider&for=pc

分析网页源代码：发现需要的内容都集中在class="article-content"的div标签中，而且需要的图片都集中在class="large"的img标签中

啥也不说了，直接上Python代码吧！

KobeForever.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51

# coding = utf-8

# 导入库
import os
import requests
from bs4 import BeautifulSoup

# 要爬取的科比职业生涯高清图集URL
url = 'https://baijiahao.baidu.com/s?id=1566820986637813&wfr=spider&for=pc'

# 设置headers，网站会根据这个判断你的浏览器及操作系统，很多网站没有此信息可能将拒绝你访问
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

# 用get方法打开url并发送headers
html = requests.get(url, headers = header)

# 使用自带的html.parser解析，速度慢但通用
soup = BeautifulSoup(html.text, 'html.parser')

# 打印结果 .text是打印出文本信息即源码
# print(html.text)

# 所有的图片内容都包含在class=article-content的大div中
all_div = soup.find('div', class_ = 'article-content').find_all('div', class_ = 'img-container')

# 但是，实际上我们仅仅需要class=large的img标签集合即可
all_img = soup.find_all('img', class_ = 'large')
for img in all_img:
    src = img['src']
    img_url = src
    # 打印出图片的地址
    print(img_url)
    # 实际上，我们更希望保存在我们的电脑硬盘上
    root = 'C:/KobeForever/'
    path = root + img_url.]
    try:  # 创建或判断路径图片是否存在并下载
        if not os.path.exists(root):
            os.mkdir(root)
        if not os.path.exists(path):
            r = requests.get(img_url)
            with open(path, 'wb') as f:
                f.write(r.content)
                f.close()
                print("文件保存成功")
        else:
            print("文件已存在")
    except:
        print("爬取失败")

运行起来吧，GO!

最后再来一张霸气的！

Python爬虫-爬取科比职业生涯高清图集的更多相关文章

python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...

随机推荐

火狐FireFox看视频不能全屏显示的问题
问题:最大化/全屏时显示有问题,不能全屏显示,只能看到左上角一部分画面. 解决办法:在画面右键弹出的菜单中选择[设置]——勾选[启用硬件加速].
html超链接，锚点以及特殊字符
超链接 <a></a>中不加东西是显示不了的. href:跳转的地址 target:_self(本页面打开,默认选项),_blank(新页面打开) title:文本提示空链接 ...
Linux watchdog 关闭退出功能
Linux 程序退出的时候,程序是会把 watchdog 调用 release 功能.
javascrpt 代码
一.window.open关闭子页面时刷新父页面 window.opener.location.reload(); window.opener=null;window.close(); 二.AJAX返 ...
微信小程序——页面中调用组件方法
我现在有一个弹层的组件(popup),组件里面定义了显示组件(showPopup)和隐藏组件(hidePopup)的方法. 我们如何在调用组件的页面中调用组件里面的方法呢? 在调用组件的页面写如下代码 ...
动态规划--最长上升子序列(Longest increasing subsequence)
前面写了最长公共子序列的问题.然后再加上自身对动态规划的理解,真到简单的DP问题很快就解决了.其实只要理解了动态规划的本质,那么再有针对性的去做这方的题目,思路很快就会有了.不错不错~加油题目描述: ...
ps 和 grep 查找消除 grep自身查找
用ps -def | grep查找进程很方便,最后一行总是会grep自己. $ ps -def | grep dragonfly-framework dean 5273 5272 0 15:23 pt ...
让QtCreator在调试时显示字符串 Qt调试助手 QtDebuggingHelper qtc-debugging-helper
When starting gdb with application message “Debugging Helper Missing” is displayed [Solved] http://q ...
Zookeeper 快速理解
转自:http://blog.csdn.net/colorant/article/details/8444283 == 是什么 == 目标Scope(解决什么问题) 为分布式系统提供高可靠性的协同工作 ...
Apche Kafka 的生与死 – failover 机制详解
转自:http://www.cnblogs.com/fxjwind/p/4972244.html Kafka 作为 high throughput 的消息中间件,以其性能,简单和稳定性,成为当前实时流 ...

Python爬虫-爬取科比职业生涯高清图集

第三方库

Python爬虫-爬取科比职业生涯高清图集的更多相关文章

随机推荐

热门专题