爬当当网上python书籍的图片

1.分析网页代码，获取图片下载连接：http://img3m4.ddimg.cn/20/11/23473514-1_b_5.jpg

2. python实现代码

 import os

 import re

 import requests

 import time

 # 图片来源url

 url='http://search.dangdang.com/?key=python&act=input'

 # 构建请求头

 headers = {

     'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Mobile Safari/537.36'

 }

 # 获取网页HTML代码

 response = requests.get(url=url,headers=headers)

 html = response.text

 # print(html)

 # 抓取图片名称

 pic_name = re.findall('<a title=" (.*?)"  ddclick',html)

 # print(pic_name)

 # 抓取图片url

 pic_url = re.findall("<img src='(.*?)' alt",html)

 pic_url2 = re.findall("<img data-original='(.*?)' src",html)

 pic_url.extend(pic_url2)  # 把两个list合并起来

 # 创建文件夹

 base_path = os.getcwd()#获取当前文件的绝对路劲

 file_name = r'爬图片'#存放图片的文件夹名称

 path = os.path.join(base_path,file_name)

 if os.path.exists(path):#判断文件夹是否存在，不存在则创建一个名为file_name的文件夹

     pass

 else:

     os.mkdir(path)

 # 把图片保存起来

 for i in range(len(pic_url)):

     rsp = requests.get(pic_url[i])

     # 创建图片名称

     img = pic_name[i]+'.jpg'

     img_name = os.path.join(path,img)

     with open(img_name,'wb')as f:

         f.write(rsp.content)

         time.sleep(1)

         print("正在下载第{}张图片".format(i))

爬当当网上python书籍的图片的更多相关文章

python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
Python爬取网上车市[http://www.cheshi.com/]的数据
#coding:utf8 #爬取网上车市[http://www.cheshi.com/]的数据 import requests, json, time, re, os, sys, time,urlli ...
利用python爬取王者荣耀英雄皮肤图片
前两天看到同学用python爬下来LOL的皮肤图片,感觉挺有趣的,我也想试试,于是决定来爬一爬王者荣耀的英雄和皮肤图片. 首先,我们找到王者的官网http://pvp.qq.com/web201605 ...
Python 爬取煎蛋网妹子图片
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-24 10:17:28 # @Author : EnderZhou (z ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
Python爬取贴吧中的图片
#看到贴吧大佬在发图,准备盗一下 #只是爬取一个帖子中的图片 1.先新建一个scrapy项目 scrapy startproject TuBaEx 2.新建一个爬虫 scrapy genspider ...
python 将png图片格式转换生成gif动画
先看知乎上面的一个连接用Python写过哪些[脑洞大开]的小工具? https://www.zhihu.com/question/33646570/answer/157806339 这个哥们通过爬气 ...

随机推荐

CentOS7下使用Harbor搭建Docker私有仓库
相关资料: Harbor官方网站:https://goharbor.io/ Harbor Github地址:https://github.com/goharbor/harbor ⒈安装Docker(必 ...
shell实践--简单抓取网页内容
#!/bin/bash base_path="https://testerhome.com/"user_path="ycwdaaaa/topics?page=" ...
【AC自动机】文本生成器
[题目链接] https://loj.ac/problem/10063 [题意] 给出长度为m,n个模式串,请问只要长度为m的串中有一个模式串就算是可读. [分析] 其实如果直接分析全部可读的情况,一 ...
指针生成网络(Pointer-Generator-Network)原理与实战
指针生成网络(Pointer-Generator-Network)原理与实战阅读目录 0 前言 1 Baseline sequence-to-sequence 2 Pointer-Generat ...
数据库（mysql和oracle）
1. mysql索引: https://www.jikewenku.com/22030.html 2.
Viola–Jones object detection framework--Rapid Object Detection using a Boosted Cascade of Simple Features中文翻译及 matlab实现(见文末链接)
ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 Rapid Object Detection using a B ...
Django多对多
表名小写+_set() 得到的是一个QuertSet集合,她的后面可以跟 .add() .remove() .update() .clear() models.py 文件 # 学生表 ...
Lab2 Report
1.安装SeleniumIDE插件 a)安装Firefox 17.0 - 56.*版本的firefox,下载地址为:http://ftp.mozilla.org/pub/firefox/release ...
在线播放mp4
在线播放mp4 1.准备好支持再网页上播放的mp4格式 AVC(h264) 格式的mp4 2.用ckplayer控制播放 (1)到ckplayer下载js.如:http://www.ckplayer. ...
JAVA语言程序设计课后习题----第八单元解析（仅供参考）
1 本题主要考的是方法的克隆,与c++里面的拷贝有点相似,具体看书本p147 import java.util.Objects; public class Square implements Clon ...

爬当当网上python书籍的图片

爬当当网上python书籍的图片的更多相关文章

随机推荐

热门专题