python 爬虫实例（二）

环境：

OS：Window10

python：3.7

描述

打开下面的网址，之后抓取其中的图片

https://music.163.com/#/artist/album?id=101988&limit=120&offset=0

安装一些库文件

首先看你的网页版本，查看方法，打开【https://sites.google.com/a/chromium.org/chromedriver/downloads】之后显示如下图1，说明你的版本是2.45，
下载对应的版本的驱动下载地址【https://chromedriver.storage.googleapis.com/index.html】如下图2

（图1）

（图2）

上面的包文件下载到本地之后，把bin里面的EXE文件放到你本地安装的Python的【Scripts】文件夹路径下
自己的本地路径【C:\Users\XXXXXXX\AppData\Local\Programs\Python\Python37\Scripts】

整体代码如下

 import time

 import requests

 import os

 from bs4 import BeautifulSoup

 from selenium import webdriver

 class GetMuisc:

     def __init__(self):

         self.init_url = 'http://music.163.com/#/artist/album?id=101988&limit=120&offset=0'

         self.folder_path = r"C:\pythonProject\wangyi"

     def request(self, url):

         r = requests.get(url)

         return r

     def mkdir(self, path):

         path = path.strip()

         isExists = os.path.exists(path)

         if not isExists:

             print('创建名字叫做', path, '的文件夹')

             os.makedirs(path)

             print('创建成功！')

             return True

         else:

             print(path, '文件夹已经存在了，不再创建')

             return False

     def save_img(self, url, file_name):

         print("开始请求图片地址...")

         img = self.request(url)

         print('开始保存图片')

         with(open(file_name, "ab")) as ff:

             ff.write(img.content)

         print(file_name, '图片保存成功！')

         # f = open(file_name, "ab")

         # f.write(img.content)

         # f.close()

     def get_files(self, path):

         pic_name = os.listdir(path)

         return pic_name

     def spider(self):

         print("Start!")

         driver = webdriver.Chrome()

         driver.get(self.init_url)

         driver.switch_to.frame("g_iframe")

         iframe_html = driver.page_source

         driver.close()

         self.mkdir(self.folder_path)

         file_name = self.get_files(self.folder_path)

         os.chdir(self.folder_path)

         idstr = 'm-song-module'

         moduleHtml = BeautifulSoup(iframe_html, 'lxml').find(id=idstr)

         if moduleHtml is None:

             print("标签{}没有找到，请检查是否有问题。".format(idstr))

         else:

             all_li = moduleHtml.find_all('li')

             for li in all_li:

                 album_img = li.find("img")["src"]

                 album_name = li.find("p", class_="dec")["title"]

                 album_date = li.find("span", class_="s-fc3").get_text()

                 end_pos = album_img.index("?")

                 album_img_url = album_img[:end_pos]

                 photo_name = album_date + " - " + album_name.replace("/", "").replace(":", ",") + ".jpg"

                 print(album_img_url, photo_name)

                 if photo_name in file_name:

                     print('图片已经存在，不再重新下载')

                 else:

                     self.save_img(album_img_url, photo_name)

 album_cover = GetMuisc()

 album_cover.spider()

　　运行效果

python 爬虫实例（二）的更多相关文章

Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...
2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
转 Python爬虫入门二之爬虫基础了解
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...

随机推荐

Launch4j:An error occurred while starting the application.解决方案
长期使用Processing 2.X进行开发,突然有一天Processing 1.5.1打不开了,报错如下: 按[确定]后窗口消失,但是任务管理器中的“javaw.exe”并没有消失..... 试过各 ...
（14）打鸡儿教你Vue.js
重构 "代码重构" 为什么要进行重构提高代码的可读性和可维护性代码中存在着重复的代码存在过大的类或过长的方法强依赖.紧耦合的结构运算逻辑难以理解代码不能清晰统一的编码 ...
关于nginx反代jenkins报错反向代理设置有误
官方文档地址: https://wiki.jenkins.io/display/JENKINS/Running+Jenkins+behind+Nginx 直接解决的配置文件吧. 这是使用子域名,不使用 ...
Java之ClassLoader基础知识
ClassLoader基本概念 Java程序并不是一个可执行文件,而是由许多独立的类文件组成的,每一个文件对应一个Java类.这些类文件并非全部装入内存,而是根据程序需要逐渐载入.并且ClassLoa ...
C 库函数 - strchr()
定义 char *strchr(const char *str, int c) 参数 str -- 要被检索的 C 字符串. c -- 在 str 中要搜索的字符说明该函数返回在字符串 str 中 ...
CF1207题解
D 全排列减去坏序列坏序列分三种,容斥一下就好了 E 比较有意思 \(A=_{i=1}^{100}\{i\},B=_{i=1}^{100}\{i\cdot 2^7\}\),所以\(A_i~xor~ ...
UML图规范
1.子类与父类的继承关系用空心三角形+实线表示. 2.类实现接口用空心三角形+虚线表示.(实现关系) 3.类与类之间的关系用实线箭头表示.(关联关系) 关联关系还可细分为三类:单项关联(下图).双 ...
基于栈的指令集与基于寄存器的指令集的区别，JVM指令集实例
现代JVM在执行Java代码的时候,通常都会将解释执行与编译执行两者结合起来所谓解释执行,就是通过解释器来读取字节码,遇到相应的指令就去执行该指令. 所谓编译执行,就是通过即时编译器(Just In ...
oracle导入提示“IMP-00010：不是有效的导出文件，头部验证失败”的解决方案
这是由于导出的dmp文件与导入的数据库的版本不同造成的用Notepad++查看了dmp文件,在头部具修改成你将导入目标数据库的版本号以下对应的版本号: 11g R2:V11.02.00 11g R1: ...
GIS自定义地理处理工具--极值提取
GIS自定义地理处理工具--极值提取关键词:最大值提取,最小值提取,极值提取,极小值提取,极大值提取商务合作,科技咨询,版权转让:向日葵,135—4855__4328,xiexiaokui#qq. ...

python 爬虫实例（二）

python 爬虫实例（二）的更多相关文章

随机推荐

热门专题