python爬虫11 | 这次,将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们
在上一篇中
python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!!
小帅b给大家透露了我们这篇要说的牛逼利器
selenium + phantomjs
如果你看了
python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处
那么你应该知道 selenium 是什么了
它能做到自动操作
比如我们上次说的自动百度苍老师
但有时候
我们不想要让它打开浏览器去执行
能不能直接在代码里面运行呢
也就是说
有没有一个无形的浏览器呢
恩
phantomJS 就是
它是一个基于 WebKit 的浏览器引擎
可以做到无声无息的操作各种动态网站
比如 js,css选择器,dom操作的
所以对于市面上大多通过 js 渲染的动态网站
难以解析的网站
想要爬取的话
就会使用到
selenium + phantomjs
那么怎么玩呢
这次
小帅b就带领你
使用它们来爬取b站上的 蔡徐坤和他的球友 们
接下来就是
如果你还不知道蔡徐坤是谁
那么 小帅b 在这里给你介绍几点
你将会体会到人家有多么牛逼
首先比吴京帅
其次是他的微博动不动就被转发上亿次,还被央视点名表扬
唱得了歌
还跳得了舞
打得了篮球,当过 NBA 形象大使
除此之外
还有诸多优点
在这里就不说了
相信你已经和我一样
已经被他的优秀所折服了
(蔡徐坤本蔡)
正因为如此优秀
所以 b 站上很多 up 主向他学习打篮球
那么话不多说
开始爬取b站上的 蔡徐坤和他的球友 们
首先来分析一下 b 站
打开
https://www.bilibili.com/
可以看到有一个搜索按钮
我们就输入「蔡徐坤 篮球」
按一下搜索
跳出来另一个窗口
在这个页面可以看到
我们需要的数据有
名称
视频地址
描述
观看次数
弹幕数量
发布时间
待会我们就把这些数据都爬下来
分析完之后
就开始撸代码了
首先我们要拿到浏览器的对象
browser = webdriver.Chrome()
接着开始访问 b 站
browser.get("https://www.bilibili.com/")
获取到b站首页的输入框和搜索按钮
input = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#banner_link > div > div > form > input")))
submit = WAIT.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="banner_link"]/div/div/form/button')))
在这里的
WAIT.until(EC.presence_of_element_located...
就是等到这个元素可操作的时候才会继续执行下一步
获取到输入框元素后输入「蔡徐坤 篮球」
接着点击搜索
input.send_keys('蔡徐坤 篮球')
submit.click()
然而
不妙的事情发生了
b站弹出了一个登录框
正好挡住了我们要操作的搜索
那么就在搜索之前
点击一下首页刷新一下再输入吧
# 被那个破登录遮住了
index = WAIT.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#primary_menu > ul > li.home > a")))
index.click()
这样登录框就不会出来了
(当然,你在这里也可以使用模拟登录,但这个,小帅b往后说)
ok..
浏览器自动点击搜索之后
这个时候会弹出一个新的窗口
这个窗口里的内容
就是我们要的搜索结果
所以我们要让我们当前的浏览器对象获取到当前的窗口
接着获取到第一页的所有数据
# 跳转到新的窗口
print('跳转到新窗口')
all_h = browser.window_handles
browser.switch_to.window(all_h[1])
get_source()
我们还要获取总页数
因为每一页的内容
我们都是要抓取的
total = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#server-search-app > div.contain > div.body-contain > div > div.page-wrap > div > ul > li.page-item.last > button")))
return int(total.text)
获取到总页数之后
我们就开始循环
for i in range(2,int(total+1)):
next_page(i)
如何获取下一页呢
当然是模拟点击「下一页按钮」的操作
我们获取「下一页按钮」的元素
然后点击
点击之后判断一下是否在我们当前的页数
然后获取数据
print('获取下一页数据')
next_btn = WAIT.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#server-search-app > div.contain > div.body-contain > div > div.page-wrap > div > ul > li.page-item.next > button')))
next_btn.click()
WAIT.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#server-search-app > div.contain > div.body-contain > div > div.page-wrap > div > ul > li.page-item.active > button'),str(page_num)))
get_source()
有时候可能网速卡
在刷到某一页的时候数据加载不出来
可以来个异常捕获
刷新一下
再递归一下嘿嘿
except TimeoutException:
browser.refresh()
return next_page(page_num)
获取资源很简单
我们已经用 selenium 跳转到我们要的页面了
那么就拿下当前页面的源码
然后用
python爬虫07 | 有了 BeautifulSoup ,妈妈再也不用担心我的正则表达式了
来解析一下
最后把数据放到 excel 中
WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#server-search-app > div.contain > div.body-contain > div > div.result-wrap.clearfix')))
html = browser.page_source
soup = BeautifulSoup(html,'lxml')
save_to_excel(soup)
解析爬取
def save_to_excel(soup):
list = soup.find(class_='all-contain').find_all(class_='info')
for item in list:
item_title = item.find('a').get('title')
item_link = item.find('a').get('href')
item_dec = item.find(class_='des hide').text
item_view = item.find(class_='so-icon watch-num').text
item_biubiu = item.find(class_='so-icon hide').text
item_date = item.find(class_='so-icon time').text
print('爬取:' + item_title)
global n
sheet.write(n, 0, item_title)
sheet.write(n, 1, item_link)
sheet.write(n, 2, item_dec)
sheet.write(n, 3, item_view)
sheet.write(n, 4, item_biubiu)
sheet.write(n, 5, item_date)
n = n + 1
最后别忘了关闭浏览器哦
finally:
browser.close()
来运行一下项目吧
数据到手
哦~ 对了
不是说还有一个叫做 phantomjs 的么?
简单简单
接下来我们就利用它来打造一个无痕的浏览器
首先我们要下载phantomjs
你可以到
http://phantomjs.org/download.html
这里去下载
下载完之后你需要配置一下环境变量哦
接着回到我们的代码
将 Chrome 换成 phantomjs
browser = webdriver.PhantomJS()
这次我们再来运行项目
这次就是真正的不会打开任何有界面的浏览器了
看下我们抓到的数据
ok~
本篇的源代码和爬取到的数据已经放到公众号了
在「学习python的正确姿势」公众号发送 bb 获取
本篇完
近期文章
python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!!
python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处
扫一扫
学习 Python 没烦恼
python爬虫11 | 这次,将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们的更多相关文章
- Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
- [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫 版权声明: ...
- Python爬虫入门教程: 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...
- Python爬虫小白入门(六)爬取披头士乐队历年专辑封面-网易云音乐
一.前言 前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...
- Python爬虫入门教程 5-100 27270图片爬取
27270图片----获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位, ...
- python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
- Python爬虫实战(2):爬取京东商品列表
1,引言 在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
- Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
- python爬虫(三) 用request爬取拉勾网职位信息
request.Request类 如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...
随机推荐
- Ubuntu环境下安装nodejs和npm
1.安装python-software-properties sudo apt-get install python-software-properties 2.添加ppa curl -sL http ...
- 面向画布(Canvas)的JavaScript库
面向画布(Canvas)的JavaScript库 总结 每个库各有特色,根据需求选择 学习要点 面向画布(Canvas)的JavaScript库 EaselJS 是一个封装了 HTML5 画布(C ...
- Codeforces Round #367 (Div. 2) 套题
吐槽:只能说是上分好场,可惜没打,唉 A:Beru-taxi (水题,取最小值) #include <cstdio> #include <cstring> #include & ...
- CF732 F Tourist Reform——边双连通分量
题目:http://codeforces.com/contest/732/problem/F 首先把边双缩点,边双内部 dfs 一个顺序一定是可以从每个点走到边双内部所有点的,因为它是以环为基本单位: ...
- target属性打开方式
在HTML中target目标的四个参数的用法:1.target="_self"表示:将链接的画面内容,显示在目前的视窗中.(内定值) . 即:同(自己)窗口打开,别的数据还存在,相 ...
- ThreadLocal原理及用法详解
背景 一直以来对ThreadLocal用法模棱两可,不知道怎么用今天好好研究了下给大家分享下. 1.讲解ThreadLocal之前先回顾下什么是取模.x^y.弱引用. 1. 取模运算实际上是计算两数相 ...
- j建立一个小的servlet小程序
我们建立一个最简单的servlet程序,这个servelt程序只是单纯的输出helloworld. 步骤如下:如图:在Eclipse中选择新建一个项目,其中选择tomcat project然后点击下一 ...
- 软件架构自学笔记-- 转载“虎牙在全球 DNS 秒级生效上的实践”
虎牙在全球 DNS 秒级生效上的实践 这次分享的是全球 DNS 秒级生效在虎牙的实践,以及由此产生的一些思考,整体上,分为以下 5 各部分: 背景介绍: 方案设计和对比: 高可用: 具体实践和落地: ...
- 【年终糖果计划】跟风领一波糖果 candy.one 领取教程
糖果领取网址(较为稳定):https://candy.one/i/1474564 用微信和QQ打开的朋友请复制到其他浏览器打开 糖果领取网址(较为稳定):https://candy.one/i/147 ...
- 关于onActivityResult方法不执行的问题汇总
我们不生产代码, 只是大自然的搬运工. 首先致谢: https://blog.csdn.net/sbvfhp/article/details/26858441 场景描述: 在A activity(由 ...