Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】

Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】

Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】

Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

所谓爬虫，就是通过编程的方式自动从网络上获取自己所需的资源，比如文章、图片、音乐、视频等多媒体资源。通过一定的方式获取到html的内容，再通过各种手段分析得到自己所需的内容，比如通过BeautifulSoup对网页内容进行解析提取。

本文通过selenium的webdriver模拟浏览器来浏览网页，通过lxml库解析得到咱所需的内容。下面开始我们的爬虫工作。

1.目标

我们今天的目标是模拟鼠标点击tab标签切换页面内容并且自动加载多页

我们查看头条新闻某个作者的主页，查看作者的视频列表，首先我们来找个目标，比如打开详情：《习近平号召“做一颗永不生锈的螺丝钉”》

我们点这个新华网，进去他的主页：

我们的目标是视频这个页签的内容，把这个也签视频列表抓取出来，以便我们下一步解析视频地址、自动下载视频资源。

但是这里打开主页，默认都是打开文章页签的，我们需要模拟鼠标点击实现视频页签切换、下滑加载更多。

2.实现

打开主页等待新闻加载完成

我们观察这个页面的dom元素特性，页面加载出来的新闻，还是ul标签里面的li布局，li的class、ga_event都是一样的，通过这个特性，实现我们的等待页面加载完成，再进行tab页签点击切换。

等待页面加载完成的关键代码：

# 浏览器打开页面

self.__browser.get(url)

try:

   # 此处等到我们所需的热文元素加载出来了再进行下一步，避免页面还没加载完成就去解析内容导致内容为空

   element = WebDriverWait(self.__browser, 10).until(

       EC.presence_of_element_located((By.XPATH,'"//ul/li[@ga_event="feed_item_click"]'))

   )

except Exception as ex:

   print(ex)

finally:

   pass

分析下顶部页签区域元素特点，我们可以通过id=wrapper来定位tab页签所在的祖父级布局，

最后定位到视频这个页签，相应的xpath为：

‘//*[@id=“wrapper”]/div[2]/div[1]/ul/li[2]’

通过xpath找到视频页签的页面元素，调用click事件就可以实现页签切换，关键代码：

    video_element = self.__browser.find_element_by_xpath('//*[@id="wrapper"]/div[2]/div[1]/ul/li[2]')

    video_element.click()

当切换视频页签后，需要等待加载出来第一页的视频列表后才能进行下一步，我们观察下正常的视频页签加载完成列表时的布局如下图:

由上图可知只要浏览器能找到这个元素属性值，就表示加载完成了，相应的xpath为：'//div[ga_event="video_title_click"]'，所以我们的代码如下：

    video_element = self.__browser.find_element_by_xpath('//*[@id="wrapper"]/div[2]/div[1]/ul/li[2]')

    video_element.click()

    try:

        element = WebDriverWait(self.__browser, 10).until(

            EC.presence_of_element_located((By.XPATH, '//div[ga_event="video_title_click"]'))

        )

    except Exception as ex:

        pass

    finally:

        pass

好了，最后一步，模拟滚动条滚动到底加载多页视频新闻，原理跟之前的《Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】》一样，这里不重复了。

全文完结，后续实现用其它框架来爬虫新闻资源。敬请期待~

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】

Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】

Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】

Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

参考资料：

[1]: XPath语法参考
[2]: 廖雪峰老师的Python3 在线学习手册

[3]: Python3官方文档

[4]: 菜鸟学堂-Python3在线学习

[5]: 其他所有分享过python学习填坑网友的经验

Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】的更多相关文章

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
使用scrapy爬虫,爬取今日头条首页推荐新闻（scrapy+selenium+PhantomJS）
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
使用python-aiohttp爬取今日头条
http://blog.csdn.net/u011475134/article/details/70198533 原出处在上一篇文章<使用python-aiohttp爬取网易云音乐>中, ...
用Ajax爬取今日头条图片集
Ajax原理在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...

随机推荐

AI-restful接口写法
AI-restful接口写法 restful接口规范 http协议请求方式:GET POST DELETE PUT PATCH OPTION HEAD 设计接口时必须使用这种格式的数据 GET 查看数 ...
蓝桥杯第十届真题B组（2019年）
2019年第十届蓝桥杯大赛软件类省赛C/C++大学B组# 试题 A:组队# 本题总分:5分[问题描述]作为篮球队教练,你需要从以下名单中选出 1号位至 5号位各一名球员,组成球队的首发阵容.每位球员担 ...
CSS常见Bugs及解决方案列表
以下实例默认运行环境都为Standard mode 如何在IE6及更早浏览器中定义小高度的容器? 方法: #test{overflow:hidden;height:1px;font-size:0;li ...
PyTorch中的backward [转]
转自:https://sherlockliao.github.io/2017/07/10/backward/ backward只能被应用在一个标量上,也就是一个一维tensor,或者传入跟变量相关的梯 ...
令人疑惑的 std::remove 算法
摘自<Effective STL>第32条 remove的声明: template<class ForwardIterator, class T> ForwardIterato ...
OpenGL的gl.h出现一堆错误，如重定义什么的
问题:生成时提示 gl.h中出现一堆错误,如 error C2144: 语法错误 : "void"的前面应有";" error C2182: "API ...
替罪羊树&&非旋treap
题解: 替罪羊树的模板和splay差距还是比较大的.. 按照我的splay的写法真是都是问题.. 替罪羊树就是暴力的搞当某颗子树大小大于这棵树的alpha时就退出另外删除的时候打懒标记删除当 ...
alpha冲刺6/10
目录摘要团队部分个人部分摘要队名:小白吃组长博客:hjj 作业博客:感恩节~ 团队部分后敬甲(组长) 过去两天完成了哪些任务文字描述设计了拍照界面和图片上传界面沟通了前端进度接下 ...
C# 之向服务器上传资源
首先写客服端,winform 应用或者 WPF 应用模拟一个post提交: /// <summary> /// 将本地文件上传到指定的服务器(HttpWebRequest方法) /// ...
C语言整理——文件系统和文件访问
标准C中规定了文件系统的访问和对文件本身的访问.不管是windows系统或者是泛unix系统,都实现了这些接口.在了解这些知识后,跨平台编程也将非常容易. 对文件系统的访问接口有: chdrive() ...