之前我们已经详细讨论了如何使用BeautifulSoup这个强大的工具来解析HTML页面，另外还介绍了利用在线工具来抓取HTTP请求以获取数据的方法。在今天的学习中，我们将继续探讨另一种常见的网络爬虫技巧：XPath。XPath是一种用于定位和选择XML文档中特定部分的语言，虽然它最初是为XML设计的，但同样适用于HTML文档的解析。

HTML和XML有很多相似之处，比如标签、属性等，因此XPath同样可以在HTML文档中有效地定位元素。爬虫可以利用XPath表达式来指定需要提取的数据的位置，然后通过XPath解析器来解析HTML文档，从而提取所需的信息。

好的，我们不多说，直接开始今天的任务，爬取36kr的热榜新闻以及新闻搜索。

XPath爬虫

如果对XPath不熟悉也没关系，可以直接使用它，就能发现它与我们之前使用的BeautifulSoup有着相同的目的。只是在表达式和方法的使用上略有不同。在进行爬虫之前，我们可以先下载一个XPath工具。之前我们编写BeautifulSoup代码时，需要自行查找HTML代码中的标签并编写代码进行解析，这样很费眼。而在浏览器中可以使用插件工具来直接提取XPath元素。

XPath插件

有很多浏览器插件可供选择，我们只需直接获取一个即可。最重要的是，这些插件可以让我们在选择时轻松复制表达式，就像这样：

当我打开插件工具后，立即触发左键操作，从而开始显示红色框框，用户选择后，系统会呈现一系列XPath表达式供选择，用户只需选取适当的表达式即可。

热榜新闻

会使用工具后，我们将继续进行数据爬取和页面信息解析。在此之前，需要安装一个新的依赖库lxml。以下是一个示例代码供参考：

from lxml import etree

import requests

hot_article_list = []

headers = {

    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"

}

def get_hot_article():

    url = 'https://36kr.com/hot-list/catalog'

    response = requests.get(url=url,headers=headers)

    # 获取的html内容是字节，将其转化为字符串

    #使用etree进行解析

    data = etree.HTML(response.text)

    # 使用XPath定位元素

    # 提取a标签的article-item-title文本数据以及url连接

    article_titles = data.xpath("(//a[@class='article-item-title weight-bold'])")

    article_desc = data.xpath("(//a[@class='article-item-description ellipsis-2'])")

    if len(article_titles) == len(article_desc):

        for article, desc in zip(article_titles, article_desc):

            # 获取元素的链接（href 属性）

            link = article.get('href')

            # 获取元素的文本内容

            title = article.text

            desc = desc.text

            hot_article_list.append({

                "title":title,

                "link":link,

                "desc":desc

            })

    else:

        print("未找到指定元素")

print(hot_article_list)

这段代码的功能是从36氪网站的热门文章列表中提取文章的标题、链接和描述信息，并将这些信息存储在一个列表中。其中，lxml库用于HTML解析，requests库用于发送HTTP请求。接着，定义了一个空列表hot_article_list，用于存储提取的文章信息。

踩个小坑

在前面已经成功提取了热门文章标题和链接，接下来通常应该开始逐个访问这些链接以查看新闻详情。然而，在发送请求获取单个URL链接时，却未能获得预期的新闻信息，出现了以下情况：

通常情况下，网页中的数据要么直接包含在静态HTML中，比如之前我们解析的美食菜谱等；要么是通过Ajax的HTTP请求获取的，比如我们尝试获取腾讯云社区的文章列表。通常，这些数据都可以在搜索中找到相应的匹配项。然而，我花了一个小时的时间仍未能成功获取所需信息。最初，我怀疑可能是因为网页中存在跳转页面传输数据，因此我特意使用抓包工具进行了下载，但令人失望的是，并没有发现相关数据。

因此，我又仔细检查了一遍静态HTML代码，并在代码末尾发现了一个奇怪之处——HTML页面的部分竟然被加密了。让我们来看看这段代码吧。

如果你对这些内容感到疑惑，建议再次在搜索框中输入相关关键字以查找更多信息。很可能存在解密函数。果然如此。我们接下来看下。

既然官方对数据进行了加密处理，显然是出于一定的考虑，其中可能包括对爬虫的防护等因素。鉴于此，我决定不再尝试对其进行解密操作，这个就这样吧。

信息搜索

36氪网站不仅提供了热门文章信息，还支持新闻搜索功能。让我们深入探讨一下搜索功能的实现方式。通常情况下，静态页面即可满足需求进行信息提取。但若希望获取更多数据，就需要通过发送ajax请求来实现。

接着看代码：

from lxml import etree

from urllib.parse import quote

import requests

def get_article_search(keyword):

    qk = quote(keyword)

    url = f'https://36kr.com/search/articles/{qk}'

    response = requests.get(url=url,headers=headers)

    # 获取的html内容是字节，将其转化为字符串

    #使用etree进行解析

    data = etree.HTML(response.text)

    # 使用XPath定位元素

    # 提取a标签的article-item-title文本数据以及url连接

    article_detail = data.xpath("(//p[@class='title-wrapper ellipsis-2']//a)")

    for a_tag in article_detail:

        text = a_tag.xpath("string()").strip()

        url = a_tag.get("href")

        print("文本:", text)

        print("URL连接:", url)

def get_article_url(keyword):

    headers = {

        'Accept': '*/*',

        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',

        'Connection': 'keep-alive',

        'Content-Type': 'application/json',

        'Cookie': 'Hm_lvt_713123c60a0e86982326bae1a51083e1=1710743069; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2218b40a4b8576e0-0508814adc1724-745d5774-2073600-18b40a4b858109a%22%2C%22%24device_id%22%3A%2218b40a4b8576e0-0508814adc1724-745d5774-2073600-18b40a4b858109a%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; Hm_lvt_1684191ccae0314c6254306a8333d090=1710743069; aliyungf_tc=9f944307bb330cb7a00e123533aad0ee8a0e932e77510b0782e3ea63cddc99cf; Hm_lpvt_713123c60a0e86982326bae1a51083e1=1710750569; Hm_lpvt_1684191ccae0314c6254306a8333d090=1710750569',

        'Origin': 'https://36kr.com',

        'Referer': 'https://36kr.com/',

        'Sec-Fetch-Dest': 'empty',

        'Sec-Fetch-Mode': 'cors',

        'Sec-Fetch-Site': 'same-site',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0',

        'sec-ch-ua': '"Chromium";v="122", "Not(A:Brand";v="24", "Microsoft Edge";v="122"',

        'sec-ch-ua-mobile': '?0',

        'sec-ch-ua-platform': '"Windows"',

    }

    json_data = {

        'partner_id': 'web',

        'timestamp': 1710751467467,

        'param': {

            'searchType': 'article',

            'searchWord': keyword,

            'sort': 'score',

            'pageSize': 20,

            'pageEvent': 1,

            'pageCallback': 'eyJmaXJzdElkIjo5NSwibGFzdElkIjo1MSwiZmlyc3RDcmVhdGVUaW1lIjo3NTU4MSwibGFzdENyZWF0ZVRpbWUiOjIzOTk3LCJsYXN0UGFyYW0iOiJ7XCJwcmVQYWdlXCI6MSxcIm5leHRQYWdlXCI6MixcInBhZ2VOb1wiOjEsXCJwYWdlU2l6ZVwiOjIwLFwidG90YWxQYWdlXCI6MTAsXCJ0b3RhbENvdW50XCI6MjAwfSJ9',

            'siteId': 1,

            'platformId': 2,

        },

    }

    response = requests.post(

        'https://gateway.36kr.com/api/mis/nav/search/resultbytype',

        headers=headers,

        json=json_data,

    )

    data = response.json()

    for parsed_data  in data['data']['itemList']:

        widget_title = parsed_data['widgetTitle'].replace('<em>', '').replace('</em>', '')

        print(widget_title)

        widget_url = parsed_data['route']

        print(widget_url)

get_article_search('OpenAI')

get_article_url('我要')

get_article_search 和 get_article_url。这两个函数都是用来从36氪网站上获取文章信息的。

get_article_search(keyword):
- 首先，将关键词进行URL编码。
- 构建搜索URL并发送GET请求获取页面内容。
- 使用lxml库的etree模块解析HTML内容。
- 使用XPath定位元素，提取文章标题和URL连接。
get_article_url(keyword):
- 函数中定义了请求头(headers)和请求体(json_data)。
- 发送POST请求到指定的API接口获取文章URL数据。
- 解析返回的JSON数据，提取文章标题和URL连接。

总结

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选择XML文档中特定部分的语言，尽管最初是为XML设计的，但同样适用于HTML文档的解析。我们探讨了如何使用XPath来定位元素并提取所需信息。

通过这篇文章的学习，我们对XPath的应用有了更深入的了解，也提升了我们在网络爬虫领域的技能。继续努力学习和实践，相信我们可以在爬虫技术上取得更大的进步！

爬虫实战：探索XPath爬虫技巧之热榜新闻的更多相关文章

python动态网站爬虫实战(requests+xpath+demjson+redis)
目录前言一.主要思路 1.观察网站 2.编写爬虫代码二.爬虫实战 1.登陆获取cookie 2.请求资源列表页面,定位获得左侧目录每一章的跳转url(难点) 3.请求每个跳转url,定位右侧下载 ...
【Python爬虫实战】多线程爬虫---糗事百科段子爬取
多线程爬虫:即程序中的某些程序段并行执行,合理地设置多线程,可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出:https://www.qiushibaike.com/8hr/pag ...
【Python爬虫实战】微信爬虫
所谓微信爬虫,即自动获取微信的相关文章信息的一种爬虫.微信对我们的限制是很多的,所以我们需要采取一些手段解决这些限制主要包括伪装浏览器.使用代理IP等方式http://weixin.sogou.com ...
【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
python爬虫实战：基础爬虫(使用BeautifulSoup4等)
以前学习写爬虫程序时候,我没有系统地学习爬虫最基本的模块框架,只是实现自己的目标而写出来的,最近学习基础的爬虫,但含有完整的结构,大型爬虫含有的基础模块,此项目也有,“麻雀虽小,五脏俱全”,只是没有考 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
爬虫实战：爬虫之 web 自动化终极杀手 ( 上）
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:陈象导语: 最近写了好几个简单的爬虫,踩了好几个深坑,在这里总结一下,给大家在编写爬虫时候能给点思路.本次爬虫内容有:静态页面的爬 ...

随机推荐

使用SpeechRecognition进行语音识别
操作系统 : CentOS7.7.1908_x64 gcc版本 :4.8.5 Python 版本 : 3.6.8 安装语音识别环境: virtualenv -p /usr/bin/python3 py ...
Pandas日期时间格式化
当进行数据分析时,我们会遇到很多带有日期.时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理.比如"Wednesday, June ...
JOISC 2018 记录
Day1 T1 Construction of Highway 每一次操作形如查询一条到根的链上的逆序对数,然后将这条链的权值全部修改成同一个权值. 发现这个操作类似于 LCT 的 Access 操作 ...
JS Leetcode 213. 打家劫舍 II 题解分析，在动态规划基础上感受分治算法的魅力
壹 ❀ 引本题来自LeetCode 213. 打家劫舍 II,难度中等,属于前面我们做过的198. 打家劫舍的升级版,难度同样为中等,题目描述如下: 你是一个专业的小偷,计划偷窃沿街的房屋,每间房内 ...
Python Print 显示颜色
1.顺序:显示方式,前景颜色,背景颜色 2.顺序非固定,但尽量按默认书写方式 3.也可以在input中输出使用 4.格式: print('\033[显示方式:前景颜色:背景颜色m .......... ...
valueOf与toString
valueOf与toString valueOf和toString是Object.prototype上的方法,在Js几乎所有的对象都会继承自Object,同样由于包装对象的原因,几乎所有的数据类型都能 ...
display的值及作用
display的值及作用 display属性可以设置元素的内部和外部显示类型,元素的外部显示类型将决定该元素在流式布局中的表现,例如块级或内联元素,元素的内部显示类型可以控制其子元素的布局,例如gri ...
Java中的包装类（wrapper class）
1.介绍顾名思义,包装类是封装Java原始类型的对象.每个Java原始类型都有一个对应的包装类: 基本类型包装类 boolean Boolean byte Byte short Short cha ...
易语言连接Mysql
最近在写游戏的辅助工具研究了下易语言,下面就说下如何连接Mysql. .版本 2 .支持库 mysql .支持库 spec Mysql句柄＝连接MySql ("127.0.0.1&quo ...
spring boot使用自带缓存
项目地址:https://gitee.com/indexman/spring_boot_in_action 下面就介绍一下如何使用spring boot自带的缓存.按步骤来操作即可,不懂的可以去看项目 ...

爬虫实战：探索XPath爬虫技巧之热榜新闻