一、分析页面

打开虎嗅网，点击【24小时】

本次采集，我们以这24小时的热门新闻为案例。

1.1、分析请求

F12打开开发者模式，然后点击Network后点击任意一个请求，Ctrl+F开启搜索，输入标题雷军回应，开始搜索

可以看到请求地址为https://www.huxiu.com/moment/ 但是返回的内容不是json格式，而是html源码，结合上次博客园采集经验我们需要解析html源码来获取数据，但是如果我们再细心一点，进一步搜索就会有惊喜。

通过直接在返回内容里搜索关键字，发现有一个js变量window.__INITIAL_STATE__; 存储了页面所需数据。

而这个变量里的['moment']['momentList']['moment_list']['datalist'][0]['datalist']内容则就是新闻具体数据

接下来就简单了，同样的套路，分析请求必需参数和cookie反爬策略，然后我们通过请求后获取js变量结果方式来进行爬取。

二、代码实现

本次技术实现使用如下库：

1.playwright：用来打开URL，执行JavaScript代码，获取js变量值

源码如下

# -*- coding: utf-8 -*-

import os

import sys

import time

from playwright.sync_api import sync_playwright

opd = os.path.dirname

curr_path = opd(os.path.realpath(__file__))

proj_path = opd(opd(opd(curr_path)))

sys.path.insert(0, proj_path)

# http请求默认agent

USERAGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'

spider_config = {

    "name_en": "https://www.huxiu.com/moment/",

    "name_cn": "虎嗅"

}

def extract_title(text):

    if text:

        first_sentence = str(text).split('。')[0]

        return first_sentence

    else:

        return text

class Huxiu:

    def __init__(self):

        self.headers = {

            'authority': 'www.huxiu.com',

            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8',

            'user-agent': USERAGENT

        }

    def get_news(self):

        results = []

        with sync_playwright() as playwright:

            browser = playwright.chromium.launch(

                headless=True,

                slow_mo=1000,

                args=['--start-maximized']

            )

            context = browser.new_context(

                no_viewport=True,

                accept_downloads=True

            )

            page = context.new_page()

            page.set_default_timeout(200000)

            page.goto('https://www.huxiu.com/moment/')

            page.wait_for_load_state('load')

            # 获取动态JavaScript内容

            initial_state = page.evaluate('(function() { return window.__INITIAL_STATE__; })()')

            datalist = initial_state['moment']['momentList']['moment_list']['datalist'][0]['datalist']

            for data in datalist:

                results.append(

                    {

                        "news_title": extract_title(data['content']) + "。",

                        "news_date": data['format_time'],

                        "source_en": spider_config['name_en'],

                        "source_cn": spider_config['name_cn'],

                    }

                )

            browser.close()

        return results

def main():

    huxiu = Huxiu()

    results = huxiu.get_news()

    print(results)

if __name__ == '__main__':

    main()

源码中核心内容：获取动态JavaScript内容

initial_state = page.evaluate('(function() { return window.__INITIAL_STATE__; })()')

总结

1.分析页面，有些页面请求返回的是html，但是也有可能会将数据拼接在js里来渲染页面

2.Python中执行JavaScript代码一种推荐的方式是使用playwright这种库，内置浏览器引擎，且很少被认为是暴力请求，并且自带等待机制

本文章代码只做学习交流使用，作者不负责任何由此引起的法律责任。

各位看官，如对你有帮助欢迎点赞，收藏，转发

关注公众号【Python魔法师】带你了解更多Python魔法

Python爬虫实战系列2：虎嗅网24小时热门新闻采集的更多相关文章

Python爬虫实战（三）：爬网易新闻
代码: # _*_ coding:utf-8 _*_ import urllib2 import re #import sys #reload(sys) #sys.setdefaultencoding ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

随机推荐

【操作系统到计网从入门到深入】（一）Linux基础知识预备
前言这个专栏其实是博主在复习操作系统和计算机网络时候的笔记,所以如果是博主比较熟悉的知识点,博主可能就直接跳过了,但是所有重要的知识点,在这个专栏里面都会提到!而且我也一定会保证这个专栏知识点的完整 ...
JuiceFS v1.0 正式发布，首个面向生产环境的 LTS 版本
今天,JuiceFS v1.0 发布了经过了 18 个月的持续迭代和大量生产环境的广泛验证,此版本将成为第一个被长期维护的稳定版(LTS).同时,该版本提供完整的向前兼容,所有用户可以直接升级. J ...
《ASP.NET Core 微服务实战》-- 读书笔记（第3章）
第 3 章使用 ASP.NET Core 开发微服务微服务定义微服务是一个支持特定业务场景的独立部署单元.它借助语义化版本管理.定义良好的 API 与其他后端服务交互.它的天然特点就是严格遵守单 ...
Kafka-启动时报错: ERROR Fatal error during KafkaServer startup. Prepare to shutdown
一.问题描述在启动kafka时报错: ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server. ...
SP16113 SUBTLEBA - Trucks Transportation 题解
题目传送门前言本题样例有问题,如果想要样例可以去 vjudge 上. 本题提交后可能会出现 UKE ,建议前往 link 提交,而且本篇题解中所提供的代码也为 link 代码. 前置知识 Krus ...
NC17247 H、Diff-prime Pairs
题目链接题目题目描述 Eddy has solved lots of problem involving calculating the number of coprime pairs withi ...
Swoole从入门到入土(22)——多进程[Process]
Swoole中的Process模块比原生php提供的pcntl模块,提供了更易用的多进程编程接口. 简单总结,Process模块有如下特点: · 可以方便的实现进程间通讯· 支持重定向标准输入和输出, ...
Springboot AOP介绍及实战
介绍 AOP是Aspect Oriented Program的首字母缩写:这种在运行时,动态地将代码切入到类的指定方法.指定位置上的编程思想就是面向切面的编程. 主要用于非核心业务处理,比如权限,日志 ...
XXL-Job框架入门介绍
框架概述框架主页: https://www.xuxueli.com/xxl-job/ 包含组件: 1.调度中心 2.任务执行器特点: 1.调度中心,任务执行器独立部署,互不影响. 2.调度中心和任 ...
Hi3516开发笔记（七）：Hi3516虚拟机交叉开发环境搭建之交叉编译Qt
海思开发专栏上一篇:<Hi3516开发笔记(六):通过HiTools使用USB/串口将uboot.kernel.rootfs和userdata按照分区表烧写镜像>下一篇:<Hi35 ...

Python爬虫实战系列2：虎嗅网24小时热门新闻采集

一、分析页面

1.1、分析请求

二、代码实现

总结

Python爬虫实战系列2：虎嗅网24小时热门新闻采集的更多相关文章

随机推荐

热门专题