python抓取知识星球精选帖,制作为pdf文件

xing_star 2024-08-24 02:02:48 原文

版权声明：本文为xing_star原创文章，转载请注明出处！

本文同步自http://javaexception.com/archives/90

背景:

这两年知识付费越来越热，我也加入了不少知识星球，总觉得信息有些过载了。一天不看，就有500+的内容显示未读，弄的自己格外的焦虑。感觉这样非常不好，就想要找办法解决,比如把精华帖抓取下来制作成pdf文件，这样自己随时可以翻阅，或者拿出整块的时间阅读，不用担心遗漏。记得年初的时候做过一番尝试，在Github上看到几个不错的项目，关于抓取知识星球帖子内容的开源项目，测试了几个，选中了一个非常不错的项目，当然了自己对这个项目的代码做了一点点小调整，fork了一份，地址是https://github.com/xingstarx/crawl-zsxq。

解决办法:

由于知识星球官方对反爬比较严，有一些反制手段，这个项目的代码也需要不断的迭代更新，这是一个攻防对抗的过程。

具体如何执行就不讲了，可以看这个项目的readme。按照上面的描述，准备python环境，以及相关的依赖，然后修改对应的header里面的关键参数，那么就可以将程序跑起来了。

常见的问题:

这里额外说一下程序跑起来的过程中，会碰到的一些问题。

1.header信息修改的有问题，这块可以通过chrome浏览器的开发者工具解决，或者是charles抓包工具解决，不懂的可以google下

2.执行crawl.py的时候，如果提示ssl等之类的问题，那么关掉charles之类的抓包工具

3.如果爬取的文件特别多，特别大，几百上千个文件，还包含图片的，这种最好分步骤操作，比如先把html下载下来，接着分为3-5部分，每次取出1/3或者1/5的量执行make_pdf函数，这个可能需要修改下代码，可以参考https://github.com/xingstarx/crawl-zsxq/issues/1。

另外这个开源项目是为了方便自己的，还是不要用于盗版，作恶可不好，还是多尊重知识，尊重版权啊。

项目地址:

https://github.com/xingstarx/crawl-zsxq

python抓取知识星球精选帖,制作为pdf文件的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...

随机推荐

OpenCV认识之发展历史
OpenCV认识之发展历史刚接触OpenCV,据说是专门用于机器视觉,机器人图形图像处理等,但对OpenCV的历史还不是特别了解,今天上网查好多资料,记录在此,OpenCV的全称是:Open Sour ...
Win10各个版本免费激活密钥
专业版:W269N-WFGWX-YVC9B-4J6C9-T83GX 企业版:NPPR9-FWDCX-D2C8J-H872K-2YT43 家庭版:TX9XD-98N7V-6WMQ6-BX7FG-H8 ...
51Nod 1019 逆序数 (归并排序)
#include <iostream> #include <cstring> using namespace std; ; int a[maxn]; int res[maxn] ...
GDI双缓冲绘图
一.简介在进行复杂图形绘制时,若直接在屏幕DC上进行绘制,则会出现明显的闪烁.闪烁产生的原因是当绘制的图形较为复杂时,图形绘制过程中就被刷新到屏幕上,导致结果断断续续地显示出来.双缓冲绘图的原理是 ...
HBase备份恢复练习
一.冷备 1.创建测试表并插入测试数据 [root@weekend05 ~]# hbase shell hbase(main):005:0> create 'scores','grade','c ...
洛谷P2765 魔术球问题(贪心最大流)
题意已经很简洁了吧. 假设有n根柱子,现要按下述规则在这n根柱子中依次放入编号为1,2,3,...的球. (1)每次只能在某根柱子的最上面放球. (2)在同一根柱子中,任何2个相邻球的编号之和为完全 ...
php中session实现机制
一.默认机制,用磁盘文件来实现PHP会话.php.ini配置:session.save_handler = files 1.session_start() A. session_start()是ses ...
iOS开发-Runtime详解
iOS开发-Runtime详解简介 Runtime 又叫运行时,是一套底层的 C 语言 API,其为 iOS 内部的核心之一,我们平时编写的 OC 代码,底层都是基于它来实现的.比如: [recei ...
洛谷 P2580 于是他错误的点名开始了
题目背景 XS中学化学竞赛组教练是一个酷爱炉石的人. 他会一边搓炉石一边点名以至于有一天他连续点到了某个同学两次,然后正好被路过的校长发现了然后就是一顿欧拉欧拉欧拉(详情请见已结束比赛CON900). ...
Python 学习日志9月21日
9月21日周四今天是个特殊的日子吗,总感觉9月21这个日子听着怪怪的. 今天早晨看<Head First HTML and CSS>第13章节“表格和更多列表”,内容不多,看完并做了详 ...