最近做了个微信推送kindle电子书的公众号:kindle免费书库 不过目前电子书不算非常多,所以需要使用爬虫来获取足够书籍. 于是,写了以下这个爬虫,来爬取kindle114的电子书. 值得注意的地方: 当爬取数过大时,由于对方有开启放抓取,会返回一个javascript而非原始的html,所以我使用 的PyV8来执行这段js从而拿到真正的地址. 目前存在的问题: 正则式写得还不够好,毕竟是第一次正式写爬虫:) 无法下载需要购买的附件 爬虫为单线程,爬完整个网站速度慢.我有试过转成多进程,但是