爬取王垠的博客并生成pdf

尚未完善，有待改进

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

__author__ = 'jiangwenwen'

import pdfkit

import time

import requests

import random

from bs4 import BeautifulSoup

from fake_useragent import UserAgent

# 请求头

ua = UserAgent()

headers = {

    'cache-control': "no-cache",

    "Host": "www.yinwang.org",

    "User-Agent": ua.random,

    "Referer": "http://www.yinwang.org/",

}

# IP代理池

ip_pool = ['123.55.114.217:9999',

           '110.52.235.91:9999',

           '183.163.43.61:9999',

           '119.101.126.52:9999',

           '119.101.124.165:9999',

           '119.101.125.38:9999',

           '119.101.125.84:9999',

           '110.52.235.80:9999',

           '119.101.125.49:9999',

           '110.52.235.162:9999',

           '119.101.124.23:9999'

           ]

# 打印成pdf

def print_pdf(url, file_name):

    start = time.time()

    print("正在打印中...")

    headers["User-Agent"] = ua.random

    print("User-Agent是：{0}".format(headers["User-Agent"]))

    content = requests.get(url, headers=headers, timeout=3, proxies=get_proxy(ip_pool)).text

    pdfkit.from_string(content, file_name)

    end = time.time()

    print("打印成功，本次打印耗时：%0.2f秒" % (end - start))

# 获得有效代理

def get_proxy(ip_pool):

    for ip in ip_pool:

        url = "http://www.yinwang.org/"

        # 用requests来验证ip是否可用

        try:

            requests.get(url, proxies={"http": "http://{}".format(ip), }, timeout=3)

        except:

            continue

        else:

            proxies = {

                "http": "http://{}".format(ip),

                "https": "http://{}".format(ip),

            }

            return proxies

response = requests.get("http://www.yinwang.org/", headers=headers, proxies=get_proxy(ip_pool))

soup = BeautifulSoup(response.content, 'html.parser')

tags = soup.find_all("li", class_="list-group-item title")

for child in tags:

    article_url = "http://www.yinwang.org" + child.a.get('href')

    article_file_name = "桌面\\" + child.a.string + ".pdf"

    print_pdf(article_url, article_file_name)

爬取王垠的博客并生成pdf的更多相关文章

一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...
Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
我是如何将博客转成PDF的
前言只有光头才能变强之前有读者问过我:"3y你的博客有没有电子版的呀?我想要份电子版的".我说:"没有啊,我没有弄过电子版的,我这边有个文章导航页面,你可以去文章导航 ...
使用Windows Live Writer拉取之前写的博客
因为之前写的博客有错误需要修改,但是在Windows Live Writer中找了半天也没找到怎么拉取之前的博客,在[打开本地草稿]或者[打开最近使用过的日志]中,由于存储的项数有限,所以就找不到那篇 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
将博客转成pdf
前些天无意间看到了“birdben”的博客,写的比较详细,但是最新的文章更新时间是“2017-05-07”,时间很是久远,本打算有时间认真学习一下博主所写的文章,但是担心网站会因为某些原因停止服务,于 ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
flask实战-个人博客-数据库-生成虚拟数据 --
3.生成虚拟数据为了方便编写程序前台和后台功能,我们在创建数据库模型后就编写生成虚拟数据的函数. 1)管理员用于生成虚拟管理员信息的fake_admin()函数如下所示: personalBlog ...
爬取拉勾网python工程师的岗位信息并生成csv文件
转载自:https://www.cnblogs.com/sui776265233/p/11146969.html 代码写得很好,但是目前只看得懂前一部分一.爬取和分析相关依赖包 Python版本: ...

随机推荐

Latex--入门系列三
Latex 专业的参考 tex对于论文写作或者其他的一些需要排版的写作来说,还是非常有意义的.我在网上看到这个对于Latex的入门介绍还是比较全面的,Arbitrary reference .所以将会 ...
OC学习--面向对象的个人理解
1. 什么是面向对象? 以下一段话是我在百度上找的解释: 面向对象(Object Oriented,OO)是软件开发方法.面向对象的概念和应用已超越了程序设计和软件开发,扩展到如数据库系统.交互式界面 ...
实验查看PHP本地的Session信息
通过Nginx调度器负载后端两台Web服务器,实现以下目标: - 部署Nginx为前台调度服务器 - 调度算法设置为轮询 - 后端为两台LNMP服务器 - 部署测试页面,查看PHP本地的Session ...
Nginx安装与配置-Centos7
Nginx是一款高性能免费开源网页服务器,也可用于反向代理和负载均衡服务器.该软件由伊戈尔·赛索耶夫于2004年发布,2019年3月11日,Nginx被F5 Networks以6.7亿美元收购.201 ...
【LeetCode】数学（共106题）
[2]Add Two Numbers (2018年12月23日,review) 链表的高精度加法. 题解:链表专题:https://www.cnblogs.com/zhangwanying/p/979 ...
kafka参数设置
一.broker参数 broker.id:kafka集群的唯一标识. log.dirs:kafka存储消息日志的目录,多个用逗号隔开,需要保证指定的目录有充足的磁盘空间. zookeeper.conn ...
牛客ACM赛 B [小a的旅行计划 ]
链接 B 小a的旅行计划把\(n\)个数中选任意数分成\(a,b\)两个集合,集合无区别,要求不包含且有交,求方案数.\(n\leq 10^{13}\) 首先讨论\(a,b\)并集是否为全集: 若是 ...
windows cmd bat处理文件
bat中输入: @echo offtitle 正在承载无线网络....netsh wlan start hostednetworknetsh wlan show hostednetworkecho 启 ...
LeetCode--053--最大子序和(java)
给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和. 示例: 输入: [-2,1,-3,4,-1,2,1,-5,4], 输出: 6 解释: 连续子数组 ...
idhttp.get返回403错误解决办法
在GET之前,先指定UserAgent参数IdHTTP1.Request.UserAgent := 'Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Ma ...

爬取王垠的博客并生成pdf

爬取王垠的博客并生成pdf的更多相关文章

随机推荐

热门专题