python 网页转pdf

主要使用的是wkhtmltopdf的Python封装——pdfkit

centos环境

安装：Install python-pdfkit

pip install pdfkit

安装：Install wkhtmltopdf

yum intsall wkhtmltopdf

windows环境下安装wkhtmltopdf参考这篇文章：

http://blog.csdn.net/qq_14873105/article/details/51394026

Linux环境下安装wkhtmltopdf参考这篇文章：

http://blog.csdn.net/mr_zing/article/details/52833461使用：

import   pdfkit

pdfkit.from_string('hello,python','out.pdf') #通过文本直接进行转换

pdfkit.from_url('http://baidu.com','out.pdf') #通过网址进行转换

pdfkit.from_file('test.html', 'out.pdf') #通过html文件进行转换

我们也可以传递一个url或者文件名列表：

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf') pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

也可以传递一个打开的文件：

with open('file.html') as f:

    pdfkit.from_file(f,'out.pdf')

如果想对生成的PDF作进一步处理，我们可以将其读取到一个变量中：

#设置输出文件为False，将结果赋给一个变量

pdf = pdfkit.form_url('http://google.com', False)

我们可以制定所有的 wkhtmltopdf 选项 http://wkhtmltopdf.org/usage/wkhtmltopdf.txt. 我们可以移除选项名字前面的 '--' .如果选项没有值, 使用None, Falseor * 作为字典值:

options = {

 'page-size': 'Letter',

 'margin-top': '0.75in',

 'margin-right': '0.75in',

 'margin-bottom': '0.75in',

 'margin-left': '0.75in',

 'encoding': "UTF-8",

 'no-outline': None

 }

pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默认情况下, PDFKit 将会显示所有的 wkhtmltopdf 输出. 如果不想看到这些信息，你需要传递一个 quiet 选项:

options = {

 'quiet': ''

 }

 pdfkit.from_url('google.com', 'out.pdf', options=options)

由于wkhtmltopdf的命令语法 , TOC 和 Cover 选项必须分开指定:

toc = {

 'xsl-style-sheet': 'toc.xsl'

 }

cover = 'cover.html'

pdfkit.from_file('file.html', options=options, toc=toc, cover=cover)

当我们转换文件、或字符串的时候，可以通过css选项指定扩展的 CSS 文件。

# 单个 CSS 文件

css = 'example.css'

pdfkit.from_file('file.html', options=options, css=css)

# Multiple CSS files

css = ['example.css', 'example2.css']

pdfkit.from_file('file.html', options=options, css=css)

也可以通过HTML中的meta tags传递任意选项：

body = """

        <html>

          <head>

            <meta name="pdfkit-page-size" content="Legal"/>

            <meta name="pdfkit-orientation" content="Landscape"/>

          </head>

          Hello World!

          </html>

        """

pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

转载地址：https://www.jianshu.com/p/44ec7a83adcb

python 网页转pdf的更多相关文章

Python|网页转PDF,PDF转图片爬取校园课表~
import pdfkit import requests from bs4 import BeautifulSoup from PIL import Image from pdf2image imp ...
python 爬虫，网页转PDF：OSError: No wkhtmltopdf executable found
解决办法: 代码中设置参数: path_wk = r‘D:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe‘ #wkhtmltopdf安装位置 config ...
pypdf2:下载Americanlife网页生成pdf合并pdf并添加书签
初步熟悉安装 pip install pypdf2 合并并添加书签 #!/usr/bin/env python3.5 # -*- coding: utf-8 -*- # @Time : 2019/1 ...
从零开始学Python网络爬虫PDF高清完整版免费下载|百度网盘
百度网盘:从零开始学Python网络爬虫PDF高清完整版免费下载提取码:wy36 目录前言第1章 Python零基础语法入门 11.1 Python与PyCharm安装 11.1.1 Python ...
python网页请求urllib2模块简单封装代码
这篇文章主要分享一个python网页请求模块urllib2模块的简单封装代码. 原文转自:http://www.jbxue.com/article/16585.html 对python网页请求模块ur ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
使用Pechkin将HTML网页转换为PDF
Pechkin开源组件使用wkhtmlbox,可以解析CSS样式,将网页转换为PDF文件, 支持URL,或者HTML字符串 1, 从NuGet程序管理器中获得Pechkin GlobalConfig ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
Python之将Python字符串生成PDF
笔者在今天的工作中,遇到了一个需求,那就是如何将Python字符串生成PDF.比如,需要把Python字符串'这是测试文件'生成为PDF, 该PDF中含有文字'这是测试文件'. 经过一番检索, ...

随机推荐

python第十四课--排序及自定义函数之案例一：选择排序
案例一:选择排序使用选择排序的思想实现列表数据的升序排序 lt=[45,12,56,-32,-3,44,75,-22,100] length=len(lt) # print('排序前:'+str(lt ...
java.sql.SQLException: Incorrect string value: '\xE5\xB0‘
mysql插入中文字符报java.sql.SQLException: Incorrect string value: '\xE5\xB0‘ #原因:由于默认情况下,mysql的字符集是latin1(I ...
BZOJ1022:[SHOI2008]小约翰的游戏John(博弈论)
Description 小约翰经常和他的哥哥玩一个非常有趣的游戏:桌子上有n堆石子,小约翰和他的哥哥轮流取石子,每个人取的时候,可以随意选择一堆石子,在这堆石子中取走任意多的石子,但不能一粒石子也不取 ...
net mvc中实现记录用户登录信息（记住登录效果）
现记录用户登录信息(记住登录效果) 本文讲述了使用cookies实现网站记住登录效果,效果如下: 主要实现方法,当用户选择记住登录时建立cookies保存用户名和用户密码,当用户登录不选择记住登录时, ...
Java执行CMD命令
参见:https://blog.csdn.net/lixingshi/article/details/50467840 public static void runtimeCommand() thro ...
Connection reset原因分析和解决方案
在使用HttpClient调用后台resetful服务时,“Connection reset”是一个比较常见的问题,有同学跟我私信说被这个问题困扰很久了,今天就来分析下,希望能帮到大家.例如我们线上的 ...
【转】Spring Boot干货系列：（六）静态资源和拦截器处理
前言本章我们来介绍下SpringBoot对静态资源的支持以及很重要的一个类WebMvcConfigurerAdapter. 正文前面章节我们也有简单介绍过SpringBoot中对静态资源的默认支持 ...
在存放源程序的文件夹中建立一个子文件夹 myPackage。例如，在“D:\java”文件夹之中创建一个与包同名的子文件夹 myPackage（D:\java\myPackage）。在 myPackage 包中创建一个YMD类，该类具有计算今年的年份、可以输出一个带有年月日的字符串的功能。设计程序SY31.java，给定某人姓名和出生日期，计算该人年龄，并输出该人姓名、年龄、出生日期。程序使用YM
题目补充: 在存放源程序的文件夹中建立一个子文件夹 myPackage.例如,在“D:\java”文件夹之中创建一个与包同名的子文件夹 myPackage(D:\java\myPackage).在 m ...
C. String Transformation
http://codeforces.com/problemset/problem/946/C You are given a string s consisting of |s| small engl ...
ansible yaml 语法
yet another markup language -- 另外的一种标记语言 yaml 语法: 序列:同一个类型的数据有多个,用"-" 来区分,叫序列映射:价值对,用&quo ...

python 网页转pdf

python 网页转pdf的更多相关文章

随机推荐

热门专题