将LibreOffice文档转换为豆瓣日记

豆瓣日记的编辑器一直以来都只支持纯文本的，因此无法将原先在LibreOffice中写的带有简单格式的文章导出。由于我在豆瓣主要写一些随笔性的内容，所以它们在LibreOffice中排版时也并未用到什么复杂的格式，充其量就是粗体、斜体、加亮等字符样式，以及章节标题、多级有序和无序列表的段落样式。接下来，我的想法就是先将LibreOffice中选中的文章导出成MediaWiki的markup格式，然后再写一个脚本程序对这个纯文本文件过滤处理一下，变成适合在豆瓣日记编辑器中粘贴的样式即可。该脚本程序最终用Perl来编写。对于字符样式，其直接将相应的样式标识符删除，例如在MediaWiki中：

粗体用'''...'''标识；
斜体用''...''标识；
粗斜体用'''''...'''''标识。

对于多级有序列表，经Perl脚本转换后，采用不同的序号编号以及缩进进行区分，如：

一级列表用阿拉伯数字：1.、2.、3. ...；
二级列表用加右括号的小写字母：a)、b)、c)、...；
三级列表用带圈的阿拉伯数字：①、②、③、...它们可以在特殊字符中找到；
四级列表用小写罗马数字：i.、ii.、iii.、...。

对于多级无序列表，则采用特殊符号与缩进来区分。一至四级的编辑分别为：• ◦ ▪ ▫。

对于章节标题，则保留MediaWiki的格式，分别用=、==、===等表示一、二、三级标题。

Perl脚本源码如下。其命令行第一个参数为由LibreOffice导出的MediaWiki文本文件名。转换后的文本直接输出到控制台。

#!/usr/bin/perl

use warnings;

use strict;

our @level_counters = (, , , );

our @unordered_list_symbols = qw/ • ◦ ▪ ▫ /;

our @level0_symbols = qw/ . . . . . . . . . . /;

our @level1_symbols = qw/ a) b) c) d) e) f) g) h) i) j) /;

our @level2_symbols = qw/ ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ /;

our @level3_symbols = qw/ i. ii. iii. iv. v. vi. vii. viii. ix. x. /;

# Symmetric typeface markers

our $bold_marker = "'''";

our $italic_marker = "''";

our $bold_italic_marker = "'''''";

sub ProcessListBr {

    my $current_list_level = $_[];

    my $first_line_spacings = "   " x $current_list_level;

    s/<br\/>/\n$first_line_spacings/g;

}

sub ProcessLists {

    if (s/^\* +/$unordered_list_symbols[] /) {

    ProcessListBr();

    return;

    }

    if (s/^\*\* +/    $unordered_list_symbols[] /) {

    ProcessListBr();

    return;

    }

    if (s/^\*\*\* +/      $unordered_list_symbols[] /) {

    ProcessListBr();

    return;

    }

    if (s/^\*\*\*\* +/        $unordered_list_symbols[] /) {

    ProcessListBr();

    return;

    }

    my $clear_level_numbering_index = ;

    if (s/^# +/$level0_symbols[$level_counters[0]] /) {

    $clear_level_numbering_index = ;

    $level_counters[]++;

    ProcessListBr();

    }

    if (s/^## +/   $level1_symbols[$level_counters[1]] /) {

    $clear_level_numbering_index = ;

    $level_counters[]++;

    ProcessListBr();

    }

    if (s/^### +/      $level2_symbols[$level_counters[2]] /) {

    $clear_level_numbering_index = ;

    $level_counters[]++;

    ProcessListBr();

    }

    if (s/^#### +/        $level3_symbols[$level_counters[3]] /) {

    $clear_level_numbering_index = ;

    $level_counters[]++;

    ProcessListBr();

    }

    if ($clear_level_numbering_index != ) {

    for (my $i = $clear_level_numbering_index; $i <= $#level_counters; $i++) {

        $level_counters[$i] = ;

    }

    return;

    }

    @level_counters = (, , , );

}

sub ProcessURL {

    s/\[(http[^\s]+)\s+([^\s]+)\]/<a href=\"$1\">$2<\/a>/g;

}

sub RemoveFormat {

    s/$bold_italic_marker(.+?)$bold_italic_marker/$1/g;

    s/$bold_marker(.+?)$bold_marker/$1/g;

    s/$italic_marker(.+?)$italic_marker/$1/g;

    s/<u>(.+?)<\/u>/$1/g;

}

my $wiki_file = shift;

if (defined($wiki_file)) {

    open INPUT, "<$wiki_file" or die "Cannot open the file $wiki_file!\n";

    while(<INPUT>) {

    ProcessLists;

    ProcessURL;

    RemoveFormat;

    print;

    }

    close INPUT;

}

else {

    print "Please specify the input file!\n";

}

将LibreOffice文档转换为豆瓣日记的更多相关文章

OFFICE 文档转换为html在线预览
OFFICE 文档在线预览方案很多: 服务器先转换为PDF,再转换为SWF,最后通过网页加载Flash预览,比如flexpaper Office文档直接转换为SWF,通过网页加载Flash预览微软的 ...
把office文档转换为html过程中的一些坑
之前和我们项目的团队一起酝酿了一个项目,公司的业务文档技术文档比较多,但都比较分散,虽然通过FTP或其他方式聚合起来了,但感觉还是不够方便. 另外公司每次都来新员工,新员工都需要一些培训,比较耗时,比 ...
转：C#实现office文档转换为PDF或xps的一些方法
代码支持任意office格式需要安装office 2007 还有一个office2007的插件OfficeSaveAsPDFandXPS 下载地址 [url]http://www.microsoft ...
PDF文档转换为图片、图片转成PDF 及PDF合并
简介功能:PDF文档按每页转换成一张图片,一张图片转换成一张PDF 并将多张PDF合成一个多页的PDF文档. 经历:在各个网站上搜索始终出现各种问题,尤其是遇到引用的版本问题尤其头疼,不是不能适用当 ...
C#，VB.NET将PPT文档转换为HTML
PPT文档主要用于展示,有时候我们需要将PPT文档转换为HTML格式方便查看.本文将介绍如何使用C#和VB.NET将PPT文档转换为HTML格式.该方案使用了.NET PowerPoint 组件Spi ...
在禅道中实现WORD等OFFICE文档转换为PDF进行在线浏览
条件: 安装好禅道的服务器能直接浏览PDF的浏览器(或通过安装插件实现 ) 文档转换服务程序(建议部署在另一台服务器上) 实现原理: 修改禅道的文件预览功能(OFFICE文档其使用的是下 ...
C#实现office文档转换为PDF或xps的一些方法( 转)
源博客http://blog.csdn.net/kable999/article/details/4786654 代码支持任意office格式需要安装office 2007 还有一个office20 ...
将LibreOffice文档批量转成PDF格式
使用如下命令可以将文档一次性批量导出为pdf格式: -name -I /program/soffice.exe --headless --convert-to pdf '{}' find命令的-max ...
C#实现office文档转换为PDF格式
1.安装组件OfficeSaveAsPDFandXPS 需要安装office 2007 还有一个office2007的插件OfficeSaveAsPDFandXPS 下载地址 OfficeSave ...

随机推荐

用pip下载的python模块怎么在PyCharm中引入报错
在IDE中导入下载的模块,比如:numpy模块你会发现虽然你安装了numpy模块,在CMD中python可以import numpy,但是你在PyCharm引不进去,为什么呢?你要是有注意的话,安装 ...
HBase · 印象
2018-12-20 关键词: HBase是什么 . 什么是HBase . HBase基本概念本篇文章系本人根据目前所掌握的知识对 HBase 的基本概念作出的一篇轻简式科普文章.关于文章所述的知识 ...
python学习day11 函数Ⅲ (内置函数与lambda表达式)
函数Ⅲ(内置函数&lambda表达式) 1.函数小高级函数可以当做变量来使用: def func(): print(123) func_list = [func, func, func] # ...
java替换ascii表字符
如下: //处理特殊字符 public String dealSpecialXml(String xml){ String result = ""; //result = xml. ...
mysql 重启,修改编码utf8mb4，并修改数据库链接，生效
1.启动:/etc/init.d/mysql start 2.停止:/etc/init.d/mysql stop 3.重启:/etc/init.d/mysql restart SHOW VARIABL ...
微信小程序之动态获取元素宽高
我以前一直以为微信小程序不能动态获取view元素的宽高.但是自从看到: wx.createSelectorQuery() 这个api接口,以前的某些问题就能得到解决了... 那么,这个api接口怎么用 ...
[Android] Android RxJava2+Retrofit2+OkHttp3 的使用(一) --基础篇 Retrofit2 的使用
本文是 Android RxJava2+Retrofit2+OkHttp3 的使用(一) --基础篇 Retrofit2 的使用本文的目标是用 Retrofit写一个网络请求: 本文以从获取天气预报 ...
Latex "Error: Extra alignment tab has been changed to \cr. "
Latex 编译时出现 Error: Extra alignment tab has been changed to \cr. 是因为\begin{tabular}后面的参数指定为7列,而实际排了8 ...
纯css美化下拉框、复选框以及单选框样式并用jquery获取到其被选中的val
具体样式如图所示: 注:获取val值时记得要先引入jquery库奥. 1.下拉框 css部分 #cargo_type_id{ font-size: 13px; border: solid 1px #b ...
Windows系统盘符错乱导致桌面无法加载。
问题如下 : 同事有台笔记本更换SSD硬盘,IT职员帮他将新硬盘分好区后再将系统完整Ghost过来,然后装到笔记本上.理论上直接就可以使用了!但结果开机后登陆用户桌面无法显示,屏幕黑屏什么都没有. 问 ...

将LibreOffice文档转换为豆瓣日记

将LibreOffice文档转换为豆瓣日记的更多相关文章

随机推荐

热门专题