目的

因为某些原因需要将存放在 Google Chrome 内的书签导出到本地,所幸 Google Chrome 提供了导出书签的功能。

分析

首先在 Google Chrome 浏览器当中输入 chrome://bookmarks 来到书签管理页面,找到最右侧的三个点,选择导出书签,导出的文件是一个 HTML 文件,里面包含了所有书签的层级结构等信息。

使用 Notepad++ 打开该文件之后可以看到里面的内容如下:



粗略一看貌似没什么问题,其实在里面的 <DT><P> 都缺少了闭合标签,所以在解析的时候需要将其去除掉。去除掉之后的 HTML 文件结构大概像这样:

<DL>
<H3>文件夹标题</H3>
<DL>
<H3>子文件夹标题</H3>
<A HREF="书签地址">子文件夹书签1</A>
<A HREF="书签地址">子文件夹书签2</A>
</DL>
<A HREF="书签地址">书签1</A>
<A HREF="书签地址">书签2</A>
</DL>

可以很明显看到这里是有一个层级关系的,所以我们可以通过递归来生成一个树形模型,生成之后,再遍历这个模型来根据这个树形结构来创建 MHTML 文件,并且进行归类。

实现

操作 HTML 文件在 .Net 下有一个很方便的第三方库,名字叫做 HtmlAgilityPack,通过这个库我们可以很方便地操作 HTML 文档,就跟 DOM 一样方便,而且它支持 XPath 选取。

项目地址:http://html-agility-pack.net/

GitHub 地址:https://github.com/zzzprojects/html-agility-pack

Nuget 地址:https://www.nuget.org/packages/HtmlAgilityPack/

通过 Nuget 安装该包到项目当中,引入 HtmlAgilityPack 命名空间,就可以开始编写代码了。

1.编写 HtmlResolver 解析器

建立一个 HtmlResolver 类,该类用于解析 Chrome 导出的书签:

public class HtmlResolver
{
private HtmlDocument _htmlDocument = new HtmlDocument();
/// <summary>
/// 初始化 HTML 解析器
/// </summary>
/// <param name="htmlPath">Google Chrome 导出的书签 HTML 路径</param>
public HtmlResolver(string htmlPath)
{
using (FileStream htmlFileStream = File.Open(htmlPath, FileMode.Open))
{
using (StreamReader htmlReader = new StreamReader(htmlFileStream))
{
// 移除干扰标签
string htmlStr = htmlReader.ReadToEnd();
htmlStr = htmlStr.Replace(@"<DT>", string.Empty).Replace(@"<p>", string.Empty);
// 加载 HTML
_htmlDocument.LoadHtml(htmlStr);
}
}
}
}

在对象初始化的时候要求提供 Google Chrome 导出的书签 HTML 文件路径,并且读入 HTML 文件数据的时候移除掉之前所说的 <DT><P> 标签,方便后面 HtmlAgilityPack 进行解析,移除之后,HtmlDocument 通过 HTML String 初始化。

2.创建书签模型

当我们递归完成之后需要将数据存储在书签模型当中,方便后面生成 MHTML 文件的时候使用。

/// <summary>
/// 书签模型
/// </summary>
public class BookMarkModel
{
/// <summary>
/// 初始化书签模型
/// </summary>
/// <param name="name">书签名称</param>
/// <param name="path">书签路径</param>
/// <param name="url">绑定的 URL</param>
/// <param name="childNodes">子节点集合</param>
public BookMarkModel(string name, string path, string url = null, List<BookMarkModel> childNodes = null)
{
Name = name;
Url = url;
ChildNodes = childNodes;
Path = path;
}
/// <summary>
/// 书签名称
/// </summary>
public string Name { get; set; }
/// <summary>
/// 绑定的 URL
/// </summary>
public string Url { get; set; }
/// <summary>
/// 书签路径
/// </summary>
public string Path { get; set; }
/// <summary>
/// 子节点集合,如果没有则为 NULL
/// </summary>
public List<BookMarkModel> ChildNodes { get; set; }
}

该模型是一个典型的树形结构,之后我们就开始递归生成书签模型了。

3.递归生成树形模型

递归算法自己一直不太会写,写好这一个递归方法基本都花费了半天的时间

[C#]Google Chrome 书签导出并生成 MHTML 文件的更多相关文章

  1. Google Chrome 书签导出并生成 MHTML 文件

    目的 因为某些原因需要将存放在 Google Chrome 内的书签导出到本地,所幸 Google Chrome 提供了导出书签的功能. 分析 首先在 Google Chrome 浏览器当中输入 ch ...

  2. Android手机同步电脑端google chrome书签

    我先声明:文中FQ 都是博客园自动将中文(fan qiang)转换为FQ的,并不是我本来写的就是FQ~~ 手机和电脑都必须要能登录google(Xee:几乎所有做开发的人都每天的生活都离不开谷歌了,可 ...

  3. powerdesigner连接数据库 导出数据 生成PDM文件 傻瓜试教程

    也可下载文档:http://download.csdn.net/detail/shutingwang/6378665 

  4. Google Chrome Plus——绿色便携多功能谷歌浏览器

    我更新浏览器的时候一般没有时间更新这个帖子,所以具体请看我网盘下载链接里面的更新日志,请自行查看最新版本下载,谢谢. 近期更新日期:2016.8.15(此时间可能不是最新,请看我网盘里面的更新日志) ...

  5. 360chrome,google chrome浏览器使用jquery.ajax加载本地html文件

    使用360chrome和google chrome浏览器加载本地html文件时,会报错,提示: XMLHttpRequest cannot load file:///Y:/jswg/code/html ...

  6. java导出生成csv文件

    首先我们需要对csv文件有基础的认识,csv文件类似excel,可以使用excel打开,但是csv文件的本质是逗号分隔的,对比如下图: txt中显示: 修改文件后缀为csv后显示如下: 在java中我 ...

  7. Google Chrome 自定义协议(PROTOCOL)问题的处理

    最近在使用谷歌浏览器的时候遇到了自定义协议(PROTOCOL)的问题,比较折腾,特此记录,希望我浪费生命换来的结果能够帮助读到此文的朋友少浪费一点宝贵的时间! 由于某些原因,电脑里一直没有安装阿里旺旺 ...

  8. google浏览器如何导出书签

     首先打开浏览器点右侧的自定义及控制Google chrome.  点击书签-书签管理器   打开书签管理器界面中·   点击书签管理器的整理  最下面的将书签导出到html文件..  弹出另存为对话 ...

  9. 手机chrome书签文件导出教程

    重大发现!!!本人亲自测试可以导出chrome书签文件登录下面的链接https://takeout.google.com/settings/takeout/custom/chrome?pli=1

随机推荐

  1. ansible之一:安装与配置

    ansible特点: 1.不需要安装客户端,通过sshd去通信 2.基于模块工作,模块可以由任何语言开发 3.不仅支持命令行试用模块,也支持yaml格式得playbook 4.支持sudo 5.有提供 ...

  2. C语言函数嵌套调用作业

    一.实验作业 1.1 PTA题目:6-4 十进制转换二进制 设计思路 如果n大于1 对n/2继续进行该函数运算 输出n%2的值 代码截图 调试问题 我第一次做的时候判断的边界条件是大于0继续进行运算, ...

  3. beat冲刺计划安排

    1. 团队成员 组长:郭晓迪 组员:钟平辉 柳政宇 徐航 曾瑞 2. 主要计划安排如下: 3. 详细日程任务安排

  4. Alpha冲刺Day3

    Alpha冲刺Day3 一:站立式会议 今日安排: 我们把项目大体分为四个模块:数据管理员.企业人员.第三方机构.政府人员.数据管理员这一模块,数据管理员又可细分为两个模块:基础数据管理和风险信息管理 ...

  5. Django restful-framework初步学习

    urls.py from django.conf.urls import include, url from django.contrib import admin from rest_framewo ...

  6. python 操作PostgreSQL

    pip install psycopg Python psycopg2 模块APIs 以下是psycopg2的重要的的模块例程可以满足Python程序与PostgreSQL数据库的工作. S.N. A ...

  7. Django 模版语法

    一.简介 模版是纯文本文件.它可以产生任何基于文本的的格式(HTML,XML,CSV等等). 模版包括在使用时会被值替换掉的 变量,和控制模版逻辑的 标签. {% extends "base ...

  8. Flask 学习 十四 测试

    获取代码覆盖报告 安装代码覆盖工具 pip install coverage manage.py 覆盖检测 COV = None if os.environ.get('FLASK_COVERAGE') ...

  9. 2017 国庆湖南 Day5

    期望得分:76+80+30=186 实际得分:72+10+0=82 先看第一问: 本题不是求方案数,所以我们不关心 选的数是什么以及的选的顺序 只关心选了某个数后,对当前gcd的影响 预处理 cnt[ ...

  10. XFTP连接主机文件名显示中文乱码且不能下载的解决方法

    Xftp连接主机文件名显示中文乱码且不能下载的本地解决方法 原因:Xftp编码格式问题 解决方法:把Xftp的编码格式增加UTF-8 具体步骤:打开Xftp,文件-属性,在打开的属性界面中打开&quo ...