Markdown格式不仅对写博客的人非常友好和方便,对AI也是如此。

目前AI大语言模型的输出基本都是Markdown格式,这就意味着AI是能充分理解Markdown格式的,这一点非常重要。

Markdown格式输出的另一个好处是可以方便的转换为HTML格式。比如AI服务器按流输出token时,我们可以直观的看到HTML的构建过程,比如标题、列表、表格,甚至复杂的数学公式,都在AI的“吐字”中生成。

既然AI输出是以Markdown格式,那么输入呢?如果Prompt以Markdown格式书写,AI也能快速理解并抓住重点。比如:#是一级标题,*是加粗等,犹如Attention机制一样,通过Markdown中的简单标记,AI能更好的理解Prompt中语义和上下文关系。

实际上目前市场上各种AI智能体(agent),就是在写Prompt,也就是编写一个能让AI快速理解的上下文。这个Prompt写的越好,AI的反馈才能越好,agent才能调用其它工具帮你高效完成工作,比如写代码。

相较于简单的聊天,这种由agent构建出的Prompt都比较复杂,使用的token量也很大。因此既要减少token使用量,也要让AI快速抓住重点,理解你的语义,那么Markdown格式几乎就是唯一的选择

为何要将HTML转为Markdown格式?

无论目前的AI有多强大,都是基于对过去知识的学习,如果我们想了解现在的知识,就需要对AI的知识进行补充。补充方式有很多:

比如部署一个deepseek自己微调训练它的专业领域知识。

如果你觉得自己部署训练的门槛比较高,也可以选择RAG的方式打造本地知识库。

如果你觉得RAG的方式还是比较麻烦,也可以采用联网搜索的方式。

无论你采用哪种方式,都不可避免的要处理某些HTML格式的数据,毕竟我们目前获取信息的主要手段还是通过网站,也就是浏览HTML网页。

如果直接将HTML格式的数据喂给AI,显然是不合适的,一是无效token太多,二是无效信息也太多。我们需要提炼出HTML中的正文,而不是各种闪烁的广告。

总而言之:Markdown格式是目前AI最喜欢的格式。

在这个背景下写一个HTML转Markdown格式的工具就很有必要了,这就是Html2Markdown的开发背景。

言归正传,简单介绍以下Html2Markdown工具。

工具特点:

1、小巧简洁只有一个可执行文件;

2、支持SSL协议,内部集成高版本openssl库(TLS1.3);

3、支持在线格式转换,可将网页内容快速转为md格式;

4、支持命令行方式,方便用户进行第三方集成,如批量对网页进行格式转换;

5、完全自主的HTML格式解析,DOM节点提取速度快;

点击下载Html2Markdown工具

程序界面:

以下将陈百川博主的文章转为markdown格式(侵权删),如下:

命令行使用方法:

Html2Markdown URL LocalPathFile [-overwrite]

命名行方式一共有3个参数:

参数1:URL,需要转换网页地址(建议URL中明确http还是https,如果不写默认使用https);

参数2:LocalPathFile,转换后的本地文件路径;

参数3:可选参数,-overwrite,如果该参数存在则表示转换时覆盖已存在的LocalPathFile;

如:

Html2Markdown https://www.cnblogs.com c:/cnlogs.md

补充说明

  • 说明1:

    有些网站为了防止数据被爬取,采用了“动态”内容输出,也就是浏览器渲染才能看见最终的HTML内容。

    比如百度和知乎。对于这类网站,你可以在浏览器中将网页内容保存为HTML格式,然后通过该工具进行转换。

  • 说明2:

    该程序可能会被某些安全软件误报为木马,我也不太清楚原因,可能里面有下载网页的原因吧。

  • 说明3:

    每个网站都有自己固定格式,我指的是打开网站某篇文章或报道,通过markdown格式可以分析这些规律,从而提取有效信息。比如第N行是标题,N+1行后是文章内容。通过markdown格式的输出,也可以分析如何让网页内容能被搜索引擎快速提取有效内容。

一款HTML转Markdown格式的工具的更多相关文章

  1. 如何解析EML(邮件)格式的文件以及一款小巧的EML邮件阅读工具

    在理解EML格式的时候,先回顾一下历史,这样有助于理解邮件的格式,比如邮件传输时为何会有多种编码方式.此外,理解EML格式也有助于理解HTTP协议. 历史溯源 由于历史原因,我们目前看到的大部分的网络 ...

  2. 10款流行的Markdown编辑器,总有一款适合你

    摘要:作为一个开源人,如果你不会使用Markdown语法,那你就OUT了!Markdown 是 2004 年由 John Gruberis 设计和开发的纯文本格式的语法,非常的简单实用. 作为一个开源 ...

  3. [转载]10款流行的Markdown编辑器

    10款流行的Markdown编辑器 http://www.csdn.net/article/2014-05-05/2819623 作为一个开源人,如果你不会使用Markdown语法,那你就OUT了!M ...

  4. 好用的Markdown 编辑器及工具

    Markdown 是 2004 年由 John Gruberis 设计和开发的纯文本格式的语法,所以通过同一个名字它可以使用工具来转换成 HTML.readme 文件,在线论坛编写消息和快速创建富文本 ...

  5. Md2All:好用的markdown文件转换工具,文章迁移微信公众号的利器

    目录 简介 使用体验 极速上手 更多功能 总结 简介 markdown以简单的语法和强大的功能,征服了无数技术创作者,几乎主流的技术博客网站都开始支持markdown语言撰写博客.但是微信公众号的文章 ...

  6. 25款创新的 PSD 格式搜索框设计素材【免费下载】

    这一次,我们给大家带来的素材是25款很有吸引力的搜索框 PSD 设计,你可以免费下载使用.有时候,搜索框容易被访客忽视,因为其简单和没有吸引力的设计.如果这是你所面对的问题,那么我们会鼓励你去看看在这 ...

  7. 12款最佳Linux命令行终端工具, 20款优秀的 Linux 终端仿真器

    12款最佳Linux命令行终端工具     如果你跟我一样,整天要花大量的时间使用Linux命令行,而且正在寻找一些可替代系统自带的老旧且乏味的终端软件,那你真是找对了文章.我这里搜集了一些非常有趣的 ...

  8. 12款有助于简化CSS3开发的工具

    网站开发者能通过CSS3为网站设计增添很多时尚元素,CSS3 对CSS规范做了很大的改进.现在,本文将介绍12款有助于简化CSS3开发的工具.  1.CSS3 Pie: 允许在IE上使用CSS3绝大部 ...

  9. 【强大的PDF格式转换工具】Lighten PDF Converter OCR for Mac 6.2.0

    [简介] Lighten PDF Converter OCR 是一款Mac上强大的PDF格式转换工具,可以将PDF文档快速批量的转换为Office (Word, Excel, PowerPoint), ...

  10. Hitchhiker 是一款开源的 Restful Api 测试工具

    Hitchhiker 是一款开源的 Restful Api 测试工具 开源API测试工具 Hitchhiker v0.4更新 - 没有做不到,只有想不到 Hitchhiker 是一款开源的 Restf ...

随机推荐

  1. 一问一答学习PyQT6,对比WxPython和PyQt6的差异

    在我的基于WxPython的跨平台框架完成后,对WxPython的灵活性以及强大功能有了很深的了解,在跨平台的桌面应用上我突然对PyQt6的开发也感兴趣,于是准备了开发环境学习PyQt 6,并对比下W ...

  2. 《Linux shell 脚本攻略》第1章——读书笔记

    目录 文件描述符及重定向 函数和参数 迭代器 算术比较 文件系统相关测试 字符串进行比较 文件描述符及重定向 echo "This is a sample text 1" > ...

  3. Gitblit 服务器IP变更

    当Gitblit服务器的IP地址发生变化时,只需将项目中 ./git/config 文件中的 url改为新的IP即可.

  4. css漂亮的弧形

    我们有时会遇到要用实现一个弧形,而这样的弧形要怎么实现呢? 用图片?好像不大现实,因为这样就要无故多加载一张图片了 ,这里我们来说说怎么用css的after伪类来实现弧形. 如果想要调整弧度的话,可以 ...

  5. 彰显科技硬实力!天翼云论文在国际顶刊JoCCASA发表!

    近日,由天翼云科技有限公司云网产品事业部混合云团队完成的论文<Multivariate Time Series Collaborative Compression for Monitoring ...

  6. [OI 向] 深入理解二阶线性递推

    本文主要面向普及/提高组 OIer 和 ACMer.考虑大多数 OIer 的情况,本文默认读者只会矩阵乘法,不了解矩阵的行列式,矩阵的秩等内容.本文使用 C++ 编写代码示例. 什么是二阶线性递推 二 ...

  7. Linux mint的hadoop安装方法

    参考网址http://www.powerxing.com/install-hadoop/ 1.创建hadoop账户 这条命令创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 sh ...

  8. 超详细,DeepSeep 接入PyCharm实现AI编程!(支持本地部署DeepSeek及官方DeepSeek接入),建议收藏!

    在当今数字化时代,AI编程助手已成为提升开发效率的利器.DeepSeek作为一款强大的AI模型,凭借其出色的性能和开源免费的优势,成为许多开发者的首选.今天,就让我们一起探索如何将DeepSeek接入 ...

  9. 你还不会使用Pycham Remote development 打开远程主机工作目录吗?这篇文章帮你解决!

    前言 必备: 本地开发机与远程主机都要安装Pycharm专业版!!! 废话不多说直接开始!! 1.打开pycharm 2.依次点击File.Remote Development 3.依次点击SSH.N ...

  10. HTTP - [01] 简介

    HTTP本身是不安全的,因为传输的数据未经加密,可能会被窃听或篡改.为了解决这个问题,引入了HTTPS,即在HTTP上加入SSL/TLS协议,为数据传输提供了加密和身份验证. 一.概述   HTTP( ...