【GitHub每日速递 250922】开源 AI 搜索引擎 Perplexica:本地大模型 + 多模式搜索,免费又强大!
原文: https://mp.weixin.qq.com/s/F7KwZlUd5OQg5CbAEbZGug
MarkItDown:多格式文件转Markdown神器,助力LLM文本分析!
markitdown 是一个将文件和办公文档转换为 Markdown 的工具。简单讲,它能帮你把 Word、Excel 等文档一键转成简洁的 Markdown 格式。适用人群:需要频繁处理文档转换的开发者、技术写作者和内容创作者。
项目地址:https://github.com/microsoft/markitdown
主要语言:Python
stars: 77.16k
仓库核心功能
MarkItDown 是一个轻量级的 Python 工具,主要用于将各种文件转换为 Markdown 格式,以用于大语言模型(LLMs)和相关文本分析管道。它支持多种文件格式的转换,包括 PDF、PowerPoint、Word、Excel、图片、音频、HTML、基于文本的格式(如 CSV、JSON、XML)、ZIP 文件、Youtube 链接、EPubs 等。
优势
- 保留文档结构:与 textract 相比,MarkItDown 更注重将重要的文档结构和内容保留为 Markdown 格式,如标题、列表、表格、链接等。
- 适合文本分析:输出的 Markdown 内容虽然也具有一定的可读性,但主要是为文本分析工具设计的。
- Markdown 的优势:Markdown 接近纯文本,标记和格式最少,主流的大语言模型(如 OpenAI 的 GPT - 4o)原生支持 Markdown,并且在训练中接触过大量 Markdown 格式的文本,理解能力强,同时 Markdown 约定在处理时具有较高的令牌效率。
可能的应用场景
- 文本分析:将各种文件转换为 Markdown 后,可以方便地输入到文本分析工具中进行处理,如情感分析、主题建模等。
- 大语言模型交互:为大语言模型提供结构化的输入,以便更好地理解文档内容。
关键信息
前提条件
- 需要 Python 3.10 或更高版本。
- 建议使用虚拟环境来避免依赖冲突,并给出了标准 Python 安装、uv 和 Anaconda 创建虚拟环境的方法。
安装
- 可以使用
pip install 'markitdown[all]'
进行安装。 - 也可以从源代码安装,先克隆仓库,再使用
pip install -e 'packages/markitdown[all]'
进行安装。
使用方法
- 命令行:支持直接指定输入文件并输出到 Markdown 文件,也可以使用
o
指定输出文件,还支持管道输入。 - 可选依赖:可以根据需要单独安装特定文件格式的依赖,如
pip install 'markitdown[pdf, docx, pptx]'
。 - 插件:支持第三方插件,默认禁用,提供了列出和启用插件的命令,可在 GitHub 搜索
#markitdown - plugin
查找可用插件,开发插件可参考packages/markitdown - sample - plugin
。 - Azure 文档智能服务:可使用 Microsoft 文档智能服务进行转换,需要提供端点信息。
- Python API:提供了基本的 Python 使用示例,包括是否启用插件、使用文档智能服务和使用大语言模型进行图像描述的示例。
- Docker:提供了 Docker 构建和运行的命令。
开源AI搜索引擎Perplexica来袭!支持本地大模型,多模式搜索超强大
Perplexica 是一个 AI 驱动的开源搜索引擎。简单讲,它能像Perplexity AI一样通过人工智能帮你快速找到并总结网络信息,但代码完全开放免费。适用人群:需要高效获取准确信息的研究者、开发者及普通网民。
项目地址:https://github.com/ItzCrazyKns/Perplexica
主要语言:TypeScript
stars: 25.21k
仓库整体介绍
Perplexica 是一个开源的人工智能搜索引擎,受 Perplexity AI 启发而开发。它不仅能进行网页搜索,还能理解用户问题,使用先进的机器学习算法(如相似性搜索和嵌入技术)优化搜索结果,并清晰地给出答案且附带信息来源。该项目借助 SearxNG 保证信息的时效性和隐私性,让用户获取最新信息。
核心功能
- 本地大语言模型支持:可使用 Qwen、DeepSeek、Llama 和 Mistral 等本地大语言模型。
- 两种主要模式
- Copilot 模式:仍在开发中,通过生成不同查询来找到更相关的互联网资源,会访问搜索结果的页面直接查找与用户查询相关的内容。
- 正常模式:处理用户查询并进行网页搜索。
- 多种聚焦模式
- 全模式:搜索整个网络以找到最佳结果。
- 写作助手模式:对无需网络搜索的写作任务有帮助。
- 学术搜索模式:查找文章和论文,适合学术研究。
- YouTube 搜索模式:根据搜索查询查找 YouTube 视频。
- Wolfram Alpha 搜索模式:使用 Wolfram Alpha 回答需要计算或数据分析的查询。
- Reddit 搜索模式:在 Reddit 上搜索与查询相关的讨论和观点。
- 实时信息获取:利用 SearxNG 这个元搜索引擎获取结果并重新排序,确保用户获得最新信息,无需每日更新数据。
- API 支持:开发者可将其集成到现有应用程序中。
代码架构特点
项目使用 Next.js 运行并处理所有 API 请求,在同一网络中可直接使用,通过端口转发也能保持可访问性。
安装方式
- 使用 Docker(推荐)
- 确保 Docker 已安装并运行。
- 克隆仓库:
git clone https://github.com/ItzCrazyKns/Perplexica.git
- 进入项目目录,将
sample.config.toml
重命名为config.toml
,按需填写相关字段(如不同模型的 API 密钥等)。 - 在包含
docker-compose.yaml
文件的目录下执行docker compose up -d
。 - 等待几分钟,在浏览器中访问
http://localhost:3000
即可使用。
- 非 Docker 安装
- 安装 SearXNG 并允许
JSON
格式。 - 克隆仓库,重命名
sample.config.toml
为config.toml
并填写所需字段。 - 运行
npm i
安装依赖。 - 执行
npm run build
。 - 运行
npm run start
启动应用。
- 安装 SearXNG 并允许
常见问题解决
- 本地 OpenAI - API 兼容服务器问题:确保服务器在
0.0.0.0
上运行,指定正确的模型名称和 API 密钥。 - Ollama 连接错误:检查 API URL,根据不同操作系统更新 URL,Linux 用户需将 Ollama 暴露到网络并确保端口未被防火墙阻止。
- Lemonade 连接错误:检查 API URL,根据不同操作系统更新 URL,确保 Lemonade 服务器运行,配置为接受所有接口连接且端口未被防火墙阻止。
使用方法
- 作为搜索引擎使用:在浏览器设置的“搜索引擎”部分添加新的站点搜索,URL 为
http://localhost:3000/?q=%s
,可直接从浏览器搜索栏使用。 - 使用 API:开发者可参考 API 文档将其集成到自己的应用中。
一键部署
提供了在 Sealos、RepoCloud、ClawCloud 和 Hostinger 等平台的一键部署方式。
即将推出的功能
- 目前已完成添加设置页面、支持本地大语言模型、历史保存功能、引入多种聚焦模式、添加 API 支持和发现功能。
- 待完成的功能为完善 Copilot 模式。
OpenAI Codex CLI来袭!本地运行编码神器,多种安装使用方式揭秘
一个在终端中运行的轻量级编程代理工具。简单讲,它能帮你自动生成代码、理解代码逻辑并完成编程任务,就像一个会写代码的助手。适用人群:开发者、程序员及终端重度用户。
项目地址:https://github.com/openai/codex
主要语言:Rust
stars: 42.0k
OpenAI Codex CLI 是 OpenAI 推出的一款本地运行的编码代理工具,以下是它的详细介绍:
- 安装与运行
- 可以使用包管理器全局安装,如使用 npm 安装,命令为
npm install -g @openai/codex
;若使用 Homebrew,命令为brew install codex
。安装完成后,运行codex
即可启动。 - 也能前往 最新 GitHub Release 页面,根据自己的平台下载合适的二进制文件。不同系统有对应的文件,如 macOS 有适用于 Apple Silicon/arm64 的
codex-aarch64-apple-darwin.tar.gz
和适用于 x86_64 的codex-x86_64-apple-darwin.tar.gz
;Linux 有适用于 x86_64 的codex-x86_64-unknown-linux-musl.tar.gz
和适用于 arm64 的codex-aarch64-unknown-linux-musl.tar.gz
。解压后建议重命名为codex
。
- 可以使用包管理器全局安装,如使用 npm 安装,命令为
- 与 ChatGPT 计划结合使用
- 模型上下文协议(MCP):支持 MCP 服务器,在
~/.codex/config.toml
中添加mcp_servers
部分即可启用。 - 配置:支持丰富的配置选项,偏好设置存储在
~/.codex/config.toml
中,完整配置选项可查看 Configuration。 - 文档与常见问题解答:涵盖了从入门到高级使用的各个方面,包括入门指南、沙盒与审批、认证、高级功能、零数据保留、贡献、安装与构建等内容。
优势
- 本地运行:可在本地计算机上运行,一定程度上保障数据安全和隐私。
- 多方式使用:既可以结合 ChatGPT 计划使用,也能使用 API 密钥。
- 丰富配置:支持多种配置选项,可根据需求灵活调整。
应用场景
- 开发人员在命令行中快速获取代码生成、代码解释等帮助。
- 用于持续集成(CI)流程,结合非交互模式自动完成代码相关任务。
- 辅助教学,帮助学生学习编程时快速获得代码示例和解释。
【GitHub每日速递 250922】开源 AI 搜索引擎 Perplexica:本地大模型 + 多模式搜索,免费又强大!的更多相关文章
- 一年一度!GitHub 开发者大会「GitHub 热点速递 v.22.45」
GitHub 是全球最大的开源社区,它的一举一动都深受每一位开源爱好者的关注.这周末刚落下帷幕的<GitHub Universe 2022>是 GitHub 发布最新产品.功能.报告和计划 ...
- 在?开源社区版的 AirTag 请收下——GitHub 热点速览 v.21.21
作者:HelloGitHub-小鱼干 在比特币跌到怀疑人生的时候,看着"出血不止"的荷包,是时候来"薅"一波羊毛了.openhaystack 能让你免去购买 A ...
- 视觉享受,兼顾人文观感和几何特征的字体「GitHub 热点速览 v.22.46」
GitHub 上开源的字体不在少数,但是支持汉字以及其他非英文语言的字体少之又少,记得上一个字体还是 霞鹜文楷,本周 B 站知名设计 UP 主开源了的得意黑体在人文观感和几何特征之间找到了美的平衡. ...
- 快速绘制流程图「GitHub 热点速览 v.22.47」
画流程图一直是研发的一个难题,如何画得通俗易懂已经够让人头疼了,还要美观大方.用 d2 的语法描述下流程,d2 会自动帮你生成一张配色极佳的流程图.说到研发的选择,本周特推的 choiceof.dev ...
- 碉堡!“万物皆可分”标记模型上线「GitHub 热点速览」
这周有个让人眼前一亮的图像识别模型 segment-anything,它能精细地框出所有可见物体,它标记出的物体边界线清晰可见.如此出色的模型,自然获得了不少人的赞赏,开源没几天,就拿下了 18k+ ...
- 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
- 揭开周获 18k star 开源项目的神秘面纱「GitHub 热点速览 v.22.28」
本周 GitHub Trending 的项目重量十足,比如标题的一周获得 18k+ 的高性能 JS Runtime--bun,用性能来体现了它的"含金量".同样有重量的还有一行代码 ...
- Python 霸榜的一周,又有什么新 AI 力作呢?「GitHub 热点速览」
GPT 带火了一波语言模型,LLaMA 和 Alpaca 也在持续发力.依旧是各类 GPT 后缀霸榜 GitHub trending 的一周,为此特推部分专门收录了两个比较不错的 GPT 应用.而作为 ...
- 开源不到 48 小时获 35k star 的推荐算法「GitHub 热点速览」
本周的热点除了 GPT 各类衍生品之外,还多了一个被马斯克预告过.在愚人节开源出来的推特推荐算法,开源不到 2 天就有了 35k+ 的 star,有意思的是,除了推荐算法本身之外,阅读源码的工程师们甚 ...
- AI 预测蛋白质结构「GitHub 热点速览 v.21.29」
作者:HelloGitHub-小鱼干 虽然 AI 领域藏龙卧虎,但是本周预测蛋白质结构的 alphafold 一开源出来就刷爆了朋友圈,虽然项目与我无关,但是看着科技进步能探寻到生命机理,吃瓜群众也有 ...
随机推荐
- Excel中两表数据核对方法
日常工作中经常会需要对比数据,查找差异.重复值等.本篇整理汇总各种Excel数据对比方法,让大家能在不同情况下都能快速完成数据的对比. 单列/多列.按位置对应比较数据 快捷键对比Ctrl+/ 如下图所 ...
- Ubuntu使用Certbot生成泛域名解析证书
1. 安装Certbot sudo apt install certbot -y certbot --version certbot 2.9.0 2. 域名验证 泛域名的验证采用DNS01的验证方式, ...
- sublime user 配置
{ "font_size": 14, "tab_size": 4, "translate_tabs_to_spaces": true, &q ...
- Day13 备战CCF-CSP练习
Day 13 题目描述 题目分析 大模拟,用栈储存每一个多项式,最后根据导数的加法原则依次求导相加,注意取模. C++代码 #pragma GCC optimize(3, "Ofast&qu ...
- SciTech-EECS-Wireless-BLE(Bluetooth Low Energy)5.4- Nordic Semi. 的Bluetooth Low Energy SoCs
蓝牙5.4低功耗: 市场上主流的供货方和解决方案: TI SiLabs: BG22, BG24, BG21 Nordic Semi. : nRF5340, nrf52*, https://www.no ...
- 模拟beego登陆
模拟beego登陆 package main import ( "fmt" "time" "io/ioutil" "net/url ...
- react+rust+webAssembly(wasm)示例
前言:WebAssembly(简称wasm)已经出来有几年了,在一些需要高性能的web应用场景中,wasm技术可以让代码执行效率大大提升.react做为目前大厂主流的前端框架之一,搭配上最近几年一直越 ...
- 时间复杂度O(n):查找盛最多水的容器
给定一个长度为 n 的整数数组 height .有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) . 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳 ...
- DMP学习路线之进阶
前言 动态运动基元(Dynamic Movement Primitive, DMP),是一种轨迹规划的模仿学习方法.其在学术界有大量的相关学术研究,但是鲜有教材会去讲解 DMP 系统学习过程. 这里浅 ...
- Gemini 2.5模型重大升级:更智能的AI技术
Gemini 2.5:我们的最智能模型变得更强大 Gemini 2.5 Pro持续受到开发者喜爱,成为最佳编程模型,而2.5 Flash通过新更新变得更出色.我们还在模型中引入了新功能,包括Deep ...