上周,DeepSeek-V3 将训练大模型的成本给打下来了,但训练大模型对普通开发者来说仍然门槛很高。所以,本期的热门开源项目聚焦于降低 LLM 应用开发的入门门槛。

极易上手的向量数据库 chroma 用起来十分方便,只需一行命令 pip install chromadb 就能轻松拥有一个向量数据库,用于存储和检索向量数据。接下来是专为构建实时 AI 应用的 Python ETL 框架 pathway,它提供了简单易用的 Python API 和可视化监控界面,全面提升 LLM 应用处理数据的效率。同样开箱即用的 Rust 全栈 Web 框架 Loco,则将 Rails 的开发体验与 Rust 的高性能相结合,是快速开发 Web 应用不错的选择。

最后是两个相见恨晚的开源项目,Python 项目打包神器 pex,它为 Python 项目提供了一键部署的丝滑体验。以及可以轻松部署家庭多媒体中心的 docker-xiaoya。

  • 本文目录

    • 1. 热门开源项目

      • 1.1 极易上手的向量数据库:chroma
      • 1.2 Rust 的全栈 Web 框架:Loco
      • 1.3 开箱即用的端口扫描工具:RustScan
      • 1.4 实时更新的轻量级推荐系统:monolith
      • 1.5 构建实时 AI 系统的 Python 框架:pathway
    • 2. HelloGitHub 热评
      • 2.1 相见恨晚的 Python 项目打包工具:pex
      • 2.2 一键部署完整的家庭多媒体中心:docker-xiaoya
    • 3. 结尾

1. 热门开源项目

1.1 极易上手的向量数据库:chroma

主语言:RustStar:16.3k周增长:400

这是一款专为 AI 应用设计的开源向量数据库(Embedding Database),支持 Python、JavaScript、Rust 等多种编程语言。它提供了简单易用的 API 和多种启动模式(内存、文件存储、服务器),支持基于 embedding 模型的自动向量化处理,以及查询、过滤、密度估计等操作,适用于快速构建基于语义的搜索和推荐等应用。

import chromadb
client = chromadb.Client() collection = client.create_collection("all-my-documents")
collection.add(
documents=["This is document1", "This is document2"], # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
metadatas=[{"source": "notion"}, {"source": "google-docs"}], # filter on these!
ids=["doc1", "doc2"], # unique for each doc
) results = collection.query(
query_texts=["This is a query document"],
n_results=2,
# where={"metadata_field": "is_equal_to_this"}, # optional filter
# where_document={"$contains":"search_string"} # optional filter
)

GitHub 地址→github.com/chroma-core/chroma

1.2 Rust 的全栈 Web 框架:Loco

主语言:RustStar:6.4k周增长:600

该项目是受 Ruby on Rails 启发的 Rust Web 框架,专为帮助开发者快速构建 Web 应用而设计。它结合了类似 Rails 的开发体验和 Rust 的高性能优势,支持 ORM 集成、后台任务、中间件(认证、日志、错误处理)、生成部署配置等功能,适用于开发个人项目和初创企业的 Web 应用。

GitHub 地址→github.com/loco-rs/loco

1.3 开箱即用的端口扫描工具:RustScan

主语言:RustStar:15k

这是一个用 Rust 开发的端口扫描工具,能够在 3 秒内扫描指定 IP 的所有端口。它提供了灵活的脚本引擎,支持 Python、Lua 和 Shell 脚本,开发者可以根据需求自定义脚本,实现个性化的扫描和处理逻辑。

GitHub 地址→github.com/RustScan/RustScan

1.4 实时更新的轻量级推荐系统:monolith

主语言:PythonStar:6.6k周增长:2.4k

该项目是字节跳动开源的一款轻量级推荐系统,旨在提升推荐系统的准确性和实时性。它基于 TensorFlow 构建,支持无冲突嵌入表(collisionless embedding tables)、批量和实时训练等功能,能够快速响应用户的行为变化,并及时更新模型,提升推荐效果。

GitHub 地址→github.com/bytedance/monolith

1.5 构建实时 AI 系统的 Python 框架:pathway

主语言:PythonStar:12k周增长:1.4k

这是一个专为流处理、实时分析、LLM 管道和 RAG 应用设计的 Python ETL 框架。它底层采用 Rust 引擎,具备高吞吐和低延迟的实时处理能力,同时提供简单易用的 Python API 和可视化监控面板,支持多种数据源、数据转换和持久化等功能。

GitHub 地址→github.com/pathwaycom/pathway

2. HelloGitHub 热评

在此章节中,我们将为大家介绍本周 HelloGitHub 网站上的热门开源项目,我们不仅希望您能从中收获开源神器和编程知识,更渴望“听”到您的声音。欢迎您与我们分享使用这些开源项目的亲身体验和评价,用最真实反馈为开源项目的作者注入动力。

2.1 相见恨晚的 Python 项目打包工具:pex

主语言:Python

这是一个开源的 Python 项目打包工具,专为跨环境部署和无法访问公网的部署场景设计。它能够将 Python 项目及其所有依赖,甚至是 Python 解释器(可选),打包成单个可执行文件(.pex),让开发者无需安装运行环境,即可直接运行 Python 程序,支持 Linux 和 macOS 系统。

项目详情→hellogithub.com/repository/5c47cbf587f448fd8c4106436b3de8e3

2.2 一键部署完整的家庭多媒体中心:docker-xiaoya

主语言:Shell

该项目提供了一键部署 Alist、Emby 和 Jellyfin 服务的解决方案,帮你轻松构建完整的家庭多媒体中心,支持 Linux、macOS、Windows 等平台。

项目详情→hellogithub.com/repository/c0360e74337e448b852ab96ea4382a62

3. 结尾

以上就是本期「GitHub 热点速览」的全部内容,希望这些开源项目能激发你的兴趣,成为你下一个值得尝试的工具!如果你有其他好玩、有趣的 GitHub 开源项目想要分享,欢迎来 HelloGitHub 与我们交流和讨论。

往期回顾

零门槛的向量数据库「GitHub 热点速览」的更多相关文章

  1. 碉堡!“万物皆可分”标记模型上线「GitHub 热点速览」

    这周有个让人眼前一亮的图像识别模型 segment-anything,它能精细地框出所有可见物体,它标记出的物体边界线清晰可见.如此出色的模型,自然获得了不少人的赞赏,开源没几天,就拿下了 18k+ ...

  2. 如何让程序更健壮「GitHub 热点速览」

    对于 ML 模型训练而言,好的数据集能让结果更健壮,cleanlab 是一个降低数据噪音,及时帮你修正数据集错误的工具.好的工具能让你的结果更完美.同样的,RedTeam-Tools 提高了渗透测试的 ...

  3. 一款能“干掉” ChatGPT 的应用「GitHub 热点速览」

    据说有了它,ChatGPT 就可以靠边站了.因为 Auto-GPT 能更加主动地完成你给他的指定任务,不用做更多的人为干涉,它的推理能力比 ChatGPT 更强,有人用它解放双手做了个 React 网 ...

  4. 朋友圈那串神秘字符背后的开源项目「GitHub 热点速览」

    ​如果你这周没刷到类似 "npub1sg6plzptd64u62a878hep2kev88swjh3tw00gjsfl8f237..." 的一串字符,那就说明本期 GitHub T ...

  5. 真·生产力「GitHub 热点速览」

    这些工具真的能极大提高生产力,节约你的时间来自(摸)我(鱼)增(划)值(水).先别提 style2paints,你给它随意画个草图,就能给你一个能交付给甲方爸爸的成品插画.如果提升 30%-40% 传 ...

  6. AI 能多强「GitHub 热点速览」

    不知道 AI 在你那边是什么样的具象,在我这就是各种搞图:从给线稿图上色,到直接给你生成一张小色图,AI 最近是真出风头,本周热点速览也收录了 2 个 AI 项目,也和图像有关.还有一个和 AI 相关 ...

  7. 你的梦想家居「GitHub 热点速览」

    上周推荐的 ChatGPT 版小爱,不知道有哪些小伙伴回去尝试接入了呢?本周依旧由 2 个不错的 ChatGPT 延伸项目,一个是比 DeepL.Grammarly 更懂你的划词翻译 openai-t ...

  8. 穷人版生产力工具,好用得飞起 「GitHub 热点速览」

    被 GPT 和 OpenAI 刷屏了一个多月,现在 GitHub Trending 已经没有什么和 gpt 无关的项目了,但是好在总有优秀的开源项目拯救我的项目疲惫.像是贴心好用的反向代理 pgrok ...

  9. Python 霸榜的一周,又有什么新 AI 力作呢?「GitHub 热点速览」

    GPT 带火了一波语言模型,LLaMA 和 Alpaca 也在持续发力.依旧是各类 GPT 后缀霸榜 GitHub trending 的一周,为此特推部分专门收录了两个比较不错的 GPT 应用.而作为 ...

  10. 开源不到 48 小时获 35k star 的推荐算法「GitHub 热点速览」

    本周的热点除了 GPT 各类衍生品之外,还多了一个被马斯克预告过.在愚人节开源出来的推特推荐算法,开源不到 2 天就有了 35k+ 的 star,有意思的是,除了推荐算法本身之外,阅读源码的工程师们甚 ...

随机推荐

  1. 『玩转Streamlit』--页面布局

    一个优秀的数据应用不仅仅是功能的强大,更在于其用户体验的打造. 而良好的页面布局,作为用户体验的重要组成部分,不仅能够提升信息的可读性,还能引导用户高效地完成操作. 反之,混乱的布局会让人感到困惑和挫 ...

  2. 改变mysql默认字符集为utf8

    问题:在使用mysql时,使用php插入数据库.查询数据库信息会出现乱码 解决:修改mysql配置文件,在其配置文件中加入一下代码 init_connect='SET collation_connec ...

  3. 微信小程序目录结构

    一.小程序框架 微信开放平台--小程序框架介绍 小程序的目录结构很清晰,主要由描述整体内容的app和描述具体页面的page组成.一般来说,习惯对小程序的目录结构进行更加清晰的规划,例如将程序种会用到的 ...

  4. 基于Java+SpringBoot+Mysql实现的快递柜寄取快递系统功能实现七

    一.前言介绍: 1.1 项目摘要 随着电子商务的迅猛发展和城市化进程的加快,快递业务量呈现出爆炸式增长的趋势.传统的快递寄取方式,如人工配送和定点领取,已经无法满足现代社会的快速.便捷需求.这些问题不 ...

  5. 题解:CF1015D Walking Between Houses

    题解:CF1015D Walking Between Houses 算法 模拟,分类讨论 分析 首先,设每步走的距离为 \(t_i\),我们发现 \(t_i\) 应是满足 \(1\le t_i\le ...

  6. IPC最新发行了新标准:IPC-A-610J, IPC-J-STD-001J, IPC-7711/21D, IPC-2221C

    IPC最新发行了新标准:IPC-A-610J, IPC-J-STD-001J, IPC-7711/21D, IPC-2221C     2024年伊始,IPC又更新了一些新的标准,大家可以及时去更新了 ...

  7. Java ScheduledThreadPoolExecutor延迟或周期性执行任务

    ImportNew注: 本文由新浪微博:@小飞侠_thor投稿至ImportNew.感谢@小飞侠_thor ! 如果你希望分享好的原创文章或者译文,欢迎投稿到ImportNew. Java提供的Tim ...

  8. Winform Tab增加关闭标签页

    Winform的Tab控件,有新增有移除,但是呢,缺了一个标签页上的关闭按钮,这个东西说重要也重要,说不重要也不重要. 这里就说一下怎么添加这玩意. 这玩意需要重绘tab控件,所以我们需要处理Draw ...

  9. 使用 wireshark 捕获 请求包

    1.出错场景 今天遇到一个问题,在用户登录时,发现用户在登录的时候,一个用户登录正常,一个用户登录报错,报错的原因时400错误,分析对比发现一个用户的分配用户组多,一个分配的少,其中多的那个出错了. ...

  10. k8s 实战 3----副本集

    副本集是什么?我们在前文中讲过什么是pod,简单来说pod就是k8s直接操作的基本单位.不了解的同学可以参考前文: k8s 实战 1 ---- 初识 (https://www.cnblogs.com/ ...