date: 2024/01/08

这个网站用可视化的方式讲解概率和统计基础知识,很多内容还是可交互的,非常生动形象。

大家好,欢迎收看第五期机器学习周刊

本期介绍7个内容,涉及Python、概率统计、机器学习、大模型等,目录如下:

  • 一个离谱的Python库
  • 看见概率,看见统计
  • 2024机器学习最强文档
  • Gradio
  • 顶级程序员如何使用LLM
  • TinyLlama
  • 微软宣布利用大型语言模型改进文本嵌入

1、一个离谱的Python库

地址:https://www.visidata.org/docs/

pip3 install visidata

VisiData是一款免费的开源工具,可让您在计算机终端中快速打开、探索、汇总和分析数据集。VisiData 可处理 CSV 文件、Excel 电子表格、SQL 数据库和许多其他数据源。

界面如下所示:

甚至还能在命令行中做可视化,酷是真酷,就是看了半天不清楚有什么使用场景。

2、看见概率,看见统计

地址:https://seeing-theory.brown.edu/basic-probability/cn.html

这个网站用可视化的方式讲解概率和统计基础知识,很多内容还是可交互的,非常生动形象。

章节目录如下:

  • 基础概率论
  • 进阶概率论
  • 概率分布
  • 统计推断:频率学派
  • 统计推断:贝叶斯学派
  • 回归分析

3、2024机器学习最强文档

地址:https://huggingface.co/tasks

HuggingFace这个页面我愿称之为机器学习最强文档,囊括了各种机器学习任务,比如表格数据预测、NLP、机器视觉、音频、多模态、强化学习等任务所需的全部内容(演示、用例、模型、数据集等等)

4、G

地址:https://www.gradio.app/

Gradio是一个可以快速部署机器学习应用的开源项目,我用它做过很多小工具。如果你第一次听说gradio,强烈建议赶快用起来。最近它更新到了4.13版,完美兼容Python 3.12 。

5、Redis 之父的最新文章

地址:http://antirez.com/news/140

翻译:https://blog.zhanglearning.com/posts/2024年初的LLMs与编程/

Redis 作者写了篇文章,非常详细地分享他在工作中使用 LLM 编程的体验,我们可以一窥顶级程序员是如何使用大模型的。这篇文章很我让ChatGPT提取了摘要,用Claude-2-100K完成了翻译,我没有做校对:

  • 在2023年,人工智能尤其是可以在设备上本地使用的LLMs取得了显著的进步,作者广泛利用这项技术来加速他的编程能力。
  • 起初,作者主要使用LLMs来处理文档和避免在编程中的无聊/不感兴趣的部分。然而,随着时间的推移,他学会了何时使用LLMs最有帮助,以及何时它们可能会减慢他的速度。
  • LLMs在推理和插值方面的能力有限,它们不能超越它们被训练的内容。虽然它们不能替代人类程序员,但如果适当使用,它们可以是有用的辅助工具。
  • 作者提供了几个例子,展示了LLMs如何帮助他更快地编写代码,例如在框架之间切换、用一种不熟悉的语言编程,或分析他不完全理解的网络输出时。
  • 当任务虽然无聊但对作者的目标有用时,LLMs也适用于编写一次性/临时脚本。
  • 系统编程需要更强的推理能力,这通常是LLMs所缺乏的。作者提供了一个例子,其中LLMs在提供相关代码时,仍然难以解释一个低级别的数据格式。
  • 总之,LLMs最好被用作程序员的辅助工具而不是替代品。有了经验,人们可以学习如何以及何时有效地利用它们来处理不同的编程任务。但它们的能力仍然有限,并且可能不会扩展到所有领域,比如系统编程。

6、TinyLlama

模型地址:https://huggingface.co/TinyLlama

TinyLlama 发布1.0版本,1.1B 参数,基于3万亿 tokens 训练,与 LLaMa 2 完全相同的架构和分词器,

从他们的Github能看到完整的训练过程。

7、微软宣布利用大型语言模型改进文本嵌入

论文: https://arxiv.org/pdf/2401.00368.pdf

最后推荐一篇微软最近发布的论文,介绍了一种新颖且简单的方法,该方法不需要构建复杂的训练管道或依赖于手动收集的数据集,仅使用合成数据和少于 1k 的训练步骤即可获得高质量的文本嵌入。

机器学习周刊第五期:一个离谱的数据可视化Python库、可交互式动画学概率统计、机器学习最全文档、快速部署机器学习应用的开源项目、Redis 之父的最新文章的更多相关文章

  1. 一个交互式可视化Python库——Bokeh

    本篇为<Python数据可视化实战>第十篇文章,我们一起学习一个交互式可视化Python库--Bokeh. Bokeh基础 Bokeh是一个专门针对Web浏览器的呈现功能的交互式可视化Py ...

  2. 机器学习——logistic回归,鸢尾花数据集预测,数据可视化

    0.鸢尾花数据集 鸢尾花数据集作为入门经典数据集.Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理.Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集.数据集包含150个数 ...

  3. 第五篇:R语言数据可视化之散点图

    散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制 ...

  4. 使用 Sealos 在 3 分钟内快速部署一个生产级别的 Kubernetes 高可用集群

    本文首发于:微信公众号「运维之美」,公众号 ID:Hi-Linux. 「运维之美」是一个有情怀.有态度,专注于 Linux 运维相关技术文章分享的公众号.公众号致力于为广大运维工作者分享各类技术文章和 ...

  5. 2016年GitHub排名前20的Python机器学习开源项目(转)

    当今时代,开源是创新和技术快速发展的核心.本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们 ...

  6. 有趣的开源项目集结完毕,HelloGitHub 月刊第 63 期发布啦!

    兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 分享 GitHub 上有趣.入门级的开源项目. 这里有实战项目.入门教程.黑科技.开源书籍.大厂开源项目等,涵盖多种编程语言 Pyt ...

  7. 使用 js 实现一个简易版的 drag & drop 库

    使用 js 实现一个简易版的 drag & drop 库 具有挑战性的前端面试题 H5 DnD js refs https://www.infoq.cn/article/0NUjpxGrqRX ...

  8. 想要快速上手 Spring Boot?看这些教程就足够了!| 码云周刊第 81 期

    原文:https://blog.gitee.com/2018/08/19/weekly-81/ 想要快速上手 Spring Boot?看这些教程就足够了!| 码云周刊第 81 期 码云周刊 | 201 ...

  9. PoPo数据可视化周刊第2期

    羡辙在bilibili开课啦 就在这个月,不知道是不是受了 @Jannchie见齐 的影响,羡辙竟然在bilibili开授Echarts课程,目前已开课两节. [滚城一团]的 ECharts 训练营 ...

  10. PaperWeekly 第五期------从Word2Vec到FastText

    PaperWeekly 第五期------从Word2Vec到FastText 张俊 10 个月前 引 Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小.形形色色的D ...

随机推荐

  1. WebViewJavascriptBridge.js代码学习

    //notation: js file can only use this kind of comments //since comments will cause error when use in ...

  2. Android 使用 ContentProvider 简单操作数据库

    ContentProvider 可以用来原生读写 Android 自带的数据库 SQLite. 使用 Studio 创建一个 ContentProvider, 名字叫 TestContentProvi ...

  3. 【Javaweb】servlet一

    什么是servlet 1.servlet是JavaEE规范之一,规范就是接口. 2.servlet是Javaweb三大组件之一.三大组件分别是:servlet程序.filter过滤器.listener ...

  4. 公司oa是什么?一般公司oa有什么样功能?

    公司OA(Office Automation)是指通过计算机和信息技术来实现办公自动化的系统. 它提供了一系列的功能和工具,用于协调.管理和处理公司内部的日常事务和流程.OA系统旨在提高工作效率.加强 ...

  5. Echarts图表基本参数设置说明

    ECharts 是一款强大的数据可视化库,可以通过 JavaScript 构建交互式和动态的图表.在使用 ECharts 进行图表绘制时,我们可以通过设置各种参数来达到我们想要的效果.下面是对 ECh ...

  6. STM32一个定时器输出四路不同频率和占空比PWM波的方法

    一般来说,一个定时器输出4路频率相同.占空比不同的PWM波是比较容易的,使用PWM模式即可实现.如果说是输出4路频率不同.占空比不同的PWM就没有现成的模式,是不是无法实现了呢?答案肯定是" ...

  7. IP的电源管脚

    IP的电源管脚是个特殊的存在. 1.对于前度RTL集成,需要和IP vendor以及后端确认,集成与综合时是否需要将电源DVDD,AVDD,引出到top层. 2.绝大部分情况下IP的电源PIN是sup ...

  8. MyBatisPlus简介

    MyBatisPlus特性 国内的一个网站 网站地址简介 | MyBatis-Plus (baomidou.com)

  9. c语言指针数组和数组指针

    1 #include<stdio.h> 2 #include<iostream> 3 using namespace std; 4 int main(){ 5 int a[2] ...

  10. LIS和LCS算法分析

    LIS(最长上升子序列) 常规的解法就是动态规划. mx[ j ]表示长度为j的上升子序列最小的值a[i]; dp[ i ]表示前i个数的最长上升子序列长度多少. 1 for(int i=1;i< ...