我第一个开源AI小产品-video2blog即将正式发布
前言
首先它是为了解决我自己的个人问题。不管能不能帮到你,或者对于看到的你是否有点利用价值,也没太大的关系,最起码你可以来看看我开发小产品的整个过程。
一段时间以来,我开始通过youtube平台来获取一些知识,或者打发早晚上下班坐地铁的时间。主要是我早晚通勤时间过长,差不多都是一个小时吧,单纯的刷刷什么某音、某红的真真的浪费了大量的时间,所以我选择了youtube平台。我在 youtube 看视频时,觉得有点用的信息我会截个图,方便回头查找关键字,尤其是看技术类的视频。但有时候虽然截图了,但是前后是有关联的,关联的地方当时又没截图,但是隐约的也记不起前后文的联系了,于是尴尬了,就只能重新翻看这个视频了。因为我遇到过好多次了,而且比较浪费时间。
于是就有了video2blog。
video2blog的开发历程
通过视频链接结合AI的能力,将整个视频转换为一篇图文笔记或者图文博客。图文最大的好处就是方便我自己回看,就像小时候我们自己的错题笔记。

从3月底附近我就在琢磨我这个小产品了,但当时的思路还没有打开,但是脑海中已经有了初步的设想。从那时起代码就已经开始了,因为要开发一个pc的客户端,也有很多的技术没有使用过,需要投入时间去研究一番。说真的还是有点小兴致,毕竟是解决自己的痛点的。

刚好4月初跟随清明节一起请了三天假,玩完回来状态也非常的nice,那一周真的是疯狂的码码查bug,也慢慢的有了上图的自我感觉的清晰思路。
目前按照上图基本上跑通了。但是很多功能还非常不完善或者还没有加进来。比如视频通过whisper来转字幕目前通过python实验成功,但没加入到项目中,再比如对接AI的字幕转长文功能也没真正落地。这些都可以通过其他的工具来实现,所以暂时就先搁置一下,解决我觉得更重要的问题了。

我只能说一周的时间真的太短了,因为平常还有别的项目在搞,上班的时候只能抽点时间来看看查查问题,优化下思路等等,更多的时候也在思考吧。有几天真的也不太想上班了。

每周实现的功能也不多,但紧紧把把的能基本按照自己的预想在走,有时候一天的问题解决不了,我就担心这进度要慢了,明天得抓紧时间了。

这里我之前也在3月底的时候留过记录。我自己的期待也是争取5月底能有一个比较好的版本出来。就是提前尽量给自己做好计划目标,哪怕没完成,没达到预期,也能在自己复盘的时候找到问题,或者能总结出一些经验教训。
现状

通过这个图便可以简单的看到我整个小产品的流程走向,其实现在看来流程清晰,思路也是比较简单粗暴的。
当然了也有其他更好的使用模式。这里暂时针对我自己算是现阶段对我来说是一个比较好的模式选择了。
我的小产品现阶段借助外部的AI工具是可以走通的。比如可以借助Whisper模型进行语音转文字,或者直接通过它来翻译。
如果有字幕,字幕刚好是英文,也可以通过AI工具进行翻译为中文。翻译为中文后,再通过AI工具转换为文章或者叫笔记。
转换为文章的时候对prompt是有要求的,转换的时候要添加上目录,并且在目录上添加上视频中的时间区间,这样方便我根据时间区间来获取图片并去除重复的图片,然后选择插入到文章中。
最后
现在预发布这个小产品也算是对我自己,这一个多月时间的阶段性总结。也是对我自己的一个小小的挑战。因为从来也没有进行过对外发布一个属于自己的小产品,这也算是一次小小的尝试。
很多时候有了想法,那就去做做试试看吧,也许其中有非常多的困难,但是只有去做了才知道,这些个小困难在一天天的排解中,慢慢的也不算是个什么困难了。
也许这个小产品并不是很完美,但最起码我自己能够慢慢的用起来了。
如果你觉得小工具还有点意思,便可以提前来玩一下看看。如果有什么问题,也可以随时联系我。
目前支持window和mac,在我自己的电脑上安装尝试都没有问题的。当然可能会有兼容性的问题,毕竟第一次尝试搞一个跨平台的客户端。

我创建了一个video2blog的微信群。
可以关注我的公众号:那个曾经的少年回来了
然后后台发送消息: video2blog。
由于项目还没真正的成型发布,所以暂时就不将开源地址放出来了。因为暂时也是堆叠功能代码,主要以实现功能为主。争取5月底正式发布第一个完整的版本。
最后如果产品思路对你有价值,你也可以快速复刻一个。
我第一个开源AI小产品-video2blog即将正式发布的更多相关文章
- 使用 Egg + Vue 的第一个线上小产品——远程工作职位信息收集站点 yuancheng.works
小插曲 开始很纠结,买了一个 yuancheng.works 域名会不会冒犯到 yuancheng.work 站长. 还在群里咨询了 @Phodal 等前辈.重新搞一个新域名,yuancheng.wo ...
- 我的第一个开源项目-logger4Net
学会学习,学会分享,学会创造. 这我的第一个开源项目.以前总觉得开源离自己很远,但通过不断学习发现,其实自己已经走在这条路上.思想就在那,只要懂得学习,懂得分享,就会懂享受创造的快乐感与殷实感. 没做 ...
- 全球第一免费开源ERP Odoo Ubuntu最佳开发环境独家首发分享
起源 近年来随着国内的互联网经济的快速腾飞,诞生了很多开源软件创造的市场价值以及企业价值神话,特别是对于企业ERP领域,一直以来都是高昂的国内外产品充实,国内的中小成长型企业越来越需要一套好看又能打, ...
- AI 也开源:50 大开源 AI 项目 (转)
这些开源AI项目专注于机器学习.深度学习.神经网络及其他应用场合. 自IT界早期以来,研制出能像人类那样“思考”的机器一直是研究人员的一大目标.在过去几年,计算机科学家们在人工智能(AI)领域已取得了 ...
- 腾讯云AI应用产品总监王磊:AI 在传统产业的最佳实践
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:5月23-24日,以"焕启"为主题的腾讯"云+未来"峰会在广州召开,广东省各级政府机构领导.海 ...
- 计蒜之道 百度AI小课堂-上升子序列
计蒜之道 百度AI小课堂-上升子序列 题目描述 给一个长度为 \(n\) 的数组 \(a\) .试将其划分为两个严格上升子序列,并使其长度差最小. 输入格式 输入包含多组数据. 数据的第一行为一个正整 ...
- 成本降低40%、资源利用率提高20%的 AI 应用产品云原生容器化之路
作者 郭云龙,腾讯云高级工程师,目前就职于 CSIG 云产品三部-AI 应用产品中心,现负责中心后台业务框架开发. 导语 为了满足 AI 能力在公有云 SaaS 场景下,服务和模型需要快速迭代交付的需 ...
- 最新版本 Stable Diffusion 开源 AI 绘画工具之使用篇
目录 界面参数 采样器 文生图(txt2img) 图生图(img2img) 模型下载 界面参数 在使用 Stable Diffusion 开源 AI 绘画之前,需要了解一下绘画的界面和一些参数的意义 ...
- Facebook 开源 AI 所使用的硬件平台 'Big Sur'
Facebook 开源 AI 所使用的硬件平台 'Big Sur' Facebook 今开源其 AI 所使用的硬件平台 'Big Sur'.'Big Sur' 是兼容开放机架的 GPU 加速硬件平台. ...
- 我的第一个开源控件-DragGridView
我的第一个开源控件出炉了,希望各个小伙伴给个star,支持下.项目地址 1. 前言 因为项目须要,要做一个相似腾讯视频.频道管理.拖拽排序的效果.这个控件是在原地址 之上改造出来的.先看下效果图. 1 ...
随机推荐
- Dockerfile 时区设置(MacOs有效)
# 设置时区RUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtimeRUN echo 'Asia/Shanghai' >/etc/t ...
- NPM包管理器
一.简介 1.NPM全称Node Package Manager,是Node.js包管理工具,是全球最大的模块生态系统,里面所有的模块都是开源免费的:也是Node.js的包管理工具,相当于Maven. ...
- 英语文档之vivado界面
vivado英文界面 一.界面内容 图中就是vivado常用的界面. 二.常用窗口 首先是左侧的project manager:IP INTEGRATOR(IP 集成器),simulation(仿真) ...
- KingbaseES V8R3集群运维案例之---failover故障处理
案例说明: 此案例,为KingbaseES V8R3集群failover切换时,通用的故障处理方式.通过对failover.log和recovery.log日志的解读,让大家了解KingbaseE ...
- 开源相机管理库Aravis学习(一)——安装
目录 前言 Aravis简介 依赖关系说明 安装过程 meson安装 aravis源文件下载 构建和安装aravis 视频查看器 安装过程中遇到的问题 meson版本过低 CMake版本过低 缺少GS ...
- markdown 常用表情符号 (github emoji)
markdown 常用表情(emoji) 官网[非笔者维护,仅做引用] Face Smiling 咧嘴笑 grinning 汗颜笑 sweat_smile 爆笑 rofl 眨眼笑 wink innoc ...
- [Unity3D] 使用LineRenderer实现尾迹与虚线效果
Unity3D 使用LineRenderer绘制尾迹与虚线 1.添加LineRenderer组件 先创建一个3D对象,然后点击Add Component选项 搜索并添加LineRenderer组件 添 ...
- #动态规划#CF889E Mod Mod Mod
题目传送门 分析 这道题有一个很妙的地方就是将一段前缀整体一起做. 设 \(dp[i][j]\) 表示\(x\) 被前 \(i\) 个数取模后答案最大,并且 \(j\) 为取得此答案的最大值 最后再对 ...
- 30分钟成为Contributor|共建测试子系统,赋能提升项目代码质量
如何优雅地参与开源贡献,向顶级开源项目提交 PR(Pull Request),跟着大咖30分钟成为OpenAtom OpenHarmony(以下简称"OpenHarmony") C ...
- Linux获取摄像头VID,PID的两种方式
第一种方式,是直接查询设备的vid.pid文件,来获取vid,pid 第二种方式,是查询设备信息,自己去解析对应的vid和pid 正常情况下,第一种方式就可以了,但是今天遇到一个ARM架构的kylin ...