AI 艺术工具通讯
创刊号
AI 领域的发展速度令人惊叹,回想一年前我们还在为生成正确手指数量的人像而苦苦挣扎的场景,恍如隔世 。
过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及,然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具,并展望 2025 年的发展趋势 (剧透预警 : 我们将启动月度资讯精选的订阅)。
2024 重大发布
2024 年哪些创意 AI 工具最引人注目?我们将重点盘点艺术创作领域的重要发布,特别关注文生图、视频生成等热门任务中的开源进展。
图像生成
自初代 Stable Diffusion 掀起开源文生图浪潮已逾两年,如今在文本到图像生成、图像编辑和可控生成领域,开源模型已能与闭源产品分庭抗礼。
文生图
2024 年见证了扩散模型的范式转变——从传统 U-Net 架构转向扩散 Transformer (DiT),同时目标函数也进化为流匹配 (flow matching)。
技术速览: 扩散模型与 高斯 流匹配本质相通。流匹配通过不同的向量场参数化方式,为网络输出提供了新视角。
- 推荐阅读 Google DeepMind 的技术博客,深入了解流匹配与扩散模型的关联。
实践进展: Stability AI 率先推出 Stable Diffusion 3,而 腾讯混元 DiT 则成为首个开源的 DiT 架构模型。后续 AuraFlow、Flux.1 和 Stable Diffusion 3.5 延续了这一趋势。
在开源图像生成模型的里程碑中,Flux.1 的发布堪称革命性。该模型在多项基准测试中超越 Midjourney v6.0、DALL·E 3 (HD) 等闭源模型,刷新了开源模型的性能纪录。
个性化与风格化
图像模型的进步带动了个性化生成技术的飞跃。2022 年 8 月,Textual Inversion 和 DreamBooth 等开创性工作实现了 向文生图模型注入概念,极大扩展了应用边界。这些技术催生了 LoRA 等改进方案,推动个性化生成进入新阶段。
然而,微调模型的质量受限于基础模型性能。Stable Diffusion XL (SDXL) 的发布为开源个性化生成树立新标杆,当前多数个性化方案仍基于 SDXL 架构。随着对扩散模型各组件语义角色的深入理解,我们不禁思考: 能否实现不进行额外繁琐优化的高质量生成?
Zero-shot 技术风暴来袭 ——2024 年见证了仅需 单张参考图 即可生成高质量人像的技术突破。IP-Adapter FaceID、InstantID、PhotoMaker 等免训练方案展现出媲美微调模型的实力。
图像编辑与可控生成 (如边缘/深度/姿态控制) 也取得长足进步,这既得益于基础模型的发展,也源于社区对模型组件的深入理解 (Instant Style、B-LoRA)。
未来展望: 尽管 DiT 架构模型 (如 Flux、SD3.5) 已开始探索个性化的应用,但对 DiT 组件语义角色的理解尚不及 U-Net 深入。2025 年或将揭开 DiT 的组件奥秘,释放新一代图像模型的全部潜能。
视频生成
相较图像生成,视频生成仍任重道远。但必须承认,我们已取得显著进步。OpenAI 的 Sora 极大提升了行业预期,正如 fofr 在 《AI 视频正迎来 Stable Diffusion 时刻》 中所言——它让人们看到了可能性。
近期开源视频模型的爆发 (CogVideoX、Mochi、Allegro、LTX Video、混元视频) 同样值得关注。视频生成面临画面动作是否自然、前后画面是否流畅、人物外观是否保持一致等多重挑战,加之计算资源需求巨大,导致生成延迟较高。尽管内存优化和量化技术可缓解硬件压力,但往往会影响生成的质量。尽管如此,开源社区仍在持续突破,最新进展可参阅 开源视频生成模型现状。
虽然多数用户仍难以本地运行视频模型,但这也预示着 2025 年将迎来更大突破。
音频生成
音频生成在过去一年突飞猛进,从制作简单的声音效果到创作完整的歌曲都取得了很大进步。尽管面临信号复杂度高、训练数据稀缺等挑战,2024 年仍涌现 OuteTTS、IndicParlerTTS 等开源语音合成模型,以及 OpenAI 的 Whisper large v3 turbo 语音识别模型。2025 年开年即迎来 Kokoro、LLasa TTS、OuteTTS 0.3 等语音模型,以及 JASCO、YuE 音乐模型的集中发布,预示着音频领域将迎来爆发年。
右侧歌曲由 YuE 生成,点击试听。
2024 闪耀创意工具
开源之美在于集社区之力探索模型新可能。本年度众多创意工具正是这种协作精神的结晶:
Flux fine-tuning
ostris 开发的 AI 工具包 助力社区创作出惊艳的 Flux 微调模型。
Face to All
受 face-to-many 启发,Face to All 将爆款模型 Instant ID 与深度 ControlNet、社区微调的 SDXL LoRA 结合,实现免训练的高质量风格化人像生成。
Flux 风格塑形
基于 Nathan Shipley 的 ComfyUI 工作流,Flux 风格塑形 通过融合 Flux [dev] Redux 与 Depth 模型,实现风格迁移与视错觉创作。
智能图像外扩
Diffusers Image Outpaint 利用 SDXL Fill Pipeline 与联合 ControlNet,实现无缝图像外扩。
动态人像
Live Portrait 与 Face Poke 让静态人像瞬间动起来。
TRELLIS 3D 引擎
TRELLIS 以惊艳效果重塑 3D 生成格局,支持多样化高质量资产创建。
IC Light
IC-Light 通过前景条件实现智能光影重构。
2025 年 AI 艺术趋势展望
2025 年将是开源社区在视频、动态与音频模型领域迎头赶上的一年。随着高效计算与量化技术的突破,开源视频模型有望实现跨越式发展。当图像生成进入自然平台期,我们的目光将转向多模态创新。
强势开局: 2025 年 1 月开源新作
- YuE 音乐生成模型
Apache 2.0 协议开源的 YuE 在音乐生成质量上比肩 Suno 等闭源产品,在线体验。
- 3D 生成三剑客
继 TRELLIS 之后,混元 3D-2、SPAR3D、DiffSplat 持续革新 3D 生成领域。
- Lumina-Image 2.0
这款 20 亿参数的 文生图模型 以 Apache 2.0 协议开源,性能比肩 80 亿参数的 Flux.1,在线体验。
- ComfyUI 转 Gradio 指南
这份 教程 详细介绍了如何将复杂 ComfyUI 工作流转换为 Gradio 应用,并免费部署于 Hugging Face Spaces。
开启资讯新时代 ️
从本期开始,我们 (Poli 与 Linoy) 将每月为您精选创意 AI 领域最新动态。在这个快速迭代的领域,我们愿做您的信息顾问,让创意工具触手可及。
英文原文: https://huggingface.co/blog/ai-art-newsletter-jan-25
原文作者: Linoy Tsaban, Apolinário from multimodal AI art
译者: yaoqih
AI 艺术工具通讯的更多相关文章
- 一键上手时下最火AI作画工具
摘要:在华为云ModelArts上, 无需考虑计算资源.环境的搭建,就算不懂代码,也能按照教程案例,通过Stable Diffusion成为艺术大师. 本文分享自华为云社区<跟着华为云Model ...
- 微软Connect(); 2017大会梳理:Azure、数据、AI开发工具
在今天召开的 Connect(); 2017 开发者大会上,微软宣布了 Azure.数据.AI 开发工具的内容.这是第一天的 Connect(); 2017 的主题演讲. 在开场视频中霍金又来了.你记 ...
- Azure、数据、AI开发工具
Azure.数据.AI开发工具 在今天召开的 Connect(); 2017 开发者大会上,微软宣布了 Azure.数据.AI 开发工具的内容.这是第一天的 Connect(); 2017 的主题演讲 ...
- AI测试101:测试AI系统的实用技巧&ML和AI自动化工具
基于人工智能的系统,也称为神经网络(NN Neural Networks),和其他应用程序一样是 "系统",因此需要测试.本文将指导你测试AI和基于NN的系统,并理解相关概念. 测 ...
- 你给文字描述,AI艺术作画,精美无比!附源码,快来试试!
作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 TensorFlow 实战系列:https://www.showmeai ...
- 医学图像分割-在3DSlicer中使用英伟达的AI辅助工具NvidiaAIAssistedAnnotation自动切割医学图像教程
前期准备 下载3DSlicer并安装: 3DSlicer官网(http://www.slicer.org)或者直接下载(https://download.slicer.org),需要注意目前该插件只支 ...
- 在矩池云使用Disco Diffusion生成AI艺术图
在 Disco Diffusion 官方说明的第一段,其对自身是这样定义: AI Image generating technique called CLIP-Guided Diffusion.DD ...
- AI通过了艺术创作图灵测试,你根本分不出来作者是不是人
各位geek朋友们,今年不用再看画了:近年来最大的艺术成就已经发生了. 这项艺术成就的诞生地,不是北京.新加坡.柏林郊区颜料四溅的画室中,不是威尼斯双年展上.请记住它出现的地点:美国新泽西州新布朗斯维 ...
- 打工人都在用的AI工具(第一期)
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 随着ChatGPT的问世,AI也算迎来了高光时刻!下文是技术宅整理的一些和ChatGPT相关的工具应用, ...
- 打工人都在用的AI工具(第二期)
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 上周更新的打工人都在用的AI工具(第一期)收到了小伙伴们的高度好评,于是很多小伙伴们急急忙忙的催更,技术 ...
随机推荐
- 2024 盘古石数据取证 服务器部分wp
1. 分析内部IM服务器检材,在搭建的内部即时通讯平台中,客户端与服务器的通讯端口是:[答案格式:8888][★☆☆☆☆] 8065 2. 分析内部IM服务器检材,该内部IM平台使用的数据库版本是: ...
- Java并发 —— 线程并发(二)
Java 锁 Java 中的锁是在多线程环境下,保证共享资源健康,线程安全的一种手段 线程操作某个共享资源之前,先对资源加一层锁,保证操作期间没有其他线程访问资源,操作完成后再释放锁 保持数据一致 ...
- 基于 .NET 的 Nuget 发版工具
背景 由于 Natasha 及周边项目发版任务多,文件结构也不简单,之前一直使用基于 Github 管道脚本和 XUnit 来发版.这个方案对于发版环境与条件依赖性较强,且不够灵活,因此萌生出做一个本 ...
- ECShop开源商城与COS互通:降低本地存储负载、提升访问体验
ECShop简介 ECShop是一款开源电子商务平台,具有简单易用.安全稳定.模块化设计等特点.它提供了完整的电子商务解决方案,包括商品管理.订单管理.支付管理.配送管理.会员管理.促销管理.数据统计 ...
- 开源数字人直播DH_live web整合包免训练使用教程
资源导航首页 项目地址 基于开源项目:DH_live做的web交互系统 主要实现:免训练数字人视频制作和实时语音数字人 可搭配一些直播场控软件的语音 驱动数字人进行直播 整合包下载 「数字人( ...
- Qt音视频开发13-mpv录像存储
一.前言 用mpv来做录像存储,保存视频文件,从来都没有如此的方便,直接设置属性stream-record对应的文件路径即可,我的乖乖,一行代码,如此精简美丽大方,搞得我都不敢相信自己的眼睛,mpv除 ...
- ASP.NET Core 中的速率限制中间件的使用
简介 在ASP.NET Core中,速率限制中间件是用来控制客户端对Web API或MVC应用程序发出请求的速率,以防止服务器过载和提高安全性. 下面是 AddRateLimiter 的一些基本用法: ...
- 编译Sophus报错: error: implicitly-declared 的参考解决方法
一.问题描述 自己在编译Sophus时遇到如下错误: /home/wong/Datum/third_party/Sophus-1.0.0-template/Sophus-1.0.0/test/core ...
- [转]BeanUtils.copyProperties使用总结以及注意事项
1.前言开发过程中,讲一个对象的属性和值赋值到另一个对象上,大量使用了get.set方法,看着很臃肿,思考下肯定不只有我有这种想法,所以技术上肯定有方法能解决这个问题,所以查阅了一些资料发现了Bean ...
- Dynaimc CRM查找字段自定义过滤视图
实现方式参考官方文档提供的Xrm.Page.getControl(arg).addCustomView(viewId, entityName, viewDisplayName, fetchXml, l ...