创刊号

AI 领域的发展速度令人惊叹,回想一年前我们还在为生成正确手指数量的人像而苦苦挣扎的场景,恍如隔世 。

过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及,然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具,并展望 2025 年的发展趋势 (剧透预警 : 我们将启动月度资讯精选的订阅)。

2024 重大发布

2024 年哪些创意 AI 工具最引人注目?我们将重点盘点艺术创作领域的重要发布,特别关注文生图、视频生成等热门任务中的开源进展。

图像生成

自初代 Stable Diffusion 掀起开源文生图浪潮已逾两年,如今在文本到图像生成、图像编辑和可控生成领域,开源模型已能与闭源产品分庭抗礼。

文生图

2024 年见证了扩散模型的范式转变——从传统 U-Net 架构转向扩散 Transformer (DiT),同时目标函数也进化为流匹配 (flow matching)。

技术速览: 扩散模型与 高斯 流匹配本质相通。流匹配通过不同的向量场参数化方式,为网络输出提供了新视角。

实践进展: Stability AI 率先推出 Stable Diffusion 3,而 腾讯混元 DiT 则成为首个开源的 DiT 架构模型。后续 AuraFlowFlux.1Stable Diffusion 3.5 延续了这一趋势。

在开源图像生成模型的里程碑中,Flux.1 的发布堪称革命性。该模型在多项基准测试中超越 Midjourney v6.0、DALL·E 3 (HD) 等闭源模型,刷新了开源模型的性能纪录。

个性化与风格化

图像模型的进步带动了个性化生成技术的飞跃。2022 年 8 月,Textual InversionDreamBooth 等开创性工作实现了 向文生图模型注入概念,极大扩展了应用边界。这些技术催生了 LoRA 等改进方案,推动个性化生成进入新阶段。

然而,微调模型的质量受限于基础模型性能。Stable Diffusion XL (SDXL) 的发布为开源个性化生成树立新标杆,当前多数个性化方案仍基于 SDXL 架构。随着对扩散模型各组件语义角色的深入理解,我们不禁思考: 能否实现不进行额外繁琐优化的高质量生成?

Zero-shot 技术风暴来袭 ——2024 年见证了仅需 单张参考图 即可生成高质量人像的技术突破。IP-Adapter FaceIDInstantIDPhotoMaker 等免训练方案展现出媲美微调模型的实力。

图像编辑与可控生成 (如边缘/深度/姿态控制) 也取得长足进步,这既得益于基础模型的发展,也源于社区对模型组件的深入理解 (Instant StyleB-LoRA)。

未来展望: 尽管 DiT 架构模型 (如 Flux、SD3.5) 已开始探索个性化的应用,但对 DiT 组件语义角色的理解尚不及 U-Net 深入。2025 年或将揭开 DiT 的组件奥秘,释放新一代图像模型的全部潜能。

视频生成

相较图像生成,视频生成仍任重道远。但必须承认,我们已取得显著进步。OpenAI 的 Sora 极大提升了行业预期,正如 fofr 在 《AI 视频正迎来 Stable Diffusion 时刻》 中所言——它让人们看到了可能性。

近期开源视频模型的爆发 (CogVideoXMochiAllegroLTX Video混元视频) 同样值得关注。视频生成面临画面动作是否自然、前后画面是否流畅、人物外观是否保持一致等多重挑战,加之计算资源需求巨大,导致生成延迟较高。尽管内存优化和量化技术可缓解硬件压力,但往往会影响生成的质量。尽管如此,开源社区仍在持续突破,最新进展可参阅 开源视频生成模型现状

虽然多数用户仍难以本地运行视频模型,但这也预示着 2025 年将迎来更大突破。

音频生成

音频生成在过去一年突飞猛进,从制作简单的声音效果到创作完整的歌曲都取得了很大进步。尽管面临信号复杂度高、训练数据稀缺等挑战,2024 年仍涌现 OuteTTSIndicParlerTTS 等开源语音合成模型,以及 OpenAI 的 Whisper large v3 turbo 语音识别模型。2025 年开年即迎来 KokoroLLasa TTSOuteTTS 0.3 等语音模型,以及 JASCOYuE 音乐模型的集中发布,预示着音频领域将迎来爆发年。

右侧歌曲由 YuE 生成,点击试听

2024 闪耀创意工具

开源之美在于集社区之力探索模型新可能。本年度众多创意工具正是这种协作精神的结晶:

Flux fine-tuning

ostris 开发的 AI 工具包 助力社区创作出惊艳的 Flux 微调模型

Face to All

face-to-many 启发,Face to All 将爆款模型 Instant ID 与深度 ControlNet、社区微调的 SDXL LoRA 结合,实现免训练的高质量风格化人像生成。

Flux 风格塑形

基于 Nathan Shipley 的 ComfyUI 工作流,Flux 风格塑形 通过融合 Flux [dev] Redux 与 Depth 模型,实现风格迁移与视错觉创作。

智能图像外扩

Diffusers Image Outpaint 利用 SDXL Fill Pipeline 与联合 ControlNet,实现无缝图像外扩。

动态人像

Live PortraitFace Poke 让静态人像瞬间动起来。

TRELLIS 3D 引擎

TRELLIS 以惊艳效果重塑 3D 生成格局,支持多样化高质量资产创建。

IC Light

IC-Light 通过前景条件实现智能光影重构。

2025 年 AI 艺术趋势展望

2025 年将是开源社区在视频、动态与音频模型领域迎头赶上的一年。随着高效计算与量化技术的突破,开源视频模型有望实现跨越式发展。当图像生成进入自然平台期,我们的目光将转向多模态创新。

强势开局: 2025 年 1 月开源新作

  1. YuE 音乐生成模型

Apache 2.0 协议开源的 YuE 在音乐生成质量上比肩 Suno 等闭源产品,在线体验

  1. 3D 生成三剑客

继 TRELLIS 之后,混元 3D-2SPAR3DDiffSplat 持续革新 3D 生成领域。

  1. Lumina-Image 2.0

这款 20 亿参数的 文生图模型 以 Apache 2.0 协议开源,性能比肩 80 亿参数的 Flux.1,在线体验

  1. ComfyUI 转 Gradio 指南

这份 教程 详细介绍了如何将复杂 ComfyUI 工作流转换为 Gradio 应用,并免费部署于 Hugging Face Spaces。

开启资讯新时代 ️

从本期开始,我们 (PoliLinoy) 将每月为您精选创意 AI 领域最新动态。在这个快速迭代的领域,我们愿做您的信息顾问,让创意工具触手可及。


英文原文: https://huggingface.co/blog/ai-art-newsletter-jan-25

原文作者: Linoy Tsaban, Apolinário from multimodal AI art

译者: yaoqih

AI 艺术工具通讯的更多相关文章

  1. 一键上手时下最火AI作画工具

    摘要:在华为云ModelArts上, 无需考虑计算资源.环境的搭建,就算不懂代码,也能按照教程案例,通过Stable Diffusion成为艺术大师. 本文分享自华为云社区<跟着华为云Model ...

  2. 微软Connect(); 2017大会梳理:Azure、数据、AI开发工具

    在今天召开的 Connect(); 2017 开发者大会上,微软宣布了 Azure.数据.AI 开发工具的内容.这是第一天的 Connect(); 2017 的主题演讲. 在开场视频中霍金又来了.你记 ...

  3. Azure、数据、AI开发工具

    Azure.数据.AI开发工具 在今天召开的 Connect(); 2017 开发者大会上,微软宣布了 Azure.数据.AI 开发工具的内容.这是第一天的 Connect(); 2017 的主题演讲 ...

  4. AI测试101:测试AI系统的实用技巧&ML和AI自动化工具

    基于人工智能的系统,也称为神经网络(NN Neural Networks),和其他应用程序一样是 "系统",因此需要测试.本文将指导你测试AI和基于NN的系统,并理解相关概念. 测 ...

  5. 你给文字描述,AI艺术作画,精美无比!附源码,快来试试!

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 TensorFlow 实战系列:https://www.showmeai ...

  6. 医学图像分割-在3DSlicer中使用英伟达的AI辅助工具NvidiaAIAssistedAnnotation自动切割医学图像教程

    前期准备 下载3DSlicer并安装: 3DSlicer官网(http://www.slicer.org)或者直接下载(https://download.slicer.org),需要注意目前该插件只支 ...

  7. 在矩池云使用Disco Diffusion生成AI艺术图

    在 Disco Diffusion 官方说明的第一段,其对自身是这样定义: AI Image generating technique called CLIP-Guided Diffusion.DD ...

  8. AI通过了艺术创作图灵测试,你根本分不出来作者是不是人

    各位geek朋友们,今年不用再看画了:近年来最大的艺术成就已经发生了. 这项艺术成就的诞生地,不是北京.新加坡.柏林郊区颜料四溅的画室中,不是威尼斯双年展上.请记住它出现的地点:美国新泽西州新布朗斯维 ...

  9. 打工人都在用的AI工具(第一期)

    更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 随着ChatGPT的问世,AI也算迎来了高光时刻!下文是技术宅整理的一些和ChatGPT相关的工具应用, ...

  10. 打工人都在用的AI工具(第二期)

    更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 上周更新的打工人都在用的AI工具(第一期)收到了小伙伴们的高度好评,于是很多小伙伴们急急忙忙的催更,技术 ...

随机推荐

  1. 拿到小米 Offer,却迷茫了。。

    大家好,我是程序员鱼皮,12 月了,很多小伙伴也拿到了秋招的 Offer(没拿到也不要灰心),但即使拿到 Offer,可能还会有一些其他的顾虑.今天分享我们编程导航一位鱼友的提问,给大家作为学习成长的 ...

  2. docker安装配置redis

    ​ 安装redis docker pull redis 配置数据路径 mkdir -p /home/redis/data docker启动 docker run -d -v /home/redis/d ...

  3. tar/zip命令加密压缩

    回到顶部 场景 Centos6下使用加密压缩,可以从A机器到B机器解压. 可用在kali上解压就不行. 回到顶部 命令 解包 tar zxvf FileName.tar 打包 tar czvf Fil ...

  4. 硬件开发笔记(三十二):TPS54331电源设计(五):原理图BOM表导出、元器件封装核对

    前言   一个12V转5V.3.3V和4V的电源电路设计好了,下一步导出BOM表,二次核对元器件型号封装,这是可以生产前的最后一步了.   导出BOM表 步骤一:打开原理图   打开项目,双击点开原理 ...

  5. UML之属性与参数的多重性

    在UML中,多重性是指一个条目潜在的数量范围.多重性可被用于属性.操作参数.关联关系.UML元模型也使用多重性对元模型元素之间的关系进行约束.多重性总是包含基数值,它是相关条目在现实世界中的确切数量. ...

  6. Error:java: 无效的源发行版: 11

    问题描述: 昨天下载 ali 的一个 demo.本地 idea 编译的时候报错. Error:java: 无效的源发行版: 11 具体原因: 项目的 jdk (Project SDK)版本 和项目的语 ...

  7. JDK 19 Virtual Threads 虚拟线程

    前言 Project Loom Loom 是什么? 为什么要引入 Loom? Virtual threads Platform thread 是什么? Virtual thread 是什么? Virt ...

  8. CDS标准视图:会计员 I_AccountingClerk

    视图名称:会计员 I_AccountingClerk 视图类型:基础 视图代码: 点击查看代码 @AbapCatalog: { sqlViewName: 'IFIACCCLERK', // compi ...

  9. weixueyuan-Nginx核心配置指令2

    https://www.weixueyuan.net/nginx/config/ Nginx配置文件详解 Nginx 默认编译安装后,配置文件都会保存在 /usr/local/nginx/conf 目 ...

  10. 0101-win10 jkd配置注意事项

    更换新的电脑预装win10家庭版,根据常规方法配置jdk8后运行javac提示:不是内部或外部命令,也不是可运行的程序或批处理文件. 1 设置变量classpath时前面有个点(完成这一步后javac ...