多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!
大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,可能力提升那叫一个大!
在Aider评测里,它是排名第二的非推理模型,仅次于Claude-3.7-Sonnet(no thinking),好多外国网友都惊掉了下巴,直呼不可思议。
现在,大家在不少地方都能用上DeepSeek-V3-0324。官方那边,在DeepSeek官方网页、APP和小程序,关闭深度思考就能用,API接口和使用方式跟以前一样。第三方平台里,Cline、POE等也都支持,估计后续还会有更多。
最近,我对DeepSeek-V3、DeepSeek-V3-0324,还有Claude-3.5-Sonnet、Claude-3.7-Sonnet的编码能力做了多维度实测,接下来就给大家详细讲讲。
一、意图识别测试
我先给模型们下达“创建电商登录页面”的指令,就想看看它们对这种模糊需求的理解能力咋样。
用Doubao-1.5-pro模型和DeepSeek-V3-0324来对比。
Doubao-1.5-pro表现
代码区
效果
DeepSeek-V3-0324表现
代码区
效果区
DeepSeek-V3-0324表现亮眼,给出的页面几乎涵盖了登录页面的最佳实践,显然更强!
二、UI审美测试
以往,除了Doubao-1.5-pro,其他模型的UI审美都不太在线。我就给它们出了两道题,分别是“帮我写一个拟态风格的天气卡片”和“帮我写一个孟菲斯风格的天气卡片”。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
从用户视角出发,在拟态风格天气卡片测试里,DeepSeek-V3-0324和Doubao-1.5-pro表现不相上下。而在孟菲斯风格天气卡片测试中,DeepSeek-V3-0324对提示词的遵循度最高,最符合要求。
三、多种编程语言测试
前面测试用的都是HTML语言,这次我选了JS和Python两种编程语言。让模型们用p5.js写一个脚本,实现三个不同颜色的小球在球体内做不规则运动,且小球不能超过球体。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
结果只有DeepSeek-V3-0324和Doubao-1.5-pro满足要求,Doubao-1.5-pro生成的页面小球不会动。
四、长上下文测试
我还给模型们布置了一项大任务,让它们以全栈工程师的身份,开发一个“冥想”iOS App,输出一套完整的APP原型图。DeepSeek-V3-0324一次对话就能生成800+行代码,还真把所有内容整合到一个html文件里展示交互。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
一番测试下来,DeepSeek-V3-0324相比Doubao-1.5-pro,编程能力有了质的飞跃,在前端场景代码生成上,真的很不错,但在非推理模型里,它是最接近Claude-3.7-Sonnet的。我现在就盼着DeepSeek能进一步提升多模态能力,要是图片识别功能再增强,肯定能帮更多人入门AI编程。这2个月过去,DeepSeek又制造了新的“Deepseek时刻”!
多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!的更多相关文章
- PowerDesigner软件建立新模型。
打开PowerDesigner软件,选择菜单文件->建立新模型,或者敲击键盘ctrl+N 弹出建立新模型窗口,模型类型选择Object-Oriented Model,图选择Class D ...
- dedecms添加新模型
dedecms虽然预设了一些常见网页的功能模型,但是如果需要新的功能则需要自己创建,dedecms也提供了创建新模型的功能,如下: 1.打开后台首页=>核心=>内容模型管理 2.添加新模型 ...
- 仅用200个样本就能得到当前最佳结果:手写字符识别新模型TextCaps
由于深度学习近期取得的进展,手写字符识别任务对一些主流语言来说已然不是什么难题了.但是对于一些训练样本较少的非主流语言来说,这仍是一个挑战性问题.为此,本文提出新模型TextCaps,它每类仅用200 ...
- 支持 gRPC 长链接,深度解读 Nacos 2.0 架构设计及新模型
支持 gRPC 长链接,深度解读 Nacos 2.0 架构设计及新模型 原创 杨翊(席翁) 阿里巴巴云原生 2020-12-28
- Java网络编程和NIO详解3:IO模型与Java网络编程模型
Java网络编程和NIO详解3:IO模型与Java网络编程模型 基本概念说明 用户空间与内核空间 现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32 ...
- 1+1>2:MIT&IBM提出结合符号主义和连接主义的高效、准确新模型
自人工智能的概念提出以来,关于符号主义和连接主义的争论就不绝于耳.究竟哪一种方式可以实现更好的人工智能?这一问题目前还没有定论.深度学习的快速发展让我们看到连接主义在构建 AI 系统中的优势,但其劣势 ...
- opencart 添加新模型
1,修改模板页,复制category_list.tpl,category_form.tpl,修改成新的名称. category_list.tpl是列出页面,category_form.tpl是添加和修 ...
- Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
- JavaScript取消默认控件并添加新控件(DOM编程艺术第11章)
这一章实现的这个功能我研究了好久,这个思路我感觉已经是现在的我要膜拜的了,我感觉我的逻辑还是有些问题. 第一个问题:vid.height与vid.videoHeight vid.height = vi ...
- web Servlet 3.0 新特性之web模块化编程,web-fragment.xml编写及打jar包
web Servlet 3.0 模块化 原本一个web应用的任何配置都需要在web.xml中进行,因此会使得web.xml变得很混乱,而且灵活性差,因此Servlet 3.0可以将每个Servlet. ...
随机推荐
- IM开发干货分享:万字长文,详解IM“消息“列表卡顿优化实践
本文由融云技术团队原创分享,原题"万字干货:IM "消息"列表卡顿优化实践",为使文章更好理解,内容有修订. 1.引言 随着移动互联网的普及,无论是IM开发者还 ...
- 百度高效研发实战训练营-Step3
.# 百度高效研发实战训练营-Step3 3.1 质量意识 关于本部分,将从以下几点进行介绍: 3.1.1 质量的基本概念 意识的树立,源于认识的提高. 首先介绍质量的基本概念,主要包括以下内容: 1 ...
- JMeter 采样器超详细教程
宝子们,今天咱就来好好唠唠 JMeter 里那些厉害的采样器,让你轻松拿捏性能测试和接口测试! 一.采样器大集合 先给宝子们来个采样器的 "全家福",让你们心里有个底: HTTP ...
- KeyDB-键值存储
KeyDB项目是从redis fork出来的分支.众所周知redis是一个单线程的kv内存存储系统,而KeyDB在100%兼容redis API的情况下将redis改造成多线程. 多线程架构 线程模型 ...
- linux:搭建 WordPress 个人站点
参考:链接 介绍 WordPress 是一款使用 PHP 语言开发的博客平台,您可使用通过 WordPress 搭建属于个人的博客平台.本文以 CentOS 6.5 操作系统为例,手动搭建 WordP ...
- WAIC 2024,好city啊!
7月4日,"以共商促共享•以善治促善智"为主题的2024世界人工智能大会暨人工智能全球治理高/级别会议(简称"WAIC 2024")在上海举办.天翼云携智算创新 ...
- 打造有效安全闭环,天翼云MDR来了!
随着网络攻-防对抗形势愈演愈烈,传统的安全防护模式已难以应对频率暴增.昼夜不停的网络安全攻-击,提升组织安全防护能力势在必行.事实上,一些单位在网络安全建设工作中经验不足,在安全组件/设备采购方面大量 ...
- 服务器主机:复杂理论的视角与SEO策略
本文分享自天翼云开发者社区<服务器主机:复杂理论的视角与SEO策略>,作者:不知不觉 在数字世界的演变中,服务器主机在信息存储和数据处理方面发挥着核心作用.本文将带你重新认识服务器主机的价 ...
- MySql执行Sql语句时出现“MySqlException: Parameter ‘@maxNo‘ must be defined.”的错误
1.问题描述 具体执行的SQL和报错的信息如下图所示: 2.解决办法 连接字符串中增加Allow User Variables=True;的配置即可,如下所示: Server=192.168.2.1; ...
- Linux systemd服务
Linux systemd服务 systemctl命令 systemctl是systemd的主命令,用于管理系统和服务.以下是一些常用的systemctl命令: 查看服务状态:systemctl st ...