多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!
大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,可能力提升那叫一个大!
在Aider评测里,它是排名第二的非推理模型,仅次于Claude-3.7-Sonnet(no thinking),好多外国网友都惊掉了下巴,直呼不可思议。
现在,大家在不少地方都能用上DeepSeek-V3-0324。官方那边,在DeepSeek官方网页、APP和小程序,关闭深度思考就能用,API接口和使用方式跟以前一样。第三方平台里,Cline、POE等也都支持,估计后续还会有更多。
最近,我对DeepSeek-V3、DeepSeek-V3-0324,还有Claude-3.5-Sonnet、Claude-3.7-Sonnet的编码能力做了多维度实测,接下来就给大家详细讲讲。
一、意图识别测试
我先给模型们下达“创建电商登录页面”的指令,就想看看它们对这种模糊需求的理解能力咋样。
用Doubao-1.5-pro模型和DeepSeek-V3-0324来对比。
Doubao-1.5-pro表现
代码区
效果
DeepSeek-V3-0324表现
代码区
效果区
DeepSeek-V3-0324表现亮眼,给出的页面几乎涵盖了登录页面的最佳实践,显然更强!
二、UI审美测试
以往,除了Doubao-1.5-pro,其他模型的UI审美都不太在线。我就给它们出了两道题,分别是“帮我写一个拟态风格的天气卡片”和“帮我写一个孟菲斯风格的天气卡片”。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
从用户视角出发,在拟态风格天气卡片测试里,DeepSeek-V3-0324和Doubao-1.5-pro表现不相上下。而在孟菲斯风格天气卡片测试中,DeepSeek-V3-0324对提示词的遵循度最高,最符合要求。
三、多种编程语言测试
前面测试用的都是HTML语言,这次我选了JS和Python两种编程语言。让模型们用p5.js写一个脚本,实现三个不同颜色的小球在球体内做不规则运动,且小球不能超过球体。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
结果只有DeepSeek-V3-0324和Doubao-1.5-pro满足要求,Doubao-1.5-pro生成的页面小球不会动。
四、长上下文测试
我还给模型们布置了一项大任务,让它们以全栈工程师的身份,开发一个“冥想”iOS App,输出一套完整的APP原型图。DeepSeek-V3-0324一次对话就能生成800+行代码,还真把所有内容整合到一个html文件里展示交互。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
一番测试下来,DeepSeek-V3-0324相比Doubao-1.5-pro,编程能力有了质的飞跃,在前端场景代码生成上,真的很不错,但在非推理模型里,它是最接近Claude-3.7-Sonnet的。我现在就盼着DeepSeek能进一步提升多模态能力,要是图片识别功能再增强,肯定能帮更多人入门AI编程。这2个月过去,DeepSeek又制造了新的“Deepseek时刻”!
多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!的更多相关文章
- PowerDesigner软件建立新模型。
打开PowerDesigner软件,选择菜单文件->建立新模型,或者敲击键盘ctrl+N 弹出建立新模型窗口,模型类型选择Object-Oriented Model,图选择Class D ...
- dedecms添加新模型
dedecms虽然预设了一些常见网页的功能模型,但是如果需要新的功能则需要自己创建,dedecms也提供了创建新模型的功能,如下: 1.打开后台首页=>核心=>内容模型管理 2.添加新模型 ...
- 仅用200个样本就能得到当前最佳结果:手写字符识别新模型TextCaps
由于深度学习近期取得的进展,手写字符识别任务对一些主流语言来说已然不是什么难题了.但是对于一些训练样本较少的非主流语言来说,这仍是一个挑战性问题.为此,本文提出新模型TextCaps,它每类仅用200 ...
- 支持 gRPC 长链接,深度解读 Nacos 2.0 架构设计及新模型
支持 gRPC 长链接,深度解读 Nacos 2.0 架构设计及新模型 原创 杨翊(席翁) 阿里巴巴云原生 2020-12-28
- Java网络编程和NIO详解3:IO模型与Java网络编程模型
Java网络编程和NIO详解3:IO模型与Java网络编程模型 基本概念说明 用户空间与内核空间 现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32 ...
- 1+1>2:MIT&IBM提出结合符号主义和连接主义的高效、准确新模型
自人工智能的概念提出以来,关于符号主义和连接主义的争论就不绝于耳.究竟哪一种方式可以实现更好的人工智能?这一问题目前还没有定论.深度学习的快速发展让我们看到连接主义在构建 AI 系统中的优势,但其劣势 ...
- opencart 添加新模型
1,修改模板页,复制category_list.tpl,category_form.tpl,修改成新的名称. category_list.tpl是列出页面,category_form.tpl是添加和修 ...
- Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
- JavaScript取消默认控件并添加新控件(DOM编程艺术第11章)
这一章实现的这个功能我研究了好久,这个思路我感觉已经是现在的我要膜拜的了,我感觉我的逻辑还是有些问题. 第一个问题:vid.height与vid.videoHeight vid.height = vi ...
- web Servlet 3.0 新特性之web模块化编程,web-fragment.xml编写及打jar包
web Servlet 3.0 模块化 原本一个web应用的任何配置都需要在web.xml中进行,因此会使得web.xml变得很混乱,而且灵活性差,因此Servlet 3.0可以将每个Servlet. ...
随机推荐
- .NET 9 new features-分布式追踪支持、HTTP/3 改进以及更好的容器镜像支持
.NET 9 针对云原生开发进行了显著优化,重点改进了分布式追踪.HTTP/3 支持和容器镜像优化等方面. 这些特性极大地提升了 .NET 在现代云原生应用中的适配性与开发效率. 1. 设计原理 1. ...
- ASP.NET Core - 日志记录系统(二)
本篇接着上一篇 [ASP.NET Core - 日志记录系统(一)] 往下讲,所以目录不是从 1 开始的. 2.4 日志提供程序 2.4.1 内置日志提供程序 ASP.NET Core 包括以下日志记 ...
- ABC 386 (A~F)
赛时做的,结果一直在卡D题.打得很失败的一场. ABC 略. D 题意可以转化为:给定\(m\)个黑色或白色的格子,其中: 每个黑色格子和\((1,1)\)作为对角线顶点,构成一个黑色矩形 每个白色格 ...
- 从v-for的key说起
一.v-for中的key是为什么存在呢? 这是vue官网给key的定义,key主要用于vue的虚拟dom算法.新的问题出现了,vue的虚拟dom算法是什么? 二.虚拟domg算法 我们的程序在运行时, ...
- A note on the calculation of some functions in finite fields: Tricks of the Trade解读
本节对该paper进行解读,记录笔记. 经常见到的是在素域\(F_p\)上计算的,尤其是双线性对出现后,在扩域\(F_{p^m}\)上计效率就需要优化了.该论文主要总结了一些在有限域上进行某些计算(求 ...
- C++:异常处理
C++的异常处理机制是由三部分组成:检查(try).抛出(throw)和捕获(catch).需要检查的语句放到try中:throw用来当出现异常时发出一个异常信息:catch用来捕获异常信息,且处理它 ...
- oracle goldengate for downstreams 配置--for 数据库参数配置和ogg进程参数配置
1.整体数据库配置三个源端和一个downstream下游抽取数据库配置:alter system set enable_goldengate_replication=TRUE;Alter databa ...
- CSP 初赛要点复习
位运算 逻辑与.按位与之类的东西是不同的!"逻辑"的是判断两个数都不为 \(0\),"按位"的是判断两个数的每一个二进制位与的结果,是不同的.其他运算也类似. ...
- SaaS+AI应用架构:业务场景、智能体、大模型、知识库、传统工具系统
大家好,我是汤师爷~ 在SaaS与AI应用的演进过程中,合理的架构设计至关重要.本节将详细介绍其五个核心层次: 业务场景层:发现和确定业务场景 智能体层:构建可复用的智能应用 大模型层:采用最合适的大 ...
- 使用Appflowy+AppflowyCloud搭建自己的笔记系统(个人知识库)-开篇
为什么需要自己的知识库(笔记)系统? 首先,第一点是数据隐私的担忧.因为个人笔记中包含很多内容,比如图片.代码.个人想法,甚至账号信息.我希望这些内容能部署在自己的电脑或自己的数据中心,这样数据就不容 ...