大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,可能力提升那叫一个大!

在Aider评测里,它是排名第二的非推理模型,仅次于Claude-3.7-Sonnet(no thinking),好多外国网友都惊掉了下巴,直呼不可思议。

现在,大家在不少地方都能用上DeepSeek-V3-0324。官方那边,在DeepSeek官方网页、APP和小程序,关闭深度思考就能用,API接口和使用方式跟以前一样。第三方平台里,Cline、POE等也都支持,估计后续还会有更多。

最近,我对DeepSeek-V3、DeepSeek-V3-0324,还有Claude-3.5-Sonnet、Claude-3.7-Sonnet的编码能力做了多维度实测,接下来就给大家详细讲讲。

一、意图识别测试

我先给模型们下达“创建电商登录页面”的指令,就想看看它们对这种模糊需求的理解能力咋样。

用Doubao-1.5-pro模型和DeepSeek-V3-0324来对比。

Doubao-1.5-pro表现

代码区

效果

DeepSeek-V3-0324表现

代码区

效果区

DeepSeek-V3-0324表现亮眼,给出的页面几乎涵盖了登录页面的最佳实践,显然更强!

二、UI审美测试

以往,除了Doubao-1.5-pro,其他模型的UI审美都不太在线。我就给它们出了两道题,分别是“帮我写一个拟态风格的天气卡片”和“帮我写一个孟菲斯风格的天气卡片”。

Doubao-1.5-pro效果

DeepSeek-V3-0324效果

从用户视角出发,在拟态风格天气卡片测试里,DeepSeek-V3-0324和Doubao-1.5-pro表现不相上下。而在孟菲斯风格天气卡片测试中,DeepSeek-V3-0324对提示词的遵循度最高,最符合要求。

三、多种编程语言测试

前面测试用的都是HTML语言,这次我选了JS和Python两种编程语言。让模型们用p5.js写一个脚本,实现三个不同颜色的小球在球体内做不规则运动,且小球不能超过球体。

Doubao-1.5-pro效果

DeepSeek-V3-0324效果

结果只有DeepSeek-V3-0324和Doubao-1.5-pro满足要求,Doubao-1.5-pro生成的页面小球不会动。

四、长上下文测试

我还给模型们布置了一项大任务,让它们以全栈工程师的身份,开发一个“冥想”iOS App,输出一套完整的APP原型图。DeepSeek-V3-0324一次对话就能生成800+行代码,还真把所有内容整合到一个html文件里展示交互。

Doubao-1.5-pro效果

DeepSeek-V3-0324效果

一番测试下来,DeepSeek-V3-0324相比Doubao-1.5-pro,编程能力有了质的飞跃,在前端场景代码生成上,真的很不错,但在非推理模型里,它是最接近Claude-3.7-Sonnet的。我现在就盼着DeepSeek能进一步提升多模态能力,要是图片识别功能再增强,肯定能帮更多人入门AI编程。这2个月过去,DeepSeek又制造了新的“Deepseek时刻”!

多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!的更多相关文章

  1. PowerDesigner软件建立新模型。

      打开PowerDesigner软件,选择菜单文件->建立新模型,或者敲击键盘ctrl+N   弹出建立新模型窗口,模型类型选择Object-Oriented Model,图选择Class D ...

  2. dedecms添加新模型

    dedecms虽然预设了一些常见网页的功能模型,但是如果需要新的功能则需要自己创建,dedecms也提供了创建新模型的功能,如下: 1.打开后台首页=>核心=>内容模型管理 2.添加新模型 ...

  3. 仅用200个样本就能得到当前最佳结果:手写字符识别新模型TextCaps

    由于深度学习近期取得的进展,手写字符识别任务对一些主流语言来说已然不是什么难题了.但是对于一些训练样本较少的非主流语言来说,这仍是一个挑战性问题.为此,本文提出新模型TextCaps,它每类仅用200 ...

  4. 支持 gRPC 长链接,深度解读 Nacos 2.0 架构设计及新模型

    支持 gRPC 长链接,深度解读 Nacos 2.0 架构设计及新模型 原创 杨翊(席翁) 阿里巴巴云原生 2020-12-28    

  5. Java网络编程和NIO详解3:IO模型与Java网络编程模型

    Java网络编程和NIO详解3:IO模型与Java网络编程模型 基本概念说明 用户空间与内核空间 现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32 ...

  6. 1+1>2:MIT&IBM提出结合符号主义和连接主义的高效、准确新模型

    自人工智能的概念提出以来,关于符号主义和连接主义的争论就不绝于耳.究竟哪一种方式可以实现更好的人工智能?这一问题目前还没有定论.深度学习的快速发展让我们看到连接主义在构建 AI 系统中的优势,但其劣势 ...

  7. opencart 添加新模型

    1,修改模板页,复制category_list.tpl,category_form.tpl,修改成新的名称. category_list.tpl是列出页面,category_form.tpl是添加和修 ...

  8. Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...

  9. JavaScript取消默认控件并添加新控件(DOM编程艺术第11章)

    这一章实现的这个功能我研究了好久,这个思路我感觉已经是现在的我要膜拜的了,我感觉我的逻辑还是有些问题. 第一个问题:vid.height与vid.videoHeight vid.height = vi ...

  10. web Servlet 3.0 新特性之web模块化编程,web-fragment.xml编写及打jar包

    web Servlet 3.0 模块化 原本一个web应用的任何配置都需要在web.xml中进行,因此会使得web.xml变得很混乱,而且灵活性差,因此Servlet 3.0可以将每个Servlet. ...

随机推荐

  1. .NET 9 new features-分布式追踪支持、HTTP/3 改进以及更好的容器镜像支持

    .NET 9 针对云原生开发进行了显著优化,重点改进了分布式追踪.HTTP/3 支持和容器镜像优化等方面. 这些特性极大地提升了 .NET 在现代云原生应用中的适配性与开发效率. 1. 设计原理 1. ...

  2. ASP.NET Core - 日志记录系统(二)

    本篇接着上一篇 [ASP.NET Core - 日志记录系统(一)] 往下讲,所以目录不是从 1 开始的. 2.4 日志提供程序 2.4.1 内置日志提供程序 ASP.NET Core 包括以下日志记 ...

  3. ABC 386 (A~F)

    赛时做的,结果一直在卡D题.打得很失败的一场. ABC 略. D 题意可以转化为:给定\(m\)个黑色或白色的格子,其中: 每个黑色格子和\((1,1)\)作为对角线顶点,构成一个黑色矩形 每个白色格 ...

  4. 从v-for的key说起

    一.v-for中的key是为什么存在呢? 这是vue官网给key的定义,key主要用于vue的虚拟dom算法.新的问题出现了,vue的虚拟dom算法是什么? 二.虚拟domg算法 我们的程序在运行时, ...

  5. A note on the calculation of some functions in finite fields: Tricks of the Trade解读

    本节对该paper进行解读,记录笔记. 经常见到的是在素域\(F_p\)上计算的,尤其是双线性对出现后,在扩域\(F_{p^m}\)上计效率就需要优化了.该论文主要总结了一些在有限域上进行某些计算(求 ...

  6. C++:异常处理

    C++的异常处理机制是由三部分组成:检查(try).抛出(throw)和捕获(catch).需要检查的语句放到try中:throw用来当出现异常时发出一个异常信息:catch用来捕获异常信息,且处理它 ...

  7. oracle goldengate for downstreams 配置--for 数据库参数配置和ogg进程参数配置

    1.整体数据库配置三个源端和一个downstream下游抽取数据库配置:alter system set enable_goldengate_replication=TRUE;Alter databa ...

  8. CSP 初赛要点复习

    位运算 逻辑与.按位与之类的东西是不同的!"逻辑"的是判断两个数都不为 \(0\),"按位"的是判断两个数的每一个二进制位与的结果,是不同的.其他运算也类似. ...

  9. SaaS+AI应用架构:业务场景、智能体、大模型、知识库、传统工具系统

    大家好,我是汤师爷~ 在SaaS与AI应用的演进过程中,合理的架构设计至关重要.本节将详细介绍其五个核心层次: 业务场景层:发现和确定业务场景 智能体层:构建可复用的智能应用 大模型层:采用最合适的大 ...

  10. 使用Appflowy+AppflowyCloud搭建自己的笔记系统(个人知识库)-开篇

    为什么需要自己的知识库(笔记)系统? 首先,第一点是数据隐私的担忧.因为个人笔记中包含很多内容,比如图片.代码.个人想法,甚至账号信息.我希望这些内容能部署在自己的电脑或自己的数据中心,这样数据就不容 ...