qwen2.5coder发布之后，觉得差不多可以实现离线模型辅助编程了，所以尝试在公司内网部署模型，配合vsocde插件continue实现代码提示、聊天功能。

目前使用qwen2.5coder的32b模型，体验上和gpt-4o差不多（都稀碎），适用于编写脚本，查一些简单问题，例如flask如何把变量传到前端，准确率还可以，但是补全功能稀碎。

硬件如下：

cpu	gpu	内存
AMD Ryzen 9 5950X 16核	AMD Radeon TX 6900XT（需要安装最新驱动）/16G显存直接吃满	64G 2600Mhz/实际吃30G内存

跑起来不算快，和我阅读速度差不多，对这套硬件来说挺吃力的。GPU没怎么跑，似乎主要是cpu在发力吃到60%占用率

部署ollama

安装ollama客户端 && 选择模型

首先去Download Ollama on Windows下载ollama的windows版本，安装包非常大，基本上700-800M

在有网络的电脑上安装，然后在Ollama这里找到需要的模型，例如这里我选择qwen2.5code的0.5b模型

点击第二个箭头Tags可以选择不同的量化版本，然后复制第三个箭头的指令

按下Win+R快捷键，运行cmd，执行复制的命令，比如这里是ollama run qwen2.5-coder:0.5b

没有魔法的情况下可能会失败，一般情况下多试几次，最差可能需要几十次才能开始下载

找到模型文件及Modelfile内容

搜索pull的时候的哈希字符，可以找到模型位置，一般在C:\Users\Administrator\.ollama\models\blobs

按照时间排序，找到最大的那个文件，就是gguf格式的模型，复制出来，改名为qwen2.5-coder0.5b.gguf

在命令行执行形如ollama show qwen2.5-coder:0.5b --modelfile的指令，可以得到模型的Modelfile文件内容，保存为Modelfile文件

现在有以下两个文件

其中，文件内容是默认提示词模板，可参考模型文件参考 - Ollama 中文文档进行修改，例如可以实现让llama3.3优先使用中文，这个可以通过在其中加入请优先使用简体中文回复，这样的字符实现，最好使用翻译软件翻译成英文再放进去（比如插入到第13行）

修改第五行的FROM，将模型路径修改为模型的真实路径，例如这里是./qwen2.5-coder0.5b.gguf

内网部署ollama

在没有网络的内网电脑中安装第一步下载的ollama安装包
复制上面准备的两个文件到内网

在两个文件所在目录的地址栏输入cmd，按下回车

命令行中输入ollama create qwen2.5-coder0.5b -f Modelfile，其中create后面是你自定义的模型名字（推荐和外网保持一样）

这样就导入进来了，接下来的使用和外网一模一样，输入ollama list命令可以看到导入的模型

默认情况下ollama会开机启动，如果没有启动，手动执行就行，右下角的托盘图表中应该有它

配置continue

本地使用

Releases · continuedev/continue这里下载到最新的continue插件，复制到内网，在vscode中安装，可参考VS Code 安装 VSIX 插件_.vsix-CSDN博客

现在，就可以使用模型了

局域网共享

如果项目组中只有一台电脑能运行模型，别的性能不够，需要局域网访问ollama，那么可以按照如下方式调整

ollama

默认它的服务监听127.0.0.1:11434端口，这会导致局域网其他机器访问不到，可以参考Allow listening on all local interfaces · Issue #703 · ollama/ollama实现监听所有端口

简单来说，就是设定环境变量OLLAMA_HOST=0.0.0.0，windows上也是一样的，如下

然后重启ollama即可，通过netstat -ano | findstr 11434查看是否监听了0.0.0.0

continue

可参考：https://github.com/continuedev/continue/issues/1175#issuecomment-2081651169

简单来说，在远程主机上，把设置中的以下内容改为指定内容即可

    {

      "model": "AUTODETECT",

      "title": "Ollama (Remote)",

      "completionOptions": {},

      "apiBase": "http://192.168.1.100:11434",

      "provider": "ollama"

    }

其中apiBase就是部署了ollama的机器

[软件工具使用记录] windows离线ollama部署本地模型并配置continue实现离线代码补全的更多相关文章

Windows 10环境安装VIM代码补全插件YouCompleteMe
Windows 10环境安装VIM代码补全插件YouCompleteMe 折腾一周也没搞定Windows下安装VIM代码补全插件YouCompleteMe,今天在家折腾一天总算搞定了.关键问题是在于P ...
云服务器--linux系统操作命令以及安装ngnix记录，以及手动部署本地文件
1.控制台登陆服务器,需要首先知道服务器ip和密码,,命令是 ssh root@1.1.1.1(服务器IP),然后输入密码登入服务器 2.查看linux 版本的系统命令是 cat /etc/redha ...
windows下Django 部署到Apache24的配置
1.首先下载最新版Apachehttp://httpd.apache.org/download.cgi#apache24,目前官方以不提供windows msi安装包,下载好的直接解压至C盘即可,ap ...
LiteIDE 在 Windows 下为 Go 语言添加智能提示代码补全
本文以 Windows 7 64 位为环境,go1.4.2.windows-amd64 和 liteidex27.2.1.windows-qt5 为例. 成功搭建开发环境后,发现 LiteIDE 没有 ...
Eclipse+Tomcat实现热部署/热加载配置，修改java代码无需重启tomcat
一.Tomcat热加载配置 Eclipse Package Explorer中找到Servers,点击你所需要运行的tomcat的config配置文件,例如 demo-config,双击该文件夹下的s ...
在windows中python安装sit-packages路径位置在Pycharm中导入opencv不能自动代码补全问题
在Pycharm中导入opencv不能自动代码补全问题近期学习到计算机视觉库的相关知识,经过几个小时的探讨,终于解决了opencv不能自动补全代码的困惑, 我们使用pycharm安装配置可能会添加多 ...
windows下百度离线人脸识别本地部署与使用（nodejs做客户端，c++做服务端，socket做通信）
1.离线人脸识别本地部署详情请阅读百度人脸识别官网 2.nodejs做socket通信的客户端为什么不直接通过调用c++编译的exe获得人脸识别结果? 原因:exe运行时会加载很多模型而消耗很多时 ...
离线方式部署Ambari2.6.0.0
Hadoop生态圈-离线方式部署Ambari2.6.0.0 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我现在所在的公司用的是CDH管理Hadoop集群,前端时间去面试时发现很多 ...
Hadoop生态圈-离线方式部署Cloudera Manager5.15.1
Hadoop生态圈-离线方式部署Cloudera Manager5.15.1 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 到目前位置,Cloudera Manager和CDH最新 ...
Windows Server 2012部署第一台域控
windows server 2012在部署DC方面有了一些改变,不但在操作上有一些改变,而且有了新的DC克隆的功能.本文就先来体验一下如何将一台windows server 2012 RTM服务器提 ...

随机推荐

javascript语法--for in、for of和forEach
首先看简单for循环效果,功能最基本,但可以实现所有循环功能 for (let i = 0; i < list.length; i++) { } 接下来看for in.for of和forEac ...
在嵌入式设备中实现webrtc的第三种方式②
先贴上效果图以及操作路径. 操作路径为:启动信令服务器,配置浏览器关闭mDNS,双端登录,浏览器端邀请.最终连接成功建立,我们通过datachannel成功通信 (关闭mDNS是因为谷歌浏览器隐藏了局 ...
基于Java+SpringBoot+Mysql实现的古诗词平台功能设计与实现二
一.前言介绍: 1.1 项目摘要随着信息技术的迅猛发展和数字化时代的到来,传统文化与现代科技的融合已成为一种趋势.古诗词作为中华民族的文化瑰宝,具有深厚的历史底蕴和独特的艺术魅力.然而,在现代社会中 ...
js获取nginx服务器时间
前端页面js获取nginx服务器时间在实际开发中,我们通常要使用的是服务器端的时间,而不是本机电脑的时间,在js文件中直接通过new Date()获取的时间是本机电脑的系统时间,获取服务器时间的方法如 ...
youtube视频下载，youtube-dl
[]为选填,用的时候去掉[] 用pip装youtube-dl pip install -U youtube-dl [--proxy=127.0.0.1:7890] youtube-dl下载youtub ...
.NET周刊【11月第3期 2024-11-17】
国内文章 .NET 9使用Scalar替代Swagger https://www.cnblogs.com/netry/p/18543378/scalar-an-alternative-to-swagg ...
javascript正则获取a标签的href
js正则获取a标签的href let str = '<a href="https://www.test.com" >test</a>' let reg = ...
canvas绘制--圆角多边形
context.arcTo() arcTo() 方法在画布上创建介于两个切线之间的弧/曲线. JavaScript 语法: context.arcTo(x1,y1,x2,y2,r); 参数描述参数 ...
Linux下使用谷歌输入法
Linux的中文输入法一直太烂,scim终于出来对googlePinyin的支持了. 安装步骤: 1.安装scim: sudo apt-get install scim 2.从git上checkout ...
从PipedInputStream/PipedOutputStream谈起
本篇主要从分析PipeInputStrem和PipedOutputStream谈起.谈及软件设计的变化,以及如何将软件拆分.组合,适配-- 1 源代码分析下面将详细分析PipedInputStrea ...

[软件工具使用记录] windows离线ollama部署本地模型并配置continue实现离线代码补全