手把手教你蜂鸟e203协处理器的扩展
NICE协处理器
赛题要求:
对蜂鸟E203 RISC-V内核进行运算算子(譬如加解密算法、浮点运算、矢量运算等)的扩展,可通过NICE协处理器接口进行添加,也可直接实现RISC-V指令子集(譬如P扩展、F/D扩展、V扩展、B扩展、K扩展等)
对于采用NICE协处理器接口进行的扩展实现,需要在蜂鸟软件开发平台HBird SDK中进行相关软件驱动的添加
实现思路:
- 1.硬件设计,编写相应的verilog文件,需要注意的是NICE协处理器定义了一些基本的接口;
- 2.编写驱动,通过内联汇编的伪指令.insn配置相关的驱动设置;
- 3.编写用于测试的.C文件。
参考示例:
- 背景: 假设有一个3行3列的矩阵按顺序存储在存储器中,每个元素都是32位的整数,目标进行逐行和逐列的累加和,若采用C语言调用主数据通路进行实现,基本思路是循环,按行/列读取各个元素然后相加得到各行/列的累加和,将其转换为汇编语言,则需要约上百个周期才能完成全部运算。

硬件实现:(不太好写)
(e203_hbirdv2-master\e203_hbirdv2-master\rtl\e203\subsys\e203_subsys_nice_core.v)->NICE协处理器工作机理:
- 请求通道:主处理器在流水线的EXU级时,将指令的编码信息和源操作数传输到协处理器。
- 反馈通道:协处理器告诉主处理器其已完成了该指令,并将结果反馈到主处理器。
- 存储器请求通道:协处理器向主处理器发起存储器读写请求。
- 存储器反馈通道:主处理器向协处理器写回存储器读写结果。

->NICE示例协处理器的设计:
控制模块(和主处理器通过NICE协处理器的接口进行交互)+累加器(累加运算)->NICE示例协处理器的自定义指令

->verilog文件中包含内容:
自定义指令的编码+各模块功能实现(以状态机实现的转换)软件驱动:
(nuclei-board-labs-master\nuclei-board-labs-master\e203_hbirdv2\common\demo_nice\insn.h)
基本格式:
.insn r opcode, func3, func7, rd, rs1, rs2
//.insn告知编译器当前的指令是.insn形式的指令
//r用来表示指令类型为R-type
//opcode、func3、func7、rd、rs1、rs2分别代表R类型指令格式的各位域
具体实现:(累加和)
// custom lbuf
__STATIC_FORCEINLINE void custom_lbuf(int addr)
{
int zero = 0; asm volatile (
".insn r 0x7b, 2, 1, x0, %1, x0"
:"=r"(zero)
:"r"(addr)
);
} // custom sbuf
__STATIC_FORCEINLINE void custom_sbuf(int addr)
{
int zero = 0; asm volatile (
".insn r 0x7b, 2, 2, x0, %1, x0"
:"=r"(zero)
:"r"(addr)
);
} // custom rowsum
__STATIC_FORCEINLINE int custom_rowsum(int addr)
{
int rowsum; asm volatile (
".insn r 0x7b, 6, 6, %0, %1, x0"
:"=r"(rowsum)
:"r"(addr)
); return rowsum;
}
- 测试程序:(nuclei-board-labs-master\nuclei-board-labs-master\e203_hbirdv2\common\demo_nice\insn.c --> 功能实现;nuclei-board-labs-master\nuclei-board-labs-master\e203_hbirdv2\common\demo_nice\main.c --> 顶层文件,测试输出)
/***********************************insn.c*********************************/
// normal_case:通过主流水线来实现的累加操作
int normal_case(unsigned int array[ROW_LEN][COL_LEN])
{
volatile unsigned char i=0, j=0;
volatile unsigned int col_sum[COL_LEN]={0};
volatile unsigned int row_sum[ROW_LEN]={0};
volatile unsigned int tmp=0;
for (i = 0; i < ROW_LEN; i++)
{
tmp = 0;
for (j = 0; j < COL_LEN; j++)
{
col_sum[j] += array[i][j];
tmp += array[i][j];
}
row_sum[i] = tmp;
}
} // nice_case:调用NICE协处理器实现的累加操作
int nice_case(unsigned int array[ROW_LEN][COL_LEN])
{
volatile unsigned char i, j;
volatile unsigned int col_sum[COL_LEN]={0};
volatile unsigned int row_sum[ROW_LEN]={0};
volatile unsigned int init_buf[3]={0}; custom_lbuf((int)init_buf);
for (i = 0; i < ROW_LEN; i++)
{
row_sum[i] = custom_rowsum((int)array[i]);
}
custom_sbuf((int)col_sum);
} /***********************************main.c*********************************/
// 主要就是调用两个函数然后输出结果
int main(void)
{
int i=100;
int arr[4]={1,2,3,4};
unsigned int array[ROW_LEN][COL_LEN]=
{{10,20,30},
{20,30,40},
{30,40,50}
};
unsigned int begin_instret, end_instret, instret_normal, instret_nice;
unsigned int begin_cycle, end_cycle, cycle_normal, cycle_nice; printf("**********************************************\n");
printf("** begin to sum the array using ordinary add sum\n");
begin_instret = __get_rv_instret();
begin_cycle = __get_rv_cycle(); normal_case(array); end_instret = __get_rv_instret();
end_cycle = __get_rv_cycle(); instret_normal = end_instret - begin_instret;
cycle_normal = end_cycle - begin_cycle;
printf("\n\n"); printf("**********************************************\n");
printf("** begin to sum the array using nice add sum\n");
begin_instret = __get_rv_instret();
begin_cycle = __get_rv_cycle(); nice_case(array); end_instret = __get_rv_instret();
end_cycle = __get_rv_cycle(); instret_nice = end_instret - begin_instret;
cycle_nice = end_cycle - begin_cycle; printf("**********************************************\n");
printf("** performance list \n"); printf("\t normal: \n");
printf("\t instret: %d, cycle: %d \n", instret_normal, cycle_normal);
printf("\t nice : \n");
printf("\t instret: %d, cycle: %d \n", instret_nice , cycle_nice ); printf("**********************************************\n\n"); printf("* * * * ***** * ******* *** \n");
printf("** * * * * * * * * \n");
printf("* * * * * * * * * \n");
printf("* * * * * * * ***** * \n");
printf("* * * * * * * * * \n");
printf("* ** * * * * * * * \n");
printf("* * ***** ***** ******* ******* *** \n"); printf("\n\n**********************************************");
return 0;
}
- 实际测试:
法一:(不推荐)通过.c文件配置工程,参考这里(5.3. 无模板手动创建项目)
法二:(推荐)
- 创建HelloWorld例程,删除左侧相应工程目录下application/main.c文件

- 将我们所编写的软件驱动文件和测试文件放入该目录下

- 点击锤子进行编译,做好硬件连接后,点击️️绿色的三角运行。
采用NICE协处理器进行的累加所用的指令数和周期数都远小于普通情况,如下图所示。

一些疑惑:
- 对于NICE协处理器和普通的情况,均进行了诸如循环读寄存器数据之类的操作,那么实现NICE协处理器相较于普通情况的优化体现在什么方面,节约的是进行取数+计算的时间,还是其他诸如循环控制等的时间;
- 是否应该根据后续的系统及应用来判断进行什么样的扩展;
- 对于添加了NICE协处理器的内核,其跑分结果应该有所提高,那么该如何通过跑分的程序测试出来;
3.NucleiStudio+Vivado联合仿真教程
猜测后续的工作流程:
Benchmark:
Vivado中修改RTL设计-->NucleiStudio中跑分验证/Vivado中仿真验证(尝试跑通中);指令集扩展:
Vivado中添加RTL设计+IDE中添加软件驱动-->NucleiStudio中验证功能/Vivado中仿真验证功能(当前尝试的NICE协处理器可仿真验证)
编写了一个Nucleistudio+Vivado联合仿真的教程,或许会有用((。
手把手教你蜂鸟e203协处理器的扩展的更多相关文章
- 手把手教你蜂鸟e203移植(以Nexys4DDR为例)
准备工作:(网盘链接:) 1.蜂鸟e203的RTL源码: 2.一段分频代码: 3.顶层设计文件(system.v) 4.开发板文件: 5.Nexys4DDR电路图: 6.Nexys4DDR管脚约束模板 ...
- 手把手教你开发chrome扩展一:开发Chrome Extenstion其实很简单
手把手教你开发chrome扩展一:开发Chrome Extenstion其实很简单 手把手教你开发chrome扩展一:开发Chrome Extenstion其实很简单 手把手教你开发Chrome扩 ...
- 菜鸟-手把手教你把Acegi应用到实际项目中(8)-扩展UserDetailsService接口
一个能为DaoAuthenticationProvider提供存取认证库的的类,它必须要实现UserDetailsService接口: public UserDetails loadUserByUse ...
- 手把手教你开发chrome扩展
转载:http://www.cnblogs.com/walkingp/archive/2011/04/04/2003875.html 手把手教你开发chrome扩展一:开发Chrome Extenst ...
- 手把手教你Chrome扩展开发:本地存储篇
手把手教你开发chrome扩展一:开发Chrome Extenstion其实很简单 手把手教你开发Chrome扩展二:为html添加行为 手把手教你开发Chrome扩展三:关于本地存储数据 HTML5 ...
- 手把手教你开发Chrome扩展三:关于本地存储数据
手把手教你开发chrome扩展一:开发Chrome Extenstion其实很简单 手把手教你开发Chrome扩展二:为html添加行为 手把手教你开发Chrome扩展三:关于本地存储数据 HTML5 ...
- 手把手教你开发Chrome扩展二:为html添加行为
手把手教你开发chrome扩展一:开发Chrome Extenstion其实很简单 手把手教你开发Chrome扩展二:为html添加行为 手把手教你开发Chrome扩展三:关于本地存储数据 上一节我们 ...
- 手把手教从零开始在GitHub上使用Hexo搭建博客教程(二)-Hexo参数设置
前言 前文手把手教从零开始在GitHub上使用Hexo搭建博客教程(一)-附GitHub注册及配置介绍了github注册.git相关设置以及hexo基本操作. 本文主要介绍一下hexo的常用参数设置. ...
- 手把手教你写Sublime中的Snippet
手把手教你写Sublime中的Snippet Sublime Text号称最性感的编辑器, 并且越来越多人使用, 美观, 高效 关于如何使用Sublime text可以参考我的另一篇文章, 相信你会喜 ...
- 30分钟手把手教你学webpack实战
30分钟手把手教你学webpack实战 阅读目录 一:什么是webpack? 他有什么优点? 二:如何安装和配置 三:理解webpack加载器 四:理解less-loader加载器的使用 五:理解ba ...
随机推荐
- ARC150D - Removing Gacha (树上期望)
Link 题意: 给一棵 \(n\) 个节点的树,称一个点是好的,当且仅当它到根的路径上都是黑色(包括自己).每次在不好的节点中随机选一个把它涂成黑色(不管原来它是否是白的),直到所有点都是好的为止. ...
- node+express+ multer 实现文件上传入门
文件上传 文件上传需要借助一个中间件 multer 因此我们需要安装 cnpm install multer --save 前端界面 在express创建的项目下的 public/upload目录下创 ...
- #region在多种编程语言及IDE中进行代码折叠,包括python msvc++ c#等
vs/rider中折叠C#代码 在写C#的时候,在visual studio中可以使用#region和#endregion来进行代码折叠,那么在pycharm中是否可以呢? //这里有很多的代码... ...
- 数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
题目出自阿里天池赛题链接:零基础入门数据挖掘 - 二手车交易价格预测-天池大赛-阿里云天池 相关文章: 特征工程详解及实战项目[参考] 数据挖掘---汽车车交易价格预测[一](测评指标:EDA) 数据 ...
- 5.2 Windows驱动开发:内核取KERNEL模块基址
模块是程序加载时被动态装载的,模块在装载后其存在于内存中同样存在一个内存基址,当我们需要操作这个模块时,通常第一步就是要得到该模块的内存基址,模块分为用户模块和内核模块,这里的用户模块指的是应用层进程 ...
- Linux下开发基于.NET的三维绘图程序
很多人可能知道使用.NET Core可以开发跨平台(包括Windows,Linux.MacOS)的App,但知道在Linux下使用.NET Core可以开发三维程序的恐怕就很少了.本文通过借助.NET ...
- 在k8s中,有哪些存储?
在 Kubernetes(简称 K8s)中,有多种内置和外部的存储解决方案,它们可以满足不同场景下的持久化存储需求.以下是一些常见的存储类型: PersistentVolume (PV): Persi ...
- 云计算 - 对象存储服务OSS技术全解
本文全面深入地探讨了对象存储服务(OSS)的核心技术.基础知识和高级功能.从媒体存储到数据备份,再到数据仓库与数据湖,我们不仅解析了OSS在各种应用场景下的关键角色,还深入讨论了其与机器学习.多媒体处 ...
- 传统.NET应用向微服务架构迁移的实践经验--学习笔记
摘要 在本次分享中,演讲嘉宾将基于真实项目案例,剖析 .NET 应用向微服务..NET Core 等技术栈迁移的具体收益,并且分享在迁移中技术和非技术的众多考量.以及保证业务连续性的一些方法论. 议题 ...
- MySQL-生成随机数字、字符串、日期、验证码及 UUID的方法
一.生成随机数字 1. 生成 0 到 1 之间的随机数 MySQL 中的 RAND 函数可以用于生成一个大于等于 0 小于 1 的随机数字.例如: SELECT rand(); 该函数返回的数据类型为 ...