VectorPath加速卡——基于最新的7纳米FPGA技术构建您的应用
S7t FPGA加速卡的核心是Achronix的7纳米Speedster7t FPGA。该 FPGA充分发挥了台积电(TSMC)7纳米FinFET工艺的潜力,专门针对人工智能/机器学习和高带宽数据加速应用进行了高度优化。
S7t FPGA加速卡为用户提供了一系列先进的输入输出(I/O)接口,包括400G以太网接口、多个PCIe接口和高带宽GDDR6存储器接口。
客户可以通过BittWare的BittWorks II工具包快速开启此加速卡的使用,该工具包包含示例项目,同时支持Linux和Windows操作系统。
(a)Achronix的7纳米Speedster7t FPGA
(b)S7t FPGA加速卡
Achronix的革命性芯片设计+BittWare的企业级设计
NoC是Speedster7t FPGA的高速数据通道,可以沿着行/列在FPGA结构中或向着边缘接口高速移动数据,从而释放更多的逻辑单元用于计算任务。
外围的NoC(外圈)可以将存储器和PCIe边缘接口连接至NoC的行/列。外围的NoC还可以在独立于FPGA结构之外的接口间移动数据——例如,主机可以在不使用任何FPGA内部资源的情况下通过PCIe将数据传输至GDDR6。
★ FPGA结构——运算能力高达86 TOPS,最高运行频率为750MHz
可重新配置的逻辑模块(RLB)
RLB是Speedster7t的一项特色功能:它是一种全新的可重新配置的逻辑架构,带有6输入查找表和8位算术逻辑单元,每个查找表有2个触发器,它还具有一种基于改进型Booth算法重新构造的乘法器查找表(MLUT)模式,该算法可使基于查找表的乘法运算性能提高一倍。
Speedster7t FPGA拥有692K的查找表。
机器学习处理器(MLP)
MLP模块是支持定点和浮点计算的大规模矩阵向量和矩阵乘法引擎。MLP提供的功能包括带有累加可选项的整数乘法、bfloat16格式的浮点运算、16位浮点运算、块浮点运算和24位浮点运算。
MLP模块包括两个可以单独使用或与乘法器一起使用的存储器模块。总体的嵌入式存储器容量为190Mb。
MLP模块总数:2560个,在Int8整数格式下能够提供41K的运算能力。
★ GDDR6存储器
速度快6倍的大容量存储器
通过使用高带宽GDDR6存储器,S7t加速卡可以为您的应用提供8GB的大容量存储器资源,但同时可提供高达6倍的带宽。
此外,借助NoC,可以在不使用FPGA资源的情况下,从主机通过PCIe对GDDR6进行读/写。
★ 高达400G的网络
S7t加速卡提供了一系列可连接至Speedster7t FPGA逻辑结构的网络接口。凭借由硬IP实现的MAC(Hard IP MAC)和前向纠错(FEC)技术的支持,该加速卡可支持56G PAM4。板载的抖动消除器可用于同步以太网(Synchronous Ethernet)。
QSFP 56G(PAM4)接口
第一个接口是一个带有4个SerDes通道的QSFP56接口,可支持高达200G的以太网。
第二个接口是一个带有8个SerDes通道的QSFP-DD接口,可支持高达400G的以太网。
如图所示的分支连接线提供了一系列其他选项。
★ PCIe、扩展和定制
PCIe x16接口
对于主机接口,S7t加速卡提供了一个PCIe 3.0 x16接口,可直接连接至FPGA。BittWorks II工具包提供的示例项目中包括了用于PCIe交互的示例项目。
支持PCIe 4.0的OCuLink接口
在加速卡背面的边缘,有一个4通道OCuLink连接器直接与FPGA内部的PCIe硬IP连接,可实现 PCIe 4.0的数据传输速率。示例应用如下:
定制
得益于三十年来构建定制化解决方案的经验,BittWare作为您的合作伙伴可以在各方面提供支持,从简单的配件板到各种具有复杂机械要求的完全定制方案,一应俱全。我们的资源包括业务覆盖全球的莫仕(Molex)集团,因此可以处理任何规模的项目。
★ 加速卡的其他功能
用于同步以太网的抖动消除器
可从前面板接入1 pps(每秒1个脉冲)的外部参考时钟
具有健康监测功能的基板管理控制器(BMC)
8个GPIO引脚
用于Linux和Windows操作系统的驱动程序
★ 计算
旨在满足要求最严苛的计算密集型应用
8组GDDR6存储器可提供最高4 Tbps的带宽
针对人工智能/机器学习(AI/ML)功能进行了优化的机器学习处理器(MLP):
在Int8整数格式下,可提供多达41K的乘累加单元(MAC);在Int4整数格式下,可提供高达134 TOPS的运算能力
支持多种浮点格式和整数格式
★ 网络
QSFP-DD和QSFP56端口可满足多种高速网络应用的需求
硬化的多速率MAC适用于10G - 400G以太网
片上网络(NoC)可提供20 Tbps带宽,支持数据流输入设备、从设备输出以及跨越整个设备移动。
★ 存储
NVMe接入可支持数据记录器和数据处理应用
通过OCuLink扩展端口连接NVMe闪存
数据流直接从网络端口传输至闪存阵列
★ 传感器处理
使用GPIO和SerDes扩展端口针对您的特定应用需求进行优化
直接与自定义数据和控制信号连接
可直接互补性传感器和处理器技术
Achronix的ACE软件是Speedster7t的开发环境。ACE可以执行硬件设计流程,支持RTL输入(VHDL和Verilog语言皆可)和行业标准仿真。ACE还支持使用NoC等高级芯片功能。ACE包括了为Achronix优化的Synopsys的Synplify-Pro工具。
★ BittWare的BittWorks II工具包:强大的开发工具
让我们来完成服务器的集成并启动您的应用的概念验证,您无需再去准备额外的、宝贵的开发资源!
★ 通过TeraBox服务器延长您的保修期
FPGA |
|
板载存储器 |
|
主机接口 |
|
外部时钟 |
|
Micro USB接口 |
|
OCuLink接口 |
|
GPIO引脚 |
|
QSFP接口 |
|
基板管理控制器 |
|
冷却 |
|
用电 |
|
环境 |
|
尺寸 |
|
联系方式:
Achronix Semiconductor 中国
电话:+86-13918250927
邮箱:dawson.guo@achronix.com