产品

安谋科技新一代“周易”NPU完成DeepSeek

克日,搭载安谋科技最新一代“周易”NPU处置器的硬件平台胜利运转DeepSeek-R1系列模子,机能出色、本钱优良,为用户带来了更高效、便捷的AI利用休会。这款翻新性NPU处置器采取专为年夜模子特征优化的架构计划,其beta版本在2024岁尾已面向晚期用户开放评价测试,并取得了普遍承认与踊跃反应。估计往年上半年,这款备受等待的NPU产物将正式表态市场,届时将为更多用户带来冲破性的端侧算力休会。本文援用地点:DeepSeek自宣布以来,凭仗其杰出的机能表示跟低本钱练习形式,敏捷成为AI范畴的核心。在DeepSeek-R1的1.5B跟7B蒸馏版本推出后,安谋科技新一代“周易”NPU处置器短时光内涵Emulation平台上实现了安排与优化,并在FPGA平台上胜利实现了端到端利用的演示。经由严苛的测实验证,新一代“周易”NPU处置器在运转DeepSeek-R1的1.5B跟7B蒸馏版本时表示优良。在尺度单批次输入、高低文长度为1024的测试情况中,其在首字盘算阶段的算力应用率冲破40%,解码阶段的无效带宽应用率高达80%以上。其带宽应用率浮现高线性特征,可能机动适配16GB/s至256GB/s的体系带宽需要。在7B版本、1024高低文长度的场景下,该处置器在充足保证模子利用精度的同时,最高处置速率可达40 tokens/s,并支撑静态长度的模子推理输入。面临庞杂AI义务时,“周易”NPU处置器凭仗其出色的盘算机能、高带宽应用率跟能效比,展示出明显的技巧上风,为终端装备的智能化进级供给了微弱“芯”能源。新一代“周易”NPU处置器运转DeepSeek-R1模子后果演示新一代“周易”NPU处置器对DeepSeek等最新年夜模子的高效适配跟调优,得益于其软件栈对年夜模子的成熟支撑。软件栈供给高效的量化编译东西,可能在明显紧缩模子体积的同时,坚持高机能推理才能,并经由过程机动的编译选项满意多样化需要。别的,软件栈针对年夜模子停止了深度优化,包含静态推理优化跟硬件算力潜力的发掘,从而明显晋升推理速率跟吞吐量。现在,软件栈已支撑Llama、Qwen、DeepSeek、ChatGLM跟MiniCPM等多种主流年夜模子,并供给了与Hugging Face模子库的对接东西链,便利用户直接安排主流模子。在硬件层面,新一代“周易”NPU处置器冲破了传统计划限度,将对外带宽进步至256GB/s,无效处理了年夜模子盘算的带宽瓶颈成绩。为满意端侧年夜模子对高精度的需要,该NPU处置器片面支撑FP16盘算,并供给完全的int4软硬量化减速计划,确保模子高效稳固运转。针对端侧模子的低首字耽误需要,“周易”NPU处置器经由过程软硬协同优化,实现了多核算力的高效扩大。在7nm制程工艺下,单Cluster算力最高可达80 TOPS,可能轻松应答超越16K高低文长度的年夜模子安排需要,同时满意多模态场景及头脑链盘算的高算力请求。别的,该NPU处置器还具有强盛的多义务并行处置才能,经由过程细粒度的义务调理跟优先级资本调配,实现多义务机动切换,确保传统语音、视觉营业与年夜模子利用高效协同,为用户带来愈加流利的应用休会。现在,安谋科技正在踊跃拓展DeepSeek系列模子在端侧减速卡的利用场景,经由过程晋升模子推感性能,减速端侧AI利用的贸易化落地过程。依靠雄厚的技巧积聚、生态体系上风以及前瞻性规划,安谋科技将连续推进AI年夜模子技巧在PC、手机、智能汽车、呆板人、可穿着装备等多终端范畴的深度利用与翻新,片面减速端侧AI生态的构建与完美。