英特尔发布大型神经拟态系统Hala Point |
珠江路在线
2024年4月23日
【
转载
】TechWeb
|
本文标签:英特尔,AI,处理器 |
英特尔4月19日公布了代号为Hala Point的大型神经拟态系统 。Hala Point基于英特尔Loihi 2神经拟态 解决器打造而成,旨在 支撑类脑AI领域的前沿探究,解决AI当前在效率和可 延续性等方面的 挑战 。在英特尔第一代大规模探究系统Pohoiki Springs的 根底上,Hala Point改良了架构,将神经元容量 遍及了10倍以上,性能 遍及了12倍 。
Hala Point在主流AI工作负载上 展示了出众的计算效率 。探究显示,在运行传统深度神经网络时,该系统 能够每秒 实现多达2万万亿次(20 petaops)运算,8位运算能效比达到了15 TOPS/W,相当于甚至超过了基于GPU和CPU的架构 。Hala Point有望推进多领域AI 利用的实时 延续学习,如科学探究、工程、物流、智能城市 根底设施治理、大语言模型(LLMs)和AI帮手(AI agents) 。
当前,Hala Point是一个旨在改良 将来商用系统的探究原型 。英特尔估计其探究将带来实际技术 打破,如让大语言模型 占有从新数据中 延续学习的 威力,从而有望在AI 宽泛部署的过程中,大幅减低训练能耗, 遍及可 延续性 。
深度学习模型的规模正在不停 扩充,参数量可达万亿级 。这一趋向 象征着AI技术在可 延续性上面临着严重的 挑战,有必要探究硬件架构底层的创新 。神经拟态计算是一种借鉴神经科学探究的崭新计算 步骤,通过存算一体和高细粒度的并行计算,大幅削减了数据传输 。在本月 举办的声学、语音与信号 解决国际会议(ICASSP)上,英特尔发表的探究表明,Loihi 2在新兴的小规模边缘工作负载上实现了效率、速度和适应性数量级的 晋升 。
Hala Point在其前身Pohoiki Springs的 根底上实现了大幅 晋升,基于神经拟态计算技术 晋升了主流、 通例深度学习模型的性能和效率,尤其是那些用于 解决视频、语音和无线通讯等实时工作负载的模型 。例如,在今年的世界移动通讯大会(MWC)上,爱立信探究院(Ericsson Research)就 展示了其如何将Loihi 2神经拟态 解决器 利用于电信 根底设施效率的优化 。
Hala Point基于神经拟态 解决器Loihi 2打造,Loihi 2 利用了很多类脑计算原理,如异步(asynchronous)、基于事件的脉冲神经网络(SNNs)、存算一体,以及不停 变迁的 稀薄衔接,以实现能效比和性能的数量级 晋升 。神经元中间 能够直接通讯,而非通过内存通讯, 因而能减低整体功耗 。
Hala Point系统由封装在一个六机架的数据 核心机箱中的1152个Loihi 2 解决器(采纳Intel 4制程节点)构成,大小相当于一个微波炉 。该系统 支撑 分布在140544个神经 状态 解决内核上的多达11.5亿个神经元和1280亿个突触,最大功耗仅为2600瓦 。Hala Point还包含2300多个嵌入式x86 解决器,用于辅助计算 。
在大规模的并行 构造中,Hala Point集成了 解决器、内存和通讯通道,内存带宽达每秒16PB,内核间的通讯带宽达每秒3.5PB,芯片间的通讯带宽达每秒5TB 。该系统每秒可 解决超过380万亿次8位突触运算和超过240万亿次神经元运算 。
在用于仿生脉冲神经网络模型时,Hala Point 能够以比人脑快20倍的实时速度运行其所有11.5亿个神经元,在运行神经元数量较低的状况下,速度可比人脑快200倍 。 固然Hala Point并非用于神经科学建模,但其神经元容量 大体相当于猫头鹰的大脑或卷尾猴的大脑皮层 。
在执行AI推理负载和 解决优化问题时,Loihi 2神经拟态芯片系统的速度比 通例CPU和GPU架构快50倍,同时能耗减低了100倍 。早期探究 后果表明,通过利用 稀薄性高达10比1的 稀薄衔接(sparse connectivity)和事件驱动的 运动,Hala Point运行深度神经网络的能效比高达15 TOPS/W,同时无需对输入数据进行批 解决 。批 解决是一种常用于GPU的优化 步骤,会大幅添加实时数据(如来自摄像头的视频) 解决的延迟 。 只管仍处于探究阶段,但 将来的神经拟态大语言模型将不再需求定期在不停增进的数据集上再训练,从而节约数千兆瓦时的能源 。
世界各地率先的学术 集团、探究机构和公司一起构成了英特尔神经拟态探究社区(INRC),成员总数超过200个 。携手英特尔神经拟态探究社区,英特尔正致力于开辟类脑AI前沿技术,以将其从技术原型转化为业界率先的产品 。