新澳门葡京攻略 - AI初创公司Groq宣布世界首个1000000000000000OPS性能单芯片

来源:拐河资讯 2020-01-10 12:26:00

新澳门葡京攻略 - AI初创公司Groq宣布世界首个1000000000000000OPS性能单芯片

新澳门葡京攻略,来源:内容由半导体行业观察(id:icbank)综合自官方新闻稿和wikichips,谢谢。

快速增长的ai芯片初创公司groq,tensor streaming processor(tsp)架构和新的类计算的发明者日前布,其tsp架构在单芯片实现上能够达到1 petaop / s的性能。groq体系结构是世界上第一个达到此性能水平的体系结构,相当于每秒执行一次万亿次运算,即1e15 ops / s。groq的体系结构还能够每秒进行多达250万亿个浮点运算(flops)。

groq的联合创始人兼首席执行官乔纳森·罗斯(jonathan ross)说:“我们为行业和客户感到兴奋” ,“顶级gpu公司一直在告诉客户,他们希望能够在未来几年内提供一种petaop / s的性能的产品,而groq在现在做到了,并以此设定了新的性能标准。相比其他竞争者,groq架构比其他任何推理都快数倍。我们与客户的互动证实了这一点:我们第一批芯片回片了,第一天点亮了,并运行了一周的程序,我们有信心在不到六周的时间向客户提供样片内”,jonathan ross说。

受软件优先思想的启发,groq的tsp架构提供了新的范例,可实现计算灵活性和大规模并行性,而无需像传统gpu和cpu架构那样。groq的体系结构既可以支持传统的机器学习模型,也可以支持新的机器学习模型,并且目前已在x86和非x86系统的客户站点上运行。

groq新的,更简单的处理体系结构是专门为满足计算机视觉,机器学习和其他与ai相关的工作负载的性能要求而设计的。其执行计划在软件中进行,从而释放了宝贵的硅空间,而这些空间原本专用于动态指令执行。此体系结构提供的严格控制提供确定性处理,这对于安全性和准确性至关重要的应用特别有价值。与基于cpu,gpu和fpga的复杂传统架构相比,groq的芯片还简化了资格认证和部署,使客户能够简单,快速地实现可扩展的高性能每瓦系统。

groq的首席架构师dennis abts说:“ groq的解决方案非常适合用于广泛的应用程序的深度学习推理处理,但是,即使有如此巨大的机会,groq的解决方案也可以用于广泛的工作负载。加上其简单性,使其成为处理任何高性能,数据或计算密集型工作负载的理想平台。”

与大多数其他初创公司和现有处理器不一样。groq的这个架构被设计为功能强大的单线程流处理器,并配备了专门设计的指令集,以利用张量操纵(tensor manipulation )和张量移动(tensor movements)的优势,从而可以更高效地执行机器学习模型。该体系结构的独特方面是执行单元,内存和其他执行单元之间的交互。

groq的魔力不仅在于硬件,而且在于软件。实际上,是编译器先出现,而不是原型硬件体系结构。软件定义的硬件在这里起着重要的作用。groq的软件将张量流模型(tensor flow models )或其他深度学习模型编译为独立的指令流,这些指令流可提前得到高度协调(coordinated)和精心安排(orchestrated)。工作流程来自编译器。它可以提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自我们的编译器静态调度所有指令单元。这使我们无需进行任何aggressive speculation 来公开指令级并行性。芯片上没有分支目标缓冲区(branch target buffers )或缓存代理(caching agents)。” groq首席架构师dennis abts解释说。

它的确定性体系结构(deterministic architecture)的一大优势是消除了由于同步(synchronization)而导致的等待时间。在更传统的多核设计中,性能和扩展的限制因素是最后的响应,这可能会停滞同步(synchronization)。换句话说,参与该同步事件的最后一件事使您陷入瓶颈。

对于groq的tsp,这是zero-overhead的同步。确定性行为还有其他好处。在对安全至关重要的应用中,从连续推断得出的可预测性能至关重要。同样,在数据中心中,groq认为管理现代芯片组随附的电源和运行时电源交互非常复杂,例如动态频率缩放和其他复杂的电源管理技术。借助其tsp,执行和电源行为始终是相同的,并且是在编译时预先确定的。

“确定性执行使我们着迷的事情之一,是我们能够在编译时准确地知道该模型的性能,直到时钟周期为止。该性能非常可预测且可重复。因此,我们避免了复杂的hardware speculation和aggressive speculatio技术,以能够公开更多的ilp。这是一个结构化且简单得多的设计,” abts说。因此,我们避免了复杂的硬件推测和激进的推测技术,以能够公开更多的ilp。这是一个结构化且简单得多的设计,” abts说。

tsp存在一些有趣的挑战。边缘推理通常涉及一组任务-——能在tsp上同时完成。确定性来自其单线程流方法。根据active input,他们只需根据需要交换新数据。芯片的确定性可能会在很大程度上弥补这一缺陷。

尽管该架构可以同时实现这两种功能,但其当前芯片是为推理而设计的,旨在从边缘到数据中心的所有内容进行大规模部署。他们向wikichip显示了该芯片的照片,尽管我们目前还不能发布,但下面显示了简化的平面图。芯片本身有很多算术单元。还有大量的片上存储器,可实现非常高的带宽(每秒数十tb),旨在保持运算单元的馈送和数据路径的繁忙。

片上存储器被视为每个人都可以访问的全局共享的大型暂存器。这与更传统的多核方法不同,后者将内存分为较小的单个私有内存片。当前所有工作均保留在片上存储器中。为此,当前芯片能够进行1 petaops的计算。

请注意,算术单元同时包含整数单元和浮点数。对于groq来说,这是一个非常重要的设计选择–。groq不仅包括整数或浮点数,而且还不像大多数其他神经处理器那样采用整数或浮点数。它声称这使客户可以更轻松地构建他们的模型并计划其ai路线图。得益于其浮点运算单元,它还能够每秒进行多达250万亿个浮点运算(250 teraflops)。

目前,groq只在谈论单芯片配置。该芯片配备了高带宽芯片间接口,旨在支持扩展到更大的模型,并能够利用多个芯片之间的模型级并行性。

tomasko解释说,其平稳开发的部分原因还在于其确定性的体系结构,这使他们可以大大减少验证时间。测试用例每次执行时都将始终以相同的方式运行,而不会出现奇怪的边缘情况,长尾或各种复杂的竞争条件,也不会影响运行时机器行为的事件组合。

目前,groq正在使用pcie加速卡向客户提供样品。不过,将来它可能会扩展到其他类型的平台。预计groq将在未来几个月内进一步公开披露信息。

另外,我们还提供了了tsa架构的详细资料,想获得 ,请把这个文章转发朋友圈,并回复“groq架构”,你将获得相关下载链接。

参考链接:

https://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html

https://fuse.wikichip.org/news/3005/groq-tensor-streaming-processor-delivers-1-petaops-of-compute/

免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2130期内容,欢迎关注。

半导体行业观察

上一篇:推翻友谊小船,点着拉美“后院”,美国这是咋了?
下一篇:四川把治蜀兴川各项工作全面纳入法治轨道

责任编辑:匿名