媒体来源: 与非网
2016年,Google旗下DeepMind公司开发的AlphaGo 战胜围棋世界冠军李世石, 一“棋” 激起千层浪,成为了人工智能时代到来的分水岭。机器战胜人类背后的主要工作原理是机器深度学习:模仿人脑神经网络特征,对样本数据内在的规律进行训练,进而推理。让机器模仿人脑的机制来解释数据(图像、声音、文字等),是实现人工智能的必经之路。
支撑AlphaGo深度学习的硬件是Google开天辟地的推出了TPU (Tensor Processing Unit张量处理单元)系列人工智能芯片,这是为神经网络加速的专用芯片。它的横空出世,打破了GPU (Graphics Processing Unit图像处理单元) 曾一度称霸神经网络训练和推理的市场局面,也将人工智能芯片产业市场规模推向了火山爆发式的高度。
数十亿的端侧设备的智能化需求催生了端侧AI芯片的广阔市场。Edge TPU 是Google 推出的TPU端侧芯片,可以在客户的应用本地运行人工智能算法,从而大大节省延时和功耗。端侧AI芯片是智能设备的核心组件,也是人工智能时代的重要的基础设施。
在这一广阔市场中,对于系统厂商而言,计算和部署效率 —— 从每元钱每度电能获得的芯片性能,部署实施的成本,元器件是否稳定可靠 —— 成为了对功耗和成本有要求的应用和系统厂商评估AI芯片的标准。
换句话说,如果A芯片1T算力能跑出B芯片2T算力的性能,功耗和成本又比B芯片低,A芯片理所当然的会更加受到市场的青睐。另外,相对于协处理器芯片,SoC(片上系统)主芯片更受青睐。芯片的CPU,ISP,编解码能力,接口丰富度等方面是系统厂商选择核心芯片的重要考量因素。协处理器需要外挂一颗主处理器来运行,而SoC主芯片可以一颗芯片独立完成任务,综合来看性能、成本、功耗角度更具优势。
肇观电子 N161 SoC芯片
将AI芯片新贵肇观电子的N161芯片的开发板和最近比较受欢迎的Google Edge TPU在一起做对比评测,肇观电子的N161芯片,在保证FP16的精度下,跑用于图片分类的InceptionV4网络模型算法,1T算力跑14.41帧/秒,而Google Edge TPU 用4T算力跑9帧/秒。在保证INT8的精度下,两颗芯片跑用于图片分类的ResNet-50算法,N161芯片1T算力跑46帧/秒,Google Edge TPU 4T算力跑17.86帧/秒;跑用于图片检测的MobileNetV1_SSD网络模型算法,N161芯片1T算力跑103.63帧/秒,而Google Edge TPU 4T算力跑90.91帧/秒。
图 | 针对3种算法,N161以1T模式算力对比Google Edge TPU 4T算力,每秒可计算的图片数量
如果看单位算力下两颗芯片的比较,呈现出的是更加令人印象深刻的性能对比:
图 | 针对5种算法,N161以每TOPS算力对比Google Edge TPU 每TOPS算力,每秒可计算的图片数量
Google Edge TPU和肇观电子N161都是世界领先的AI芯片;两个芯片的开发板上手都很快,工具链都很好用;在AI性能和效率上肇观电子N161具有明显优势。Edge TPU是协处理器,要搭配电脑共同运行,而N161是SoC主芯片独立工作,无需电脑即可运行,部署方便,适应性更广。
AI芯片的计算效率,取决于芯片对于AI相关的数据和算法的处理效率,其基础是对AI运算过程中涉及到的软硬件做精细的数学建模、制定边界条件确定下的最优且可扩展的软硬件整体架构、优化的芯片设计及实现。做出业界领先的AI芯片,其既需要深厚的数学理论功底,又需要丰富的芯片设计经验,还需要对下游系统和应用的深刻理解,总体来看门槛很高。
在全球,人工智能正在逐渐改变各行各业。AI芯片作为人工智能的基础设施,其重要性不言而喻。人工智能在端侧的应用最为广泛,端侧AI芯片有着巨大的市场。每个应用和系统厂商都在寻找在性能、功耗、成本等方面的综合因素下合用的AI芯片。端侧AI芯片领域具有典型的市场为新涌现、高增长且市场广阔、高技术门槛等特征。历史上,每次科技变革所带来的新的需求催生了新的市场,涌现了新的公司;新兴公司往往更能适应新的市场而逐渐胜出,引领科技的前进。