芯潮(ID:aichip001)
文 | 韦世玮 心缘

芯东西12月24日消息,今天,龙芯中科发布龙芯4000系列CPU芯片,分别为3A4000和3B4000。性能方面,3A4000/3B4000采用28nm FDSOI工艺,微架构为GS464V核心,通用处理性能提升一倍以上,这将成为我国自主CPU发展史上又一新的里程碑。

据悉,龙芯4000系列进一步完善对虚拟机的支持,效率达到95%以上。在相同主频下,龙芯4000系列比3A3000的流水线效率提高50%,主频提升至1.8GHz-2.0GHz。

龙芯中科总裁、中科院计算技术研究所总工程师、龙芯CPU首席科学家胡伟武博士介绍,龙芯4000系列是首次全面集成可信模块、国内密码算法、访问控制等安全机制的CPU芯片。

也就是说,龙芯4000系列处理器除了性能大幅提升之外,还拥有片内安全机制和高效云化的特点。

据介绍,龙芯在2019年的芯片出货量已超50万颗。未来,龙芯中科将着重提升CPU主频与核数,3A5000和3C5000两款芯片将分别计划在2020年上半年和下半年流片。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

▲龙芯中科总裁、中科院计算技术研究所总工程师、龙芯CPU首席科学家胡伟武博士

一、我国自主CPU发展的里程碑

龙芯中科是国产自主高性能通用处理器技术领先者和产品提供商,搭载龙芯中科CPU的计算机已进入政府采购目录。

龙芯脱胎于中国科学院计算所,曾研发出我国首枚拥有自主知识产权的通用高性能微处理芯片。

CPU芯片长期被英特尔等国外巨头所垄断,龙芯先推出的龙芯1号、龙芯2号,打破了中国缺自主研发CPU芯片的历史,是中国形成自主知识产权计算机产业道路上的一座里程碑。

从2001年至今,龙芯研发了龙芯1号、龙芯2号、龙芯3号三个系列处理器和龙芯桥片系列。

龙芯1号系列为32位低功耗、低成本处理器,主要面向低端嵌入式和专用应用领域;龙芯2号系列为64位低功耗单核或双核列处理器,主要面向工控和终端等领域;龙芯3号系列为64位多核系列处理器, 主要面向桌面和服务器等领域。

今天发布的龙芯3A4000是龙芯3号系列处理器的最新产品,据上一代龙芯3A3000发布已相隔两年。

2017年时,龙芯年营收达1。5亿元,利润2000多万元,2018年营收和利润均比2017年翻番,利润达到历史最高水平,交的税款已超过国家给龙芯各类补助的总和。

胡伟武表示,今年上半年龙芯收入已超过去年全年,利润是去年全年的1。3倍左右,预计到2021年,龙芯交给国家的税将超过之前所有的研发投入。

二、采用GS464v架构,实现三大特点

龙芯3A4000是龙芯第三代高性能处理器核,采用新一代处理器架构GS464V,拥有双DDR4-2400/2133内存通道,双HT3.0系统总线,效率提升一倍。

性能方面,其主频为1.8GHz,睿频2.0GHz,采用37.5mm*37.5mm封装工艺,典型功耗为30-40W。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

据胡伟武介绍,龙芯3A4000主要有三方面特点:

1、相同工艺性能成倍提高

龙芯3A4000采用28nm工艺,进一步通过设计优化提升处理器性能,反映传统桌面性能的SPEC INT2000的单核base分值,从930分提高到了2090分。

此外,它的科学计算性能与3A3000相比,提升了4倍以上,支持128/256位向量。而3B4000支持四路直连,与3B3000双路服务器相比,四路服务器性能亦提升了4倍。

与此同时,龙芯3A4000的虚拟机效率大幅度提高,从原先的88%提升至98%。胡伟武称,其单核性能已高于用14nm实现的Arm处理器。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

2、片内安全机制

龙芯3A4000支持AES、MD5、SHA等加解密算法,片内集成安全可信模块,支持国密算法。

此外,它支持操作系统内核栈防护机制,支持IO防护、安全执行环境等访问控制,其高性能密码算法服务能力支持商密及以上算法。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

3、自主研发

龙芯3A4000的所有模块源代码和各类全定制模块均为自主研发,除了厂家提供的标准单元库和内存编译器(Memory Compiler)外,没有任何第三方IP。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

除此之外,龙芯3A4000在功耗管理和封装方面也有了进一步提升。

一方面,它第五个核(GS132E)监控主核运行,并进行动态功耗管理。例如,搭载龙芯3A4000的笔记本电脑工作时长比3A3000相比,提高了一倍以上;

另一方面,龙芯3A4000的封装尺寸比3A3000更小,支持普通BGA、LGA和CBGA多种封装形式,同时其桌面主板可支持四层布线。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

值得一提的是,龙芯4000系列用于片间互连及连接桥片的HT控制器带宽提高了一倍以上,内存控制器从DDR3升级至DDR4,SPEC CPU2006定点和浮点单核分值提高到20分。

但胡伟武也指出,龙芯4000系列处理器依然存在两大问题。

一是DDR4内存频率不够高。DDR4规定的速率范围是1600至3200,而龙芯4000系列最高DDR4工作速率为2400/2133,与规定范围还存在一定差距。

二是功耗偏大。其非向量模式的典型功耗为30至40W,主要在于工艺不够先进,设计优化比较极致,建议科学计算环境下使用256位浮点向量时,适当降低电压和频率。

三、未来重点突破主频与核数

胡伟武谈到,龙芯的下一步将会把研发重点放在提高主频与核数上。

一方面,龙芯3A5000将提高主频至2。5GHz,采用12nm工艺,单核性能将提高至30分左右,计划于2020年上半年流片。

同时,其内存控制器延迟/宽带进一步优化,LLC增加一倍,实现操作系统级二进制兼容。

另一方面,龙芯3C5000将增加核数,同样采用12nm工艺,支持4至16路服务器,计划将于2020年下半年流片。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

在胡伟武看来,目前国内CPU企业发展核心技术主要有两个途径,一是市场换技术,如汽车产业;二是市场带技术,如航天产业,而龙芯中科走的则是第二条路。

龙芯中科通过体制内市场引导,带动技术进步后,再进一步参与体制外的市场竞争。同时,龙芯CPU自主编写CPU源代码,在应用中不断演进,并注重自主CPU的自主生态建设,以逐步提高产品性能和完善生态。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

虽然,龙芯发展至今已经为我国半导体产业的崛起提供了不可或缺的力量。但胡伟武认为,我国自主CPU与国外先进水平相比,在通用处理能力、单核性能和设计能力三大方面还存在较大差距。

“龙芯需要练好内功,通过设计优化提高单核通用处理性能。”胡伟武说到,3A4000和3B4000已基本填补单核通用处理性能的缺陷,性能提高2至3倍(约20-30分),达到AMD的水平。

而目前,市场主流CPU使用GCC编译的单核分值为20至40分。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

四、龙芯操作系统支持软件生态建设

胡伟武谈到,龙芯的操作系统目前具有两种商业和技术模式。

面向专门企业,龙芯提供桌面和Windows服务器系统;面向设备企业,龙芯则基于基础版开源OS维护,支持OS、整机和应用企业。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

实际上,龙芯已面向三大不同的平台开发相应的操作系统:

1、面向通用信息化系统的Loongnix。该系统基于通用Linux平台进行完善和优化,为统一操作系统UOS龙芯版提供支撑。

2、面向高可靠实时终端的LoongOS。该系统基于Linux/RT-Linux构建了简洁高效的OS。

3、面向实时嵌入式应用的LoongWorks。该系统针对历史应用,基于VxWorks内核,完善图形和网络等API。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

另一角度看,龙芯操作系统针对不同的硬件和应用,亦分别提出了两种不同的二进制兼容。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

除此之外,胡伟武也提到,龙芯将进一步统一系统架构,构建标准规范体系,实现操作系统跨主板整机兼容和CPU代际兼容。

从龙芯3A4000开始,龙芯也将参考设计全面支持统一系统架构,开发支持ACPI主板、固件、内核及OS的参考设计,以及基于ACPI/EC笔记本标准的解决方案。

国产CPU新里程碑!龙芯3号新一代发布,性能追赶AMD

结语:我国自主CPU研发的里程碑

龙芯中科经过近二十年的发展,已经成为我国国产自主高性能通用处理器的技术领先者,不仅打破了我国缺乏自主研发CPU芯片的历史,同时也是我国形成自主知识产权计算机产业道路上的一座里程碑。

近二十年来,龙芯的自主CPU和OS已经趋于成熟。胡伟武称,龙芯CPU单核通用处理性能已达到AMD水平,OS成熟度也已接近Windows XP。

然而,龙芯尚未丰富的应用和产业不配套,无疑是摆在自主CPU和OS未来发展道路上的一个阻碍。未来,龙芯如何完善基础软件环境和配套芯片,推动CPU和OS生态的进一步成熟发展,这十分值得我们期待。