随着现象级 AI 产品 ChatGPT 破圈,以大模型为代表的前沿技术带动算力需求飙升,高性能 AI 芯片行至聚光灯下。
在 “芯” 赛道上,燧原科技是中国首家迭代到第二代云端训练和云端推理产品的 AI 芯片公司,是行业的领军企业。
“一颗芯片的诞生,历经设计、制造、封装、测试等多个环节,所涉及的人工智能软件栈十分庞大,各层模块集成高度复杂,只有在每个阶段都精准执行、高效交付,才能实现场景落地与量产应用。这离不开一支覆盖 AI 云端芯片全流程的专业团队和一个持续进化的高效能研发体系。”燧原科技软件技术总监张文平说道。
燧原科技从成立的第一天开始,就使用 GitLab 社区版管理源代码。随着业务快速发展和对研发效率的高追求,燧原科技在 2021 年升级至极狐GitLab 一体化 DevOps 平台,解锁更多高阶功能,经过一年的迭代和论证,2022 年继续扩大应用规模。目前,燧原科技基于极狐GitLab ,已构建出符合 AI 云端芯片特点的高效能研发体系。
私有化部署,兼顾安全与个性化,保障芯片研发核心资产自主可控
AI 芯片研发过程涉及大量设计、工艺、测试等与关键技术和知识产权相关的重要数据,任何信息泄漏都可能造成技术泄密和研发损失。因此,私有化部署成为燧原科技选择 DevOps 平台的第一道门槛。
同时,不同于软件产品,芯片研发流程高度个性化,设计复杂、协作角色多、验证阶段长、验证内容复杂,只有私有化部署才能提供高度定制开发功能与流程支持。
燧原科技调研了多款研发平台产品,大多采用公有云服务或功能比较简单,无法满足其高安全性和个性化需求,真正支持私有化部署并提供完整 DevOps 功能的极狐GitLab 成为首选。
极狐GitLab 功能覆盖软件开发全生命周期,提供源代码管理、敏捷项目管理、CI/CD、DevSecOps、效能管理等完整 DevOps 能力;同时提供私有化部署方式,在数分钟内即可快速构建,在芯片国产化大势下,支持燧原科技 “坚持原始创新” 的技术路线,满足其对数据安全、定制化与长期稳定支持的诉求。
企业级软件架构,数据靠近研发,分布式团队协作效率数倍提升
当开发团队分布在不同地理位置,但代码仓库只有单一实例时,远程团队拉取大型存储库需花费很长时间;且一旦代码仓库发生故障,将导致整个研发网络瘫痪。在大型复杂项目中,这些问题更加突出。
燧原科技是典型的分布式团队,在上海和北京设有研发中心,在深圳设有客户支持部门,高频次的沟通协作无处不在。
在团队规模较小时,研发团队通过邮件或 IM 工具,与跨地域团队进行代码变更沟通与传送。随着团队规模扩张和代码仓库增大,协作效率低、代码变更管理难等缺点开始显现,DevOps 研发实践力不能及。
张文平表示:“让多地员工高效协同是我们升级 DevOps 平台的目标之一,极狐GitLab GEO 企业级软件架构很好地满足了我们的需求。”
极狐GitLab GEO 企业级软件架构为分布式团队而生,通过分布式缓存、分片部署、多线程并行以及自动扩缩容等机制,为燧原科技三地团队提供低延迟本地极狐GitLab 实例:
- 数据靠近研发团队,减少克隆和管理项目所需的时间和压力;
- 一体化协作环境,破除组织边界感,避免不同系统间的数据孤岛;
- 确保数据安全,SSL/TLS 双向认证、数据加密存储与传输;
- 确保数据高可用,单一数据中心故障,服务不中断,系统健壮可靠。
“相较之前,我们现在的代码量级已经翻了好几倍,Review 也更加频繁,但整体协作时间没有增加,相当于 GEO 架构帮助我们提升了数倍协作效率。”燧原科技技术专家赵任华补充道。
研发流程标准化,落地 Code Review 最佳实践,Bug 拦截率提升25%
之前,由于没有很好的工具支撑 Code Review,燧原科技研发团队只能通过 “口口相传” 来找 Reviewer。这种方式既耗费时间,也难以形成团队公约,让 Code Review 行之有效。
基于极狐GitLab ,燧原科技将研发标准和规范沉淀至工具侧,以工具 + 流程倒逼 Code Review 落地,Bug 拦截率提升了 25%,并形成了自己的最佳实践:
规范流程,避免流于形式
通过流程配置,弥补依赖开发者自觉性来提升代码质量的不足,并内化为燧原科技的代码质量内建文化。诸如:
- 阻止合并请求的创建者自己审批;
- 所有变更必须以 Merge Request 形式提交;
- 由审核人员审核批准之后才可以合并到主干分支。
多人 Review,避免漏网 Bug
将一个 Merge Request 指派给来自不同团队与领域的多个人,从多个维度、视角审核变更代码,发现不同类型或者更隐蔽的问题,有效避免由于单一视角限制,让 Bug 成为漏网之鱼。
有数可依,选择最优 Reviewer
通过 Review 代码量、时长、Bug 拦截率等客观数据表现,结合模块特点选择最优 Reviewer,数据驱动“专家经验”的积累与共享,Review 更到位。
燧原科技还沉淀了 Commit Message 规范:
- 帮助 Reviewer 快速理解代码变更原因,判断变更范围,反馈又快又准确;
- 帮助团队快速浏览代码库演变历史,追踪特定变化内容,开发过程更加高效可靠。
“每一个研发人员的开发经验和擅长领域不同,有时很难跳脱出自己的逻辑框架。Code Review 创造了集他人之所长的学习机会,吸收多方意见,帮助我们快速成长。”赵任华说道:“并且,代码质量提升有目共睹,为后续测试节省了大量时间,这种直观效果让我们更加拥抱 Code Review,形成学习型团队文化。”
本土化服务,更懂中国企业,支撑精英组织高速发展
本土化服务与企业级 SLA 是极狐GitLab 相较 GitLab 的显著优势,让中国用户便捷地享受到世界顶级 DevOps 技术的同时,体验到更加全面和完善的服务。对此,张文平也深有感触:“极狐GitLab 本土化服务值得信赖,很感谢极狐GitLab 团队给予了我们非常及时的支撑和保障。”
一方面,极狐GitLab 丰富的产品课程和清晰详细的说明文档,帮助燧原科技快速上手极狐GitLab;
另一方面,极狐GitLab 所有服务运营团队均在国内,快速响应和解决燧原科技使用过程中的问题,工具平台真正服务于高效能研发,团队可以专注于业务创新。
🌟 成立 5 年来,燧原科技向业界证明了燧原速度和能力:
- 2019 年,发布第一代训练产品「云燧T10/T11」;
- 2020 年,发布第一代推理产品「云燧i10」;
- 2021 年,发布第二代训练产品「云燧T20/T21」,推理产品「云燧i20」;
- 2022 年,发布高性能人工智能加速集群产品「云燧智算机」。
第四次科技革命浪潮席卷而来,时代呼唤 “芯” 声 ,燧原科技挺立潮头。