100GigE 释放
100GigE 全面释放: 索尼传感器满足实际高速系统架构的需求
瓶颈不再在于相机本身,而在于系统。
大多数机器视觉工程师都能准确判断系统何时出现故障。但他们往往无法解释故障原因,因为相机指标看起来正常,接口带宽也已达到饱和,而且从理论上讲,硬件的性能应该绰绰有余。然而,在越来越多的高速部署案例中,答案是:问题根本不在他们最初关注的地方。如今,一台现代工业相机每秒产生的数据量就超过了十年前整个机器视觉系统所能处理的数据量。多相机系统如今通常能将聚合数据速率推至每秒数十GB,而能够实现如此高速率的传感器也不再是稀有或昂贵的设备。瓶颈已经转移,不再存在于相机内部。
这种转变并非仅仅出于技术上的好奇。它改变了工程工作的重点方向、系统集成商所需的技能,以及哪些供应商真正具备交付经验。图像处理正日益从基于 CPU 的架构转向 GPU 加速的流水线,通常还会结合靠近传感器的边缘计算。在这样的环境下,图像采集已变得相对容易。数据处理才是系统成败的关键所在。
过去十年,CMOS传感器技术以惊人的速度发展。索尼尤其凭借其Pregius和Pregius S平台推动了其中许多发展,这些平台已成为现代工业成像的基石。更高的分辨率、更强的灵敏度和不断提高的帧速率,使得几年前难以实现甚至无法实现的应用成为可能。但同样的进步也从根本上改变了成像系统真正的工程挑战所在。长期以来,高性能机器视觉的主要瓶颈要么是传感器本身,要么是用于将图像数据传输到主机系统的相机接口。如今,这种情况已逐渐改变。现代传感器可以生成海量数据流,而诸如100GigE之类的高带宽接口完全能够传输这些数据。真正的挑战始于图像数据离开相机之后。
100GigE 摄像机系统配置图
使用标准以太网组件进行扩展的 100GigE 摄像头系统的配置。
当 PowerPoint 成为现实
近几个月来,多家相机制造商终于开始推出首批100GigE相机,这些平台此前多年来主要存在于产品路线图和演示幻灯片中。它们的日益普及是机器视觉行业的重要一步。高速以太网成像为以往需要专用且昂贵的硬件接口的应用打开了大门,并使机器视觉系统能够更接近现代数据中心架构,从而获得其带来的所有灵活性和可扩展性。
在当前这波发布浪潮中,人们很容易忽略一个事实:高带宽以太网成像技术本身并非新生事物。Emergent Vision Technologies 公司早在十二年前就推出了首款 10GigE 相机,八年前又推出了 25GigE 平台,六年前又推出了基于 Gpixel 传感器的 100GigE 相机。从一开始,这些平台的设计目标就是满足传统机器视觉架构很快达到性能瓶颈的应用场景:大规模多相机检测系统、体素采集工作室、科学成像平台以及高速运动分析装置——在这些应用中,相机的数量并非个位数,而是数十台。十多年来在这些环境中的工作经验让我们得出了一个显而易见的结论:相机本身很少成为真正的瓶颈,决定性因素几乎总是其背后的系统架构。
这一观察并非空穴来风。最近一个客户的部署案例便印证了这一点。一家食品加工行业的制造商需要一套基于人工智能的自动化光学检测系统,该系统需同时运行多达21个摄像头,所有图像数据都通过单个网络交换机路由到一台配备三个GPU的主机系统。客户自主开发的AI推理代码直接运行在该硬件上,实时处理完整的摄像头数据流,并且不允许出现丢帧或处理延迟。两年来,客户一直尝试使用全球最大的机器视觉制造商之一提供的摄像头来实现这一架构。从理论上讲,硬件性能足够。但实际上,该系统无法在所需的摄像头数量下稳定运行。标准GVSP实现的CPU开销在GPU流水线成为瓶颈之前就已使主机不堪重负。丢帧现象严重,延迟不稳定,AI推理结果也难以保证。 Emergent 接手时,整套包含 21 个摄像头的系统已稳定运行在同一台主机上,该系统采用 10GigE 摄像头,并结合优化的 GVSP 驱动栈和基于 eCapture Pro 的交钥匙解决方案。eCapture Pro 是 Emergent 开发的实时多摄像头采集和处理软件,拥有图形用户界面,可用于系统设置、监控和数据处理。客户的 AI 推理代码以自定义插件的形式集成到该框架中,可以直接处理传入的图像流,无需额外的数据处理开销。这避免了从零开始构建大部分采集、可视化和运行时基础设施,并显著缩短了系统稳定运行所需的时间。三块 GPU 终于能够发挥其应有的作用:运行客户的 AI 代码,而不是与网络协议栈争夺 CPU 资源。摄像头本身从未出现问题,真正的问题在于数据管道。
索尼传感器扩展了100GigE平台
迄今为止,Emergent 的所有 100GigE 面阵扫描和线阵扫描相机平台均基于 Gpixel 的传感器系列,该系列传感器已被证明在高速成像方面性能卓越,并助力实现了第一代高带宽以太网相机系统。而索尼最新一代传感器则推动了这一演进的下一步。
索尼最新推出的基于第四代 Pregius S 技术的 CMOS 传感器,在紧凑的像素架构中实现了高分辨率、高帧率和更高的灵敏度。这些传感器的像素尺寸从 5.48 微米到 2.74 微米不等,能够在保持工业检测系统所需的图像质量和效率的同时,显著提高分辨率。该产品组合涵盖了从高速中分辨率传感器到超过 100 亿像素平台的广泛性能范围,能够满足各种应用需求。
新一代传感器的首批型号,包括 HZ-12000-SB (IMX926)、HZ-25000-SB (IMX925) 和 HZ-100-SB (IMX927),已经投产。后续机型将于 2026 年底至 2027 年初陆续推出,与索尼持续的传感器发布路线图保持一致。从系统角度来看,这些传感器带来的优势远不止更高的分辨率。单台相机在满负荷运行时,每秒可生成数 GB 的图像数据。在多相机环境下,聚合数据速率会迅速增长至每秒数十甚至数百 GB,因此,如何传输和处理这些数据的问题比以往任何时候都更加重要。
索尼的产品路线图还包括这些大画幅传感器的低帧率版本,例如 IMX937 和 IMX938 系列,旨在满足那些需要最高分辨率但不需要全帧率的应用需求。这些变体提供了更多设计选择,因为根据应用需求,它们可以与 10GigE 或 25GigE 等低带宽接口结合使用,从而在保持高图像质量的同时,实现更具成本效益的系统架构。未来基于这些传感器的相机平台将与现有的 100GigE 产品组合以及成熟的 10GigE EROS 和 25GigE BOLT 系列形成互补,使系统设计人员能够更灵活地在不同的应用场景中平衡分辨率、带宽和整体系统成本。
GVSP挑战及其解决方法
在机器视觉领域,千兆以太网视觉(GigE Vision)长期以来一直是低带宽环境下的成熟接口标准,涵盖 1G、2.5G 和 5GbE 网络。千兆以太网视觉流媒体协议(GVSP)是该标准中负责实际图像数据传输的部分,其优势始终如一:标准化的网络基础设施、广泛的软件兼容性以及无专有硬件锁定。Emergent 公司早在其他厂商跟进之前,就已将千兆以太网视觉推向高速领域十余年,因此,扩展至 10G、25G 和 100GbE 所带来的实施挑战对该公司而言并非陌生领域。
数据路径:挑战在于如何在高带宽下实现该协议。许多集成商最初将问题归咎于 CPU 利用率,但更准确地说,是内存带宽问题。在传统的 GVSP 实现中,传入的图像数据会经过多个缓冲区副本。每个副本都会消耗内存带宽,在高数据速率和多个并发摄像头流的情况下,累积的负载会迅速使系统饱和,远在 CPU 本身成为瓶颈之前。其结果显而易见:丢帧、运行不稳定,即使 CPU 利用率看起来在可控范围内,主机系统也会运行吃力。
Emergent 从一开始就通过零拷贝 GVSP 架构解决了这个问题。该实现方式并非通过连续的内存缓冲区路由数据,而是将图像数据直接传输到最终目标位置。这消除了高达传统方法三倍的内存带宽开销,并将 CPU 交互减少到标准要求的最低限度。如图 2 所示,传统 GVSP 实现与零拷贝架构之间的差异非常显著,并且随着系统中添加的摄像头流数量增加,这种差异会更加明显。
适用于 100GigE 摄像机的传统 GVSP 数据路径
图 2:传统的 GVSP 数据流显示了多个内存副本和基于 CPU 的帧重建,这增加了高速 100GigE 成像的系统开销。
针对100GigE摄像机的优化GVSP流程
图 3:优化的零拷贝 GVSP 数据流使用直接 DMA 从网络接口卡传输帧,最大限度地减少内存复制,并将 CPU 参与度降低到仅控制任务。
RDMA 和 GigE Vision 3.0
该领域的下一个发展方向是即将推出的 GigE Vision 3.0 标准,它引入了对 RDMA(远程直接内存访问)的原生支持。RDMA 在标准层面实现了零拷贝数据传输,允许网络接口将图像数据直接传输到应用程序内存缓冲区,无需中间拷贝,也无需 CPU 对每个数据包进行干预。在这方面,它解决了 Emergent 优化的 GVSP 架构多年来一直致力于解决的内存带宽问题,但使该方法在整个行业中更易于应用。截至本文发布时,该标准预计将正式获得批准或已进入批准的最后阶段。
对于 Emergent 而言,这并非陌生领域。零拷贝原则自公司 GVSP 实现之初便一直是其核心,该原则源于高带宽多摄像头部署的运营需求,在这些部署中,架构效率低下是绝对不允许的。如今,GigE Vision 3.0 将这一功能扩展到更广泛的实现方案,而 Emergent 也完全支持这两种方案。尽管如此,RDMA 也存在自身的权衡取舍。某些实现方案会对多播流造成限制,而多播流在可扩展的多摄像头系统中仍然扮演着重要角色。如图 3 所示,每种传输方式都各具特色,正确的选择取决于完整的系统环境,而不仅仅是带宽数值。
特性 |
传统 GVSP |
优化 GVSP(涌现) |
RDMA(千兆以太网愿景3.0) |
|---|---|---|---|
| CPU负载 | 高 | 非常低 | 非常低 |
| 数据副本 | 1 | 0 | 0 |
| 现成的网卡 | 是 | 是 | 是的(类似于优化后的GVSP) |
| GPUDirect(Linux) | 没有 | 是 | 是 |
| GPUDirect(Windows) | 没有 | 是 | 没有 |
| 多播 | 完全支持 | 完全支持 | 不支持 |
| 易于整合 | 符合标准 | 符合标准 | 符合标准(GigE Vision 3.0) |
| 可扩展性(多摄像头) | 有限 | 经过验证 | 取决于应用 |
从摄像头视频流到数据管道
图像数据到达主机系统后,真正的挑战才刚刚开始。现代高性能成像系统越来越依赖基于GPU的处理流程进行检测、重建或AI推理,而如何高效地将数据从网络接口传输到GPU内存本身就是一项重大的工程挑战。诸如Windows下的GPU Direct之类的技术能够以最小的开销将图像数据从网络接口传输到GPU内存,从而避免CPU瓶颈对吞吐量的限制。
在实践中,将这些机制高效地集成到应用程序流水线中并非易事,尤其是在处理多个高带宽数据流时。在多摄像头环境中,总数据速率可达每秒数十甚至数百GB,因此需要对摄像头接口、系统内存、GPU处理流水线和存储基础设施之间的集成进行端到端的精心设计。如图4所示,这些架构涵盖了从紧凑型单摄像头边缘系统到围绕网络交换机和多个GPU工作站构建的大型多摄像头系统。与传统的基于帧采集卡的方案相比,这种差异非常显著:基于以太网的系统可以使用标准网络基础设施进行灵活扩展,而帧采集卡架构则需要为每个摄像头组配备专用硬件,并且其复杂性和成本也会相应增加。
GigE 摄像机与 CoaXpress 系统可扩展性比较
图 4:可扩展的基于以太网的多摄像头架构与传统的基于图像采集卡的系统比较。
经济因素也至关重要。在某些高速部署中,稳定性往往通过增加硬件来实现:例如增加服务器、专用网络接口以及用于分担负载的独立处理节点。这种方法虽然可行,但通常会导致架构过于复杂且成本高昂。通过优化数据传输、降低 CPU 开销并从一开始就设计高效的处理流水线,可以在更少的主机系统中支持数量显著更多的摄像头。稳定的多摄像头系统并不需要采用“一台计算机连接一个摄像头”的方案。精心设计的系统可以扩展到数十个摄像头,同时有效控制硬件需求和运行复杂性。性能、稳定性和成本之间的这种平衡往往决定着高速成像项目最终是成功投入生产,还是仅仅停留在概念验证阶段。
为了简化这种集成,诸如 eSDK Pro(今年早些时候被 InVision 评为 2026 年顶级创新)之类的软件框架提供了对优化数据路径(包括 GPU Direct)的访问。这些方法无需进行大量的底层开发,使系统设计人员能够专注于应用程序逻辑,避免在构建高性能成像流水线时花费数百小时进行传输、内存处理和接口级优化。
高速视觉的下一阶段
随着索尼最新一代传感器投入量产,以及GigE Vision 3.0将RDMA支持引入更广泛的行业,高速以太网成像技术正迈入一个新阶段。高性能传感器、高带宽以太网基础设施和现代GPU计算架构的融合,为大多数系统集成商开启了以往难以企及的应用领域。未来将有更多公司开始探索这一领域,而这项技术本身也将继续快速发展成熟。
然而,过去十年的实际部署经验始终表明,相机规格很少能决定成败。那些在生产环境中可靠运行的系统,其成像流程的每个环节都经过精心设计,充分考虑了完整的数据流,从传感器到接口,从接口到主机,从主机内存到GPU,再到存储或输出。拥有21台相机、运行两年却始终无法找到有效解决方案的食品加工生产线并非个例,而是普遍现象。在高速视觉领域,相机从来都不是真正的瓶颈,真正的瓶颈在于系统架构。而构建正确的架构需要的是数据手册无法提供的经验:在实际运行条件下,大规模部署积累的经验。