100GigE desatado

Diagrama que muestra la conexión desde una cámara 100GigE a través de una tarjeta de red 100GigE, un servidor y la salida del software.

100GigE desatado: Los sensores de Sony se adaptan a la arquitectura de sistemas de alta velocidad del mundo real.

La visión artificial de alta velocidad ha superado la mentalidad centrada en la cámara. A medida que los nuevos sensores Pregius S de Sony ofrecen un rendimiento de 100 GigE para aplicaciones industriales más amplias, el verdadero desafío reside en la arquitectura del sistema: transferir flujos de imágenes masivos desde la cámara al host, la GPU y el almacenamiento sin cuellos de botella. Este artículo explica cómo la tecnología GVSP optimizada sin copia, GigE Vision 3.0/RDMA y herramientas de software como eSDK Pro y eCapture Pro permiten crear flujos de trabajo escalables y listos para la producción.

El problema ya no reside en la cámara, sino en el sistema.

La mayoría de los ingenieros de visión artificial saben exactamente cuándo falla un sistema. Lo que a menudo no pueden explicar es por qué, ya que las métricas de la cámara parecen correctas, la interfaz funciona a su máxima capacidad y, en teoría, el hardware debería ser más que suficiente. La respuesta, en un número creciente de implementaciones de alta velocidad, es que el problema nunca estuvo donde buscaban. Una sola cámara industrial moderna puede generar más datos por segundo que los que podía procesar un sistema de visión artificial completo hace una década. Las instalaciones multicámara actuales suelen alcanzar tasas de datos agregadas de decenas de gigabytes por segundo, y los sensores capaces de hacerlo ya no son exóticos ni caros. El cuello de botella se ha desplazado. Ya no está dentro de la cámara.

Este cambio no es solo una curiosidad técnica. Modifica la dirección que debe tomar el esfuerzo de ingeniería, las habilidades que necesitan los integradores de sistemas y qué proveedores tienen la experiencia necesaria para cumplir con lo prometido. El procesamiento de imágenes está migrando cada vez más de arquitecturas basadas en CPU a sistemas acelerados por GPU, a menudo combinados con computación perimetral cerca del sensor. En estos entornos, capturar la imagen se ha convertido en la parte más sencilla. El éxito o el fracaso de los sistemas radica en el manejo de los datos.

En la última década, la tecnología de sensores CMOS ha avanzado a un ritmo extraordinario. Sony, en particular, ha impulsado muchos de estos avances con sus plataformas Pregius y Pregius S, que se han convertido en un pilar fundamental de la imagen industrial moderna. Las resoluciones más altas, la sensibilidad mejorada y las velocidades de fotogramas cada vez mayores han abierto la puerta a aplicaciones que eran difíciles o incluso imposibles hace tan solo unos años. Pero este mismo progreso ha transformado radicalmente dónde residen los verdaderos desafíos de ingeniería en los sistemas de imagen. Durante mucho tiempo, el principal cuello de botella en la visión artificial de alto rendimiento era el propio sensor o la interfaz de la cámara utilizada para transportar los datos de imagen al sistema anfitrión. Hoy en día, esto ya no es así. Los sensores modernos pueden generar enormes flujos de datos, y las interfaces de alto ancho de banda, como 100GigE, son totalmente capaces de transportarlos. El verdadero desafío comienza solo después de que los datos de imagen salen de la cámara.

Diagrama que muestra la conexión desde una cámara 100GigE a través de una tarjeta de red 100GigE, un servidor y la salida del software.

Diagrama de configuración del sistema de cámara 100GigE

Configuración de un sistema de cámaras 100GigE, escalable mediante componentes Ethernet estándar.

Cuando PowerPoint se convierte en realidad

En los últimos meses, varios fabricantes de cámaras han comenzado a presentar sus primeras cámaras 100GigE, plataformas que durante años solo habían existido en hojas de ruta de productos y presentaciones. Su creciente disponibilidad representa un paso importante para la industria de la visión artificial. La captura de imágenes mediante Ethernet de alta velocidad abre la puerta a aplicaciones que antes requerían interfaces de hardware especializadas y costosas, y permite que los sistemas de visión artificial se integren mejor en las arquitecturas modernas de centros de datos, con toda la flexibilidad y escalabilidad que esto conlleva.

Lo que a menudo se pasa por alto en la actual oleada de anuncios es que la imagen Ethernet de alto ancho de banda no es algo nuevo. Emergent Vision Technologies presentó sus primeras cámaras 10GigE hace más de doce años, seguidas de plataformas 25GigE hace más de ocho años y cámaras 100GigE basadas en sensores Gpixel hace más de seis años. Desde el principio, estas plataformas se diseñaron para aplicaciones en las que las arquitecturas tradicionales de visión artificial alcanzan rápidamente sus límites: sistemas de inspección multicámara a gran escala, estudios de captura volumétrica, plataformas de imagen científica y configuraciones de análisis de movimiento de alta velocidad donde el número de cámaras no se mide en decenas, sino en decenas. Trabajar en estos entornos durante más de una década ha dado lugar a una observación clara: la cámara en sí rara vez fue el verdadero cuello de botella. El factor decisivo fue casi siempre la arquitectura del sistema subyacente.

Esta observación no es abstracta. Un reciente caso de implementación para un cliente lo demuestra. Un fabricante de la industria alimentaria necesitaba un sistema de inspección óptica automatizado basado en IA que pudiera operar hasta 21 cámaras simultáneamente, con todos los datos de imagen enrutados a través de un único conmutador de red a un sistema host equipado con tres GPU. El código de inferencia de IA del cliente se ejecutaba directamente en ese hardware, procesando el flujo completo de la cámara en tiempo real y sin tolerancia a la pérdida de fotogramas ni a retrasos en el procesamiento. Durante más de dos años, el cliente intentó que esta arquitectura funcionara con cámaras de uno de los mayores fabricantes de visión artificial del mundo. El hardware era capaz en teoría. En la práctica, el sistema no podía mantener un funcionamiento estable con la cantidad de cámaras requerida. La sobrecarga de la CPU de las implementaciones estándar de GVSP saturaba el host mucho antes de que la canalización de la GPU se convirtiera en el factor limitante. Se perdían fotogramas, la latencia era inconsistente y los resultados de la inferencia de IA no eran fiables. Cuando Emergent se incorporó, la configuración completa de 21 cámaras funcionaba de forma estable en el mismo host utilizando cámaras 10GigE combinadas con una pila de controladores GVSP optimizada y una configuración llave en mano basada en eCapture Pro, el software de adquisición y procesamiento multicámara en tiempo real de Emergent con una interfaz gráfica de usuario para la configuración del sistema, la monitorización y la gestión de datos. El código de inferencia de IA del cliente se integró como un complemento personalizado dentro de este marco, lo que permitió el procesamiento directo de los flujos de imágenes entrantes sin sobrecarga adicional de gestión de datos. Esto evitó la necesidad de construir gran parte de la infraestructura de adquisición, visualización y tiempo de ejecución desde cero y redujo significativamente el tiempo necesario para poner el sistema en funcionamiento estable. Las tres GPU finalmente estaban haciendo exactamente lo que se suponía que debían hacer: ejecutar el código de IA del cliente, en lugar de competir por ciclos de CPU con la pila de red. Las cámaras nunca fueron el problema. El problema era la canalización de datos.

Los sensores de Sony amplían la plataforma 100GigE.

Hasta ahora, todas las plataformas de cámaras de escaneo de área y de línea de 100GigE de Emergent se han basado en la familia de sensores de Gpixel, que ha demostrado ser altamente capaz para la captura de imágenes de alta velocidad y ha permitido la primera generación de sistemas de cámaras Ethernet de alto ancho de banda. El siguiente paso en esta evolución está impulsado ahora por la última generación de sensores de Sony.

Los nuevos sensores CMOS de Sony, basados ​​en la tecnología Pregius S de cuarta generación, combinan alta resolución, altas velocidades de fotogramas y sensibilidad mejorada en una arquitectura de píxeles compacta. Con tamaños de píxel que van desde 5.48 µm hasta 2.74 µm, estos sensores permiten resoluciones significativamente mayores, manteniendo la calidad de imagen y la eficiencia que exigen los sistemas de inspección industrial. La gama abarca un amplio rango de rendimiento, desde sensores de alta velocidad y resolución media hasta plataformas que superan los 100 megapíxeles, cubriendo así una amplia variedad de requisitos de aplicación.

Nuevos sensores de Sony, incluidos el IMX926, IMX949, IMX925, IMX947, IMX929, IMX928 y IMX927.

Los primeros modelos de esta nueva generación, incluidos el HZ-12000-SB (IMX926), el HZ-25000-SB (IMX925) y el HZ-100-SB (IMX927), ya han entrado en producción. Se lanzarán cámaras adicionales a lo largo de finales de 2026 y principios de 2027, en consonancia con la hoja de ruta de lanzamiento de sensores de Sony. Desde la perspectiva del sistema, estos sensores representan mucho más que una simple mayor resolución. A pleno rendimiento, una sola cámara puede generar varios gigabytes de datos de imagen por segundo. En entornos multicámara, las tasas de datos agregadas aumentan rápidamente hasta alcanzar decenas o incluso cientos de gigabytes por segundo, lo que hace que la cuestión de cómo se transportan y procesan esos datos sea más crucial que nunca.

La hoja de ruta de Sony también incluye versiones con menor velocidad de fotogramas de estos sensores de gran formato, como las clases IMX937 e IMX938, dirigidas a aplicaciones donde se requiere la máxima resolución pero no la velocidad máxima del sensor. Estas variantes ofrecen opciones de diseño adicionales, ya que, según los requisitos de la aplicación, se pueden combinar con interfaces de menor ancho de banda, como 10GigE o 25GigE, lo que permite arquitecturas de sistema más rentables sin sacrificar la alta calidad de imagen. Las futuras plataformas de cámara basadas en estos sensores complementarán la cartera actual de 100GigE, así como las familias ya establecidas de 10GigE EROS y 25GigE BOLT, brindando a los diseñadores de sistemas mayor flexibilidad para equilibrar la resolución, el ancho de banda y el costo total del sistema en diferentes escenarios de aplicación.

El desafío del GVSP y cómo resolverlo

En visión artificial, GigE Vision ha sido durante mucho tiempo el estándar de interfaz establecido para anchos de banda bajos, abarcando instalaciones de 1, 2.5 y 5 GigE. El protocolo de transmisión GigE Vision (GVSP) es la parte de dicho estándar responsable del transporte de datos de imagen, y su atractivo siempre ha sido el mismo: infraestructura de red estándar, amplia compatibilidad de software y ausencia de dependencia de hardware propietario. Emergent lleva más de una década impulsando GigE Vision hacia la alta velocidad, mucho antes de que el resto de la industria lo hiciera, razón por la cual los desafíos de implementación que conlleva escalar a 10, 25 y 100 GigE no son nuevos para la compañía.

Ruta de datos El desafío radica en cómo se implementa ese protocolo a estos anchos de banda más altos. Lo que muchos integradores atribuyen inicialmente a la utilización de la CPU es, en realidad, un problema de ancho de banda de memoria. En las implementaciones tradicionales de GVSP, los datos de imagen entrantes pasan por múltiples copias de búfer. Cada copia consume ancho de banda de memoria y, a altas velocidades de datos con múltiples transmisiones de cámara simultáneas, esa carga acumulativa satura rápidamente el sistema mucho antes de que la propia CPU se convierta en el factor limitante. El resultado es conocido: pérdida de fotogramas, comportamiento inestable y un sistema anfitrión que tiene dificultades incluso cuando los números de utilización de la CPU parecen manejables sobre el papel.

Emergent abordó este problema desde el principio mediante una arquitectura GVSP de copia cero. En lugar de enrutar los datos a través de sucesivos búferes de memoria, la implementación coloca los datos de imagen directamente en su destino final en una sola transferencia. Esto elimina hasta tres veces la sobrecarga de ancho de banda de memoria de los enfoques convencionales y reduce la interacción de la CPU al mínimo requerido por el estándar. Como se ilustra en la Figura 2, la diferencia entre una implementación GVSP tradicional y una arquitectura de copia cero es sustancial, y se hace más evidente con cada flujo de cámara adicional que se agrega al sistema.

Diagrama que muestra la ruta tradicional para los datos de la cámara mediante GVSP, a través de la memoria del sistema y la CPU.

Ruta de datos GVSP tradicional para cámaras 100GigE

Figura 2: Flujo de datos GVSP tradicional que muestra múltiples copias de memoria y reconstrucción de tramas basada en CPU, lo que aumenta la sobrecarga del sistema en la obtención de imágenes de alta velocidad de 100 GigE.

Proceso GVSP optimizado para datos de cámaras de 100GigE

Proceso GVSP optimizado para cámaras 100GigE

Figura 3: El flujo de datos GVSP optimizado sin copia utiliza DMA directo para transferir tramas desde la tarjeta de interfaz de red, minimizando las copias de memoria y reduciendo la participación de la CPU a tareas de control únicamente.

RDMA y GigE Vision 3.0

La próxima evolución en este ámbito es el estándar GigE Vision 3.0, que introduce soporte nativo para RDMA (Acceso Directo a Memoria Remota). RDMA logra la transmisión de datos sin copias a nivel de estándar, lo que permite a las interfaces de red transferir datos de imagen directamente a los búferes de memoria de la aplicación sin copias intermedias y sin requerir la intervención de la CPU para cada paquete. En este sentido, aborda el mismo problema de ancho de banda de memoria que la arquitectura GVSP optimizada de Emergent ha resuelto durante años, pero hace que este enfoque sea más accesible para toda la industria. En el momento de la publicación, se espera que el estándar esté formalmente ratificado o en sus etapas finales de ratificación.

Para Emergent, este es un terreno conocido. El principio de copia cero ha sido fundamental en la implementación de GVSP de la compañía desde sus inicios, desarrollado por necesidad operativa en despliegues multicámara de alto ancho de banda donde no existía margen para la ineficiencia arquitectónica. GigE Vision 3.0 ahora extiende esta capacidad a un conjunto más amplio de implementaciones, y Emergent ofrece soporte completo para ambos enfoques. Dicho esto, RDMA presenta sus propias desventajas. Ciertas implementaciones introducen limitaciones en torno a la transmisión multicast, que sigue desempeñando un papel importante en los sistemas multicámara escalables. Como se muestra en la Figura 3, cada método de transporte ofrece características distintas, y la elección correcta depende del contexto completo del sistema, no solo de las cifras de ancho de banda.

Elemento

GVSP tradicional

GVSP optimizado (emergente)

RDMA (GigE Vision 3.0)

Carga de CPU Alto Muy Bajo Muy Bajo
Copias de datos 1 0 0
Tarjetas de red estándar Sí: Sí: Sí (similar a GVSP optimizado)
GPUDirect (Linux) No Sí: Sí:
GPUDirect (Windows) No Sí: No
Multidifusión Totalmente compatible Totalmente compatible No soportado
Facilidad de integración Cumple con los estándares Cumple con los estándares Cumple con los estándares (GigE Vision 3.0)
Escalabilidad (multicámara) Limitada Probado Depende de la aplicación

Desde transmisiones de cámaras hasta flujos de datos

Una vez que los datos de imagen llegan al sistema anfitrión, comienza el verdadero trabajo. Los sistemas de imagen modernos de alto rendimiento dependen cada vez más de las arquitecturas de procesamiento basadas en GPU para la inspección, reconstrucción o inferencia de IA, y transferir datos de la interfaz de red a la memoria de la GPU de manera eficiente representa un importante desafío de ingeniería. Tecnologías como GPU Direct en Windows permiten transferir datos de imagen desde la interfaz de red a la memoria de la GPU con una sobrecarga mínima, evitando el cuello de botella de la CPU que, de otro modo, limitaría el rendimiento.

En la práctica, integrar estos mecanismos de manera eficiente en una canalización de aplicaciones puede resultar complejo, especialmente al trabajar con múltiples flujos de alto ancho de banda. En entornos multicámara, donde las tasas de datos totales alcanzan decenas o incluso cientos de gigabytes por segundo, la integración entre las interfaces de las cámaras, la memoria del sistema, las canalizaciones de procesamiento de la GPU y la infraestructura de almacenamiento debe diseñarse cuidadosamente de principio a fin. Como se ilustra en la Figura 4, estas arquitecturas abarcan desde sistemas compactos de una sola cámara en el borde hasta grandes instalaciones multicámara construidas en torno a conmutadores de red y múltiples estaciones de trabajo con GPU. El contraste con los enfoques tradicionales basados ​​en capturadores de fotogramas es significativo: los sistemas basados ​​en Ethernet permiten una escalabilidad flexible mediante infraestructura de red estándar, mientras que las arquitecturas de capturadores de fotogramas requieren hardware dedicado por grupo de cámaras y, en consecuencia, aumentan en complejidad y coste.

Diagrama que muestra la diferencia de escalabilidad entre las cámaras GigE y CoaXpress.

Escalabilidad del sistema de cámaras GigE frente al sistema CoaXpress

Figura 4: Comparación de arquitecturas multicámara escalables basadas en Ethernet y sistemas tradicionales basados ​​en capturadores de imágenes.

La dimensión económica también es importante. En algunos despliegues de alta velocidad, la estabilidad se logra simplemente añadiendo más hardware: servidores adicionales, interfaces de red dedicadas y nodos de procesamiento independientes para distribuir la carga. Esto puede funcionar, pero a menudo produce una arquitectura innecesariamente compleja y costosa. Al optimizar el transporte de datos, reducir la sobrecarga de la CPU y diseñar pipelines de procesamiento eficientes desde el principio, es posible admitir un número significativamente mayor de cámaras con menos sistemas host. Las instalaciones estables de múltiples cámaras no requieren un enfoque de una cámara por ordenador. Los sistemas cuidadosamente diseñados pueden escalar a docenas de cámaras manteniendo bajo control los requisitos de hardware y la complejidad operativa, y ese equilibrio entre rendimiento, estabilidad y coste suele ser lo que determina si un proyecto de imagen de alta velocidad tiene éxito en producción o se queda en una prueba de concepto.

Para simplificar esta integración, plataformas de software como eSDK Pro —reconocida como una de las principales innovaciones de 2026 por InVision a principios de este año— ofrecen acceso a rutas de datos optimizadas, incluyendo GPU Direct. En lugar de requerir un desarrollo extenso de bajo nivel, estos enfoques permiten a los diseñadores de sistemas centrarse en la lógica de la aplicación y evitar invertir cientos de horas de ingeniería en el transporte, la gestión de memoria y la optimización a nivel de interfaz al crear sistemas de procesamiento de imágenes de alto rendimiento.

La siguiente fase de la visión de alta velocidad

Con la nueva generación de sensores de Sony entrando en producción y GigE Vision 3.0 brindando soporte RDMA a toda la industria, la captura de imágenes Ethernet de alta velocidad está entrando en una nueva fase. Los sensores de alto rendimiento, la infraestructura Ethernet de gran ancho de banda y las modernas arquitecturas de computación GPU están convergiendo de maneras que abren aplicaciones que antes estaban fuera del alcance de la mayoría de los integradores de sistemas. Cada vez más empresas comenzarán a explorar este campo, y la tecnología en sí misma continuará madurando rápidamente.

Sin embargo, lo que la última década de implementaciones reales demuestra consistentemente es que las especificaciones de la cámara rara vez determinan el éxito. Los sistemas que funcionan de manera confiable en producción son aquellos en los que cada etapa del proceso de imagen se ha diseñado teniendo en cuenta el flujo de datos completo, desde el sensor hasta la interfaz, de la interfaz al host, de la memoria del host a la GPU y, posteriormente, al almacenamiento o la salida. La línea de procesamiento de alimentos con 21 cámaras que funcionó durante dos años sin una solución operativa no es una excepción. Es la regla. En la visión de alta velocidad, la cámara nunca fue el verdadero cuello de botella. La arquitectura del sistema lo es. Y lograr una arquitectura adecuada requiere algo que ninguna hoja de datos puede proporcionar: la experiencia adquirida en implementaciones reales, a gran escala y en condiciones operativas reales.

Cámaras de escaneo de área y escaneo lineal de 100GigE de Emergent Vision Technologies

ZENITH 100GigE es lo último en velocidad y resolución.

Cámaras ZENITH 100GigE

Velocidad de cuadros: 16-3462 FPS
Resolución: 2.5 MP-152 MP
Croma: Color, Mono

PINNACLE es velocidad máxima para inspección y clasificación.

Cámaras PINNACLE 100GigE

Velocidad de línea: 400-1000 kHz
Resolución: 8K-16K TDI, 16Kx16
Croma: Color, Mono