Uber IA AWS: chips propios, inferencia en tiempo real y la nueva batalla cloud

Uber dejó de ser una app de transporte hace tiempo. Lo que opera hoy es una máquina algorítmica que toma decisiones para 150 millones de usuarios en 70 países, en fracciones de segundo. Y acaba de revelar cómo lo hace por dentro.

En abril de 2026, Uber amplió formalmente su alianza estratégica con Amazon Web Services para escalar su plataforma de inteligencia artificial usando chips propios de AWS. El movimiento no es solo una noticia de infraestructura: es una declaración de guerra a Nvidia y una hoja de ruta para cualquier empresa que quiera construir IA en producción a escala real.

## Qué hizo Uber exactamente

Uber ha migrado sus cargas de cómputo más críticas al silicio personalizado de Amazon, separándolas en dos velocidades bien definidas.

El **Graviton4** —procesador ARM de última generación de AWS— maneja la inferencia en tiempo real. Cuando pides un Uber o haces un pedido en Uber Eats, el algoritmo de ride-matching y asignación de entregas corre sobre Graviton4 con latencias de milisegundos. El propio equipo de Uber lo dejó claro: *”Uber opera a una escala donde los milisegundos importan”*. No es retórica; es el corazón del producto.

El **Trainium3** —chip de AWS diseñado exclusivamente para entrenamiento de modelos de IA— se encarga del trabajo pesado offline. Aquí viven los modelos que calculan el surge pricing, optimizan rutas de delivery y personalizan la experiencia de cada usuario. Entrenar estos modelos sobre Trainium3 es más barato y más eficiente energéticamente que hacerlo sobre GPUs de Nvidia para estas cargas de trabajo específicas.

Con este movimiento, Uber se une al grupo más selecto del silicio de Amazon: Anthropic, OpenAI y Apple ya usan Trainium en producción. Es una lista que importa.

## Qué significa esto para la industria

Hay tres lecturas que no puedes ignorar.

**Primera: la dependencia de Nvidia se rompe.** AWS (con Trainium y Graviton), Google (con sus TPUs) y Microsoft (con los chips Maia) llevan años construyendo hardware propio para no depender del monopolio de Nvidia en el cómputo de IA. Uber eligió el stack de Amazon. Eso valida la apuesta de AWS en el mercado enterprise de forma brutal.

**Segunda: la arquitectura de dos velocidades es el patrón a copiar.** Separar inferencia en tiempo real (Graviton4, baja latencia, alta frecuencia) de entrenamiento offline (Trainium3, alta eficiencia, menor coste por epoch) no es un capricho de Uber: es ingeniería de producción inteligente. Si estás escalando IA sobre AWS, esta separación debería estar en tu diseño desde el día uno. No estás obligado a tener el tamaño de Uber para que el patrón tenga sentido.

**Tercera: el cloud no es una commodity, es una ventaja competitiva.** Uber ya operaba sobre AWS antes de este acuerdo. Pero migrar cargas clave al silicio personalizado de Amazon en lugar de seguir con GPUs de propósito general es una decisión estratégica que mezcla coste, latencia y eficiencia. Para un negocio donde el algoritmo *es* el producto, la infraestructura de cómputo es tan importante como el código que corre sobre ella.

Lo que además deja en evidencia este acuerdo es la batalla cloud real. Google Cloud y Microsoft Azure están peleando exactamente por este tipo de contratos enterprise de IA a escala. AWS acaba de llevarse a Uber. Eso es un punto que cuenta en la guerra por el silicio de 2026.

## Qué puedes hacer tú con esto

Si eres developer o CTO y estás escalando IA en producción, el caso Uber-AWS te da un blueprint accionable.

Primero, **audita tus cargas de trabajo por tipo**: separa qué necesita baja latencia en tiempo real de qué puede correr offline con mayor tolerancia. No mezcles ambas en la misma arquitectura de cómputo.

Segundo, **evalúa el coste total** antes de asumir que Nvidia es la única opción. Para inferencia de propósito general y entrenamiento de modelos con cargas predecibles, Graviton4 y Trainium3 pueden ofrecer mejor ratio precio-rendimiento dependiendo de tu caso de uso.

Tercero, **piensa en la latencia como feature de producto**, no como métrica técnica. Uber lo entendió. Si tu algoritmo tarda 200ms más de lo necesario porque tu stack no está optimizado, ese coste lo paga el usuario, no el equipo de infraestructura.

El movimiento de Uber no es solo interesante para los que siguen la guerra del silicio de IA. Es una demostración en producción, a escala real, de cómo construir infraestructura de ML que soporte un negocio global. Eso tiene valor independientemente del tamaño de tu empresa.

Uber IA AWS: chips propios, inferencia en tiempo real y la nueva batalla cloud

Submit a Comment Cancel reply

Entradas recientes

Comentarios recientes

¡AHORA ERES PARTE DE LA COMUNIDAD!

Producto

Company