Nvidia no solo es el pegamento de la IA: ahora tiene un modelo omnipotente que lee, ve y escucha. Todo a la vez

Nvidia no solo es el pegamento de la IA: ahora tiene un modelo omnipotente que lee, ve y escucha. Todo a la vez

Hace ocho años, cuando Nvidia aún era una compañía que hacía gráficas para videojuegos, la compañía apuntó a algo que está empezando a entrar en la conversación: la robótica física. Son los robots con inteligencia artificial integrada para comportarse de forma autónoma. Como un ChatGPT con brazos, oídos y ojos. Ha llovido mucho desde entonces y es ahora cuando estamos empezando a entrar en ese futuro. Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y digital converjan, y su último producto es Nemotron 3 Nano Omni.

Un modelo de IA que ve, escucha y lee el mundo físico.

Modelos Omni. Estos modelos son multimodales, pero en un sentido mucho más estricto. Mientras los modelos que solemos usar a diario necesitan de canales separados para procesar y generar audio, texto, imagen y vídeo, un modelo omni está diseñado para ser intrínsecamente multimodal. Esto implica que utilizan una arquitectura de red neuronal única entrenada de extremo a extremo para que la interacción entre modelos y estímulos sea más natural, veloz y capaz de reconocer más matices.

Un ejemplo es una IA que puede “ver” lo que captura una cámara, analizar toda la situación y dar un feedback al usuario de una forma más rápida que una que puede hacer lo mismo, pero cuyo modelo de texto tiene que preguntar al de vídeo qué ha visto para, después, generar el contenido. En menos palabras aún: imita mejor la forma en la que los humanos percibimos y respondemos a los estímulos del mundo.

NVIDIA tiene tantísimo dinero que está convirtiéndose en algo distinto: la mayor incubadora de startups del mundo

En Xataka

NVIDIA tiene tantísimo dinero que está convirtiéndose en algo distinto: la mayor incubadora de startups del mundo

Integración. Y eso es lo que Nvidia afirma que puede hacer Nemotron 3 Nano Omni. En la misma arquitectura, es un modelo que integra capacidades de visión, audio y lenguaje para eliminar el flujo de trabajo fragmentado de los actuales agentes de IA. Según la compañía, está construido sobre una arquitectura híbrida de mezcla de expertos (las IAs entrenadas en diversas materias) con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia.

Se ha diseñado como un modelo nueve veces más rápido que los modelos separados y que tiene tres veces más rendimiento que otros modelos omni abiertos consumiendo 2,75 veces menos capacidad de cómputo en tareas como el razonamiento a partir de un vídeo.

Vale, pero para qué. Esa es la pregunta clave, más allá de los números y de las capacidades en bruto de esta tecnología. Los casos de uso que detalla la compañía son los siguientes:

  • Agentes: impulsar esos agentes que navegan por las interfaces gráficas del usuario, razonando en base al contenido en pantalla y entendiendo lo que está viendo en tiempo real y de forma persistente. La resolución de entrada nativa es de 1.920 x 1.080 para lograr esa comprensión visual en HD.
  • Documentos: interpreta gráficos, tablas, documentos, capturas de pantalla y entradas de medios mixtos.
  • Comprensión de audio y vídeo: es capaz de comprender lo que ve y escucha para mantener una coherencia en su interpretación en lugar de razonar en base a modelos desconectados.

Hay una cosa llamada "índice de precios de Ornn", está fuera de control y son malas noticias para todo el mundo

En Xataka

Hay una cosa llamada «índice de precios de Ornn», está fuera de control y son malas noticias para todo el mundo

Para profesionales. Lo que está claro es que Nemotron 3 Nano Omni no es algo que se lance con el objetivo de que sea algo para las masas como otros modelos de IA que vemos a diario. Nvidia lo enfoca en algo empresarial, una herramienta a la que acceder a través de plataformas como Hugging Face y para implementarse en sistemas locales como DGX Spack o Jetson. Es decir, no es algo al alcance de cualquiera.

Lo interesante es que es una tecnología que está empujando fuerte la narrativa de los agentes como entes omnipotentes, y cuadra con el discurso más reciente de Jensen Huang, CEO de la compañía, de que la IA no llegará para quitarnos el trabajo, sino para ‘micromanagearnos’.

Imagen | Nvidia

En Xataka | Hay una empresa que ha crecido un 3.000% en bolsa batiendo incluso el rendimiento de Nvidia: Sandisk


La noticia

Nvidia no solo es el pegamento de la IA: ahora tiene un modelo omnipotente que lee, ve y escucha. Todo a la vez

fue publicada originalmente en

Xataka

por

Alejandro Alcolea

.

Compruebe también

Chile tiene uno de los cielos más valiosos de la Tierra. Las renovables lo están poniendo contra las cuerdas

Chile tiene uno de los cielos más valiosos de la Tierra. Las renovables lo están poniendo contra las cuerdas

Chile tiene un diamante de 105.000 km². El desierto de Atacama es uno de los …

He viajado en taxi autónomo y un dron me ha traído el bubble tea: así es un jueves cualquiera en Shenzhen

He viajado en taxi autónomo y un dron me ha traído el bubble tea: así es un jueves cualquiera en Shenzhen

Cuesta creer que hace apenas cuatro décadas Shenzhen era un pueblo de pescadores, especialmente cuando …

Dejanos tu comentario