Gemini ahora ve lo que haces en la pantalla del smartphone e interactúa con ese contenido

Gemini ahora ve lo que haces en la pantalla del smartphone e interactúa con ese contenido


Gemini, el asistente de inteligencia artificial (IA) de Google, ahora incorpora la tecnología de Project Astra, una plataforma que permite a la IA obtener contexto multimodal a través de video. Gracias a esta integración, el chatbot ahora puede “ver” e interpretar la información que aparece en la pantalla de un smartphone.

La actualización permite a la herramienta de asistencia inteligente grabar los contenidos visualizados en pantalla. Esto posibilita a los usuarios realizar consultas en tiempo real a Gemini sobre lo que ven mientras navegan por internet, juegan un videojuego o exploran cualquier material multimedia.

La función Live del bot inteligente también ha ampliado sus capacidades para acceder a la cámara del dispositivo móvil. De este modo, los usuarios pueden interactuar con el asistente basándose en lo que la cámara capta en el momento. Estas funciones se activan mediante un botón integrado en la interfaz de Gemini. Por el momento, solo están disponibles en inglés para un grupo selecto de suscriptores de Gemini Advanced dentro del plan Google One AI Premium.


Google%2520Assistant%25201895844400 Gemini ahora ve lo que haces en la pantalla del smartphone e interactúa con ese contenido

Google Assistant seguirá funcionando en aquellos teléfonos que no cumplan con los requisitos técnicos mínimos para ejecutar Gemini.


Las nuevas mejoras se basan en la tecnología de Project Astra, anunciada por Google DeepMind el año pasado. Esta plataforma fue desarrollada con el objetivo de habilitar los sistemas de IA para «entender y responder al mundo complejo y dinámico como lo hacen las personas». Dota a los algoritmos de la capacidad de asimilar y recordar lo que “ven y escuchan”, lo que les permite comprender mejor el contexto y responder de manera más precisa a las solicitudes de los usuarios.

La propuesta se apoya en los modelos de IA más avanzados de Google y otros diseñados para tareas específicas. Esta combinación permite a los bots procesar la información con mayor rapidez mediante la codificación continua de fotogramas de video, la integración de entradas de video y voz en una línea temporal de acontecimientos, y el almacenamiento en caché de estos datos para facilitar su recuperación y uso posterior.

Gemini convierte los resultados de Deep Research en un podcast

Por otro lado, Google ha incorporado la función Audio Overview a Gemini, permitiendo a los usuarios generar resúmenes de audio (similares a un podcast) de cualquier documento o de los resultados obtenidos mediante Deep Research, la herramienta de búsqueda profunda de Google.

La compañía explica que «Gemini creará un debate estilo podcast entre dos presentadores de IA que, con un solo clic, iniciarán una conversación dinámica y profunda basada en los archivos que subas. Resumirán el material, establecerán conexiones entre temas, participarán en un intercambio activo y aportarán perspectivas únicas».

Esta nueva función está disponible en la versión web y en las aplicaciones móviles de Gemini para los suscriptores de Gemini Advanced a nivel global en inglés. Se espera que próximamente se amplíe el soporte a más idiomas. Para convertir un resultado de Google Deep Research en un podcast, basta con seleccionar la opción «Generar resumen de audio» debajo de la respuesta y comenzar a escuchar el contenido resumido.

Las ambiciosas actualizaciones de Gemini reflejan la creciente competencia por el liderazgo en la IA de consumo masivo, una carrera impulsada por el éxito de ChatGPT y reforzada por las iniciativas de otras empresas.

Amazon anunció recientemente el lanzamiento de Alexa+, una versión mejorada de su asistente, que incorpora IA para mantener conversaciones en lenguaje natural, realizar análisis multimodales y demostrar conciencia contextual. Por su parte, Apple ha confirmado que trabaja en una actualización similar para Siri, aunque el proyecto se ha retrasado por inconvenientes técnicos.



Source link

Share this content:

Publicar comentario