El nuevo algoritmo de actualización de Google funciona de maravilla: el secreto está en el bombo publicitario

Google ha desarrollado un modelo de aprendizaje automático entrenado para convertir una imagen de baja resolución en una imagen de alta resolución. Nada nuevo todavía, pero el Brain Team de Google usó un método híbrido para llegar a la súper fidelidad y también trabajar a la inversa: En lugar de partir de la imagen, partí de su «exageración».

A lo largo de los años, Google ha adquirido una gran experiencia en la gestión de fotos, que ha surgido para los usuarios sobre todo a través de los avances en las soluciones de teléfonos inteligentes Pixel que aún hoy en día hacen escuela, y que se han beneficiado de la genialidad de Mark Levoy. Aunque Levoy dejó Google para trabajar con Adobe, partes de Mountain View nunca perdieron el interés en el procesamiento de imágenes, que ya ha mejorado gracias al aprendizaje automático.

El padre de Google Camera contratado por Adobe: creará una aplicación de fotografía ‘universal’

Ir a profundizar

Comprende cuál es la imagen detrás de todo el ruido.

Presentar el tema con alta precisión de imágenes. Un modelo de aprendizaje automático está capacitado para convertir una imagen de baja resolución en una imagen de alta resolución.. Un sistema capaz de recuperar fotos antiguas así como de mejorar fotos resultantes de reconocimientos médicos.

En la última publicación sobre Blog de IA de GoogleEl equipo de Brain descubrió un concepto antiguo de imágenes de superresolución que se remonta a 2015 llamado «modelo de difusión», pero a lo largo de los años ha sido dejado de lado por el creciente interés en el «modelo generativo profundo».

Volviendo a los viejos modelos de difusión, Google desarrolló SR3, que se define como «Imagen de superresolución mediante optimización iterativa».

Google muestra que SR3 es un modelo de difusión de ultra alta resolución que toma una imagen de baja resolución como entrada y crea una imagen de alta resolución correspondiente a partir de ruido puro; Es decir, el modelo está entrenado en el proceso de daño de la imagen. El ruido se agrega gradualmente a una imagen de alta resolución hasta que solo queda ruido puro.

El ruido gaussiano añadido (que se puede obtener de una forma muy sencilla incluso con un filtro de Photoshop) se vuelve en un punto determinado por lo que la imagen es indistinguible: es muy similar al efecto “nieve” de los televisores antiguos, pero de tipo estático efecto.

Una vez entrenado en qué tipo de ruido podría hacer la imagen, el modelo SR3 de Google aprendió a hacer el proceso inverso, Es decir, comenzar con ruido puro y eliminarlo gradualmente para lograr una distribución de píxeles que esté guiada por la imagen de baja resolución utilizada como entrada..

SR3 ha demostrado funcionar bien en la actualización de retratos y fotografías de paisajes. Cuando se usa para actualizar 8x en caras, tiene una «tasa de confusión» cercana al 50%, mientras que los métodos actuales solo alcanzan el 34% en el mejor de los casos.

La tasa de confusión se refiere al porcentaje de tiempo que tardan los evaluadores humanos en seleccionar la salida del modelo a partir de las imágenes de referencia. Cuanto mayor sea la tasa de confusión, mayor será la calidad HD, porque Los evaluadores tardarán más en comprender cuál de las dos imágenes que se están comparando es la imagen de referencia.

Ruido + cascada = mejores imágenes

No satisfechos con el resultado, los investigadores del equipo del cerebro implementaron un «modelo de difusión secuencial» (CDM, modelos de difusión secuencial). Este enfoque secuencial involucra una serie de múltiples modelos generativos a diferentes resoluciones espaciales: un modelo de difusión que genera datos a baja resolución, seguido de una serie de modelos de difusión SR3 de superresolución que aumentan progresivamente la resolución de la imagen generada. máxima precisión.

Las soluciones de este tipo se convierten en una bendición para obtener imágenes detalladas con sensores diminutos, o ópticas diminutas como las de los teléfonos inteligentes que no pueden resolver la luz entrante como lentes diseñadas para cámaras. Todo esto encaja en el mundo cada vez más explorado y producido de la imagen computacional.

Tercero Torrico

«Alcohol ninja. Orgulloso especialista en tocino. Organizador. Creador aficionado. Solucionador de problemas amigable con los hipster. Gurú de la comida. Alborotador. Experto en Twitter».

El padre de Google Camera contratado por Adobe: creará una aplicación de fotografía ‘universal’

Comprende cuál es la imagen detrás de todo el ruido.

Ruido + cascada = mejores imágenes

Deja un comentario Cancelar respuesta