El navegador Edge millorarà la IA totes les imatges web


Microsoft Bing va anunciar una nova tecnologia d’IA que oferirà una experiència d’imatge 4K als llocs web mitjançant Microsoft Edge, millorant automàticament les imatges dels llocs web. La tecnologia, anomenada Turing Image Super-Resolution, fa que les imatges es mostrin a una alta resolució, per molt pobre que sigui la imatge original.

La nova tecnologia va ser desenvolupada per Microsoft Equip de desenvolupament d’IA del Projecte Turing.

Ja s’utilitza a Bing Maps

La nova tecnologia ja s’utilitza a Bing Maps per millorar la qualitat de les seves imatges aèries per satèl·lit.

A continuació es mostra una comparació d’imatges aèries de la seu de Google a Mountain View, CA.

La captura de pantalla de Bing Maps es troba a l’esquerra i la imatge corresponent de Google Maps a la dreta:

Bing Maps vs Google Maps

Comparació paral·lela de les imatges aèries de Bing Maps i de Google Maps

Com Microsoft va construir la tecnologia

Hi va haver quatre idees importants que van conduir a l’èxit del model.

  1. Avaluadors humans
  2. Modelatge de soroll
  3. Pèrdua perceptiva i GAN
  4. Transformers per a la visió: millora i zoom

Avaluadors humans

Microsoft es va adonar que les mètriques utilitzades per mesurar l’èxit dels models relacionats amb la imatge no s’alineaven amb la percepció visual humana. Així que van crear una eina de comparació visual al costat de l’altre que utilitzava evaluadors humans per ajudar a avaluar l’èxit del model.

Modelatge de soroll

Microsoft va adoptar l’enfocament de començar amb imatges d’alta qualitat i després degradar-les afegint-hi soroll i després ensenyant al model a recuperar la imatge a l’estat d’alta qualitat original de la imatge.

Pèrdua perceptiva i GAN

Això va ser part de l’esforç per alinear els resultats amb la visió humana.

L’anunci de Microsoft deia:

“… vam trobar que optimitzar els nostres models només utilitzant la pèrdua de píxels entre les imatges de sortida i les imatges de la veritat del sòl no era suficient per produir la sortida òptima que s’alineava amb la percepció de l’ull humà.

En resposta, també vam introduir la pèrdua perceptiva i GAN i vam ajustar una combinació ponderada òptima de les tres pèrdues com a funció objectiva”.

Transformadors per a la visió

Microsoft va aprofitar el poder dels Transformers que s’utilitzaven en models de llenguatge, centrant-se en millorar i fer zoom.

El que significa és millorar la imatge i també centrar-se en augmentar l’escala de la imatge, que és una cosa difícil de fer.

Normalment és fàcil reduir una imatge. Però agafar una imatge petita i augmentar-la en general acaba augmentant els artefactes de baixa resolució de la imatge original.

Així, el que van fer els investigadors va ser crear un sistema que pugui calcular i “recuperar” les dades d’imatge que falten de la imatge de resolució més baixa i portar-la a una resolució més alta.

Microsoft anomena DeepZoom al procés d’escalada d’una imatge.

Edge: TV 4K de navegadors web

Microsoft preveu aquesta nova funció d’IA com una manera d’aportar una experiència visual 4K a la navegació per la web, així com de millorar les reunions de vídeo i les fotos familiars penjades al web.

La tecnologia ja està disponible a la versió experimental d’Edge anomenada Canària Edge.

La nova funció es desplegarà a la versió principal del navegador Edge durant els propers mesos.

Citació

Llegeix l’anunci de Microsoft

Super-resolució d’imatge de Turing





Source link

El navegador Edge millorarà la IA totes les imatges web