Hace 2 años | Por mr_b a xataka.com
Publicado hace 2 años por mr_b a xataka.com

Lo que puedes ver en este vídeo que se ha publicado recientemente en Twitter no es ninguna cámara rápida de alguien, ni tampoco un vuelo de dron grabando vídeo con agilidad. Es un escenario tridimensional, creado por una red neuronal de renderizado a partir de unas cuantas fotografías estáticas. A principios de 2020 veíamos algo similar, pero la mejora respecto a entonces es enorme.

Comentarios

OCLuis

¿Esto no sale en blade runner?

keiko_san

#1 No es lo mismo
Aqui a partir de muchas fotos con todas las perspectivas la IA monta el escenario 3d
En Blade Runner se movían en 3d dentro de una foto. Era mas fumada

e

#14 ok esto sime encaja por que era una sobrada impresionante

j

#14 ¿La posición/orientación/propiedades podrían determinarse al realizarse las fotografías?

a

#18 Por poderse seguro que se puede (del gps + giroscopio + brújula como tienen todos los móviles debería poder sacarse) y la info de la lente/apertura/zoom/exposición/etc pues también debería saberla la cámara/móvil.

Aun con eso, te sigue faltando la nube de puntos, que es un problema muy complejo en si mismo. Hay métodos para calcular ese modelo 3d (nube de puntos) a partir de fotos estáticas, pero no conozco la literatura suficiente como para saber qué tal funcionan. Lo que sí se es que casi todo el mundo que necesita información de profundidad usa o radares (el famoso LIDAR) o cámaras especiales que proyectan un patrón en infrarojos para ver "como se deforma" y calculan a partir de ahí. Por tanto, sospecho que pasar de fotos normales a nube de puntos no funciona muy bien en la práctica (por eso se curran ese "añadido" para tener información de profundidad además de la foto).

Lo que no se es si esos datos serán suficientemente precisos como para que funcione el método del artículo. En el artículo dicen que necesitan "una aproximación" de estos datos, pero imagino que a menor precisión -> peores resultados.

También hay que tener en cuenta que los científicos tienen que vender su moto un poco (idealmente sin mentir, aunque algunos lo hacen). Eso significa que la demo que ves tu es el mejor resultado que han conseguido de (normalmente) muchísimas pruebas que han hecho, con el mejor tuneo posible y entre todos los ejemplos que han probado.

Vamos, que hay una distancia grande entre "mira qué chulo lo que hemos conseguido con este método" vs "esto funciona razonablemente bien como para convertirlo en una app/producto". A veces esa diferencia es tan grande que significa que el método descrito nunca llega a usarse en ningún producto (ya sea porque tiene carencias insalvables o porque sale otro método que lo hace mejor en general).

#20 por simplificar muchísimo funciona de puta madre y lleva aplicándose ya bastante tiempo. Hay varios softwares comerciales que lo hacen y tienes a una empresa top trabajando con esta tecnología para unreal. Es más unreal 5 utiliza este tipo de tecnología en su motor.

elvecinodelquinto

#14 El artículo no dice nada de nubes de puntos, además de que eso no supondría ningún avance. Hace tiempo que podemos generar 3D a partir de imágenes 2D.

a

#26 El artículo original está en https://arxiv.org/pdf/2110.06635.pdf y en el abstract mismo dice:

> The input are an initial estimate of the point cloud and the camera parameters. The output are synthesized images from arbitrary camera poses.

Yo no he dicho que no se pueda generar 3D a partir de imágenes 2D, he dicho que en este trabajo no lo hacen (el modelo 3d, que es la nube de puntos, es una de las entradas).

elvecinodelquinto

#27 Que yo sepa, la generación de la nube de puntos es el primer paso del proceso, y se hace a partir de las imágenes 2D, no es un input

a

#28 Te he enlazado el artículo, míratelo bien y verás que no es así. Los puntitos que hay en el recuadro de la izquierda de la Fig.1 son el "point cloud", y como dice la leyenda:

> Fig. 1: Given a set of RGB images and an initial 3D reconstruction (left), our inverse rendering approach is able to synthesize
novel frames and optimize the scene’s parameters (right). This includes structural parameters like point position and camera
pose as well as image settings such as exposure time and white balance.

Lo que hace el método es refinar el modelo (nube de puntos) inicial, pero necesita un modelo inicial como input.

¿Qué pasaría si inicializas con un modelo random? Pues quizá funcionaría igualmente, pero los autores no defienden eso. De hecho, en la subsección VI.C " Image to Point Cloud Alignment" lo que defienden es que su método sirve para alinear una nube de puntos generada mediante sistemas específicos para ello con las imágenes correspondientes.

Acido

#26

El artículo habla de LIDAR, que es un acrónimo del inglés Light Detection and Ranging o Laser Imaging Detection and Ranging ... o, en palabras sencillas, "como un RADAR" pero con luz LÁSER. Cuando digo "luz" son ondas electromagnéticas de frecuencias cercanas a la luz visible, en el caso del LiDaR suelen ser infrarrojos, pero también hay algunos LiDaR ultravioletas, o incluso de luz visible, pero en este último caso verías los rayitos de luz LASER saliendo del aparato y podría ser molesto o incluso peligroso si tiene mucha potencia (si tiene poca potencia no funcionaría bien, al menos de día). Los LiDaR son usados en vehículos autónomos para hacerse un modelo físico de los objetos que hay alrededor y no chocarse con ellos... y en estos casos son de infrarrojos, de longitudes de onda como 905 nm y 1550 nm. La máxima longitud de onda visible es de color rojo, hacia 750 nm y las frecuencias menores (longitudes de onda mayores) son infrarrojos.

Sí, definitivamente, el artículo es un poco sensacionalista, ya que a la prensa le interesa que parezca más asombroso y alucinante, para que así piques y ellos cobren en publicidad... pero de pasada menciona al final lo del LiDaR que sirve precisamente para tener un esquema 3D de puntos sabiendo a qué distancia hay objetos... Luego, con las fotos se sabe los colores visibles de los objetos y alguna información más (si reflejan mucha luz como un metal o reflejan menos estilo "mate", etc), que serviría a modo de "texturas" para rellenar el "molde 3D" dado por el LíDaR.

cc #14

f

#5 Hace falta ordenador para entrenar, no tanto para inferencia. El propio paper habla de tiempos de entrenamiento de 12 horas en una Titan V, así que en una RTX 3080 se debería obtener un tiempo de entreno similar, tal vez algo menos, en una RTX 3070 tal vez serían unas 15 horas así a ojo. Pero eso el entreno, la inferencia la han hecho en una RTX 2080 ti, que ya es obsoleta, así que una RTX 3070 te da de sobra.

D

#11
He estado mirando la Titan V y es la leche, tiene que ser un tiro. ¿Qué te parece la PNY Nvidia Tesla A40 48GB? ¿Qué tiempo la calculas de entreno? También tiene que ser la bomba la gráfica MSI GeForce RTX 3090 VENTUS 3X OC 24GB. un saludo.

Jakeukalane

#11 cuantos gigas de ram tienen esas tarjetas? Para hacerme una idea.

f

#19 La Titan V tiene 12GB. Yo tiro con una RTX 3070 que tiene 32GB.

Jakeukalane

#21 ah, pues entonces en un google collab en teoría se podría usar. Mi gráfica es de portátil...

f

#22 Y la mía, voy por el mundo con el portátil. Me iba a pillar uno con la RTX 3080 pero se me ponía 700€ más caro, así que al final pillé este.

Jakeukalane

#23 NVIDIA GK208M [GeForce GT 720M] , pero creo que no la tengo activa, creo que está con la intel. Para cosas de IA no vale para nada. Y creo que en general tampoco vale para nada, "afortunadamente" un programa que uso de renderizado de fractales va por CPU.

m

#11: ¿Con un riñón me bastará, o tendré que renunciar a los dos?

Me imagino que esto se acabe usando "en la nube", porque aunque el funcionamiento tras el entrenamiento ocupe menos, no deja de ser mucho lo que se necesita.

Habláis de tarjetas de 12 gb... ¡Eso ya es más de todo lo que tiene mi ordenador! lol

Potopo

Recuerdo una película en la que los investigadores de un crimen usaban las grabaciones y fotos de una fiesta para tratar de esclarecer los hechos, ahora me imagino lo que podría hacerse con algo así, desde reconstruir en 3D monumentos y lugares de los que sólo se conservan fotografías hasta renderizar toda Disneyland para dar un paseo virtual

Or3

Fotogrametría hasta las tetas de esteroides. Recuerdo digitalizar varios objetos hace unos años para probar y hacía falta que el PC se ganase el sueldo.

Lord_Lurker

#6 y retoca la nube de puntos y muchas horas.

caramelosanto

#6 años pensando en que llegamos a un cuello de botella y aparecieron las benditas RTX.

JuanBrah

Estoy flipando. ¿Se puede descargar una demo del software en algún sitio?

m

#3: El problema es el ordenador que se necesitaría para procesar todo...

D

Yo lo que veo es fotogrametría mejorada con IA. No es a partir de una foto.

D

Moooola...

D

Precisamente hace poco pensé que no sería descabellado grabar una escena con varias cámaras con distintos puntos de vista y recrearla en 3D. Lo veremos en unos años supongo.

Polarin

https://www.technologyreview.com/2020/10/16/1010566/ai-machine-learning-with-tiny-data/

Pues con esto...

Ademas me parece algo tan evidente, el 3 se parece al 8, pero no al 7, le metes K neighborhoods.... No me dedico a esto profesionalmente.

Lord_Lurker

Como sabéis lo que me gusta. Cabrones