Hace 2 meses | Por navi2000 a twitter.com
Publicado hace 2 meses por navi2000 a twitter.com

Mente oficialmente volada: Grabé una captura de pantalla de una tarea (buscar un apartamento en Zillow). Gemini fue capaz de generar código Selenium para replicar esa tarea, y describió todo lo que hice paso a paso. Incluso captó que mi umbral estaba fijado en $3K, aunque no lo seleccioné explícitamente.

Comentarios

sorrillo

#6 Microsoft ha tenido que recurrir a asociarse con OpenAI.

Diría más bien que OpenAI se ha visto obligada a venderse1 a Microsoft por sus costes de operación, por lo visto ésta última aporta el hardware donde corre chatGPT y a cambio tiene el 49% de OpenAI y el 75% de los beneficios.

A su vez cuando hubo la movida del despido de Sam Altman se vio como Microsoft se podía quedar con todo su equipo de técnicos si no corregían la decisión.

1 https://www.genbeta.com/actualidad/microsoft-invierte-miles-millones-para-integrar-chatgpt-sus-productos-asi-sera-alianza-openai

thorin

#7 OpenAI tenía una tecnología única.
Microsoft tenía dinero, cómo muchos otros potenciales inversores.

Microsoft necesita más a OpenAI que viceversa.

Tu mención al despido Altman no tiene lógica.
Técnicos sin propiedad intelectual de la tecnología única = tener casi nada

sorrillo

#9 OpenAI no tiene una tecnología única, está desarrollando la misma tecnología que otros de sus competidores, incluso en el ámbito del software libre. OpenAI no tiene valor por lo que es si no por que va unos meses por delante de sus competidores y las expectativas de lo que pueda llegar a ser.

Si OpenAI detiene su desarrollo en unos meses ya no es nadie, todos le pasarán por delante. Si OpenAI pierde a sus técnicos su valor pasa a ser insignificante.

Y OpenAI lo sabe, por eso cuando hubo la amenaza que si no restituían a Sam Altman se quedaban sin técnicos se retractaron y se cargaron a quienes lo habían destituido.

OpenAI es una empresa que su operativa le desangra, necesita prometer de cara a futuro para que sus inversores le financien la ingente cantidad de procesado de datos que requiere para existir, y eso ha provocado que tenga que acabar vendiéndose a Microsoft, no ha tenido más remedio.

thorin

#10 ¿ChatGPT es la misma tecnología que Llama y que Gemini?

Eso es cómo decir que Stable Difussion y Stable Cascade son la misma tecnología porque son software TXT2IMG.
Es obviar que tienen arquitecturas diferentes.

Vamos, que no.
Microsoft se podría haber llevado a los técnicos, que estos no podían usar la misma arquitectura por ser propiedad intelectual de OpenAI.

sorrillo

#15 GPT-4 puede perfectamente tener una arquitectura distinta a GPT-2, que la arquitectura que hubiera acabado en GPT-5 esté en OpenAI o en Microsoft dependerá de donde estén los técnicos que diseñen esa arquitectura para esa nueva generación.

OpenAI sin sus técnicos desaparece del mapa en cuestión de meses, quien tenga los técnicos de OpenAI se pone en el mapa en cuestión de meses.

Por eso OpenAI movió cielo y tierra cuando vio la amenaza de que sus técnicos se fueran, por eso Sam Altman vuelve a ser la cabeza visible de OpenAI.

La realidad es tozuda.

thorin

#17 Repito, los técnicos necesitan la tecnología propiedad de OpenAI.
Si se van a otra parte necesitan meses desarrollar lo que ya estaba desarrollado en OpenAI, si respetan la propiedad intelectual.
Mientras tanto, OpenAI ya estará en otras tareas más avanzadas gracias a esa ventaja.

Lo que está claro es que la competencia todavía no ha conseguido superar a ChatGPT 3.5 en muchos aspectos (Véase diferentes benchmarks) pese a ser un modelo "viejo".
Así que lo de que es cuestión de meses, es discutible.

Cantro

#13 sí, y la radio, y Spotify.

Pero todos ellos son pasivos.

Cuando llevas muchas horas al volante, atravesando zonas que conoces bien, puedes necesitar algo donde tengas un papel un poquito más activo, o corres el riesgo de que te vayas adormeciendo

sorrillo

#16 La aplicación de ChatGPT para Android1 te permite hablar de viva voz con éste, por si quieres probarla. No requiere suscripción.

No puedes activarlo por voz al estilo "hey, Google" pero una vez lo activas manualmente puedes mantener una charla continua sin tener que pulsar nada.

Yo hablándole en catalán a veces me contestaba en catalán, otras en castellano y otras en inglés. Lo resolví usando los ajustes de la aplicación, en "custom instructions", indicándole que quería que siempre me respondiera en catalán.

Aunque lo nieguen hasta la saciedad tiene la voz de Scarlett Johanson, que fue la actriz que puso al voz a la IA en la película Her2.

1 https://play.google.com/store/apps/details?id=com.openai.chatgpt
2 https://www.imdb.com/title/tt1798709/

Cantro

#18 la he probado, pero tienes que estar pulsando un botón para enviar el audio.

Y te responde en modo texto.

Y que yo sepa no está disponible para Android auto.

En estas condiciones usarlo como asistente de conducción es bastante suicida

Mi sueño húmedo es ir conduciendo por un sitio y tener una conversación como esta

"Oye, acabo de ver un cartel que dice que tengo a Riaza a 20 km. ¿Qué puedo ver allí?

Pues tienes esto y esto otro

Suena bien. ¿Me va a llevar mucho tiempo a verlo?

No, es un lugar pequeño, pero si quieres visitar esto otro, cuenta con media hora más.

Vale, pues añade una parada en mi ruta en Riaza, pero no en ese otro sitio que mencionas.

Hecho"

leporcine

#19 ¿No tienen todos los teléfonos un asistente virtual por voz?

Cantro

#20 que es muy poco útil, y cada vez menos.

Por ejemplo, antes a Android assistant le podía preguntar dónde estoy y me decía exactamente dónde estaba.

Y ahora siempre me dice que estoy en casa. Tengo la sospecha de que es un tema de privacidad pero es un poco absurdo, porque tengo la cronología de Google activada

Y si le quiero preguntar acerca de la historia de algún lugar, tiende a añadir una parada

sorrillo

#19 pero tienes que estar pulsando un botón para enviar el audio. Y te responde en modo texto.

Ciertamente si abres la aplicación funciona como dices, pero se puede usar de otra forma, al menos en un Android Samsung.

Tienes que añadir el botón de ChatGPT de la zona de notificaciones, y pulsando ese botón activa el modo que te describí, en el que te escucha, te responde de viva voz, y vuelve a ponerse en modo escucha y puedes mantener una charla seguida.

Cantro

#23 que envidia me estás dando...

Mi Xiaomi no lo tiene

sorrillo

#24 Desde la aplicación se puede activar un modo similar, creo, pulsando en los auriculares.

Cantro

#25 tampoco me sale

Cantro

Yo estoy deseando tenerlo como asistente en carretera. En mi vida he conducido muchísimos kilómetros en solitario y viene muy bien tener algo o alguien con quien hablar.

Por ejemplo, para mantenerme alerta suelo hacerle preguntas al asistente de Google en plan de "origen de la patata" o "dime algún dato curioso"

navi2000

#4 Y no te sirve ponerte algún buen podcast?

Mark_

#14 como qué? Cualquier norte para saber por dónde empezar me vendrá bien

sorrillo

Por lo que vi en otro vídeo creo que para ese tipo de comunicación con Gemini se usa el acceso por https://ai.google.dev , el cual hoy por hoy indica que no está disponible en España.

Accediendo por https://gemini.google.com éste responde que es Gemini 1.5, que es el nuevo con esas capacidades, pero el entorno de usuario creo que solo permite subir una imagen y no un vídeo.

Hace unas semanas cuando Gemini solo estaba accesible desde EEUU me conecté por VPN y me funcionó unos días pero posteriormente acabó dando error de página, no he probado lo del ai.google.dev aún.

thorin

#2 Si, la versión pro de Gémini ofrecida aquí no es la del tuit.

Estoy en los dos meses gratis de prueba y no me parece para tanto, estoy cacharreando con phyton y Chatgpt 3.5 me daba soluciones y explicaciones mejores.

#3 Les ha pillado a todos por sorpresa y están yendo lentos.
Microsoft ha tenido que recurrir a asociarse con OpenAI.
Meta parece que ha elegido ir liberando modelos Llama que se puedan ejecutar en hardware relativamente barato, con lo que la ruta es diferente.

navi2000

#6 No, esta es la nueva versión que presentaron la semana pasada en beta cerrada. También demostró capacidades impresionantes en el manejo de ese millón de tokens resumiendo películas o buscando escenas concretas en las que pasaba algo. Aún tardarán en dejarnos jugar a todo el mundo con ese LLM, pero por lo que parece es absolutamente impresionante.

Mark_

A mí todo lo relacionado con las IA me tiene absorto, era el futuro que esperaba conocer. Por lo que he ido leyendo y viendo vídeos de "expertos" (confío en que lo sean) las posibilidades son infinitas, tanto para bien o para mal.

Ojalá haber nacido más tarde para que esto me pillase más joven y pudiera estudiar algo relacionado, aunque fuese más por diversión que por otra cosa, o para tareas sencillas. Pero con 37 años cualquiera me pone a estudiar algo tan complejo

sorrillo

#8 A día de hoy saber de IA a nivel de usuario ya te pone por delante de la inmensa mayoría, ya te da una ventaja respecto al resto.

Hubo una época en la que en la web estaba todo por descubrir, el primero que hizo una web donde vendía cada pixel por separado se hizo de oro. Técnicamente era trivial, era un uso a nivel de usuario de la web, no hacía falta conocimiento técnico de protocolos ni nada especialmente complejo. La inmensa mayoría que lo vimos en su día pensamos que eso podíamos haberlo hecho nosotros, si se nos hubiera ocurrido.

Hoy en día con la IA estamos en esa fase tan incipiente, por un lado hay los técnicos que desarrollan la tecnología y son los expertos y por otro están los usuarios que pueden ver potencialidades en ello que a los expertos aún no se les han ocurrido.

Por ejemplo existe Stable Diffusion, de software libre, que permite entrenar una IA para generar imágenes, pues a alguien se le ocurrió entrenarla con imágenes que codifican sonido (espectrogramas) y luego al pedirle que generase nuevas imágenes en realidad estaba generando sonido, música.

Y eso no requiere de conocimiento técnico sobre como funcionan las redes neuronales, basta con usar una herramienta de software libre que ya existe para un uso que a nadie se le había ocurrido aún.

En la IA aún está todo por descubrir y por inventar, el Facebook de la AI aún no se ha inventado, el Youtube de la AI aún no ha nacido, el ...

navi2000

#8 37 años y pensar que es tarde?! Al contrario, mañana será tarde, ponte a estudiar algo relacionado con la IA ya mismo, aunque solo sea a nivel usuario avanzado.

navi2000

Explicación por si alguien no tiene el contexto suficiente:

Gemini es el nuevo LLM de Google que tiene como principal característica la capacidad de manejar hasta 1 millón de tokens. La cuestión es que un tipo ha subido un vídeo de él buscando un apartamento con una web. Sin decirle ni qué web era, le ha subido el vídeo y le ha dicho que le haga con Selenium un programa para hacer esa tarea automáticamente. Y Gemini lo ha clavado.

leporcine

#1 Increíble, estaba tardando google en meterse en este sector.