Reseña e instalación de Qwen3 TTS. Cómo ejecutar Qwen3 TTS en ComfyUI. El mejor clonador de voz con IA. Diseño de voz con IA, control de emociones. [eng]
#4 Hay otros gratuitos como el que menciona #5, pero yo en concreto no he conseguido hacer funcionar ninguno ( al menos TTS, text-to-speech, luego hay otros que suplantan el audio, son audio-to-audio ), pero eso no significa que no funcionen, solamente que no fui capaz por la combinatoria de mi hardware y que los proyectos eran un poco antiguos.
#7 el que enlazo lo use para que me generase un audio-libro partiendo de un epub, y tras tener que hacer algunas cabriolas para trocear la fuente y pegar los trozos que iba generando quedo de puta madre.
#8 Es uno de los que traté de hacer funcionar sin éxito, pero tenía incompatibilidades irresolubles de dependencias, así que no sé realmente cómo se desenvuelve
Este de Qwen aplicado a audio del vídeo tiene muy buena pinta. Yo he usado Qwen para LLM y funciona de cine, y también la versión para imagen. Es un modelo que en principio estaba enfocado en tener un interprete de prompt mucho más potente que los habituales para imagen, haciendo que "entendiera" mucho mejor las… » ver todo el comentario
Tiene pinta de compañía sospechosa, así que tampoco me atrevo a recomendarlo pero funciona bien y al instalarlo no se ha roto nada. No sé qué usará por debajo, igual algún proyecto Open Source como el que menciona #5, pero el caso es que funciona.
Al menos hasta que haya una versión en castellano de España, como comenta #12.
#16 se pueden entrenar voces al gusto con un sample de duracion ridiculamente corta, el del anterior post debe haber usado una ya entrenada de la que vienen "por defecto", pero si no te gusta/cuadra hay paginas con los modelos ya entrenados para miles de voces de actores, politicos y famosos en general
#17 ¿ A qué programa te refieres exactamente ? ¿ O a qué te refieres de lo que he dicho ? Quiero decir, tu afirmación es cierta para todos, pero no entiendo a qué contestas o qué matizas
#18 decia que si no les gustan las voces que vienen por defecto pueden buscarse otras echando unas busquedas en internet o entrenandoselas ellos mismos.
el software que use yo lo he enlazado ahi arriba, coquitts se llama.
#19 Vale, no te había entendido, pero igualmente eso no vale para el idioma, que es lo que estábamos comentando. El modelo que uses tiene que estar entrenado en el idioma para poder clonar una voz correctamente. El que mencionas es uno de los que no conseguí hacer funcionar, la gráfica es moderna y el software más antiguo tiene dependencias obsoletas que me resulta muy complejo solucionar.
Si hace 1 mes os contaba lo de que la IA de elon Musk desnudaba a mujeres, ahora con un audio supercorto cualquiera puede clonar la voz de alguien y gratis.
No tiene soporte para catalán. Cuando salió chat GPT me sorprendió que de inicio hablase perfectamente catalán, al intentar que sepa de todo el saber los distintos idiomas parece que era intrínseco al objetivo principal. Eso parece que no es así para el caso de las voces, una lástima.
Aparte de la broma, no te preocupes, porque siendo Open Source seguro que no tardan en salir infinidad de variaciones, tanto idiomáticas como en el caso del catalán, como dialectales y de acentos diversos.
Es la parte más divertida de la IA, hacer estas tonterías, como escuchar a algún político hablando murciano o cantando como Whitney Houston.
Habrá que probar este, a ver cómo se defiende.
Este de Qwen aplicado a audio del vídeo tiene muy buena pinta. Yo he usado Qwen para LLM y funciona de cine, y también la versión para imagen. Es un modelo que en principio estaba enfocado en tener un interprete de prompt mucho más potente que los habituales para imagen, haciendo que "entendiera" mucho mejor las… » ver todo el comentario
Tiene pinta de compañía sospechosa, así que tampoco me atrevo a recomendarlo
Al menos hasta que haya una versión en castellano de España, como comenta #12.
Edito: Este programa no tiene lo mismo que ofrece Qwen en este vídeo,… » ver todo el comentario
el software que use yo lo he enlazado ahi arriba, coquitts se llama.
Si te da repelus las instaciones Pinokio: pinokio.co/ te simplifica el proceso.
Ya tenemos el siguiente follón
Así que como mucho, vas a poder conseguir que tu suegra suene a una operadora de un call center.
Aparte de la broma, no te preocupes, porque siendo Open Source seguro que no tardan en salir infinidad de variaciones, tanto idiomáticas como en el caso del catalán, como dialectales y de acentos diversos.
Es la parte más divertida de la IA, hacer estas tonterías, como escuchar a algún político hablando murciano o cantando como Whitney Houston.