Hace 1 año | Por ccguy a writeout.ai
Publicado hace 1 año por ccguy a writeout.ai

Esta web con código fuente disponible (se puede alojar localmente) permite subir un fichero de audio cualquiera y recibir una transcripción y/o traducción en texto. Utiliza por detrás el API Whisper de OpenAI. Fuente en GitHub: https://github.com/beyondcode/writeout.ai

Comentarios

llorencs

#3 Usa whisper. Así que funcionará igual que Whisper ya que es básicamente una API de whisper.

Aunque teóricamente a Whisper puedes "fine-tune" it.

D

#3 #4 #6
whisper-cpp transcribe igual incluso usando una chatarra de netbook como el mío.

borteixo

#9 lol

#3 imagínate si hubieran sido murcianos.

Wheresthebunny

#13 aun faltan años para que un software empiece a descifrar ese idioma.

ApacheJoe

#3 No seas quisquilloso. Podría haber habido un gaditano.lol

Sikorsky

#3 Igual es que lo que hablaban no estaba dentro de los idiomas que reconoce.

noexisto

#3 lol Pues métele mas conversaciones para que aprenda

T

#21 Estoy igual, sin subtítulos me cuesta un montón y no entiendo por qué. Escrito lo entiendo todo pero no avanzo con el “listening” o muy poco.

Jakeukalane

#23 empieza a ver videos de Youtube en inglés. Subscribete a varios canales. Debido a eso yo empecé a escuchar el inglés de verdad.

Wheresthebunny

#29 cierto, ver videos de youtube en inglés ayuda mucho, pero es cierto también que el inglés de las películas es muy diferente del de los youtubers.

Jakeukalane

#38 en la pandemia me aficioné a vídeos de carreras de canicas. También a un canal que se llama The charismatic voice. Después de dos años escucho canciones en inglés y puedo discernir el 80% de las letras aunque no las haya escuchado previamente. Antes no era capaz de hacerlo. También ver la f1 en inglés hace un poco, cuando no puedo conectarme pirata en dzn y tengo que ver la carrera en diferido.

Wheresthebunny

#40 en youtube todos hablan bastante claro y sin usar un lenguaje complicado. Saben que su audiencia es muy amplia y además el sonido se cuida bastante. En las series y películas la dramatización de los personajes hace que sea más difícil entender algo. Ya no solo por el lenguaje tan complicado que usan, sino porque no hablan de manera directa como lo haría un yuotuber. Por eso sigo necesitando los subtítulos en inglés como apoyo. Siempre acabo subiendo el volumen de más para escuchar a los personajes y luego el sonido de la música o ambiental se hace desagradablemente alto. No soy el único al que le parece que las voces originales en inglés están grabadas demasiado bajas.

Jakeukalane

#41 bueno, es posible. Yo lo he notado con las canciones en general y que puedo seguir cosas que antes no. Pero es cierto que The Good Place lo pongo con subtítulos.

Wheresthebunny

#42 los subtítulos también te enseñan a escribir bien palabras que ya conoces y entiendes. Siempre es bueno tenerlos, pero desearía no necesitarlos.

p

#23 El cerebro tardará más o menos un mes de escucha diaria (una hora o dos al día) hasta que se haga al "soniquete" de una lengua que más o menos manejes por escrito y tengas unas mínimas nociones de cómo suena.

No puedes apoyarte en subtítulos si quieres aprender de verdad, es mejor atender e intentar entender, aunque al principio vas a pillar muy poco (es normal y es una primera fase). Al cabo de unos días pillarás pares de palabras comunes, a las dos o tres semanas pillarás frases comunes y expresiones, y después frases más arbitrarias y variadas.

Una vez llegado a ese punto, ya es cuestión de seguir practicando y ya es mucho más fácil.

Es una cuestión de insistencia y es algo automático que no requiere de una concentración especial, sólo atender. Por eso es importante escuchar material que te resulte de interés (para no aburrirse a mitad del camino). Para empezar es mejor si escuchas a una única persona, que vocalice razonablemente bien y con poco acento. Una vez que te hagas a entender eso, si cambias de persona, acento etc. volverás a tener dificultad, pero esta vez te acostumbrarás al cambio en un par de días en lugar de en semanas.

iveldie

#46 yo hace años, muchos años, que veo películas en ingles veo videos de youtube en ingles. Y nada. Si no activo los subtítulos no me entero de nada. Tampoco soy capaz de hablarlo. Hasta en lo básico me trabo. No puedo comunicarme con los clientes de mi tienda. Lo curioso es que siempre se me ha dado bien el ingles, en selectividad saqué un 10 y puedo leerlo y escribirlo bastante bien.

p

#49 Suena a que acabas activando los subtítulos "porque no te enteras de nada". Poner los subtítulos te distrae de escuchar y entender, es imposible que aprendas poniéndolos. Pero es que tienes que forzarte a pasar un período largo de atender e intentar entender sin aparentemente enterarte de nada.Y ya digo, es cosa de un mes o por ahí. Si pones subtítulos por no tener paciencia y creer que no te sirve, lo estás haciendo mal.

Además los subtítulos aunque sean en inglés ya te predisponen a traducir, que es lo peor que se puede hacer. Una vez que dominas el inglés escrito, no se debe traducir, sino entenderlo directamente, aunque te pierdas cosas.

A mí me pasaba como a ti, hasta que accidentalmente hice eso (veía partidas de Starcraft comentadas a toda hostia) y en cuestión de dos meses pasé de no entender absolutamente nada a entenderlo prácticamente todo.

Te recomiendo que cojas videos en youtube que se entiendan más o menos bien y que no tengan variación en la gente que habla. Un ejemplo podría ser esta serie documental de VSauce, que además de estar muy bien narrada es muy interesante, y se puede entender mucho por el contexto, pero no pongas los putos subtítulos o no te va a servir de nada:

iveldie

#65 veo videos de clash royale cada día, en ingles sin subtitulos, clash with ash, shane, sir tag. Tambien veo otro tipo de contenido de cine o de música, sin subtítulos. Entiendo alguna cosa, pero poco en general

p

#66 Empieza por lo que te mandé, que es de una buena dificultad y muy bien narrado. Una vez que te hagas con eso lo otro costará menos. Por si te sirve de algo no entiendo las letras de gran parte de la música, tampoco en español. El "ruido" de fondo y la mala calidad del audio dificultan mucho entender las cosas y es algo que se subestima.

En mi opinión el cine, la música o series de TV son malos materiales para aprender porque hay una enorme variedad de acentos, formas de hablar, variaciones de volumen, etc. Es mejor algo que sea familiar y repetitivo, después ya puedes ir a cosas más variadas.

Por experiencia personal, el acento británico es mucho más difícil para empezar, es más sencillo el americano y según de qué zonas más. Descarta por completo el australiano, irlandes y escocés, esos para más adelante.

Un youtuber que puede ser de ayuda escuchar a diario es Northerlion, canadiense. Tiene muchísimo material y aunque haga videojuegos puedes ignorar lo visual ya que se dedica a hablar de otras cosas mientras juega. Otro llamado Baertaffy tiene muy buena dicción.

iveldie

#68 me refería que veo videos de analisis de películas y música. Tambien veo mucho contenido de twitch en directo, suelo entrar a canales pequeños donde pueda comunciarme con el streamer, asi yo le escribo y me contesta hablando en ingles. SI intentar lo intento.

p

#69 Coñe, pero empieza por lo que te estoy recomendando, que es probablemente de un nivel de dificultad adecuado. Según quien sea puede ser extremadamente jodido de entender y los acentos difíciles son mayoría. Es como si le recomiendo a un inglés que aprenda español escuchando acento andaluz muy cerrado (y no hay pocos andaluces). Le va a costar mucho más.

T

#46 Voy a seguir tus indicaciones y a partir de ahora sin subtítulos. Me da esperanza poner plazos aunque sean orientativos y tener indicaciones concretas, que ni el profe de inglés me ha sabido dar. De veras, muchas gracias por tu respuesta.

p

#54 Ya me dirás más adelante si te ha servido o no.

T

#67 Lo haré. Ya he empezado y los resultados son prometedores! Después de un rato sin entender casi nada de pronto las palabras van "brotando" y empiezas a entender mucho más. Era lo que necesitaba, con subtítulos oía, pero no "escuchaba". Gracias de nuevo.

d

#21 yo uso Whisper para hacer subtítulos. Y los hace genial. Perfecto si el audio está en inglés, con otros idiomas ya tendrías que indicarle por parámetros el idioma específico.

SiCk

#47 ¿Y te los ubica en el minuto:segundo del vídeo? En resumen, ¿cómo sacas el "srt" al final?

zachariah

#58 para sincronizarlos ya vas a necesitar un editor. El Subtitle Workshop va muy bien, freeware, uso sencillo, salida en SRT y todos los formatos que quieras
https://www.uruworks.net/inicio.html

d

#58 si, el Whisper te genera un archivo srt, un txt y un json.
Te paso un enlace. https://colab.research.google.com/drive/1CvvYPAFemIZdSOt9fhN541esSlZR7Ic6?usp=sharing

SiCk

#61 Gracias!!

borre

Vaya locura lo que ha hecho openai. Cada día salen mil aplicaciones, cada vez más de nicho relacionados con la AI. Estoy haciendo un Máster online y si no fuera porque quiero aprender, la AI lo haría prácticamente por mí.

Cómo los centros educativos no se pongan las pilas...

Un saludo.

c

#12 cómo has probado?
Yo en algún curso por hacer la tontería probé la evaluación de Moodle a responder el cuestionario con chatgpt y no acertaba la respuesta lol

i

#12 Me podrías pasar info del master, plz? Thx !

parapapablo

#18 no ha dicho que el máster sea de IA...

i

#22 Cierto, gracias.

y

In more than 10 languages, including Klingon

¿Alguien sabe Klingon por aquí para probarla?

autonomator

#2 yo sólo lo silbo

Pacman

#2 Garkta-akt, akta-aah!

AntonPirulero

#8 tlhIngan Hol chay' tIq ghobwI'pu' cha'logh. HoS jIbogh tlhIngan Hol vIjatlhbe'chugh, 'ach cha'maH tlhIngan jatlhwI'pu' vItlhutlh. chay' qIbDaq 'e' yImev.

ur_quan_master

#2 el timbre de la puerta de casa habla un dialecto: el Tinton

Fisionboy

Traducirá silbo gomero?

j

#5 No serás gomero...

jm22381

¿Para cuándo esto integrado para transcribir los audios de Whatsaap a texto?

Jakeukalane

#26 en Telegram (creo) es una función premium.

Wheresthebunny

#30 sí, está disponible solo en Telegram premium. Aunque también hay bots gratuitos para hacerlo en privado o incluso dentro de grupos.

D

¿Tiene integración con WhatsApp? Estoy MUY harto de la gente que envía audios en vez de escribir.

vitichenko

#19 Telegram cobra por pasar los audio a texto, si WhatsApp cobrase creeme que pagaría

#28 Más fácil que eso, cuando te envíen audios haz como yo: no los escuches. Verás cómo pronto se cansan y dejan de enviártelos.

vitichenko

#34 eso ha funcionado con todos, menos mi madre

D

#28 Hay bots gratuitos: Whisper, AntiTalk_bot, transcriber_bot, etc

Wheresthebunny

#19 por eso y por mil cosas más prefiero Telegram.

woopi

#45 No te he entendido. Digo que Whisper se puede instalar en local, no necesita internet. Lo que si necesitas es bastante espacio en disco y una tarjeta gráfica, porque de otra forma es muy lento. Con una GPU sencilla tipo 1050 va muy bien.

JMorell

#51 cual es la libreria?

Grub

#53 la "librería" es una API con cuota de 8$.
Lo de que no necesita internet, es por que así lo cree.
No se le ha escoñao el router de momento lol

founds

#51 yo tengo la 1070, y es como dices

T

Menudas velocidades esta cogiendo esto de la IA, a ver hasta donde llega

MoneyTalks

Me viene de lujo. Estoy en casa currando, hay muchas reuniones que son una perdida de tiempo. Lo grabo, le paso el transcriptor y luego se lo paso a la IA y le pregunto por lo que me interesa.

eldarel

#25 Hummm, habría que revisar primero la privacidad y los términos y condiciones.
Como los datos los usen para reentrenamiento, Houston tendremos problemas.

d

#32 a mí chatgpt me guarda un historial de consultas, así que igual lo pueden usar para entrenar la IA

eldarel

Hummmm, pues voy a probarlo...

woopi

#1 El propio whisper se puede instalar localmente. Se ejecuta con un wav o cualquier audio y es muy bueno. Lo he probado con dictados, canciones (con música de fondo, coros, etc..) y es capaz de extraer la letra sin problema.

Grub

#31 Si necesita conexión a internet, no es local.
¿Google en tu telefono es local? Pues lo mismo.
Esto es local... En tu ordenador y sin conexion.
https://github.com/josephrocca/rwkv-v4-web
https://github.com/randaller/llama-cpu

qwertyTarantino

Para los que queréis la funcionalidad de transcribir audios en Telegram pero sin pagar la subscripción premium:

https://0xacab.org/viperey/telegram-bot-whisper-transcriber

(autobombo)

Tunex

Estoy buscando el código fuente libre de las IAs que hacen vídeos con un NPC o avatares en la esquina hablando con el texto que tú le pongas y que te saca imágenes con licencia libre de algún banco de imágenes.

Tipo Synthesia, Fliki, d-id... etc

Os suena?  

NachoES

Habra que probarlo.

F

Alguien sabe si hay algún servicio que haga lo contrario, un texto a audio y que suene con voz natural y no robótica?

daphoene

#57 No los he probado:

https://revoicer.com/
https://www.resemble.ai/

Edito: en el primero te viene hasta una prueba para que votes y compruebes si diferencias el real del automático.

Prueba a buscar text to speech ai en Google para evaluar otros servicios, es como se llama el "concepto"