Usando un algoritmo de inteligencia artificial, dos estudiantes de ingeniería en Madrid han desarrollado un modelo que reconoce una infección por coronavirus con hasta un 97 % de precisión en radiografías torácicas. La herramienta está disponible on line para ayudar a los profesionales sanitarios en su diagnóstico de pacientes.
En Inteligencia Artificial al principio se usan "cartas marcadas".
En este caso las 8000 radiografías que han usado, que viene no sólo la imagen, si no el diagnóstico realizado por un experto (imagino que en este caso serían los resultados proporcionados por radiólogos y neumólogos).
Se extrae un subconjunto de esas ccartas marcadas" y se usan para entrenar un modelo de Inteligencia Neuronal.
Aquí se enseñó diciendo qué radiografías son covid, cuáles son neumonías de otro tipo y cuáles son pulmones sanos. Éstas son las categorías que se buscan y que responden a las preguntas de ¿hay neumonía en esta radiografía?, ¿de qué tipo?
Luego comprueban qué ha aprendido la IA, la fase de validación.
Cogen un conjunto de radiografías de las que no usaron antes (porque esas puede que se las sepa de memoria) y preguntan.
Por último, comparan el resultado de la IA con el diagnóstico realizado por los expertos (recuerda que en realidad las cartas están marcadas, sólo que la IA no lo sabe) y de ahí calculan el porcentaje de éxito.
El mayor problema está en enseñar bien, porque se pueden meter sesgos sin querer y al final es difícil saber cómo la IA ha aprendido.
Aquí es donde hace falta una base brutal de estadística.
#15:
#7 Es más, una precisión del 97% solo te dice que lo que el modelo predice como Covid, realmente es Covid el 97% de las veces. Es decir, tiene una tasa de falsos positivos del 3%.
Lo que no te dicen es cual es la sensitividad del modelo, es decir, su capacidad de detectar positivos reales. Podrías tener un modelo que de 100 casos solo detecta 10, pero esos 10 son todos positivos reales. Tu precisión sería del 100%, pero te habrías dejado por detectar 90 positivos. Tu sensitividad sería del 10%, que es una porquería.
Para casos como estos es mejor saber el par precisión-sensitividad, o el F1-score que los da agregados.
#1:
En un master nosotros entrenamos un modelo de predicción de melanoma, pero de ahí a que se pueda utilizar como herramienta diagnóstica hay un trecho.
Espero que algún estadístico haya validado el muestreo y los sets de test y validación.
#29:
Yo soy Data Scientist desde hace 5 años o así, tengo una pequeña empresa con la que nos ganamos la vida principalmente haciendo modelos predictivos. Al estallar la pandemia allá por marzo, estuvimos viendo formas de ayudar, participamos en varias hackatones, y una de las primeras cosas que se nos ocurrió fue crear un modelo de este tipo, especialmente atractivo en un contexto en el que los tests eran muy escasos. Para ello partimos de este dataset que estaba recopilando un chico de una universidad canadiense en GH:
Ahora tiene bastantes más radiografías, pero en su momento apenas teníamos 200 o así para hacer un modelo. Al poco de empezar (fuimos prácticamente de los primeros en intentarlo) nos dimos cuenta de que era una vía muerta. Un contacto que estuvo trabajando en un proyecto similar en China desde Enero aproximadamente nos confirmó que la utilidad en la práctica era nula, y eso que ellos habían entrenado el modelo con más de 70k radiografías (que muy al estilo Chino, nunca publicaron).
Usando únicamente radiografías era muy complicado distinguir la neumonía provocada por COVID-19 de otro tipo de neumonías, especialmente en las primeras fases de la enfermedad. Había que ir a otro tipo de imágenes médicas como TACs, bastante más costosas de obtener, con lo que al final la ventaja respecto a usar tests convencionales desaparecía.
Desde entonces y a lo largo de los últimos meses muchos han publicado que han desarrollado un modelo de IA capaz de diagnosticar COVID-19 usando radiografías, entre otros:
Y así... mogollón más que os podría poner aquí. El sector médico es uno donde la aplicación de IA es especialmente complicada. Técnicas que se usan habitualmente en otros sectores no se pueden aplicar sin más. La forma de validar los modelos tampoco es la tradicional. Hay métricas específicas para modelos de IA aplicados al sector médico. Para aquellos que os interese el tema, hay una especialización en Coursera (de la gente de deeplearning.ai) que está muy bien: AI for Medicine
Como dato curioso, uno de los mejores bancos de imágenes médicas está en Valencia y acaba de liberar hace poco un dataset centrado en COVID-19, por si queréis echarle un ojo:
#17:
#1 De hecho aunque dice los sets de datos son oficiales, a mi el resultado me suena a overfitting.
La matriz de confusión me parece muy perfecta. Solo confunde una radiografia de covid con sana y ninguna con neumonia... Yo creo que si publican las layers que lleva el modelo tiene tantas que que se ve que es puro overfitting y no serían los primeros "estudiantes" que publican un modelo con ese defecto https://www.coronavirusxray.com/model.html
En un master nosotros entrenamos un modelo de predicción de melanoma, pero de ahí a que se pueda utilizar como herramienta diagnóstica hay un trecho.
Espero que algún estadístico haya validado el muestreo y los sets de test y validación.
En Inteligencia Artificial al principio se usan "cartas marcadas".
En este caso las 8000 radiografías que han usado, que viene no sólo la imagen, si no el diagnóstico realizado por un experto (imagino que en este caso serían los resultados proporcionados por radiólogos y neumólogos).
Se extrae un subconjunto de esas ccartas marcadas" y se usan para entrenar un modelo de Inteligencia Neuronal.
Aquí se enseñó diciendo qué radiografías son covid, cuáles son neumonías de otro tipo y cuáles son pulmones sanos. Éstas son las categorías que se buscan y que responden a las preguntas de ¿hay neumonía en esta radiografía?, ¿de qué tipo?
Luego comprueban qué ha aprendido la IA, la fase de validación.
Cogen un conjunto de radiografías de las que no usaron antes (porque esas puede que se las sepa de memoria) y preguntan.
Por último, comparan el resultado de la IA con el diagnóstico realizado por los expertos (recuerda que en realidad las cartas están marcadas, sólo que la IA no lo sabe) y de ahí calculan el porcentaje de éxito.
El mayor problema está en enseñar bien, porque se pueden meter sesgos sin querer y al final es difícil saber cómo la IA ha aprendido.
Aquí es donde hace falta una base brutal de estadística.
#27 cuanto más se sabe de un tema más difícil resulta simplificar porque conoces casi todas las excepciones y temas relacionados que cambian la explicación (eso solo se suele ver al final donde descubres que tus primeros conocimientos no son ciertos y que solo servían para que te hicieras una idea )
#32 Creo que se refiere a identificar por qué el modelo ha aprendido lo que ha aprendido y cómo. El modelo lo único que hace es fijarse en ejemplos positivos y negativos e identificar las características que las diferencian y que son útiles para discriminar entre lo que es positivo y lo que es negativo.
Por ejemplo, imagina que quiero hacer un detector de tiburones en base a imágenes. Lo que haré es entrenar un modelo al que le paso un montón de fotos de tiburones etiquetados como casos positivos, y otro montón de otros peces (no tiburones) etiquetados como casos negativos. El modelo aprenderá por sí solo que para identificar tiburones es útil fijarse en la forma del morro, los ojos, las aletas, la dentadura, etc... En eso consiste la "magia" del aprendizaje supervisado.
Hasta aquí bien. Pero ahora imagina que todos los tiburones que le he enseñado al modelo son tiburones blancos. Si le paso la foto de un tiburón martillo, es posible que no la sepa identificar como tiburón porque nunca ha visto uno y la forma del morro le parece que no es de tiburón. Esto implica que el modelo no es suficientemente general, particularmente porque tu conjunto de datos de entrenamiento está sesgado (solo las incluido un tipo específico de tiburones).
Esto puede pasar con cualquier problema y modelo. En el caso del Covid, si solo entrenas al modelo con radiografías de niños (otro sesgo) puede que luego no sepa predecir bien en adultos. El mayor engorro de entrenar modelos supervisados es asegurarse de que los datos sean suficientemente representativos de la distribución de datos sobre la cual el modelo deberá hacer predicciones. Si el problema es muy complejo puede que estés introduciendo sesgos difícilmente identificables, que sólo podrías descubrir con un buen análisis estadístico como dice #19.
#1 De hecho aunque dice los sets de datos son oficiales, a mi el resultado me suena a overfitting.
La matriz de confusión me parece muy perfecta. Solo confunde una radiografia de covid con sana y ninguna con neumonia... Yo creo que si publican las layers que lleva el modelo tiene tantas que que se ve que es puro overfitting y no serían los primeros "estudiantes" que publican un modelo con ese defecto https://www.coronavirusxray.com/model.html
#17 En mi época, en ingeniería se daba un cuatrimestre de estadística. En mi opinión, bastante justo para hacer estas cosas como para publicar un paper... claro que yo siempre fui algo zoquete
#20 nah, no te preocupes, lo interesante es que aquí no dicen que publiquen ningún paper, solo han hecho la web con su modelo y los periodistas le han dado publicidad...
#17 no me he leído el artículo, pero si solo dan la matriz de confusión para conjunto de test como muestras en ese enlace yo esto lo cogería con pinzas. Mínimo validación cruzada con varios lanzamientos, que haya una media y desviación típica del recall y precision. Lo demás puede dar pie a sospechar de haber seleccionado el conjunto de test a propósito y que sea puro overfitting como bien dices
#17 Es posible que después de tanta prueba y error tuneando el modelo hayan hecho overfitting con el set de validación inadvertidamente. Estaría bien saber si dejaron en la recámara un tercer set de test.
#35 De momento ha pencado tres de cuatro que le he pasado: tres normales y una con neumonía, y la que ha acertado con un 40% de probabilidad a la clase verdadera. Si buscáis "torax x-ray" en Google imágenes salen muchas radiografías, y te las puede dividir entre normales, neumonía, covid, cáncer de pulmón. etc.
#35 interesante, como no he trabajado con redes neuronales de esta parte no se mucho, pero supongo que hablas de subdividir los datos de entrenamiento en unos para entrenar y otros para ver la calidad del modelo en ese punto del training (lo que sería al final del epoch)
Al final supongo que estaría bien saber que han hecho para que no sea una caja negra en una caja negra
#38 No soy un experto, pero es básicamente eso. Dividir en tres sets de datos: entrenamiento, validación y test. Solo el set de entrenamiento se usa para entrenar el modelo. El problema de tener solo dos sets (entrenamiento y validación) es que estos modelos se magrean mucho para conseguir buenos resultados: que si pruebo con una capa más, que si luego la tasa de aprendizaje, que si ahora meto más o menos regularización, que si cambio todas o algunas de las capas de activación por otro tipo...
Cuando has entrenado el modelo 100 veces con pequeñas variaciones y te salen buenos resultados de validación es posible que el modelo esté bien, pero también es posible que hayas conseguido sin querer una versión de tu modelo que funciona bien con este set de validación en concreto. En definitiva: a base de optimizar el modelo para un set de validación concreto, has terminado haciendo overfitting del set de validación, incluso aunque este set no se haya usado realmente para entrenar el modelo. El set de test se deja para el final, cuando crees que tienes un buen modelo.
#7 Es más, una precisión del 97% solo te dice que lo que el modelo predice como Covid, realmente es Covid el 97% de las veces. Es decir, tiene una tasa de falsos positivos del 3%.
Lo que no te dicen es cual es la sensitividad del modelo, es decir, su capacidad de detectar positivos reales. Podrías tener un modelo que de 100 casos solo detecta 10, pero esos 10 son todos positivos reales. Tu precisión sería del 100%, pero te habrías dejado por detectar 90 positivos. Tu sensitividad sería del 10%, que es una porquería.
Para casos como estos es mejor saber el par precisión-sensitividad, o el F1-score que los da agregados.
#41 Lo que tú describes es la sensitividad: la capacidad del modelo de descubrir los casos positivos (las As) e identificarlas como tales. La precisión es que si el modelo dice que es Covid, realmente es Covid el 97% de las veces. La precisión se calcula como los aciertos del modelo dividido entre los aciertos + los fallos. Para acertar o fallar el modelo tiene que hacer intentos. Si solo hace un intento y acierta, la precisión será del 100%.
La sensitividad, por otra parte, se calcula como aciertos del modelo dividido entre aciertos + falsos negativos (casos de Covid que el modelo no ha detectado como positivos). Así, si el modelo solo detecta un caso de cada 10 y no se pronuncia para el resto, acertará en ese caso pero habrá dejado de detectar 9. Su sensitividad será bajísima. En inglés se le llama Recall https://en.m.wikipedia.org/wiki/Precision_and_recall
Yo soy Data Scientist desde hace 5 años o así, tengo una pequeña empresa con la que nos ganamos la vida principalmente haciendo modelos predictivos. Al estallar la pandemia allá por marzo, estuvimos viendo formas de ayudar, participamos en varias hackatones, y una de las primeras cosas que se nos ocurrió fue crear un modelo de este tipo, especialmente atractivo en un contexto en el que los tests eran muy escasos. Para ello partimos de este dataset que estaba recopilando un chico de una universidad canadiense en GH:
Ahora tiene bastantes más radiografías, pero en su momento apenas teníamos 200 o así para hacer un modelo. Al poco de empezar (fuimos prácticamente de los primeros en intentarlo) nos dimos cuenta de que era una vía muerta. Un contacto que estuvo trabajando en un proyecto similar en China desde Enero aproximadamente nos confirmó que la utilidad en la práctica era nula, y eso que ellos habían entrenado el modelo con más de 70k radiografías (que muy al estilo Chino, nunca publicaron).
Usando únicamente radiografías era muy complicado distinguir la neumonía provocada por COVID-19 de otro tipo de neumonías, especialmente en las primeras fases de la enfermedad. Había que ir a otro tipo de imágenes médicas como TACs, bastante más costosas de obtener, con lo que al final la ventaja respecto a usar tests convencionales desaparecía.
Desde entonces y a lo largo de los últimos meses muchos han publicado que han desarrollado un modelo de IA capaz de diagnosticar COVID-19 usando radiografías, entre otros:
Y así... mogollón más que os podría poner aquí. El sector médico es uno donde la aplicación de IA es especialmente complicada. Técnicas que se usan habitualmente en otros sectores no se pueden aplicar sin más. La forma de validar los modelos tampoco es la tradicional. Hay métricas específicas para modelos de IA aplicados al sector médico. Para aquellos que os interese el tema, hay una especialización en Coursera (de la gente de deeplearning.ai) que está muy bien: AI for Medicine
Como dato curioso, uno de los mejores bancos de imágenes médicas está en Valencia y acaba de liberar hace poco un dataset centrado en COVID-19, por si queréis echarle un ojo:
#3 En realidad depende del contexto. Un 97% puede ser un autentico desastre. En general, por lo que se de estos sistemas , alcanzar cifras en torno al 95% no suele ser un problema si hay suficientes datos y potencia de calculo. El problema suele plantearse cuando se pretende pasar del 99%. He hecho cursos en donde alcanzar un 97% en detección de objetos podría llevar dos horas de entrenamiento de una red neuronal, pero pasar del 99 al 99,3 % podía suponer varias semanas.
#7 No creo que sea un problema, porque probablemente un 99% ya sea bastante mejor de lo que lo puede hacer un radiólogo, que al fin y al cabo, somos humanos, y no tenemos una vista perfecta.
Pues.... en mi caso lo ha clavado. Estoy con coronavirus (confirmado con PCR y prueba serológica) y tengo diagnosticada a mayores una neumonía (consecuencia del COVID). He subido la placa que me hicieron en el hospital y los resultados son:
Comentarios
En un master nosotros entrenamos un modelo de predicción de melanoma, pero de ahí a que se pueda utilizar como herramienta diagnóstica hay un trecho.
Espero que algún estadístico haya validado el muestreo y los sets de test y validación.
#1 esos porcentajes de donde los sacas?
#13 ¿De dónde los saca la noticia?
En Inteligencia Artificial al principio se usan "cartas marcadas".
En este caso las 8000 radiografías que han usado, que viene no sólo la imagen, si no el diagnóstico realizado por un experto (imagino que en este caso serían los resultados proporcionados por radiólogos y neumólogos).
Se extrae un subconjunto de esas ccartas marcadas" y se usan para entrenar un modelo de Inteligencia Neuronal.
Aquí se enseñó diciendo qué radiografías son covid, cuáles son neumonías de otro tipo y cuáles son pulmones sanos. Éstas son las categorías que se buscan y que responden a las preguntas de ¿hay neumonía en esta radiografía?, ¿de qué tipo?
Luego comprueban qué ha aprendido la IA, la fase de validación.
Cogen un conjunto de radiografías de las que no usaron antes (porque esas puede que se las sepa de memoria) y preguntan.
Por último, comparan el resultado de la IA con el diagnóstico realizado por los expertos (recuerda que en realidad las cartas están marcadas, sólo que la IA no lo sabe) y de ahí calculan el porcentaje de éxito.
El mayor problema está en enseñar bien, porque se pueden meter sesgos sin querer y al final es difícil saber cómo la IA ha aprendido.
Aquí es donde hace falta una base brutal de estadística.
#19 perdona no era para tí el comentario, era por #7, que me llama la atención lo que dice
#19 había intuido esa explicación con la notica y otros comentarios, pero el tuyo me lo ha aclarado aún más. Gracias!
#25 De nada
Ventajas de estar empezando en esto... que sólo puedes explicar las ideas básicas.
#27 cuanto más se sabe de un tema más difícil resulta simplificar porque conoces casi todas las excepciones y temas relacionados que cambian la explicación (eso solo se suele ver al final donde descubres que tus primeros conocimientos no son ciertos y que solo servían para que te hicieras una idea )
#19 muy buena explicación, pero no entiendo tu último apunte: Aquí es donde hace falta una base brutal de estadística.
Te refieres a la base de aprendizaje?
#32 Para enseñar bien, hay que preparar bien los datos para evitar sesgos. Ése es el terreno de la estadística.
#33 Gracias.
preparar bien los datos, es donde se me va el 80% de mi tiempo.
#32 Creo que se refiere a identificar por qué el modelo ha aprendido lo que ha aprendido y cómo. El modelo lo único que hace es fijarse en ejemplos positivos y negativos e identificar las características que las diferencian y que son útiles para discriminar entre lo que es positivo y lo que es negativo.
Por ejemplo, imagina que quiero hacer un detector de tiburones en base a imágenes. Lo que haré es entrenar un modelo al que le paso un montón de fotos de tiburones etiquetados como casos positivos, y otro montón de otros peces (no tiburones) etiquetados como casos negativos. El modelo aprenderá por sí solo que para identificar tiburones es útil fijarse en la forma del morro, los ojos, las aletas, la dentadura, etc... En eso consiste la "magia" del aprendizaje supervisado.
Hasta aquí bien. Pero ahora imagina que todos los tiburones que le he enseñado al modelo son tiburones blancos. Si le paso la foto de un tiburón martillo, es posible que no la sepa identificar como tiburón porque nunca ha visto uno y la forma del morro le parece que no es de tiburón. Esto implica que el modelo no es suficientemente general, particularmente porque tu conjunto de datos de entrenamiento está sesgado (solo las incluido un tipo específico de tiburones).
Esto puede pasar con cualquier problema y modelo. En el caso del Covid, si solo entrenas al modelo con radiografías de niños (otro sesgo) puede que luego no sepa predecir bien en adultos. El mayor engorro de entrenar modelos supervisados es asegurarse de que los datos sean suficientemente representativos de la distribución de datos sobre la cual el modelo deberá hacer predicciones. Si el problema es muy complejo puede que estés introduciendo sesgos difícilmente identificables, que sólo podrías descubrir con un buen análisis estadístico como dice #19.
#19 Buena explicación.
#1 De hecho aunque dice los sets de datos son oficiales, a mi el resultado me suena a overfitting.
La matriz de confusión me parece muy perfecta. Solo confunde una radiografia de covid con sana y ninguna con neumonia... Yo creo que si publican las layers que lleva el modelo tiene tantas que que se ve que es puro overfitting y no serían los primeros "estudiantes" que publican un modelo con ese defecto
https://www.coronavirusxray.com/model.html
#17 En mi época, en ingeniería se daba un cuatrimestre de estadística. En mi opinión, bastante justo para hacer estas cosas como para publicar un paper... claro que yo siempre fui algo zoquete
Curioso el porcentaje de test
#20 nah, no te preocupes, lo interesante es que aquí no dicen que publiquen ningún paper, solo han hecho la web con su modelo y los periodistas le han dado publicidad...
#17 no me he leído el artículo, pero si solo dan la matriz de confusión para conjunto de test como muestras en ese enlace yo esto lo cogería con pinzas. Mínimo validación cruzada con varios lanzamientos, que haya una media y desviación típica del recall y precision. Lo demás puede dar pie a sospechar de haber seleccionado el conjunto de test a propósito y que sea puro overfitting como bien dices
#17 Es posible que después de tanta prueba y error tuneando el modelo hayan hecho overfitting con el set de validación inadvertidamente. Estaría bien saber si dejaron en la recámara un tercer set de test.
#35 De momento ha pencado tres de cuatro que le he pasado: tres normales y una con neumonía, y la que ha acertado con un 40% de probabilidad a la clase verdadera. Si buscáis "torax x-ray" en Google imágenes salen muchas radiografías, y te las puede dividir entre normales, neumonía, covid, cáncer de pulmón. etc.
#35 interesante, como no he trabajado con redes neuronales de esta parte no se mucho, pero supongo que hablas de subdividir los datos de entrenamiento en unos para entrenar y otros para ver la calidad del modelo en ese punto del training (lo que sería al final del epoch)
Al final supongo que estaría bien saber que han hecho para que no sea una caja negra en una caja negra
#38 No soy un experto, pero es básicamente eso. Dividir en tres sets de datos: entrenamiento, validación y test. Solo el set de entrenamiento se usa para entrenar el modelo. El problema de tener solo dos sets (entrenamiento y validación) es que estos modelos se magrean mucho para conseguir buenos resultados: que si pruebo con una capa más, que si luego la tasa de aprendizaje, que si ahora meto más o menos regularización, que si cambio todas o algunas de las capas de activación por otro tipo...
Cuando has entrenado el modelo 100 veces con pequeñas variaciones y te salen buenos resultados de validación es posible que el modelo esté bien, pero también es posible que hayas conseguido sin querer una versión de tu modelo que funciona bien con este set de validación en concreto. En definitiva: a base de optimizar el modelo para un set de validación concreto, has terminado haciendo overfitting del set de validación, incluso aunque este set no se haya usado realmente para entrenar el modelo. El set de test se deja para el final, cuando crees que tienes un buen modelo.
#1 https://www.clarin.com/tecnologia/coronavirus-grupo-investigadores-argentinos-desarrollo-programa-detecta-casos-positivos-3-minutos_0_ex-j83SgW.html
#7 Es más, una precisión del 97% solo te dice que lo que el modelo predice como Covid, realmente es Covid el 97% de las veces. Es decir, tiene una tasa de falsos positivos del 3%.
Lo que no te dicen es cual es la sensitividad del modelo, es decir, su capacidad de detectar positivos reales. Podrías tener un modelo que de 100 casos solo detecta 10, pero esos 10 son todos positivos reales. Tu precisión sería del 100%, pero te habrías dejado por detectar 90 positivos. Tu sensitividad sería del 10%, que es una porquería.
Para casos como estos es mejor saber el par precisión-sensitividad, o el F1-score que los da agregados.
#15 seguro???
Para mí un 97% de precisión significa que se es A dice A y si es B dice B el 97% de las veces.
Algo que solo acierta con las A no tiene por qué ser nada preciso: dice que todo es A y ya.
#41 Lo que tú describes es la sensitividad: la capacidad del modelo de descubrir los casos positivos (las As) e identificarlas como tales. La precisión es que si el modelo dice que es Covid, realmente es Covid el 97% de las veces. La precisión se calcula como los aciertos del modelo dividido entre los aciertos + los fallos. Para acertar o fallar el modelo tiene que hacer intentos. Si solo hace un intento y acierta, la precisión será del 100%.
La sensitividad, por otra parte, se calcula como aciertos del modelo dividido entre aciertos + falsos negativos (casos de Covid que el modelo no ha detectado como positivos). Así, si el modelo solo detecta un caso de cada 10 y no se pronuncia para el resto, acertará en ese caso pero habrá dejado de detectar 9. Su sensitividad será bajísima. En inglés se le llama Recall https://en.m.wikipedia.org/wiki/Precision_and_recall
El F1-score es la media armónica entre precisión y recall. Es mucho más fiable que dar solo la precisión. https://en.m.wikipedia.org/wiki/F1_score
Yo soy Data Scientist desde hace 5 años o así, tengo una pequeña empresa con la que nos ganamos la vida principalmente haciendo modelos predictivos. Al estallar la pandemia allá por marzo, estuvimos viendo formas de ayudar, participamos en varias hackatones, y una de las primeras cosas que se nos ocurrió fue crear un modelo de este tipo, especialmente atractivo en un contexto en el que los tests eran muy escasos. Para ello partimos de este dataset que estaba recopilando un chico de una universidad canadiense en GH:
- https://github.com/ieee8023/covid-chestxray-dataset
Ahora tiene bastantes más radiografías, pero en su momento apenas teníamos 200 o así para hacer un modelo. Al poco de empezar (fuimos prácticamente de los primeros en intentarlo) nos dimos cuenta de que era una vía muerta. Un contacto que estuvo trabajando en un proyecto similar en China desde Enero aproximadamente nos confirmó que la utilidad en la práctica era nula, y eso que ellos habían entrenado el modelo con más de 70k radiografías (que muy al estilo Chino, nunca publicaron).
Usando únicamente radiografías era muy complicado distinguir la neumonía provocada por COVID-19 de otro tipo de neumonías, especialmente en las primeras fases de la enfermedad. Había que ir a otro tipo de imágenes médicas como TACs, bastante más costosas de obtener, con lo que al final la ventaja respecto a usar tests convencionales desaparecía.
Desde entonces y a lo largo de los últimos meses muchos han publicado que han desarrollado un modelo de IA capaz de diagnosticar COVID-19 usando radiografías, entre otros:
- En Andalucía: https://www.cordobabn.com/articulo/salud/investigadores-andalucia-disenan-modelo-inteligencia-artificial-diagnosticar-covid-19-radiografia/20200415200626042417.html
- Chema Alonso: https://www.elladodelmal.com/2020/03/como-detectar-una-infeccion-covid-19.html
- COVID-Net: https://arxiv.org/abs/2003.09871
Y así... mogollón más que os podría poner aquí. El sector médico es uno donde la aplicación de IA es especialmente complicada. Técnicas que se usan habitualmente en otros sectores no se pueden aplicar sin más. La forma de validar los modelos tampoco es la tradicional. Hay métricas específicas para modelos de IA aplicados al sector médico. Para aquellos que os interese el tema, hay una especialización en Coursera (de la gente de deeplearning.ai) que está muy bien: AI for Medicine
- https://www.coursera.org/specializations/ai-for-medicine
Como dato curioso, uno de los mejores bancos de imágenes médicas está en Valencia y acaba de liberar hace poco un dataset centrado en COVID-19, por si queréis echarle un ojo:
- https://bimcv.cipf.es/bimcv-projects/bimcv-covid19/
relacionada:
La IA médica de Google era súper precisa en el laboratorio. La vida real es una historia diferente
La IA médica de Google era súper precisa en el laboratorio. La vida real es una historia diferente
La IA médica de Google era súper precisa en el lab...
technologyreview.comPues un 97 por ciento es mucho... muy bien invento, sí señor. Todos mis respetos a estos estudiantes.
#3 El invento es lo del 97%.
#3 En realidad depende del contexto. Un 97% puede ser un autentico desastre. En general, por lo que se de estos sistemas , alcanzar cifras en torno al 95% no suele ser un problema si hay suficientes datos y potencia de calculo. El problema suele plantearse cuando se pretende pasar del 99%. He hecho cursos en donde alcanzar un 97% en detección de objetos podría llevar dos horas de entrenamiento de una red neuronal, pero pasar del 99 al 99,3 % podía suponer varias semanas.
#7 O incluso llevar a un retroceso en los resultados si las muestras aportadas están mal diagnosticadas.
#7 No creo que sea un problema, porque probablemente un 99% ya sea bastante mejor de lo que lo puede hacer un radiólogo, que al fin y al cabo, somos humanos, y no tenemos una vista perfecta.
Muchos profesionales sanitarios no saben "leer" una radiografía, de ahí las herramientas, o la consulta a un radiólogo.
Y los asintomáticos?
Bueno, el invento está chulo, pero personalmente prefiero que me metan la cosa esa por la tocha que andar radiándome
Lo mío son tetas y barriga, no llega al digno nombre de tórax y abdomen.
#2
#11 no se ve nada en una radiografía, nunca
La mítica radiografía que te hacen cuándo vas con lumbalgia , se te hace un dos por uno y no detecta ninguno
#4 explícate por favor , fui en diciembre con lumbalgia y me hicieron radiografía
Si no hay más remedio pues bueno, pero si no, me quedo con la pcr mil veces antes
Pues.... en mi caso lo ha clavado. Estoy con coronavirus (confirmado con PCR y prueba serológica) y tengo diagnosticada a mayores una neumonía (consecuencia del COVID). He subido la placa que me hicieron en el hospital y los resultados son:
- Coronavirus 90'56%
- Neumonia 9'36%
- Sano 6'17%
- No válido 5'48%
Ése 97% es para los casos respiratorios, no? porque también hay casos no-respiratorios...
Teniendo en cuenta que cuaquier medico haria lo mismo de un vistazo no le veo el sentido.
Madre mía la que se ha liado, menos mal que al principio era más inofensivo este virus que una gripe común...
Yo lo probé hace 1 mes con placas de pacientes en dialisis y el porcentaje de falsos positivos era del 90%, así que...