¿Cómo se detectan noticias falsas con Inteligencia Artificial?
El aprendizaje automático es una de las técnicas que se utilizan para detectar bots sociales y contenidos generados automáticamente.
Las noticias falsas o fake news se definen como aquella información que ha sido publicada con la intención de engañar y confundir al lector. Además de mostrar un contenido aparentemente real, estas necesitan una gran difusión para llegar al mayor número de usuarios, para lo que se utilizan las redes sociales.
Una vez sepamos cómo se crean y viralizan, técnicas de Inteligencia Artificial como el aprendizaje automático permiten aproximarse a la detección automática de fake news, que se difunden con plataformas de bots sociales cada vez más sofisticadas y que pueden generarse artificialmente.
Las fake news y las campañas de desinformación han cobrado protagonismo actualmente en las redes sociales, con un impacto destacable en la opinión pública y, concretamente, en el terreno político. Estas plataformas actúan como amplificadores y multiplican el impacto de una noticia falsa, gracias a la participación de los propios usuarios en la viralización de la misma y a la propia naturaleza de los algoritmos que regulan la difusión de información. Estos muestran a los usuarios los contenidos que aumentan la probabilidad de que permanezcan en la red social.
Además, las noticias falsas aprovechan sesgos cognitivos de los seres humanos para que, paradójicamente, nos resulten más atractivas que las noticias verdaderas. Nos quedamos con la información que refuerza nuestras creencias previas (sesgo confirmatorio) y buscamos argumentos y conclusiones que concuerden con esas creencias (razonamiento motivado).
Con todo esto, un estudio publicado en Science en 2018, detectó que las noticias falsas llegan a muchas más personas que las noticias veraces y que se difunden más deprisa. Quizás porque se basaban en historias que apelan a las emociones y se presentaban como noticias más novedosas e impactantes.
Del efecto de las redes sociales se aprovecha también el contenido generado por bots sociales, que tienen un papel importante como fuentes de difusión de información de baja calidad, sobre todo en los momentos iniciales. Sin embargo, la misma tecnología puede servir para identificarlos.
Dentro de la Inteligencia Artificial, el Machine Learning y la monitorización y análisis de redes sociales se postulan como las mejores técnicas para detectar automáticamente bots sociales y, por tanto, frenar la viralización de las noticias falsas.
En el caso del aprendizaje automático, hay que recopilar bastantes ejemplos representativos, tanto de cuentas verificadas de bots sociales como de humanos, para que el modelo aprenda a diferenciarlos. Para ello, se perfila cada cuenta a partir de miles de características extraídas de sus comentarios y metadatos. Así se pueden encontrar combinaciones de valores diferenciales.
Otra aproximación para detectarlos se basa en estudiar las redes que forman las plataformas de bots. Se va más allá de las características individuales de cada usuario y se tiene en cuenta cómo se relacionan y cómo se comportan cuando comparten contenidos similares.
Al final, veremos que comprobar la veracidad de los textos sigue requiriendo de un criterio humano, pero estas técnicas también pueden ayudar a los servicios de verificación (fact-checking) a hacer una clasificación automática previa en base a las características detectadas, y así reducir el número de noticias falsas a revisar.
Por último, hay que prestar atención al avance en la generación de noticias falsas. Con técnicas de Procesamiento del Lenguaje Natural (PLN), se pueden conseguir textos ficticios cada vez más verosímiles, que retan a la IA a ir más allá del contenido para detectar su autoría.
Recientemente se han desarrollado modelos de lenguaje que permiten generar textos ficticios con un nivel de calidad similar a los escritos por un humano. ¿Serían estos sistemas capaces de generar textos verosímiles sobre la COVID-19? Desde el Instituto de Ingeniería del Conocimiento (IIC) han investigado en esta línea. Entrenaron dos modelos de lenguaje especializados en la generación de texto, uno con noticias y otro con papers más técnicos, para comprobar si el algoritmo era capaz de generar nuevos escritos.
Primero, se entrenó el modelo con 550.000 noticias de unas 400 fuentes distintas. Como resultado, la mayoría de los textos tenían cierto sentido, pese a que algunas frases resultaban largas y que en algunos casos saltaban de unos temas a otros, sin un mensaje claro, haciéndoles perder verosimilitud. Es decir, en una lectura rápida, podrían parecer textos verídicos, y habría que comprobar la información que comparten.
En el otro caso, se utilizaron alrededor de 4.500 abstracts de papers relacionados con la COVID-19. Los textos resultantes volvían a tener sentido, pero sería raro que un escrito con errores perteneciera a un estudio serio, por lo que quizás las noticias tendrían mayor probabilidad de ser aceptadas por el público.
Una de las conclusiones de la investigación es que es difícil influir al algoritmo en cuanto al mensaje a comunicar, solo sobre el tema del que hablar. Sin embargo, la investigación sí demostró la viabilidad de generar noticias falsas verosímiles mediante el uso de Inteligencia Artificial, alertando de la importancia de leer los textos con cierto pensamiento crítico y comprobar la fuente de las noticias, pues es el lector en última instancia quien debe determinar su veracidad.