PERSPECTIVAS Y RETOS DE LAS TÉCNICAS DE INTELIGENCIA ARTIFICIAL EN EL ÁMBITO DE LAS CIENCIAS SOCIALES Y DE LA COMUNICACIÓN

Perspectives and Challenges of Artificial Intelligence Techniques in the Field of Social Sciences and Communication

Perspectivas e desafios das técnicas de inteligência artificial no âmbito das Ciências sociais e da comunicação

Raúl Ramos Pollán raul.ramos@udea.edu.co

Universidad de Antioquia, Colombia

PERSPECTIVAS Y RETOS DE LAS TÉCNICAS DE INTELIGENCIA ARTIFICIAL EN EL ÁMBITO DE LAS CIENCIAS SOCIALES Y DE LA COMUNICACIÓN

Anuario Electrónico de Estudios en Comunicación Social "Disertaciones", vol. 13, núm. 1, 2020

Universidad del Rosario

Licencia de Creative Commons Reconocimiento-NoComercial-SinDerivadas 4.0 Internacional.

Recibido: 17 marzo 2019

Aceptado: 10 octubre 2019

Información adicional

Para citar este artículo: Ramos Pollán, R. (2020). Perspectivas y retos de las técnicas de inteligencia artificial en el ámbito de las ciencias sociales y de la comunicación. Anuario Electrónico de Estudios en Comunicación Social “Disertaciones”, 13(1), 21-34. Doi: https://doi.org//10.12804/revistas.urosario.edu.co/disertaciones/a.7774

Resumen: En los últimos diez años, los métodos y técnicas de inteligencia artificial (ia) han visto grandes avances, y han pasado a formar parte, en muchos casos, del paisaje habitual desde el cual se abordan nuevos o antiguos problemas en distintas áreas del conocimiento humano. En este avance confluyen distintos aspectos, y en especial tres: la disponibilidad y la variedad de datos de manera generalizada en muchas de las áreas de actividad humana; un entendimiento más profundo de las matemáticas que gobiernan la algorítmica subyacente; y una disponibilidad y capacidad de hardware y del cómputo que permiten una experimentación amplia y profusa de los datos. Teniendo en cuenta estos aspectos, el reto fundamental en cada problema y en cada ámbito de aplicación se enfoca en entender cómo utilizar estas tecnologías, qué alcance pueden llegar a tener y qué limitaciones hay que superar para poder tener resultados beneficiosos de ellas (en términos de costes de producción, valor, etc.). Este reto incluye aspectos como la identificación de las fuentes de datos y sus necesidades de integración y curación; la necesidad y el coste de adquirir o construir datasets etiquetados; la medición de la volumetría de datos necesaria; y la validación de su factibilidad, el planteamiento técnico de las tareas de analítica de datos y su alineación con los objetivos de la aplicación final; etc. Las ciencias sociales y de la comunicación no son una excepción a estos campos del conocimiento ligados a la ia, aunque sí presentan particularidades que definen el tipo de tecnologías y métodos de ia que son más apropiados (i.e. procesamiento de lenguaje natural). La utilización exitosa de técnicas de ia en estas disciplinas corresponde, no solo al conocimiento de las técnicas, sino también al establecimiento de contextos de aplicación factibles, que incluyan la disponibilidad de datos, la complejidad adecuada de la tarea a realizar y los procedimientos de validación con expertos en el área. Este trabajo presenta una introducción a la metodología gracias a la cual se generan modelos de ia, un resumen de los métodos y servicios de ia con más potencial de usarse en ciencias sociales y de la comunicación y, finalmente, algunos ejemplos de aplicaciones que ilustran consideraciones prácticas y técnicas al respecto.

Palabras clave: inteligencia artificial, aprendizaje automático, ciencias sociales, ciencia de datos.

Abstract: In the last ten years, artificial intelligence (ai) methods and techniques have witnessed great advances and they already make part of the usual landscape from where new or old problems are tackled in different areas of human knowledge. Three particular aspects are behind this leap forward: a generalized availability and variety of data; a deeper understanding of the mathematics governing the underlying algorithmics; and hardware capabilities allowing wide and deep experimental pipelines over data. The main challenge in each problem and context of application now lies on understanding how can these technologies can be used, their reach and limitations so that the can be aligned with the aims of each specific problem at hand. Social and communication sciences are no exception, but show particularities that define which ai technologies and methods are most appropriate (i.e. natural language processing). This works presents an introduction to the methodology under which ai models are built, to potentially useful ai services in the field and, finally, some examples of applications illustrating practical and technical considerations in this respect.

Keywords: Artificial intelligence, machine learning, social sciences, data science.

Resumo: Nos últimos 10 anos os métodos e técnicas de inteligência artificial (ia) têm sofrido um grande avanço passando a fazer parte, em muitos casos, da paisagem habitual desde a qual abordam-se novos ou antigos problemas em diferentes áreas do conhecimento humano. Neste avanço confluem diferentes aspetos, mas especialmente três: uma disponibilidade e variedade de dados de maneira generalizada em muitas das áreas de atividade humana, um entendimento mais profundo das matemáticas que governam a algorítmica subjacente e uma disponibilidade e capacidade de hardware e computação que permite uma experimentação mais ampla profusa sobre os dados. Com isto, o desafio fundamental em cada problema e âmbito de aplicação enfoca-se em entender como utilizar estas tecnologias, que alcance podem ter e que limitações tem que superar para conseguir resultados benéficos das mesmas (em termos de custos de produção, valor das mesmas, etc.). Isto inclui aspetos como: a identificação das fontes de dados e sua necessidade de integração e cura, a necessidade e o custo de adquirir ou construir datasets etiquetados, a medição da volumetria de dados necessária e validação de sua factibilidade, a abordagem técnica das tarefas de analítica de dados e sua alienação com os objetivos da aplicação final, etc. As ciências sociais e da comunicação não são uma exceção a este fato, ainda que sim apresentam particularidades que definem o tipo de tecnologias e métodos de ia que são mais apropriados (i.e. processamento de linguagem natural). A utilização bem-sucedida de técnicas de ia neste caso acontece não só por ter um conhecimento de ditas técnicas, mas por estabelecer contextos de aplicação factíveis que incluam a disponibilidade de dados, complexidade adequada da tarefa a realizar e procedimentos de validação com expertos na área. Este trabalho apresenta uma introdução à metodologia pela qual se geram modelos de ia, um resumo dos métodos e serviços de ia com maior potencial de ser usados em ciências sociais e da comunicação e, finalmente, alguns exemplos de aplicações que ilustram considerações práticas e técnicas a este respeito.

Palavras-chave: inteligência artificial, aprendizado automático, ciências sociais, ciência de dados.

Introducción

Este trabajo tiene como propósito principal ofrecer elementos de juicio para evaluar la utilización y el posible alcance de métodos de aprendizaje automático en el ámbito de las ciencias sociales y de la comunicación. Se considera, en general, que el término inteligencia artificial nació en 1956, en el Dartmouth Summer Research Project on Artificial Intelligence (Moor, 2006), que muchos consideran el evento fundacional del campo. Desde entonces, tanto su significado como el conjunto de métodos y tecnologías que la conforman ha evolucionado de manera variada, y se ha encontrado ocasionalmente con otros campos (computación, estadística, lingüística, biología). De esta forma, ha gozado o sufrido de diversas cambios en la percepción del público en general: desde el escepticismo hasta la sobrevaloración de sus posibilidades, pasando por el rechazo, el pánico y la admiración.

En la actualidad, la mayor parte de los esfuerzos y aplicaciones de la inteligencia artificial están basados en el campo del aprendizaje automático (al que frecuentemente nos referiremos como ml, por sus siglas en inglés: machine learning). ml es un conjunto de técnicas y métodos — mayormente matemáticas y estadísticas— que nos permiten usar datos observados para calibrar modelos. Estos modelos pueden ser predictivos o descriptivos.

Muchas de las técnicas de ml se conocen desde hace varias décadas, específicamente desde la década de 1940 (redes neuronales, técnicas de regresión, etc.), y también se han desarrollado muchas otras en los últimos años. Tres aspectos han determinado el éxito generalizado en esta última década que ha tenido ml en su aplicación en distintas áreas del conocimiento:

La disponibilidad y la variedad de datos de manera generalizada en muchas de las áreas de actividad humana.
Un entendimiento más profundo de las matemáticas que gobiernan la algorítmica subyacente.
Una disponibilidad y capacidad de hardware y de cómputo que permiten una experimentación amplia y profusa de los datos.

En cada caso de aplicación, la utilidad de dichos modelos depende de diversos factores, pero todos ellos finalmente emergen de la capacidad que tengamos para definir con precisión qué queremos obtener de nuestros modelos predictivos, diseñar campañas efectivas de adquisición, recolección y etiquetado de datos, y de la capacidad de formar equipos multidisciplinares bien integrados.

Cuando se inventó el Perceptrón, en 1957 (Rosenblatt, 1957), por ejemplo, se creyó que “sería el embrión de un computador electrónico que se espera sea capaz de caminar, hablar, ver, escribir, reproducirse y ser consciente de su propia existencia” (Olazaram, 1996) . En la actualidad, el Perceptrón es un tipo de clasificador binario relativamente sencillo, en comparación con otros algoritmos. Sin embargo, en perspectiva, quizá veamos hoy la afirmación de más arriba como demasiado ingenua, atrevida o alarmante de modo innecesario. Igualmente, hoy debemos de tomar con prudencia los juicios sobre el alcance de lo que concebimos como inteligencia artificial, y ceñirnos a utilizar con efectividad y rigor las herramientas matemáticas y tecnológicas que tenemos a nuestro alcance.

Aprendizaje automático

Modelos derivados de los datos

Los seres humanos hemos desarrollado desde siempre modelos sobre el funcionamiento del mundo. Muchos modelos son meramente intuitivos (i .e. si hago correr este mastodonte hacia la trampa, este caerá y podremos cenar hoy); y muchos otros alcanzan niveles de formalismo mucho mayor (i .e. la mecánica clásica, o la teoría de la evolución de las especies). Estos modelos surgen del entendimiento más o menos profundo que un individuo o un conjunto de individuos adquieren de un determinado aspecto a través de la experimentación, el aprendizaje, o el desarrollo de intuiciones.

Un modelo se materializa a partir de un procedimiento por el cual, a partir de una entrada, se realiza una predicción. Por ejemplo, dado el ángulo de un cañón, el peso de una bala y el viento, la mecánica clásica predice dónde caerá la bala si las condiciones reales son lo suficientemente parecidas a las asumidas como ideales por el modelo. En el caso de la mecánica clásica, este procedimiento se basa en el uso de ecuaciones diferenciales para modelar distintos aspectos del proceso físico que se cree que sucede (gravedad, resistencia). En el caso de la termodinámica, este procedimiento se basa en las distribuciones de probabilidad, etc.

Figura 1.
Creación de modelos con ml y por medio de expertos

elaboración propia

En el caso de ml, se utilizan los datos para obtener un modelo que igualmente trate de capturar y comprender el funcionamiento de un aspecto del mundo. Esto se ilustra en la figura 1. Por ejemplo, para predecir cuál va a ser el siguiente producto que va a comprar el cliente, o para estimar un sesgo en una expresión textual. En realidad, no es que ml genere modelos en el mismo sentido que lo hace un experto en el tema (i .e. como una ecuación diferencial). En vez, en ml se selecciona una cierta clase de modelos (i .e. una red neuronal con una configuración de capas determinada, un árbol de decisión o una máquina de soporte vectorial) y se usan los datos y la capacidad de cómputo para calibrarlo. Esto es una diferencia fundamental y conlleva a los siguientes aspectos:

El experimentador debe elegir qué clase de modelos quiere calibrar con sus datos.
Los datos se consideran muestras acerca de cómo quisiéramos que el modelo calibrado respondiera a la entrada.
El proceso de calibración (model training o fitting) se restringe únicamente a la clase de modelos que el experimentador escoge.
La clase de modelos elegida ha de tener un nivel de complejidad similar a la tarea que se quiere resolver. El experimentador debe de generar la evidencia experimental de este aspecto y actuar de manera acorde (i .e. aumentar o reducir la complejidad de los modelos elegidos).
Si los datos no son representativos de lo que se quiere resolver (porque son pocos, de poca calidad, o están muy mezclados, etc.) el objetivo del experimentador es generar evidencia para decidir cómo continuar su proyecto (i .e. recabar más datos , recabar más información de cada dato o mejorar el etiquetado de los datos).

Es en ese sentido en el que se interpreta la noción de aprender, parte del término machine learning (en español, aprendizaje de máquinas): el de calibrar un algoritmo con datos. Esto es radicalmente distinto de la noción de aprender en el sentido en el que aprendemos los humanos, que implica la generación de un propósito, un plan de aprendizaje, teoría, práctica, etc.

Figura 2.
Proceso experimental de generación de modelos

fuente: elaboración propia

En cualquier caso, es preciso anotar que, al igual que sucede en el método científico, la creación de modelos basados en datos por medio de métodos de machine learning es un proceso fundamentalmente experimental, que requiere observación (captura de datos), creación de hipótesis (calibración de modelos), validación (con nuevos datos), recalibración de hipótesis (selección de clases de modelos más o menos complejas), etc., tal y como se ilustra en la figura 2.

Una vez tenemos un modelo calibrado, con los niveles de predictividad apropiadamente evaluados, se despliega en producción (figura 2, parte derecha). Por ejemplo, dentro de la aplicación web a través de la cual los clientes compran nuevos productos o en la aplicación móvil con la cual se adquirirán nuevos datos.

Tipos de tareas de aprendizaje automático

El aprendizaje computacional tiene tres grandes ramas diferenciadas, de acuerdo con la forma en la que se suministran los datos a partir de los cuales se calibran los modelos. Estos modelos se revisan a continuación.

Aprendizaje supervisado: Cada dato de entrada está asociado con una etiqueta o anotación que representa la salida esperada que quisiéramos que cualquier modelo emitiese. El objetivo es generalizar una función de mapeo que, al recibir datos nuevos de entrada, pueda predecir una etiqueta correcta para estos. El aprendizaje supervisado puede agruparse en dos categorías:

Clasificación: En este tipo de problemas, la variable de salida es discretizada en diferentes categorías, presentes en los datos de entrada. Por ejemplo, dado un texto, queremos que un modelo nos emita una predicción de si ese texto tiene un sesgo hacia un tema A o un tema B. O dada una imagen de una calle, queremos un modelo que nos diga si contiene un tipo de negocio u otro.
Regresión: En estos problemas la variable de salida es continua. Por ejemplo, la probabilidad de impago de un cliente, el precio de un inmueble o la altura que alcanzará la bala de un cañón.

Entre los algoritmos supervisados más utilizados se encuentran los K-vecinos, redes de neuronas artificiales, máquinas de soporte vectorial, clasificadores gaussianos, árboles de decisión.

Aprendizaje no supervisado: Los datos no contienen una etiqueta correspondiente y se buscan patrones o similitudes entre los datos. En este caso, es mucho más difícil interpretar y utilizar la salida de los modelos, pues no existe una referencia contra la cual compararla. Además, el experimentador debe proveer algunos criterios para guiar e l proceso de calibración de los modelos; por ejemplo, una métrica de similitud entre datos, un método para identificar las anomalías, etc. El agrupamiento, la asociación o la estimación de distribuciones de probabilidad son algunas de las técnicas que se usan.

Algunos ejemplos de algoritmos de aprendizaje no supervisado son los siguientes: análisis de componentes principales, decomposición en valores singulares, clustering, mezclas gaussianas, mapas autoorganizados.

Aprendizaje por refuerzo: Un agente aprende a comportarse en un ambiente al realizar acciones y ver los resultados de estas, a partir de la medida bajo una recompensa. Los datos no contienen etiquetas y el experimentador debe definir un mecanismo por el cual se evalúa la idoneidad de las salidas que emite un modelo.

Programación dinámica o Q-learning son algunos de los algoritmos de este tipo.

Construcción de datasets etiquetados

En general, la calibración de modelos a través de técnicas de aprendizaje supervisado permite una utilización más directa y orientada. Al especificar las salidas esperadas no hay ambigüedad con respecto a lo que esperamos de un modelo y, por tanto, los procesos de entrenamiento o calibración se ajustarán mejor a nuestra necesidad.

No obstante, el costo de construir datos etiquetados es considerable. Un experto debe revisar uno a uno los datos para definir la etiqueta que quisiera que un modelo predictivo emitiese. Desde una cierta perspectiva, estamos estableciendo una manera complementaria para capturar el conocimiento que tiene un experto. En vez de esperar a que este formalice un modelo predictivo (ecuaciones diferenciales), estamos intentando que nos exprese su conocimiento con ejemplos: los datos etiquetados.

De hecho, la publicación y disponibilidad de datasets etiquetados de manera abierta supone de manera general un gran avance en cualquier campo, ya que permite la investigación y experimentación con los datasets y la posibilidad de mostrar a la comunidad los resultados, lo que, a largo plazo, resulta en un conocimiento conjunto más amplio.

En cualquier caso, es fundamental, antes de empezar a abordar cualquier problema a través de modelos generados por los datos, plantearse las siguientes preguntas:

¿Existen datasets etiquetados que podamos utilizar? ¿Esos datasets son representativos del problema que quiero abordar?
Si no existen datasets representativos, ¿estoy en disposición de crear mis propios datasets etiquetados?, ¿q ué costo tendría?
Y finalmente, ¿c uántos datos necesito etiquetar? ¿Qué tipo de información debo recabar para cada dato?

No existen respuestas absolutas para estas preguntas. Es únicamente a través de la experimentación y la iteración del proceso ilustrado en la figura 2 (izquierda) que podemos responderlas gradualmente; es decir, empezando por un dataset inicial. Los métodos de ml nos permiten generar evidencia sobre un desempeño inicial de los modelos que calibramos (i.e. un acierto de clasificación de un 76 % +/- 5 %), y también nos permiten verificar ciertas hipótesis sobre el rendimiento si aumentan los datos o si enriquecemos los mismos datos que ya tenemos. Con base en este proceso se suele plantear una segunda campaña de adquisición de datos, quizá más dirigida (i.e. vamos a recabar más textos de sobre el tema A, que al parecer es un tema en el que los modelos arrojan menor predictividad) y con mayor conocimiento sobre el costo. Volveríamos a realizar la experimentación con métodos de ml, seguramente aumentando la confiabilidad sobre nuestros resultados y afinando nuestras estimaciones de costes.

Aplicaciones ml en ciencias sociales y de la comunicación

La cultura de avance de la comunidad ml se basa en un alto grado en la publicación y participación en competiciones de datos. En ciertos campos hay competiciones establecidas que focalizan la actividad, estas son unas pocas de ellas a modo de ejemplo:

Imagnet Large Scale Visual Recognition Challenge (Russakovsky O. et al., 2015) para tareas de analítica de imágenes en general (localización, detección, segmentación, etc.)
CHiME Speech Recognition and Separation Challenge ¹ para tareas de reconocimiento e interpretación del habla.
ImageCLEF, The Cross Language Evaluation Forum Image Retrieval Track, ² que contiene varios desafíos para el soporte del avance del análisis de medios visuales, indexado, clasificación y recuperación.
Challenges in Medlical Image Analysis, ³ desde la detección de varios tipos de cáncer, pasando por la histopatología, hasta la neurología .

Igualmente, Kaggle ⁴ es un repositorio de competiciones ml que aúna una gran variedad de campos (finanzas, imagen satelital, mercadeo, medicina, física, etc.), y que en los últimos años ha ganado una gran popularidad. Cada competición establece (1) el objetivo de la tarea o modelo predictivo a desarrollar; (2) el conjunto de datos etiquetado para calibrar nuestros propios modelos; (3) un mecanismo por el cual los participantes envían predicciones sobre datos de los cuales tan so lo los propietarios de cada competición conocen las salidas reales esperadas; y (4) las métricas de desempeño con las cuales se evalúan las predicciones enviadas por los participantes.

Existe un gran variedad de competiciones y, por tanto, de complejidad de datos, necesidades de pre procesamiento e, igualmente, métricas de desempeño. En ocasiones, las competencias generan datos relativamente limpios (unas pocas tablas csv) o con métricas estándar (porcentaje de acierto en predicción, error cuadrático medio). En otras ocasiones, los datos son complejos por la propia naturaleza del problema (i.e. imágenes con metadatos asociados y series temporales), y las métricas son muy específicas (i.e. porcentaje de clientes y productos ponderados por sector económico en alguna competencia de predicción de demanda de productos).

A modo de ejemplo, estas son algunas de las competiciones existentes (todavía abiertas o pasadas) con alguna relación con las ciencias sociales de la comunicación:

Two Sigma: Using News to Predict Stock Movements: ⁵ Este reto plantea la utilización de técnicas de procesamiento de lenguaje natural para analizar streams textuales de noticias para generar señales de predictividad en instrumentos financieros. Los datos constan del histórico de valores de un amplio conjunto de instrumentos financieros (cotizaciones en bolsa) y del histórico de noticias financieras emitidas por el canal Thomson Reuters, junto con varias métricas extraídas de cada noticia (compañías de la que habla la noticia, tendencia positiva o negativa, etc.). El objetivo del reto es emitir predicciones de tendencias de valor y precio para cada instrumento financiero. Los datos están naturalmente etiquetados a partir del propio histórico ya que, al ser una serie temporal, se pretende predecir el precio del día siguiente.

Quora Insincere Questions Classfiication: ⁶Este reto plantea la generación de modelos que detectan preguntas no sinceras en foros de discusión. Según la descripción del reto, el objetivo es identificar contenido tóxico y divisivo, para generar confianza entre los usuarios, así como para compartir dudas y conocimiento. El dataset etiquetado de entrenamiento consta de aproximadamente 1,3 millones de preguntas con la etiqueta “1” si es que la pregunta es considerada como no sincera, y “0”, en otro caso. Quora define su concepto de no sinceridad directamente generando 1,3 millones de etiquetas. Obsérvese el coste que supone para la organización generar el dataset etiquetado y organizar la competición.

Costa Rical Household Poverty Level Prediction: ⁷ Reto planteado por el Banco Interamericano de Desarrollo (bid) para la generación de modelos que tengan la capacidad de predecir el nivel de pobreza de cada hogar. El objetivo buscado con el reto es el de mejorar los modelos con base en los cuales se distribuyen las ayudas para el desarrollo de la población que realmente las necesita. Los métodos estadísticos clásicos ofrecen predictividades no del todo satisfactorias, más aún con la perspectiva del crecimiento de la población y la disponibilidad de una mayor variedad de datos. El dataset etiquetado disponible para el entrenamiento de modelos consta de unos ciento cuarenta atributos de hogares de unos 10000 hogares e individuos. A cada uno de estos hogares e individuos se les asigna un nivel de pobreza entre 1 y 4; toda la información del reto provienen de la base de datos del propio bid.

DonorsChoose.org Application Screening: ⁸ Reto planteado por DonorsChoose.org que recibe cientos de miles de solicitudes para apoyar a profesores de primaria y secundaria con materiales y financiación para proyectos de clase. El objetivo del reto es generar modelos que predigan si una solicitud de proyecto será aprobada o rechazada. El dataset se construyó a partir de la base de datos histórica de la organización, y almacena 500000 proyectos; cada uno de estos proyectos viene acompañado del resultado de la evaluación de cada uno, que constituye la etiqueta del dato.

Spooky Author Identification: ⁹Para la estructuración de este reto, también se creó un dataset con unos 20000 extractos de novelas de Edgar Allan Poe, H. P. Lovecraft y M. W. Shelley. Con este reto, se propone la creación de modelos predictivos que, dado un extracto textual, identifiquen a qué autor de terror corresponde .

Instacart Market Basket Analysis: ¹⁰ Con esta competencia, se propone generar modelos para predecir qué productos compra un consumidor en el supermercado basándose en consumos recientes.

Outbrain Click Prediction: ¹¹ A partir de esta competición, se propone generar modelos para predecir en qué contenido pinchará un usuario basándose en la observación de su historial reciente de navegación en Internet. El objetivo es afinar las recomendaciones que se ofrecen a los usuarios para aumentar la probabilidad de que las seleccione en su navegación.

StateFarm Distracted Driver Detection: ¹²Con este reto, se propone la detección de conductores distraídos, a través de imágenes de los propios conductores cuando manejan sus vehículos. El objetivo es detectar a dichos conductores a través de técnicas de visión por computadora para poder emitir las alertas correspondientes. El dataset contiene unas 22400 imágenes, y cada una está relacionada con una etiqueta de entre diez posibles clases (conduciendo normal, hablando por teléfono, bebiendo, manejando la radio, maquillándose).

En particular, es de notar las diferentes aproximaciones para construir el dataset etiquetado en los distintos proyectos. En ciertos casos, se requiere un esfuerzo explícito de etiquetado por parte de expertos o de personal mínimamente cualificado (Quora, StateFarm), y en otros casos, la etiqueta genera de manera automática o semi automática, a través de la inspección de los datos históricos (DonorsChoice) o del cruce de datos con otras fuentes de información (bid).

Es probable que las ciencias sociales y de la comunicación se beneficien más de cierto tipos de tareas ml. Muy lejos de pretender ser exhaustivos, estos son algunos ejemplos:

Análisis de sentimientos: A través de este tipo de análisis, se asocia información textual con un cierto tipo de intencionalidad (positivo/negativo, tendencia política, engaño o toxicidad, etc.). Distintos trabajos exploran la aplicación de este tipo de análisis en distintas áreas: juicios ciudadanos (Etter, et al., 2018), turismo (Alaei, Becken & Stantic, 2019) , sesgo de género (Thelwall, 2018) , redes sociales (Chang, Yi Lee & Chen, 2018) , tendencias políticas (Gómez-Torres, Jaimes, Hidalgo & Luján-Mora, 2018; Arcila-Calderón, Ortega-Mohedano, Jiménez-Amores, & Trullenque, 2017), etc.
Extracción de palabras clave: Dado un texto, se ubican y extraen los términos clave de este. Algunas aplicaciones incluyen herramientas de análisis de opinión pública (Chang, Yi Lee & Chen, 2018), análisis de discursos en Twitter (Stegmeier, 2019), categorización de noticias (Sukiennik & Hui, 2018), etc.
Analítica de imagen: Se usa, por ejemplo, para inferir dinámicas poblacionales y de actividad económica a través de imágenes satelitales (Ma, 2018), el estrato socioeconómico (Diou, Pantelis & Anastasios, 2018), detección de riesgo de crímenes y delincuencia (Bachhety, 2018).

En este sentido, es interesante señalar la labor de la Sociedad Española de Lenguaje Natural (sepln) ¹³ a través de workshops como tass (Martínez-Cámara, Díaz-Galiano, García-Cumbreras, García-Vega & Villena-Román, 2017)

Conclusiones

Como se puede ver a través de los ejemplos anteriores, existen en la actualidad diversas aplicaciones potenciales para la aplicación de técnicas de aprendizaje computacional en los campos de las ciencias sociales y de la comunicación. En general, a partir de datos etiquetados de calidad y un buen equipo de profesionales, las posibilidades de generar modelos de calidad, basados en datos y en casi que cualquier área del conocimiento son muy altas. En opinión del autor, lo que limita las posibilidades de éxito y factibilidad de estos modelos son un conjunto de factores relacionados con la capacidad de organización y la rigurosidad metodológica en los procesos. Entre estos aspectos, los siguientes son clave:

Definición de la tarea y propósito de los modelos predictivos: El grado de concreción de lo que pretendemos con un modelo predictivo es el primer facilitador para un uso efectivo del modelo. Si queremos generar un modelo que detecte patrones de conducción insegura de vehículos, por ejemplo, tenemos que definir qué es lo que entendemos por conducción insegura y con qué parámetros la describimos. Si necesitamos un modelo que detecte qué usuarios de una red social influyen más en otros usuarios, tenemos que definir métricas que midan dicha influencia. De manera cada vez más frecuente, estas definiciones se logran de manera implícita, al suministrar un dataset etiquetado (ver el ejemplo de reto de Quora, anteriormente nombrado). Este proceso facilita la tarea de la propia definición, pero aumenta el coste del proyecto pues es necesario realizar un proceso de etiquetado. En la mayoría de los casos, este grado de concreción no es inmediatamente posible al iniciar un proyecto, ya que se parte quizá de la intuición de un experto o de alguien que conoce el dominio (i.e. “tengo la intuición de que son unos pocos usuarios los que están generando la mayor parte de opiniones”), pero no estamos seguros de cómo parametrizarla. Es importante ser conscientes de este hecho, y plantear los proyectos de manera iterativa para lograr concreción en las preguntas e hipótesis que se plantean de manera gradual. Inicialmente, se puede lograr esta concreción a partir de unos pocos datos, al realizar análisis exploratorios de estos datos, al darle forma a las preguntas según vamos entendiendo los datos y al generar de manera paulatina evidencia sobre el nivel de predictividad que se puede alcanzar con modelos automáticos. De lo contrario, es probable que invirtamos una cantidad desproporcionada de recursos en generar datasets con etiquetas que no responden exactamente a nuestras preguntas, generando solo modelos predictivos de los cuales no sabemos exactamente cómo interpretar su salida, etc.

Disponibilidad y coste de adquisición y etiquetado de los datos: Como ya se ha mencionado, sin datos de calidad es muy difícil crear modelos predictivos útiles. La disponibilidad de ese tipo de datos y el coste de su curación es un factor que hay que evaluar desde el principio de un proyecto. En específico, esta tarea es necesaria si la recolección de datos depende de un tercero (i.e. porque están almacenados físicamente en otra institución, es necesario contar con protocolos o permisos de acceso, o simplemente porque fallas de comunicación con los administradores de los datos). En muchos casos, el coste de adquisición y etiquetado de los datos puede suponer una gran parte de la financiación de un proyecto y hacerlo eventualmente inviable

Construcción de equipos multidisciplinares: Una multidisciplinariedad efectiva es igualmente clave en el éxito de proyectos de analítica de datos aplicados. Sin embargo, la multidisciplinariedad es difícil de lograr y depende del origen y la cultura de cada profesional y campo de conocimiento del proyecto. Típicamente, para abordar este tipo de problemas, un equipo requiere de (1) expertos del campo en el que se desarrolla el proyecto (sociología, criminalística, política, biología, etc.), seguramente con distintos niveles de experiencia para proveer visión e interpretar los resultados, y además puedan operar en la adquisición y el manejo de los datos; (2) de científicos e ingenieros de datos con la capacidad para generar modelos, interpretarlos junto con los expertos del dominio, generar la evidencia estadística para tomar decisiones sobre la evolución de los modelos y las campañas de adquisición de datos, etc.; y (3) de ingenieros informáticos para integrar los sistemas y apoyar al resto de productos de la investigación (aplicaciones web, aplicaciones móviles, servidores). Es fundamental que todos en el equipo tengan sensibilidad e incursionen en el campo de conocimiento del prójimo. Es decir, los expertos del dominio han de adquirir nociones de estadística y han de, al menos, entender el proceso por el cual se generan modelos derivados de los datos, según se describió anteriormente. Por otro lado, los científicos e ingenieros de datos han de entender los principios del dominio en el que están trabajando. El objetivo es tener un lenguaje común y que los criterios y decisiones del proyecto sean entendibles por todos los miembros, aunque se tomen de manera independiente, para así evitar la percepción de caja negra de unos con respecto a otros. Es fundamental evaluar estos aspectos al inicio de cualquier proyecto, al hacer un análisis honesto sobre la capacidad del equipo de trabajo para comunicarse. E l factor comunicativo, que puede parecer trivial, es complejo en cuanto a su construcción, y es preciso realizar un seguimiento de él durante la ejecución de cualquier proyecto.

Establecimiento de métricas de desempeño: Las métricas de desempeño objetivan la utilidad de las salidas emitidas por los modelos y, en última instancia, nos permiten tomar decisiones sobre los procesos de adquisición de datos, generación de modelos, análisis de resultados, etc. Existen dos tipos de métricas de desempeño: las que miden directamente el rendimiento de un modelo predictivo (i.e. el porcentaje de acierto en la predicción del siguiente producto que comprará un cliente), y las que miden la incidencia en el objetivo global que se persigue (i.e. qué beneficio económico obtengo al usar un modelo que me predice el siguiente producto que comprará un cliente con un 87 % de acierto). Ambos tipos de métricas han de estar alineadas y, en muchas ocasiones, su definición también se va construye ndo iterativamente a lo largo de un proyecto de ml. Es clave ser consciente del nivel de definición de las métricas de desempeño que tenemos en cada momento. Probablemente al inicio de un proyecto tendremos una intuición no del todo clara de cómo medir el desempeño de nuestros modelos y su impacto en el proyecto. Esta percepción es normal, pero es preciso establecer objetivos específicos para afinar estas métricas. De nuevo, aunque este factor también parezca trivial, pocos proyectos empiezan con una definición muy concreta de estas métricas y el conocimiento se va ganando a lo largo del mismo.

Disponibilidad y coste de infraestructuras de cómputo: En este factor también se incluyen las infraestructuras de almacenamiento, de cálculo y de comunicaciones (i.e. para transportar un dataset de unos cuantos gb de un lugar a otro), sean en la nube o sean locales.

Para concluir, es la gestión de la confluencia de estos aspectos lo que finalmente determinará el éxito de un proyecto de ml. Hoy en día, las tecnologías permiten desarrollar sistemas predictivos con resultados sorprendentes o impensables hace quizá pocos años. Los sistemas y métodos relacionados con la inteligencia artificial (y en específico los que tienen que ver con aprendizaje computacional) son sistemas fundamentalmente estadísticos que explotan los datos de maneras muy concretas. Estos sistemas no descubren patrones por sí solos, ni detectan cualquier opinión en un texto o cualquier objeto en una imagen. Hay que guiar su funcionamiento a través de un diseño cuidadoso de datasets y experimentos. La utilización práctica de estos sistemas dependerá de nuestra capacidad para definir qué queremos obtener de ellos con la suficiente concreción, y de disponer y coordinar los recursos necesarios, incluidos los datos (posiblemente etiquetados) y los profesionales de varias disciplinas trabajando bajo un lenguaje común y consensuado.

Referencias

1. Alaei, A., Becken, S., & Stantic, B. (2019). Sentiment analysis in tourism: capitalizing on big data. Journal of Travel Research, 58(2) , 175-191. Doi: https://doi.org/10.1177/0047287517747753

2. Arcila-Calderón, C., Ortega-Mohedano, F., Jiménez-Amores, J., & Trullenque, S. (2017). Análisis supervisado de sentimientos políticos en español: clasificación en tiempo real de tweets basada en aprendizaje automático. El profesional de la información, 26(5), 1699-2407. Doi: https://doi.org/10.3145/epi.2017.sep.18

3. Bachhety, S., et al. (2018). Crime Detection Using Text Recognition and Face Recognition. International Journal of Pure and Applied Mathematics, 119(15), 2797-2807. Recuperado de https://acadpubl.eu/hub/2018119-15/2/298.pdf

4. Chang, Y., Yi Lee, F. & Chen, C. (2018). A public opinion keyword vector for social sentiment analysis research. En Tenth International Conference on Advanced Computational Intelligence (ICACI). IEEE .

5. Diou, C., Lelekas, P . & Delopoulos, A. (2018). Image-Based Surrogates of Socio-Economic Status in Urban Neighborhoods Using Deep Multiple Instance Learning. Journal of Imaging 4(11), 125. Doi: 10.3390/jimaging4110125

6. Etter, M., et al. (2018). Measuring O rganizational Legitimacy in Social Media: Assessing Citizens’ Judgments with Sentiment Analysis. Business & Society, 57(1), 60-97. Doi: 10.1177/0007650316683926

7. Gómez-Torres, E., Jaimes, R., Hidalgo, O. & Luján-Mora, S. (2018). Influence of social networks on the analysis of sentiment applied to the political situation in Ecuador. Enfoque UTE, 9(1), 67- 78. Doi: 10.29019/enfoqueute.v9n1.235

8. Ma, T. (2018). Multi-Level Relationships between Satellite-Derived Nighttime Lighting Signals and Social Media–Derived Human Population Dynamics. Remote Sensing, 10(7), 1128. Doi: 10.3390/rs10071128

9. Martínez-Cámara, E., Díaz-Galiano, M. C., García-Cumbreras, A., García-Vega, M. & Villena-Román, J. (2017). Resumen de TASS 2017. TASS 2017: Workshop on Semantic Analysis at SEPLN Proceedings ( 13- 21). Recuperado de http://www.sepln.org/workshops/tass/

10. Moor J. (2006). The Dartmouth College Artificial Intelligence Conference: The Next Fifty Years. AI Magazine, 27(4), 87- 91. Doi: 10.1609/aimag.v27i4.1911

11. Olazaran, M. (1996). A Sociological Study of the Official History of the Perceptrons Controversy. Social Studies of Science, 26(3), 611- 659. Doi: 10.1177/030631296026003005

12. Pranav, A., Sukiennik, N. & Hui, P. (2018). Inflo: News Categorization and Keyphrase Extraction for Implementation in an Aggregation System. arXiv preprint arXiv:1812.03781

13. Poecze, F. , Ebster, C. & Strauss, C. (2018). Social media metrics and sentiment analysis to evaluate the effectiveness of social media posts. Procedia Computer Science, 130, 660-666. Doi: https://doi.org/10.1016/j. procs.2018.04.117

14. Rosenblatt, F. (1957). The Perceptron--a perceiving and recognizing automaton. Report. Cornell Aeronautical Laboratory, 85-460-1.

15. Russakovsky, O. et al. (2015). ImageNet Large Scale Visual Recognition Challenge. IJCV, 115(3), 211-252. Doi: https://doi.org/10.1007/s11263-015-0816-y

16. Stegmeier, J., et al. (2019). Multi-method Discourse Analysis of Twitter Communication: A Comparison of Two Global Political Issues. En Scholz R. (eds.) Quantifying Approaches to Discourse for Social Scientists (pp. 285-314). Postdisciplinary Studies in Discourse. Palgrave Macmillan, Cham.

17. Thelwall, M. (2018). Gender bias in sentiment analysis. Online Information Review, 42(1), 45-57. Doi: 0.1108/ OIR-05-2017-0139

Notas

1 Más información en: http://spandh.dcs.shef.ac.uk/chime_challenge/

2 Más información en: https://www.imageclef.org/

3 Más información en: https://grand-challenge.org/challenges/

4 Más información en: https://www.kaggle.com/competitions

5 Más información en: https://www.kaggle.com/c/two-sigma-financial-news

6 Más información en: https://www.kaggle.com/c/quora-insincere-questions-classification

7 Más información en: https://www.kaggle.com/c/costa-rican-household-poverty-prediction

8 Más información en: https://www.kaggle.com/c/donorschoose-application-screening

9 Más información en: https://www.kaggle.com/c/spooky-author-identification

10 Más información en: https://www.kaggle.com/c/instacart-market-basket-analysis

11 Más información en: https://www.kaggle.com/c/outbrain-click-prediction

12 Más información en: https://www.kaggle.com/c/state-farm-distracted-driver-detection

13 Más información en: http://www.sepln.org/.