Del data-driven al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación científica usando técnicas de aprendizaje automático
Barra lateral del artículo
Contenido principal del artículo
Los cambios producidos en los últimos años en cuanto a modelos de comunicación social han llevado a todos los sectores a adaptarse a los nuevos medios para alcanzar a su público. La comunicación de la ciencia no es una excepción. La manera en que se distribuyen contenidos sobre ciencia está cambiando debido a la presencia creciente de tecnologías, y la red social Twitter se ha convertido en un importante aliado debido a su gran volumen de usuarios. En el presente trabajo, se utilizan técnicas de aprendizaje automático para desarrollar un clasificador —que funciona en tiempo real— de sentimiento relacionados con mensajes publicados en Twitter. Para ello, se descargaron 200 000 tweets destinados a construir un corpus de entrenamiento limpio y procesado de 10 000 textos etiquetados, la mitad positivos y la mitad negativos, sobre ciencia en español. El corpus permite entrenar el modelo de aprendizaje automático y construir un prototipo OpScience, capaz de determinar el sentimiento de mensajes publicados en Twitter en tiempo real. Los resultados relacionados con la exactitud del clasificador corresponden al 72 %. Estos resultados pueden ayudar a darle mayor valor a temas de la comunicación científica en un espacio de debate social y predecir intereses o tendencias futuras, como se pudo comprobar en una prueba en enero de 2019.
Descargas
Patricia Sánchez-Holgado, Universidad de Salamanca. España
Doctoranda en Formación en la Sociedad del Conocimiento. Facultad de Ciencias Sociales. Universidad de Salamanca, España. Licenciada en Publicidad y Relaciones Públicas, máster en Dirección y Gestión de Empresas y máster en Big Data.Manuel Martín-Merino Acera, Universidad Pontificia de Salamanca (UPSA) España
Catedrático de Inteligencia Artificial. Departamento de Informática. Universidad Pontificia de Salamanca, España. Licenciado en Ciencias Físicas y Doctor en Física aplicada.David Blanco Herrero, Universidad de Salamanca. España
Doctorando en Formación en la Sociedad del Conocimiento. Universidad de Salamanca, España. Graduado en ADE (Universidad de León), en Periodismo (Universidad a Distancia de Madrid) y Máster en Comunicación Audiovisual (Universidad de Salamanca).Alonso Berrocal, J. L., Gómez Díaz, R., Figuerola, C. G., Zazo Rodríguez, Á. F., & Cordón García, J. A. (2012).
Propuesta de estudio del campo semántico de los libros electrónicos en Twitter. Scire: Representación y
Organización Del Conocimiento, 18(2), 87-97. Recuperado de http://eprints.rclis.org/29310/
Arcila-Calderón, C., Barbosa-Caro, E., & Cabezuelo-Lorenzo, F. (2016). Técnicas Big Data: Análisis de textos
a gran escala para la investigación científica y periodística. El Profesional de La Información, 25(4), 623-631.
Doi: 10.3145/epi.2016.jul.12
Arcila-Calderón, C., Calderín-Cruz, M., & Sánchez-Holgado, P. (2019). Adopción de redes sociales por
revistas científicas de ciencias sociales. El Profesional de La Informacion, 28(1), 1699-2407. Doi: 10.3145/
epi.2019.ene.05
Baker, M. (2015). Social media: A network boost. Nature, 518(7538), 263-265. Doi: 10.1038/nj7538-263a
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly. Recuperado de
Bollen, J., Mao, H., & Pepe, A. (2011). Modeling Public Mood and Emotion: Twitter Sentiment and Socio-Economic Phenomena. En: Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media.
Association for the Advancement of Artificial Intelligence (www.aaai.org). Recuperado de https://www.
aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/viewPaper/2826
Bonetta, L. (2009). Should You Be Tweeting? Cell, 139(3), 452-453. Doi: 10.1016/J.CELL.2009.10.017
Brossard, D. & Scheufele, D. A. (2013). Science, New Media, and the Public. Science, 339(6115), 40-41. Doi:
1126/science.1232329
Campos-Freire, F. & Rúas-Araújo, J. (2016). Uso de las redes sociales digitales profesionales y científicas:
el caso de las 3 universidades gallegas. El Profesional de La Información, 25(3), 431-440. Doi: 10.3145/
epi.2016.may.13
Carlos Díaz-Galiano, M., et al. (2019). TASS 2018: The Strength of Deep Learning in Language Understanding
Tasks. Procesamiento del Lenguaje Natural, 62, 77-84. Doi: 10.26342/2019-62-9
Cha, M., Benevenuto, F., Haddadi, H., & Gummadi, K. (2012). The World of Connections and Information
Flow in Twitter. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 42(4),
-998. Doi: 10.1109/TSMCA.2012.2183359
Chen, S. C., Yen, D. C., & Hwang, M. I. (2012). Factors influencing the continuance intention to the usage of
Web 2.0: An empirical study. Computers in Human Behavior, 28(3), 933-941. Doi: 10.1016/J.CHB.2011.12.014
Côté, I. M. & Darling, E. S. (2018). Scientists on Twitter: Preaching to the choir or singing from the rooftops?
FACETS, 3(1), 682-694. Doi: 10.1139/facets-2018-0002
Cruz Mata, F., Troyano Jiménez, J. A., de Salamanca Ros, F., & Ortega Rodríguez, F. J. (2008). Clasificación
de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español. Procesamiento Del Lenguaje Natural, 41, 73-80. Recuperado de https://core.ac.uk/download/pdf/16361408.pdf
Darling, E., Shiffman, D., Cȏté, I., & Drew, J. (2013). The role of Twitter in the life cycle of a scientific publication. Ideas in Ecology and Evolution, 6, 32-43. Doi: 10.4033/iee.2013.6.6.f
Díaz-Galiano, M. C., Martínez-Cámara, E., Ángel García-Cumbreras, M., García-Vega, M., & Villena-Román,
J. (2018). The democratization of deep learning in TASS 2017. Procesamiento de Lenguaje Natural, 60,
-44. Doi: 10.26342/2018-60-4
Dubiau, L. & Ale, J. M. (2013). Análisis de Sentimientos sobre un Corpus en Español: Experimentación con
un Caso de Estudio. En: 14th Argentine Symposium on Artificial Intelligence, ASAI 2013 (pp. 36-47). Recuperado de http://42jaiio.sadio.org.ar/proceedings/simposios/Trabajos/ASAI/04.pdf
Fowks, J. (2017). Mecanismos de la posverdad. Lima: Fondo de Cultura Económica.
García Cumbreras, M. Á., Villena Román, J., Martínez-Cámara, E., Díaz Galiano, M. C., Martín-Valdivia, M. T., &
Ureña-López, L. A. (2016). Resumen de TASS 2016. En: TASS 2016: Workshop on Sentiment Analysis at SEPLN
Proceedings (pp. 13-21). Recuperado de http://ceur-ws.org/Vol-1702/tass2016_proceedings_v24.pdf
Garcia Esparza, S., O’Mahony, M. P., & Smyth, B. (2012). Mining the real-time web: A novel approach to
product recommendation. Knowledge-Based Systems, 29, 3-11. Doi: 10.1016/J.KNOSYS.2011.07.007
García Esparza, S., O’mahony, M. P., & Smyth, B. (2012). Mining the real-time web: A novel approach to
product recommendation. Knowledge-Based Systems, 29, 3-11. Doi: 10.1016/j.knosys.2011.07.007
Go, A., Bhayani, R., & Huang, L. (2009). Twitter Sentiment Classification using Distant Supervision. Recuperado
de http://www-cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
Henriquez Miranda, C., & Guzman, J. (2017). A review of sentiment analysis in spanish. Tecciencia, 12(22),
-48. Doi: 10.18180/tecciencia.2017.22.5
Hurtado, L.-F., Pla, F., & Buscaldi, D. (2015). ELiRF-UPV en TASS 2015: Análisis de Sentimientos en Twitter.
En: Workshop on Sentiment Analysis at SEPLN co-located with 31st SEPLN Conference (SEPLN 2015) (pp. 75-79).
Alicante. Recuperado de http://ceur-ws.org/Vol-1397/elirf_upv.pdf
Jarreau, P. B. (2015). All the Science That Is Fit to Blog: An Analysis of Science Blogging Practices. Lousiana
State University. Recuperado de https://digitalcommons.lsu.edu/gradschool_dissertations/1051
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why We Twitter: Understanding Microblogging Usage and Communities. En: 9th WEBKDD and 1st SNA-KDD Workshop. San Jose, California: ACM. Doi: 10.1145/1348549.1348556
Kahle, K., Sharon, A. J., & Baram-Tsabari, A. (2016). Footprints of Fascination: Digital Traces of Public Engagement with Particle Physics on CERN’s Social Media Platforms. PLOS ONE, 11(5), e0156409. Doi: 10.1371/
journal.pone.0156409
Kouloumpis, E., Wilson, T., & Moore, J. (2011). Twitter sentiment analysis: The good the bad and
the omg! Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media
(ICWSM 11), 538-541. Recuperado de http://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/
download/2857/3251?iframe=true&width=90%25&height=90%25
Krippendorff, K. (2004). Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research, 30(3), 411-433. Doi: 10.1111/j.1468-2958.2004.tb00738.x
Krippendorff, K. (2011). Computing Krippendorff’ s Alpha-Reliability. ScholarlyCommons. University of
Pennsylvania. Recuperado de http://repository.upenn.edu/asc_papers/43 (no sirve el link)
Krippendorff, K. & Hayes, A. F. (2007). Answering the Call for a Standard Reliability Measure for Coding
Data. Communication Methods and Measures, 1(1), 77-89. Doi: 10.1080/19312450709336664
Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a social network or a news media? En: Proceedings
of the 19th international conference on World wide web - WWW ’10 (p. 591). Nueva York: ACM Press. Doi:
1145/1772690.1772751
Lee, K., Palsetia, D., Narayanan, R., Patwary, M. M. A., Agrawal, A., & Choudhary, A. (2011). Twitter Trending
Topic Classification. En: IEEE 2011 IEEE 11th International Conference on Data Mining Workshops (pp. 251-258).
Doi: 10.1109/ICDMW.2011.171
Li, G. & Liu, F. (2012). Application of a clustering method on sentiment analysis. Journal of Information
Science, 38(2), 127-139. Doi: 10.1177/0165551511432670
Liang, X., et al. (2014). Building Buzz: (Scientists) Communicating Science In New Media Environments.
Journalism and Mass Communication Quarterly, 91(4), 772-791. Doi: 10.1177/1077699014550092
Mandavilli, A. (2011). Trial by Twitter. Nature, 469, 286–287. Recuperado de https://www.nature.com/
news/2011/110119/pdf/469286a.pdf
Martínez-Cámara, E., Díaz-Galiano, M. C., García-Cumbreras, A., García-Vega, M., & Villena-Román, J. (2017).
Resumen de TASS 2017. En: TASS 2017: Workshop on Semantic Analysis at SEPLN Proceeding (pp. 13-21).
Recuperado de http://www.sepln.org/workshops/tass/.
Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A., & Montejo-Ráez, A. (2014). Sentiment
analysis in Twitter. Natural Language Engineering, 20(1), 1-28. Doi: 10.1017/S1351324912000332
Montenegro, V. & Escudero, H. (2013). Las redes sociales y la difusión de la tecnología y la innovación.
En: III Congreso Internacional de Comunicación Pública de la Ciencia. Santa Fe , Argentina. Recuperado de
http://studylib.es/doc/7718559/untitled---copuci-2017
Narr, S., De Luca, E. W., & Albayrak, S. (2011). Extracting semantic annotations from twitter. En: Proceedings
of the fourth workshop on Exploiting semantic annotations in information retrieval - ESAIR ’11 (p. 15). Nueva
York: ACM Press. Doi: 10.1145/2064713.2064723
O’Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From Tweets to Polls: Linking
Text Sentiment to Public Opinion Time Series. En: Association for the Advancement of Artificial Intelligence.
Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media (pp. 122-129). Recuperado de https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1536/1842
Pak, A. & Paroubek, P. (2010). Twitter as a Corpus for Sentiment Analysis and Opinion Mining. En: Proceedings
of the Seventh conference on International Language Resources and Evaluation (LREC’10) (pp. 1320-1326).
Recuperado de http://www.lrec-conf.org/proceedings/lrec2010/pdf/385_Paper.pdf
Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in {P}ython. Journal of Machine Learning Research,
, 2825-2830. Recuperado de http://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf
Pérez-Rodríguez, A. V., González-Pedraz, C., & Alonso Berrocal, J. L. (2018). Twitter como herramienta
de comunicación científica en España. Principales agentes y redes de comunicación. Communication
papers: media literacy and gender studies, 7(13), 95-111. Recuperado de https://dialnet.unirioja.es/servlet/
articulo?codigo=6442315
Peters, H. P., Dunwoody, S., Allgaier, J., Lo, Y.-Y., & Brossard, D. (2014). Public communication of science 2.0:
Is the communication of science via the "new media" online a genuine transformation or old
wine in new bottles? EMBO Reports, 15(7), 749-753. Doi: 10.15252/embr.201438979
Pont-Sorribes, C., Cortiñas-Rovira, S., & Di Bonito, I. (2013). Challenges and opportunities for science journalists in adopting new technologies: the case of Spain. SISSA-International School for Advanced Studies,
Journal of Science Communication, 12(3). Doi: 10.22323/2.12030205
Quiñónez Gómez, H. & Sánchez Colmenares, M. (2016). Uso de Twitter en el periodismo científico. Los
casos de los diarios El Nacional y El Universal en Venezuela. Question, 1(52), 212-231. Recuperado de
http://perio.unlp.edu.ar/ojs/index.php/question/article/view/3490
Ribas, C. (2012). La divulgación y la comunicación de la ciencia, en la encrucijada. Sociedad Española de
Bioquímica y Biología Molecular (SEBBM), 173, 10-12. Recuperado de https://www.academia.edu/4630023/
La_comunicación_de_la_ciencia_en_la_encrucijada
Rosá, A., Chiruzzo, L., Etcheverry, M., & Castro, S. (2017). RETUYT en TASS 2017: Análisis de sentimiento de
Tweets en Español utilizando svm y cnn. En: TASS 2017: Workshop on Semantic Analysis at SEPLN (pp. 77-83).
Recuperado de http://arxiv.org/abs/1710.06393
Saif, H., He, Y., & Alani, H. (2012). Semantic Sentiment Analysis of Twitter. En: Cudré-Mauroux P. et al. (eds).
The Semantic Web – ISWC 2012. ISWC 2012. Lecture Notes in Computer Science. International Semantic
Web Conference (ISWC 2012), 7649. 508-524. Doi: 10.1007/978-3-642-35176-1_32
Segarra-Saavedra, J., Tur-Viñes, V., & Hidalgo-Marí, T. (2017). Uso de Twitter como herramienta de difusión
en las revistas científicas españolas de Comunicación. En: 7a Conferencia internacional sobre revistas de
ciencias sociales y humanidades, Revista Mediterrána de Comunicación. Recuperado de http://thinkepi.
net/notas/crecs_2017/J_16_30_Segarra.pdf
Sidorov, G. et al. (2013). Empirical Study of Machine Learning Based Approach for Opinion Mining in Tweets.
En: Batyrshin I., González Mendoza M. (eds.) Advances in Artificial Intelligence. MICAI 2012. Lecture Notes in
Computer Science, 7629. Springer, Berlin, Heidelberg . Doi: 10.1007/978-3-642-37807-2_1
Van Zoonen, W. & Van der Meer, Toni, G. L. A. (2016). Social media research: The application of supervised
machine learning in organizational communication research. Computers in Human Behavior, 63, 132-141.
Doi: 10.1016/J.CHB.2016.05.028
Whitman Cobb, W. N. (2015). Trending now: Using big data to examine public opinion of space policy.
Space Policy, 32, 11-16. Doi: 10.1016/J.SPACEPOL.2015.02.008
Yerva, S. R., Miklós, Z., & Aberer, K. (2012). Quality-aware similarity assessment for entity matching in Web
data. Information Systems, 37(4), 336-351. Doi: 10.1016/J.IS.2011.09.007
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.