Main Article Content


The changes produced in recent years in social communication models have meant that all sectors have had to adapt to new media to reach their audiences. The communication of science is no exception. The distribution of contents about science is adapting to an increasing presence of technologies, and the social network Twitter has become a necessary ally due to its large volume of users. In this paper, machine learning techniques are used to develop a sentiment classifier of messages posted in real-time on Twitter. To this end, 200 000 tweets were downloaded to build a training corpus of 10 000 clean and processed labeled texts, half positive and half negative, about science in Spanish. This corpus allows the training of the machine learning model and builds a prototype, OpScience, able to determine the sentiment of messages posted on Twitter in real-time. The accuracy results obtained by the classifier is around 72 %. This can help to assess issues of scientific communication in a space of social debate and predict future interests or trends, as observed during the test in January 2019.

Patricia Sánchez-Holgado, Universidad de Salamanca. España

Doctoranda en Formación en la Sociedad del Conocimiento. Facultad de Ciencias Sociales. Universidad de Salamanca, España. Licenciada en Publicidad y Relaciones Públicas, máster en Dirección y Gestión de Empresas y máster en Big Data.

Manuel Martín-Merino Acera, Universidad Pontificia de Salamanca (UPSA) España

Catedrático de Inteligencia Artificial. Departamento de Informática. Universidad Pontificia de Salamanca, España. Licenciado en Ciencias Físicas y Doctor en Física aplicada.

David Blanco Herrero, Universidad de Salamanca. España

Doctorando en Formación en la Sociedad del Conocimiento. Universidad de Salamanca, España. Graduado en ADE (Universidad de León), en Periodismo (Universidad a Distancia de Madrid) y Máster en Comunicación Audiovisual (Universidad de Salamanca). 
Sánchez-Holgado, P., Martín-Merino Acera, M., & Blanco Herrero, D. (2020). From Data-Driven to Data-Feeling: Sentiment Analysis in Real-Time of Messages in Spanish about Scientific Communication Using Machine Learning Techniques. Anuario Electrónico De Estudios En Comunicación Social "Disertaciones", 13(1), 35–58.

Alonso Berrocal, J. L., Gómez Díaz, R., Figuerola, C. G., Zazo Rodríguez, Á. F., & Cordón García, J. A. (2012).

Propuesta de estudio del campo semántico de los libros electrónicos en Twitter. Scire: Representación y

Organización Del Conocimiento, 18(2), 87-97. Recuperado de

Arcila-Calderón, C., Barbosa-Caro, E., & Cabezuelo-Lorenzo, F. (2016). Técnicas Big Data: Análisis de textos

a gran escala para la investigación científica y periodística. El Profesional de La Información, 25(4), 623-631.

Doi: 10.3145/epi.2016.jul.12

Arcila-Calderón, C., Calderín-Cruz, M., & Sánchez-Holgado, P. (2019). Adopción de redes sociales por

revistas científicas de ciencias sociales. El Profesional de La Informacion, 28(1), 1699-2407. Doi: 10.3145/


Baker, M. (2015). Social media: A network boost. Nature, 518(7538), 263-265. Doi: 10.1038/nj7538-263a

Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly. Recuperado de

Bollen, J., Mao, H., & Pepe, A. (2011). Modeling Public Mood and Emotion: Twitter Sentiment and Socio-Economic Phenomena. En: Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media.

Association for the Advancement of Artificial Intelligence ( Recuperado de https://www.

Bonetta, L. (2009). Should You Be Tweeting? Cell, 139(3), 452-453. Doi: 10.1016/J.CELL.2009.10.017

Brossard, D. & Scheufele, D. A. (2013). Science, New Media, and the Public. Science, 339(6115), 40-41. Doi:


Campos-Freire, F. & Rúas-Araújo, J. (2016). Uso de las redes sociales digitales profesionales y científicas:

el caso de las 3 universidades gallegas. El Profesional de La Información, 25(3), 431-440. Doi: 10.3145/


Carlos Díaz-Galiano, M., et al. (2019). TASS 2018: The Strength of Deep Learning in Language Understanding

Tasks. Procesamiento del Lenguaje Natural, 62, 77-84. Doi: 10.26342/2019-62-9

Cha, M., Benevenuto, F., Haddadi, H., & Gummadi, K. (2012). The World of Connections and Information

Flow in Twitter. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 42(4),

-998. Doi: 10.1109/TSMCA.2012.2183359

Chen, S. C., Yen, D. C., & Hwang, M. I. (2012). Factors influencing the continuance intention to the usage of

Web 2.0: An empirical study. Computers in Human Behavior, 28(3), 933-941. Doi: 10.1016/J.CHB.2011.12.014

Côté, I. M. & Darling, E. S. (2018). Scientists on Twitter: Preaching to the choir or singing from the rooftops?

FACETS, 3(1), 682-694. Doi: 10.1139/facets-2018-0002

Cruz Mata, F., Troyano Jiménez, J. A., de Salamanca Ros, F., & Ortega Rodríguez, F. J. (2008). Clasificación

de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español. Procesamiento Del Lenguaje Natural, 41, 73-80. Recuperado de

Darling, E., Shiffman, D., Cȏté, I., & Drew, J. (2013). The role of Twitter in the life cycle of a scientific publication. Ideas in Ecology and Evolution, 6, 32-43. Doi: 10.4033/iee.2013.6.6.f

Díaz-Galiano, M. C., Martínez-Cámara, E., Ángel García-Cumbreras, M., García-Vega, M., & Villena-Román,

J. (2018). The democratization of deep learning in TASS 2017. Procesamiento de Lenguaje Natural, 60,

-44. Doi: 10.26342/2018-60-4

Dubiau, L. & Ale, J. M. (2013). Análisis de Sentimientos sobre un Corpus en Español: Experimentación con

un Caso de Estudio. En: 14th Argentine Symposium on Artificial Intelligence, ASAI 2013 (pp. 36-47). Recuperado de

Fowks, J. (2017). Mecanismos de la posverdad. Lima: Fondo de Cultura Económica.

García Cumbreras, M. Á., Villena Román, J., Martínez-Cámara, E., Díaz Galiano, M. C., Martín-Valdivia, M. T., &

Ureña-López, L. A. (2016). Resumen de TASS 2016. En: TASS 2016: Workshop on Sentiment Analysis at SEPLN

Proceedings (pp. 13-21). Recuperado de

Garcia Esparza, S., O’Mahony, M. P., & Smyth, B. (2012). Mining the real-time web: A novel approach to

product recommendation. Knowledge-Based Systems, 29, 3-11. Doi: 10.1016/J.KNOSYS.2011.07.007

García Esparza, S., O’mahony, M. P., & Smyth, B. (2012). Mining the real-time web: A novel approach to

product recommendation. Knowledge-Based Systems, 29, 3-11. Doi: 10.1016/j.knosys.2011.07.007

Go, A., Bhayani, R., & Huang, L. (2009). Twitter Sentiment Classification using Distant Supervision. Recuperado


Henriquez Miranda, C., & Guzman, J. (2017). A review of sentiment analysis in spanish. Tecciencia, 12(22),

-48. Doi: 10.18180/tecciencia.2017.22.5

Hurtado, L.-F., Pla, F., & Buscaldi, D. (2015). ELiRF-UPV en TASS 2015: Análisis de Sentimientos en Twitter.

En: Workshop on Sentiment Analysis at SEPLN co-located with 31st SEPLN Conference (SEPLN 2015) (pp. 75-79).

Alicante. Recuperado de

Jarreau, P. B. (2015). All the Science That Is Fit to Blog: An Analysis of Science Blogging Practices. Lousiana

State University. Recuperado de

Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why We Twitter: Understanding Microblogging Usage and Communities. En: 9th WEBKDD and 1st SNA-KDD Workshop. San Jose, California: ACM. Doi: 10.1145/1348549.1348556

Kahle, K., Sharon, A. J., & Baram-Tsabari, A. (2016). Footprints of Fascination: Digital Traces of Public Engagement with Particle Physics on CERN’s Social Media Platforms. PLOS ONE, 11(5), e0156409. Doi: 10.1371/


Kouloumpis, E., Wilson, T., & Moore, J. (2011). Twitter sentiment analysis: The good the bad and

the omg! Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media

(ICWSM 11), 538-541. Recuperado de


Krippendorff, K. (2004). Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research, 30(3), 411-433. Doi: 10.1111/j.1468-2958.2004.tb00738.x

Krippendorff, K. (2011). Computing Krippendorff’ s Alpha-Reliability. ScholarlyCommons. University of

Pennsylvania. Recuperado de (no sirve el link)

Krippendorff, K. & Hayes, A. F. (2007). Answering the Call for a Standard Reliability Measure for Coding

Data. Communication Methods and Measures, 1(1), 77-89. Doi: 10.1080/19312450709336664

Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a social network or a news media? En: Proceedings

of the 19th international conference on World wide web - WWW ’10 (p. 591). Nueva York: ACM Press. Doi:


Lee, K., Palsetia, D., Narayanan, R., Patwary, M. M. A., Agrawal, A., & Choudhary, A. (2011). Twitter Trending

Topic Classification. En: IEEE 2011 IEEE 11th International Conference on Data Mining Workshops (pp. 251-258).

Doi: 10.1109/ICDMW.2011.171

Li, G. & Liu, F. (2012). Application of a clustering method on sentiment analysis. Journal of Information

Science, 38(2), 127-139. Doi: 10.1177/0165551511432670

Liang, X., et al. (2014). Building Buzz: (Scientists) Communicating Science In New Media Environments.

Journalism and Mass Communication Quarterly, 91(4), 772-791. Doi: 10.1177/1077699014550092

Mandavilli, A. (2011). Trial by Twitter. Nature, 469, 286–287. Recuperado de


Martínez-Cámara, E., Díaz-Galiano, M. C., García-Cumbreras, A., García-Vega, M., & Villena-Román, J. (2017).

Resumen de TASS 2017. En: TASS 2017: Workshop on Semantic Analysis at SEPLN Proceeding (pp. 13-21).

Recuperado de

Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A., & Montejo-Ráez, A. (2014). Sentiment

analysis in Twitter. Natural Language Engineering, 20(1), 1-28. Doi: 10.1017/S1351324912000332

Montenegro, V. & Escudero, H. (2013). Las redes sociales y la difusión de la tecnología y la innovación.

En: III Congreso Internacional de Comunicación Pública de la Ciencia. Santa Fe , Argentina. Recuperado de

Narr, S., De Luca, E. W., & Albayrak, S. (2011). Extracting semantic annotations from twitter. En: Proceedings

of the fourth workshop on Exploiting semantic annotations in information retrieval - ESAIR ’11 (p. 15). Nueva

York: ACM Press. Doi: 10.1145/2064713.2064723

O’Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From Tweets to Polls: Linking

Text Sentiment to Public Opinion Time Series. En: Association for the Advancement of Artificial Intelligence.

Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media (pp. 122-129). Recuperado de

Pak, A. & Paroubek, P. (2010). Twitter as a Corpus for Sentiment Analysis and Opinion Mining. En: Proceedings

of the Seventh conference on International Language Resources and Evaluation (LREC’10) (pp. 1320-1326).

Recuperado de

Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in {P}ython. Journal of Machine Learning Research,

, 2825-2830. Recuperado de

Pérez-Rodríguez, A. V., González-Pedraz, C., & Alonso Berrocal, J. L. (2018). Twitter como herramienta

de comunicación científica en España. Principales agentes y redes de comunicación. Communication

papers: media literacy and gender studies, 7(13), 95-111. Recuperado de


Peters, H. P., Dunwoody, S., Allgaier, J., Lo, Y.-Y., & Brossard, D. (2014). Public communication of science 2.0:

Is the communication of science via the "new media" online a genuine transformation or old

wine in new bottles? EMBO Reports, 15(7), 749-753. Doi: 10.15252/embr.201438979

Pont-Sorribes, C., Cortiñas-Rovira, S., & Di Bonito, I. (2013). Challenges and opportunities for science journalists in adopting new technologies: the case of Spain. SISSA-International School for Advanced Studies,

Journal of Science Communication, 12(3). Doi: 10.22323/2.12030205

Quiñónez Gómez, H. & Sánchez Colmenares, M. (2016). Uso de Twitter en el periodismo científico. Los

casos de los diarios El Nacional y El Universal en Venezuela. Question, 1(52), 212-231. Recuperado de

Ribas, C. (2012). La divulgación y la comunicación de la ciencia, en la encrucijada. Sociedad Española de

Bioquímica y Biología Molecular (SEBBM), 173, 10-12. Recuperado de


Rosá, A., Chiruzzo, L., Etcheverry, M., & Castro, S. (2017). RETUYT en TASS 2017: Análisis de sentimiento de

Tweets en Español utilizando svm y cnn. En: TASS 2017: Workshop on Semantic Analysis at SEPLN (pp. 77-83).

Recuperado de

Saif, H., He, Y., & Alani, H. (2012). Semantic Sentiment Analysis of Twitter. En: Cudré-Mauroux P. et al. (eds).

The Semantic Web – ISWC 2012. ISWC 2012. Lecture Notes in Computer Science. International Semantic

Web Conference (ISWC 2012), 7649. 508-524. Doi: 10.1007/978-3-642-35176-1_32

Segarra-Saavedra, J., Tur-Viñes, V., & Hidalgo-Marí, T. (2017). Uso de Twitter como herramienta de difusión

en las revistas científicas españolas de Comunicación. En: 7a Conferencia internacional sobre revistas de

ciencias sociales y humanidades, Revista Mediterrána de Comunicación. Recuperado de http://thinkepi.


Sidorov, G. et al. (2013). Empirical Study of Machine Learning Based Approach for Opinion Mining in Tweets.

En: Batyrshin I., González Mendoza M. (eds.) Advances in Artificial Intelligence. MICAI 2012. Lecture Notes in

Computer Science, 7629. Springer, Berlin, Heidelberg . Doi: 10.1007/978-3-642-37807-2_1

Van Zoonen, W. & Van der Meer, Toni, G. L. A. (2016). Social media research: The application of supervised

machine learning in organizational communication research. Computers in Human Behavior, 63, 132-141.

Doi: 10.1016/J.CHB.2016.05.028

Whitman Cobb, W. N. (2015). Trending now: Using big data to examine public opinion of space policy.

Space Policy, 32, 11-16. Doi: 10.1016/J.SPACEPOL.2015.02.008

Yerva, S. R., Miklós, Z., & Aberer, K. (2012). Quality-aware similarity assessment for entity matching in Web

data. Information Systems, 37(4), 336-351. Doi: 10.1016/J.IS.2011.09.007


Download data is not yet available.

Similar Articles

<< < 1 2 3 4 5 6 7 8 9 10 > >> 

You may also start an advanced similarity search for this article.