Ciencia de los datos ampliada
14 de abril de 2019
David Donoho, profesor de estadística en la Universidad de Stanford, escribió un influyente artículo titulado "50 years of Data Science" (50 años de la ciencia de los datos) (2017). Ahí explora, desde el campo de la estadística, los orígenes de la ciencia de los datos. A la vez plantea una visión para dicha ciencia, que él llama "Greater Data Science" (ciencia de los datos ampliada). Su artículo es importante para todo investigador, en particular los que trabajan con datos cuantitativos, porque en este Donoho problematiza el rol que la estadística inferencial desempeña, a la vez que amplía el panorama hacia otras actividades relacionadas con los datos que son claves en la actividad científica.
Donoho llama "memes" a las asociaciones de la ciencia de los datos con fenómenos como "big data", nuevas habilidades para trabajar con datos y amplias fuentes de empleo para científicos de datos. La necesidad de manejar grandes cantidades de datos en ambientes distribuidos (big data), ante la imposibilidad de procesarlos en una sola computadora, no representa una distinción significativa entre estadística y ciencia de los datos. En relación con las habilidades, esta tendencia no es nueva; en las últimas décadas los científicos han venido desarrollando habilidades para resolver problemas en los que están interesados, lo que incluye el uso de las matemáticas y de poderosos entornos de procesamiento numérico. Y sobre los empleos, el entrenamiento en tecnologías, debido a la diversidad y rápido cambio de estas, no es fácilmente portable de una organización a otra; en cambio, las habilidades en análisis de datos y estadística si son portables. A esa percepción estereotipada de la ciencia de los datos, que es tan promovida por los medios de comunicación, el autor la califica como reducida (Lesser Data Science). Para él, el cambio que sí es real es la transición hacia una conectividad global; la población del planeta está cada vez más interconectada y esto genera vastas cantidades de datos acerca de sus actividades y preferencias.
En la reseña histórica, Donoho se remonta a un artículo de John Turkey de 1962 titulado "Field of Data Analysis" (el campo del análisis de los datos). Turkey veía a la estadística como parte de una entidad mayor, a la que él llamó "análisis de datos", la cual sería una nueva ciencia en lugar de un rama de las matemáticas. El campo del análisis de datos propuesto por Turkey tendría un contenido intelectual, estaría organizado en una forma comprensible y dependería de la experiencia como estándar de validez. Las fuerzas que guiarían dicho campo serían: (a) las teorías formales de la estadística; (b) los desarrollos acelerados en las computadoras y los dispositivos de visualización; (c) el desafío de conjuntos de datos cada vez mayores; y (d) el énfasis en la cuantificación en una amplia variedad de disciplinas.
Donoho también destaca el trabajo de Leo Breiman de 2001 titulado "Statistical Modeling: Two cultures" (modelado estadístico: dos culturas). Este autor señaló que hay dos objetivos al analizar datos: la inferencia y la predicción. Con el primero asocia una cultura de modelado generativo que busca desarrollar modelos estocásticos para ajustar los datos y luego hacer inferencias. En cambio, la cultura del modelado predictivo prioriza la anticipación de resultados. Para Breiman, aunque solo 2% de los estadísticos son parte de la cultura del modelado predictivo, esta ha tenido éxito considerable. Tal éxito está basado en lo que el lingüista Mark Liberman (2010) ha llamado "Common Taskforce Framework" (marco de tarea común). Las características de dicho marco incluyen un conjunto de datos públicamente disponible para construir modelos, un conjunto de competidores que tienen la tarea común de crear el mejor modelo predictivo y un juez que evalúa los trabajos con base en un conjunto de datos de prueba. En resumen, todos los competidores comparten la tarea común de encontrar una regla de predicción que reciba la mejor calificación.
La ciencia de los datos ampliada de Donoho se divide en seis grandes actividades: (a) recolección, preparación y exploración; (b) representación y transformación; (c) procesamiento; (d) modelado; (e) visualización y presentación; e (f) investigación sobre los datos. El autor sostiene que los científicos de datos deben hacer uso de ambos modelos, del generativo y del predictivo. En la investigación sobre los datos, Donoho destaca los estudios de meta-análisis, análisis cruzados y análisis de procesos sobre el uso de los datos en los trabajos científicos.
Para describir el impacto de este campo en la actividad científica, Donoho se refiere al movimiento de la ciencia abierta, en la cual no solo se comparten las publicaciones científicas, sino también el código y los datos de soporte. La reproducibilidad computacional de los artículos está siendo reconocida como un requerimiento de validez para una publicación científica. También prevé que en las publicaciones cada resultado numérico será citable y podrá ser recuperado automáticamente. Según el autor, en el futuro la metodología de los trabajos científicos será validada en forma empírica gracias a que los procesos, el código y los datos podrán ser integrados en un solo cuerpo de estudio. Donoho concluye que la ciencia de los datos es la ciencia del aprendizaje a partir de los datos, es decir el estudio de los métodos involucrados en el análisis y procesamiento de los datos y la propuesta de tecnologías para mejorar, con base en evidencia empírica, los métodos de trabajo en la actividad científica.
Referencias:
- Breiman, L. (2001). Statistical Modeling: the Two Cultures. Statistical Science, 16, 199–231.
- Donoho, D. (2017). 50 Years of Data Science. Journal of Computational and Graphical Statistics, 26(4), 745–766.
- Liberman, M. (2010). Fred Jelinek. Computational Linguistics, 36, 595–599.
- Tukey, J. W. (1962). The Future of Data Analysis. The Annals of Mathematical Statistics, 33, 1–67.