Breve introducción al Data Science

Breve introducción al Data Science

Por: Arturo Benjamin Chian Nuñez, Analista de BEST

La Ciencia de Datos está de moda, eso es un hecho a nivel mundial, ¿pero cuántos realmente conocen qué significa? Hablar de Data Science en estas épocas es como hablar de sexo en la adolescencia, muchos dirán que ya saben, otros dirán que ya lo habrán hecho, pero realmente pocos saben de lo que están hablando. Lo mismo sucede con otros términos relacionado a la Ciencia de Datos como machine learning o big data.

Comencemos entonces por definir la Ciencia de Datos. Es la disciplina que convierte la data en bruto (raw data) en conocimiento, entendimiento y en herramientas para comunicar. Para lograr ello, se necesita 3  habilidades de acuerdo al diagrama de Venn elaborado por Drew Conway: Conocimiento de Experto, Estadística y Métodos de hacking; este último lo podemos definir como la capacidad de resolver problemas con la data en bruto para convertirlo en data en limpio (tidy data). Dado la gran cantidad de  datos que existe en internet y en  datos no estructurados,  la habilidad del hacking se vuelve una habilidad   particularmente importante en estos días.

Respecto a sus inicios, existen diversas discusiones respecto cuando nace la Ciencia de Datos. Particularmente me inclino a la siguiente perspectiva histórica:

En 1854, durante la Guerra de Crimea, Florence Nightingale, enfermera y estadística británica, recolectó data de miles de soldados en los hospitales con la finalidad de realizar un reporte para entender y comunicar los datos. “We don’t want impressions, we want facts” (No queremos impresiones, queremos hechos). Si bien en la actualidad es muy común ver gráficos en los reportes, en esa época, comunicar grandes cantidades de datos en forma de gráficos se volvió algo novedoso. Y no sólo se trató de un avance en la Ciencia de Datos, sino que cambió e impulsó al gobierno británico a comunicar y utilizar los datos que se recolectaban en gráficos para poder explotar y entender la data. Florence Nightingale se convirtió así en la primera mujer miembro de Royal Statistical Society.

Sin embargo, Joseph Priestrley es el fundador de los métodos gráficos en estadística, él inventó el gráfico lineal, el gráfico de tiempo, el gráfico en barras y el gráfico de torta. Por otro lado,  Francis Galton, Karl Pearson y Ronald Fisher, trajeron al mundo lo que hoy conocemos como estadística moderna.

Y es así como la ciencia de datos da sus primeros pasos, la aplicación de conocimiento de experto, sumado con la estadística y la capacidad de resolver problemas con la data (hacking).

¿Y qué retos enfrenta la Ciencia de Datos al día de hoy? Los retos de esta disciplina son diversos; sin embargo, a mi opinión, se centraría principalmente en el reto de comunicar de forma ética los avances de las ciencias y/o disciplinas de forma amigable a los usuarios en todo el mundo. Un mundo con mejor utilización de datos de forma ética, podría transformar al mundo a un mundo mejor… Para finalizar, como diría el tío Ben y Roosevelt: “Un gran poder, conlleva a una gran responsabilidad”. (Nota aclaratoria: Roosevelt fue el primero en decir esa frase; sin embargo, se popularizó con Spiderman).

Fuente:

Leave a Reply

Your email address will not be published.