Entre empirismo y ciencia: El uso responsable del poder de los datos

Entre empirismo y ciencia: El uso responsable del poder de los datos

Por Brian Nick Daza Vigo, Analista de BEST

 

El presente artículo busca discutir la importancia y relevancia de los datos en la construcción del conocimiento, el gran avance respecto a su disponibilidad dentro de la investigación científica, el surgimiento de la ciencia de datos y consideraciones para su uso responsable.

La disponibilidad de evidencia ha sido un limitante para la evolución del conocimiento humano a través de toda su historia. El ser humano siempre ha querido ver para creer, y el conocimiento generado o pensado sin evidencia lo ha hecho a un ritmo poco acelerado y muy susceptible a ser abandonado o atacado.

Un ejemplo clásico es el conocimiento acerca de la forma de la Tierra. Sin más fuente de información que su percepción sobre el horizonte, la humanidad creyó erróneamente por milenios que el planeta era plano (de hecho aún existe cierto escepticismo[1]). El acceso de occidente a nuevas tierras gracias a los avances en la navegación permitió que finalmente se reivindique los descubrimientos que de forma pionera realizó Galileo mediante la astronomía.

Tal y como los galeones, las carabelas y las brújulas revolucionaron la cartografía en el siglo XVI; en la actualidad, los avances en la estadística y las tecnologías de información prometen hacer lo mismo con campos tan diversos como la economía, el marketing, las ciencias políticas y las ciencias sociales en general.

La creciente posibilidad y necesidad de realizar un análisis exhaustivo de los datos ha producido el surgimiento de una disciplina conocida como ciencia de datos (data science). Si bien la definición de ciencia de datos aun no es precisa, los data scientists son altamente demandados (Tel Aviv, 2015), y agrupan conocimientos de diversas disciplinas: Programación, álgebra, estadística, business analytics, finanzas, entre otros. Lo multidisciplinaria que es la ciencia de datos resulta ser tan importante de manera que se concibe a esta rama del conocimiento como un mash-up de otras áreas, esto puede verse en Teate (2015), Tel Aviv (2015) Conway (2013) o Chian (2017).

¿Pero es la ciencia de datos actual realmente una ciencia? Gran cantidad de explicaciones acerca de qué es la ciencia de datos parte de qué es lo que los data scientist hacen y los conocimientos que agrupan, como se puede ver en Tel Aviv (2015), Berkeley[2], Data Jobs[3] o Teate (2015), pero no se puede definir una disciplina científica en función a lo que sus practicantes hacen, por ejemplo, un economista puede tomar decisiones o realizar acciones en función a motivos administrativos o políticos, pero ello no define ni involucra a la ciencia económica como tal. Además, esta manera de conceptualizar una ciencia es inconsistente con los principios de la teoría del conocimiento: No todo conocimiento es científico y el conocimiento científico requiere procedimientos lógicos que permiten que se pueda explicar la realidad (Figueroa, 2016).

En línea con la epistemología popperiana, lo que diferencia al conocimiento científico de otro tipo de conocimiento, es el método. Para hacer ciencia, se necesita abstraer la realidad mediante teoría, mediante proposiciones causales con consistencia lógica interna y con posibilidad de ser contradichos por los datos. No puede haber ciencia factual sin teoría, ni tampoco sin datos, ambos constituyen requerimientos básicos del quehacer científico.

Los datos no pueden hablar por si solos. Se ha debatido ampliamente acerca de la imposibilidad de la inducción en la creación del conocimiento científico, es decir, no se puede concluir lo que es cierto para todos a partir de observaciones específicas, aunque siempre hayamos visto cisnes blancos, ello no implica que no existan cisnes negros. Pero ese no es el único problema, tener cada vez más y más información, como ahora, no es suficiente para entender el mundo, en el extremo, tener un mapa a escala 1:1 es tan inútil como no tener ninguno en absoluto, tal y como se ilustra en Borges (1946). Disponer de más datos ofrece la posibilidad y la necesidad de realizar las explicaciones teóricas necesarias para identificar qué relaciones y variables son fundamentales. En ese sentido, la ciencia de datos requiere ser empleada mediante el entendimiento teórico de las variables a las que analiza, pues solamente de esta manera se puede entender científicamente al mundo. Este componente debe ser parte de la definición, del quehacer y de la metodología de la ciencia de datos.

La utilidad del análisis riguroso de los datos dentro de las ciencias sociales y el desarrollo de políticas públicas son innegables. Los avances computacionales, de metodología y de recopilación de información le brindan a la investigación social un poder sin precedentes: la evidencia empírica es cada vez menos un limitante. Pero sin cuidado, “la ciencia de datos ofrece el potencial de realizar malas decisiones de forma más rápida, eficiente y con mayor impacto del que podíamos en el pasado” (adaptado de Etlinger, 2014). La responsabilidad de descubrir el proceso que genera los datos es ineludible. La investigación teórica y la investigación empírica no son sustitutas entre sí, sino complemento la una de la otra. Un análisis científico de los datos necesita de una teoría en la cual se explique las relaciones de causalidad, es decir, que responda a la pregunta fundamental del conocimiento: ¿por qué?

 

Referencias:

 

[1] QuatumFracture: Puedo convencerte de que la Tierra es plana: https://www.youtube.com/watch?v=YxELlBMP6W4

[2] Recuperado de: https://datascience.berkeley.edu/about/what-is-data-science/. Visualizado con fecha 3 de enero de 2018.

[3] Recuperado de: https://datajobs.com/what-is-data-science Visualizado con fecha 3 de enero de 2018.

Leave a Reply

Your email address will not be published.