Sabéis que siempre me enfado por la cortina… by @AnaBayes

Sabéis que siempre me enfado por la cortina de humo que supone el uso de términos como Big Data o Machine Learning así que he escrito sobre la Ciencia de Datos para que entendáis mi postura. Aquí en forma de hilo y completo en el blog

anabelforte.com/2020/06/14/cie…

Hace poco planteaba una encuesta sobre que era realmente la Ciencia de Datos y ganaba la opción de Estadística + Informática con un 43% de los votos

twitter.com/AnaBayes/statu…

Esta encuesta recibió todo tipo de respuestas, algunas de ellas indicando que las opciones eran incompletas y seguramente tenían razón. Twitter tampoco da para más así que escribo hoy aquí para explicar cuál es mi punto de vista en este tema.

Dejadme que os ponga en situación de porque me enfado con un ejemplo. Recuerdo un espacio en radio donde se hablaba del uso de los Stents (un dispositivo que permite abrir espacios en las arterias obstruidas).

En cada respuesta, yo veía estadística, tests, muestras, diferencias significativas… Nada de lo que se comentaba sería real si la estadística no estaba bien hecha, si el tamaño de muestra no era correcto o el método utilizado estaba adecuado al tipo de datos.

Sin embargo, ni una mención a tal disciplina se escuchó, incluso dudo si en el equipo habría alguna persona experta en estadística.

El ejemplo de los Stents es solo una gota en el océano. Cualquier avance de la ciencia en el que las demostraciones no son absolutas, en el que existe cierto grado de incertidumbre, debe ir, sin lugar a dudas, de la mano de la estadística.

Sin embargo, cuando sí se escuchaba la palabra estadística era siempre asociada a errores, mentiras y simplificaciones absurdas. Cuantas veces hemos escuchado la frase popularizada por Mark Twain: “Hay tres tipos de mentiras: mentiras, grandes mentiras y estadísticas”.

Y mientras todo esto pasaba, el mundo cambiaba. En 2002, ya se consideraba que la cantidad de información almacenada de manera digital sobrepasaba la no digital y empezaba a utilizarse el termino Big Data (sin que tenga un origen claro).

En esta situación cabe, por supuesto, reinventarse, buscar nuevas técnicas que permitan abordar la cantidad creciente de información acumulada y sí, surge la necesidad de una “Ciencia de Datos”.

A mi me gusta pensar en los datos sobre una placa de Petri, les echamos tintura (perdónenme biólogos y biólogas) hacemos un corte aquí, otro allá, los ponemos bajo el microscopio y observamos que está pasando.

Al fin y al cabo, de eso trata la Ciencia de Datos, de buscar formas de extraer, limpiar, preparar y analizar los datos para dar conclusiones coherentes y acertadas.

La Ciencia de Datos, tal y como la describe William S. Cleveland debe ser multidisciplinar, formada de diversas ciencias donde la computación y las matemáticas permitan afrontar los retos que supone el Big Data.

Esta multidisciplinariedad suele representarse en forma de Diagrama de Venn donde la Ciencia de Datos se sitúa en intersección de tres conjuntos: “Las Tres Patas”

Leave a Reply

Your email address will not be published. Required fields are marked *