top of page
Foto del escritorTony Salgado

Estadísticas, segundo pilar de la ciencia de datos

Hola, como vimos en el artículo anterior, uno de los pilares de la Ciencia de Datos es la Matemática.

Pues bien, hoy le toca el turno al segundo de los pilares: la Estadística.

Ambos representan la condición necesaria pro no suficiente para adentrarse en esta ciencia, quizás la más promisoria para las próximas décadas.

Como referencia, el tercero de los pilares, nunca mencionado ya que se da por descontado su ejercicio permanente, es la lógica formal.

Vamos entonces al encuentro de nuestra bendita Estadística.


Los conceptos básicos de estadística que sustentan a la Ciencia de Datos

Medium, Oct 2018

George Seif


La estadística puede ser una poderosa herramienta a la hora de realizar el arte de la Ciencia de Datos (DS). La estadística es el uso de las matemáticas para realizar un análisis técnico de los datos. Una visualización básica, como un gráfico de barras, puede dar información de alto nivel, pero con la estadística operamos los datos de un modo más orientado y basado en la información. Las matemáticas nos ayudan a sacar conclusiones concretas sobre nuestros datos, en lugar de limitarnos a hacer conjeturas.

Gracias a la estadística, podemos obtener conocimientos más precisos sobre la estructura de nuestros datos y con ello optimizar otras técnicas para obtener aún más información.

Existen cinco conceptos estadísticos básicos que los científicos de datos deben conocer y cómo se pueden aplicar de la forma más eficaz.


Características o rasgos

Los rasgos estadísticos son probablemente los conceptos más utilizados en la ciencia de datos. Suele ser la primera técnica que se aplica al explorar un conjunto de datos e incluye el sesgo, la varianza, la media, la mediana, los percentiles, entre otros conceptos. Son fáciles de entender y codificar

La mediana de los datos es el punto que deja igual cantidad de datos a la derecha e izquierda del mismo.

La media es el valor promedio de los datos.

El primer cuartil es básicamente el percentil 25, es decir, el 25% de los puntos de los datos están por debajo de ese valor.

El tercer cuartil es el percentil 75, es decir, el 75% de los puntos de los datos están por debajo de ese valor.

Los valores mínimo y máximo representan los extremos superior e inferior del rango de datos.

- Cuando el diagrama es corto, implica que muchos de los puntos de datos son similares, ya que hay muchos valores en un rango pequeño.

- Cuando el gráfico es largo, implica que muchos de los puntos de datos son muy diferentes, ya que los valores están repartidos en un amplio rango.

- Si el valor de la mediana está más cerca de la parte inferior, sabemos que la mayoría de los datos tienen valores más bajos. Si el valor de la mediana está más cerca de la parte superior, sabemos que la mayoría de los datos tienen valores más altos. Básicamente, si la línea de la mediana no está en el centro de la caja, es una indicación de que los datos están sesgados.


Distribuciones de probabilidad

Podemos definir la probabilidad como el porcentaje de posibilidades de que ocurra algún evento. En la ciencia de los datos, se suele cuantificar en un rango de 0 a 1, donde 0 significa que estamos seguros de que no ocurrirá y 1 significa que estamos seguros de que ocurrirá. Una distribución de probabilidad es entonces una función que representa las probabilidades de todos los valores posibles en el experimento.

Probabilidad Uniforme (izquierda), Normal (centro) y Poisson (derecha)

- Una distribución uniforme es la más básica. Tiene un único valor que sólo se da en un rango determinado, mientras que todo lo que está fuera de ese rango es sólo 0. Es en gran medida una distribución de "encendido o apagado". También podemos pensar en ella como una indicación de una variable categórica con 2 categorías: 0 o el valor.


- Una distribución normal o gaussiana, se define por su media y su desviación estándar. El valor medio desplaza la distribución espacialmente y la desviación estándar controla la dispersión. La distinción importante con respecto a otras distribuciones (por ejemplo, la de Poisson) es que la desviación estándar es la misma en todas las direcciones. Por lo tanto, con una distribución gaussiana conocemos el valor medio de nuestro conjunto de datos, así como la dispersión de los datos, es decir, si están repartidos en un amplio rango o si están muy concentrados en torno a unos pocos valores.


- La distribución de Poisson es similar a la normal, pero con un factor añadido de asimetría. Con un valor bajo de asimetría, una distribución de Poisson tendrá una dispersión relativamente uniforme en todas las direcciones, al igual que la Normal. Pero cuando el valor de la asimetría es alto, la dispersión de nuestros datos será diferente en distintas direcciones; en una dirección estará muy dispersa y en la otra estará muy concentrada.

Hay muchas más distribuciones en las que se puede profundizar, pero estas tres ya dan mucho valor.

Podemos ver e interpretar rápidamente nuestras variables categóricas con una Distribución Uniforme.

Si vemos una Distribución Gaussiana sabemos que hay muchos algoritmos que por defecto se comportarán bien específicamente con la Gaussiana así que deberíamos ir a por ellos.

Y con Poisson veremos que tenemos que tener especial cuidado y elegir un algoritmo que sea robusto a las variaciones de la distribución espacial.


Reducción de la dimensionalidad

El término Reducción de la Dimensionalidad es bastante intuitivo de entender. Tenemos un conjunto de datos y queremos reducir el número de dimensiones que tiene. En la ciencia de los datos, se trata del número de variables de distintas características.

El cubo representa nuestro conjunto de datos y tiene 3 dimensiones con un total de 1000 puntos, por ejemplo. Ahora, con la informática actual, 1000 puntos son muy fáciles de procesar, pero a mayor escala tendríamos problemas.

Sin embargo, con sólo mirar nuestros datos desde un punto de vista bidimensional, como por ejemplo desde un lado del cubo, podemos ver que es bastante fácil dividir todos los colores desde ese ángulo. Con la reducción de la dimensionalidad proyectaríamos entonces los datos 3D en un plano 2D. Esto reduce efectivamente el número de puntos que necesitamos calcular a 100, ¡un gran ahorro computacional!

Otra forma de reducir la dimensionalidad es mediante la reducción de características. Con dicha reducción básicamente queremos eliminar cualquier característica que veamos que no es importante para nuestro análisis. Por ejemplo, después de explorar un conjunto de datos podemos encontrar que de las 10 características, 7 de ellas tienen una alta correlación con el resultado, pero las otras 3 tienen una correlación muy baja. En ese caso, esas 3 características de baja correlación probablemente no merezcan la pena ser computadas y podríamos eliminarlas de nuestro análisis sin perjudicar el resultado.

La técnica estadística más utilizada para la reducción de la dimensionalidad es el PCA, que básicamente crea representaciones vectoriales de las características que muestran su importancia para el resultado, es decir, su correlación. El PCA se puede utilizar para realizar los dos estilos de reducción de la dimensionalidad mencionados anteriormente. Lea más sobre ello en este tutorial.


Sobremuestreo y submuestreo

El sobremuestreo y el submuestreo son técnicas utilizadas para los problemas de clasificación. A veces, nuestro conjunto de datos de clasificación puede estar demasiado inclinado hacia un lado. Por ejemplo, tenemos 2000 ejemplos para la clase 1, pero sólo 200 para la clase 2. Esto desbarata muchas de las técnicas de aprendizaje automático que intentamos utilizar para modelar los datos y hacer predicciones. Nuestro muestreo por exceso y por defecto puede combatirlo.

Tanto en la parte izquierda como en la derecha de la imagen de arriba, nuestra clase azul tiene muchas más muestras que la clase naranja. En este caso, tenemos 2 opciones de preprocesamiento que pueden ayudar en el entrenamiento de nuestros modelos de aprendizaje automático.

El submuestreo significa que seleccionaremos sólo algunos de los datos de la clase mayoritaria, utilizando únicamente tantos ejemplos como tenga la clase minoritaria. Esta selección debe hacerse para mantener la distribución de probabilidad de la clase.

El sobremuestreo significa que crearemos copias de nuestra clase minoritaria para tener el mismo número de ejemplos que tiene la clase mayoritaria. Las copias se harán de forma que se mantenga la distribución de la clase minoritaria.


Estadística bayesiana

Para comprender plenamente por qué utilizamos la Estadística Bayesiana es necesario entender primero en qué falla la Estadística de Frecuencias. La estadística frecuencial es el tipo de estadística en el que la mayoría de la gente piensa cuando oye la palabra "probabilidad". Consiste en aplicar las matemáticas para analizar la probabilidad de que ocurra algún evento, donde específicamente los únicos datos que calculamos son los datos previos.

Veamos un ejemplo. Supongamos que le doy un dado y le pregunto cuál es la probabilidad de que saque un 6. Bueno, la mayoría de la gente diría simplemente que es 1 entre 6. De hecho, si tuviéramos que hacer un análisis de frecuencias, miraríamos algunos datos en los que alguien lanzara un dado 10.000 veces y calcularíamos la frecuencia de cada número lanzado; ¡resultaría aproximadamente 1 de cada 6!

Pero, ¿qué pasaría si alguien que el dado específico estaba cargado para caer siempre en el 6? Dado que el análisis de frecuencias sólo tiene en cuenta los datos previos, no se tiene en cuenta la evidencia que se dio sobre que el dado estaba cargado.

La estadística bayesiana sí tiene en cuenta esta evidencia.

La probabilidad P(H) es básicamente nuestro análisis de frecuencias; dados nuestros datos previos, cuál es la probabilidad de que ocurra nuestro evento.

La P(E|H) en nuestra ecuación se llama probabilidad y es esencialmente la probabilidad de que nuestra evidencia sea correcta, dada la información de nuestro análisis de frecuencia. Por ejemplo, si quisieras lanzar el dado 10.000 veces, y en las primeras 1.000 tiradas obtuvieras los 6, ¡estaríamos bastante seguros de que ese dado está cargado!

La P(E) es la probabilidad de que la prueba real sea cierta. Si te digo que el dado está cargado, ¿podemos confiar en que realmente está cargado o creeremos que es un truco?

Si nuestro análisis de frecuencias es muy bueno, entonces tendrá cierto peso para decir que nuestra suposición de 6 es cierta.

Al mismo tiempo tenemos en cuenta nuestra evidencia del dado cargado, si es cierto o no en base a su propia previa y al análisis de frecuencia.

En el diseño de la ecuación, la estadística bayesiana lo tiene todo en cuenta.

La utilizaremos cuando creamos que los datos, a priori, no serán una buena representación de los resultados futuros.


Acá te estaba esperando. ¿Qué te pareció lo que leíste?

Obviamente, en muy pocas líneas es muy difícil desarrollar un tema tan intrincado como la estadística; pero la pretensión era, modestamente, presentarte solo un barniz con respecto a algunos de sus conceptos clave y sus ámbitos de aplicación.

En la Ciencia de Datos, la realización de experimentos correctos con pequeñas muestras son el punto de partida para la posterior extrapolación a universos de datos de órdenes de magnitud superiores.


Ahora me gustaría conocer tu honesta opinión con respecto a este artículo.

Gracias por tu colaboración.

0 comentarios

Comments


bottom of page