Entendiendo las distribuciones estadísticas |

Ver también: Intervalos de significación y confianzaDurante

muchos años, eminentes estadísticos se dieron cuenta de que los datos de las muestras y las poblaciones a menudo formaban patrones muy similares. Por ejemplo, muchos datos se agruparon alrededor de los valores «medios», con menos observaciones en los bordes exteriores de la distribución (valores muy altos o muy bajos). Estos patrones se conocen como «distribuciones», porque describen cómo se «distribuyen» los datos a lo largo de la gama de valores posibles.

Los matemáticos han desarrollado distribuciones estadísticas estándar que describen estos patrones. Estas distribuciones estadísticas estándar se utilizan a menudo en el análisis estadístico como distribuciones de referencia. Esto significa que permiten a los investigadores comparar datos y grupos de muestras más fácilmente.

Esta página describe algunas de las distribuciones estándar, y explica su importancia en las pruebas estadísticas.

La Distribución Normal

La distribución normal es quizás la distribución estadística más conocida, y se ve así:

Características de la distribución normal o curva de campana. Diagrama que muestra los lados simétricos, las colas asintóticas y el medio/medio/modo en el centro.

También se conoce como la curva de campana, debido a su forma, y la distribución gaussiana según el matemático Carl F Gauss, quien la describió por primera vez.

Es una distribución de variables continuas, donde los datos pueden tomar un número infinito de valores entre dos valores cualesquiera (para más información sobre esto, vea nuestra página sobre Tipos de Datos).

Aproximaciones cercanas a la distribución normal se encuentran ampliamente en la naturaleza, especialmente en la biología. Por ejemplo, las alturas, los pesos y la presión sanguínea tienden a seguir esta forma de distribución en la población, con un grupo alrededor del centro, que se va alejando hacia ambos lados (valores muy altos y muy bajos). Las colas son asintóticas, o infinitas, tendiendo hacia, pero nunca alcanzando, la probabilidad cero.

También es importante porque muchas de las pruebas estadísticas más potentes requieren que los datos sean normales. Estas incluyen la prueba de correlación producto-momento de Pearson (para más información sobre esto, vea nuestra página sobre Análisis Estadístico: Entendiendo las Correlaciones).

La curva normal también tiene algunas características útiles relacionadas con la probabilidad y la desviación estándar (una medida de la amplitud de la dispersión de los datos en torno a la media). Para obtener más información sobre la desviación estándar, consulte nuestra página sobre Análisis estadístico simple.

Por ejemplo:

  • El 68% de los valores están dentro de una desviación estándar (SD) a cada lado de la media (a veces se escribe como ±1 SD): Por lo tanto, tienes una probabilidad del 68% de seleccionar aleatoriamente un punto de datos que esté dentro de una desviación estándar de la media.
  • El 95% de los valores están dentro de dos desviaciones estándar a cada lado de la media (±2 SD): Esto significa que tienes un 95% de posibilidades de seleccionar aleatoriamente un punto de datos que esté dentro de dos desviaciones estándar de la media.
  • 99,7% de los valores están dentro de tres desviaciones estándar de la media (±3 SD):Si seleccionas un punto de datos al azar, hay un 99,7% de posibilidades de que esté dentro de tres desviaciones estándar de la media.

Puede comprobar si sus datos siguen una distribución normal utilizando pruebas estadísticas como la prueba de Kolmogorov-Smirnov o la prueba de Shapiro-Wilk (los paquetes de software estadístico las calcularán automáticamente para usted). Un resultado insignificante le indica que sus datos se distribuyen normalmente.

Un caso especial: la distribución t

La distribución t es la misma que la distribución normal. Sin embargo, cuando se utiliza como distribución de referencia en pruebas estadísticas, la desviación estándar de los datos de referencia se estima a partir de los datos de la muestra, en lugar de darse como estándar.

Distribuciones Binomial y Poisson

Las distribuciones binomial y de Poisson son ambas distribuciones de probabilidad discretas. En otras palabras, describen la distribución de la probabilidad de que ocurran determinados eventos.

La distribución binomial es la distribución de probabilidad discreta del número de éxitos en una secuencia de experimentos independientes, cada uno con un resultado de sí/no (o verdadero/falso). Por lo tanto, pueden utilizarse, por ejemplo, para la probabilidad de sacar un as de una baraja de cartas, si la carta se sustituye después de cada sorteo, o para tirar un valor determinado en un dado.

A diferencia de la distribución normal, la distribución binomial puede mostrarse como un histograma:

Gráfico para mostrar que el 68% de los valores se encuentran entre 1 desviación estándar (SD).

El gráfico anterior muestra la distribución de las probabilidades de que el lanzamiento de una moneda dé una cola (una probabilidad del 50% o p = 0,5) en diez pruebas (n = 10). En otras palabras, si realizas 10 lanzamientos de monedas unas 100 veces, obtendrías una distribución algo así: obtendrías cinco colas la mayoría de las veces, alrededor del 24% del tiempo, seguidas de cuatro y seis alrededor del 20% del tiempo, y así sucesivamente.

La distribución de Poisson muestra la probabilidad de que un número determinado de eventos ocurra en un período de tiempo determinado. Por lo tanto, es un caso particular de la distribución binomial, y se utiliza ampliamente para el comercio de acciones (donde no hay comercio por debajo de un cierto nivel, pero el valor máximo es técnicamente infinito). También es adecuado para observar la desintegración radiactiva. Es menos simétrica que la distribución binomial estándar, con una cola más larga en el extremo superior de los valores:

Gráfico para mostrar que el 95% de los valores caen entre 2 desviaciones estándar (SD).

Otras distribuciones estadísticas

Hay varias otras distribuciones estadísticas que se utilizan en las pruebas estadísticas, todas con parámetros ligeramente diferentes. Incluyen:

  • La distribución chi-cuadrado (χ2), que es la distribución de las variaciones, en lugar de valores variables o medios (como las distribuciones anteriormente descritas);
  • La distribución F, que es la distribución de las proporciones de las variaciones.

Características de las distribuciones estándar

Las distribuciones estándar comparten varias características. Estas características incluyen:

  • Una clara definición matemática. Su forma refleja sólo unos pocos parámetros, como la media y la desviación estándar (para la distribución normal) o la varianza (para la distribución chi-cuadrado).
  • Propiedades teóricas establecidas. Sabemos mucho acerca de estas distribuciones (por ejemplo, la curva normal es simétrica).
  • Son buenas estimaciones para datos reales. En una muestra de datos del mundo real, es imposible obtener una distribución normal exacta. Sin embargo, estas distribuciones son muy buenas aproximaciones de los datos reales.

Uso de las distribuciones estándar como distribuciones de referencia

Las distribuciones estándar se utilizan a menudo como distribuciones de referencia en las pruebas estadísticas.

Esto significa que los datos de la muestra se comparan con ellos para ver la probabilidad de que los datos se hayan producido al azar.

Las características de las distribuciones estándar las hacen muy adecuadas para ser distribuciones de referencia, especialmente las características conocidas, y el hecho de que son buenas aproximaciones de los datos del mundo real.

Sin embargo, hay otras fuentes de distribuciones de referencia.

  • Las distribuciones Bootstrap se crean suponiendo que los datos de la muestra son los únicos datos disponibles, y extrayendo muestras repetidas (más pequeñas) de esos datos. Estas sólo pueden utilizarse realmente cuando se tiene acceso a una computadora, y no son ideales. Por lo tanto, sólo deben utilizarse cuando no hay otra alternativa.
  • Las distribuciones permutacionales se crean encontrando todas las permutaciones posibles de los datos clasificados. Por lo tanto, toman todos los posibles resultados y ven lo probable que son. No asumen ninguna distribución teórica subyacente. Las pruebas que utilizan estas distribuciones se conocen como pruebas «no paramétricas», para distinguirlas de las pruebas «paramétricas» que utilizan distribuciones estándar con parámetros conocidos.
  • Los datos de archivo también pueden utilizarse para crear una distribución de referencia. Esto puede ser apropiado cuando hay muchos datos anteriores que pueden utilizarse.

Por qué son importantes las distribuciones estadísticas

La principal razón por la que hay que entender las distribuciones estadísticas es su uso en las pruebas estadísticas.

Puede utilizarlos para comparar sus datos, para ayudarle a comprender la probabilidad de que haya identificado una relación o característica real a partir de sus datos.

Continúa:
Importancia e intervalos de confianza
Desarrollo y prueba de hipótesis

Ver también:
Análisis estadístico simple
Análisis multivariado
Introducción al álgebra

Rate this post

Deja un comentario