Ver también: Distribuciones estadísticasUna
de las pruebas estadísticas más comunes consiste en ver si existe un vínculo entre dos variables, es decir, si se cambia una variable, ¿también cambiará la otra? Este tipo de vínculo entre las variables se conoce como correlación o asociación.
El conocimiento de este tipo de asociación es útil, porque significa que se sabe que si una variable cambia, la otra también cambiará. Entonces puedes medir una de las variables y usarla para predecir el nivel de la otra.
Hay, por supuesto, advertencias sobre esto: tienes que ser consciente de que la relación puede variar en valores más altos o más bajos de una u otra variable, y tu resultado será sólo una predicción, no un absoluto. Sin embargo, esto puede ser útil cuando una de sus variables es mucho más difícil de medir objetivamente.
Para más información sobre la diferencia entre los datos objetivos y subjetivos, vea nuestra página sobre Tipos de Datos.
Definición de asociaciones
Las asociaciones entre las variables suelen describirse como positivas o negativas, y débiles o fuertes.
- Una asociación positiva significa que las puntuaciones altas para una variable tienden a ocurrir con las puntuaciones altas para la otra.
- Una asociación negativa significa que las puntuaciones altas de una variable tienden a ocurrir con las bajas de la otra.
- No hay asociación cuando el puntaje de una variable no predice el puntaje de la otra.
- Una asociación fuerte es cuando incluso un pequeño cambio en uno se asocia con un cambio en el otro.
- Con una asociación débil, puede ser necesario un cambio mayor en una de ellas antes de ver un cambio en la otra, o puede ser que se necesiten muchos más datos para ver la asociación.
La diferencia entre la correlación y la causalidad
Una correlación es una asociación entre dos variables. No implica necesariamente que una cause la otra.
Ambas podrían ser causadas por algo completamente diferente, o podría ser simplemente que las personas que muestran una característica a menudo muestran la otra.
Por ejemplo, supongamos que las personas que compran alimentos en línea compran más comidas preparadas que las que compran en la tienda. Por lo tanto, hay una correlación positiva entre los dos.
Sin embargo, es poco probable que el acto de comprar en línea cause la compra de más comidas preparadas. Es más probable que los que compran en línea tengan poco tiempo, y por lo tanto compren más comida preparada, o posiblemente simplemente que los jóvenes sean más propensos tanto a comprar en línea como a comprar comida preparada.
Un ejemplo de correlación pero no de causalidad: los avistamientos de cigüeñas
En Suecia, los avistamientos de cigüeñas están correlacionados con la tasa de natalidad. En otras palabras, las ciudades con mayor tasa de natalidad reportan más avistamientos de cigüeñas.
¿Significa esto que los viejos cuentos son verdaderos, y que las cigüeñas realmente dan a luz a los bebés?
No.
Hay un factor que está relacionado con ambos: el tamaño de la ciudad. Los pueblos más grandes tienen poblaciones más grandes, así que una mayor tasa de natalidad. También tienen más gente que es probable que vea cigüeñas y más casas para que las cigüeñas aniden en los tejados.
Ver una asociación
Una de las mejores maneras de comprobar una asociación es dibujar un gráfico de dispersión de los datos con las dos variables de los ejes x e y. En términos generales, si hay una asociación, la verás en el gráfico.
Asociaciones directas (Asociaciones lineales o de línea recta)
En este gráfico, a medida que los valores en el eje x (a lo largo del fondo) aumentan, también lo hacen los valores en el eje y. Por lo tanto, existe una asociación positiva entre las dos variables. También podemos decir que ‘x es directamente proporcional a y’.
En este gráfico se puede ver el efecto contrario: a medida que los valores del eje x aumentan, los valores del eje y disminuyen. Por lo tanto, este gráfico muestra una asociación negativa (o una relación inversamente proporcional) entre las dos variables.
Ambos gráficos muestran lo que se conoce como relaciones lineales o «de línea recta»: cuando se trazan en un gráfico, la relación entre las variables muestra una línea recta (más o menos). Puedes añadir lo que se conoce como «línea de mejor ajuste» o «línea de tendencia», y será recta:
¿Cómo sabrías si no hay relación? Los gráficos se verían muy diferentes, dependiendo de si ambas variables cambiaron o sólo una.
Este gráfico muestra que no hay relación entre las dos variables: a medida que una cambia, la otra también lo hace, pero no en ningún patrón en particular. La línea de tendencia es (más o menos) horizontal. También puedes ver gráficos donde una variable cambia, pero la otra permanece igual, así:
Identificación de otras relaciones
Dibujar un gráfico también te ayudará a identificar si hay una relación peculiar. Esto podría incluir, por ejemplo, donde hay una asociación positiva para parte de los datos y una negativa para el resto, como se muestra a continuación. Esto se mostrará en una prueba como sin correlación, pero claramente hay algún tipo de relación en este caso.
Este ejemplo se conoce como una relación de «U invertida».
Lo contrario se conoce como una relación en forma de «U»:
Ambos tipos de relaciones pueden describirse utilizando una ecuación cuadrática (en términos generales) (y para obtener más información al respecto, puede leer nuestra página sobre Ecuaciones simultáneas y cuadráticas).
También puedes ver lo que se conoce como una relación exponencial:
Aquí, por cada incremento (aumento) de uno en el valor de x, hay una duplicación del valor de y.
Pruebas estadísticas para las asociaciones
Los datos utilizados aquí son todos bastante obvios: los gráficos muestran que hay una clara relación entre las dos variables. Sin embargo, los datos de la vida real rara vez son tan convenientes.
Por lo tanto, puede utilizar pruebas estadísticas para identificar si hay relaciones entre dos variables.
Su elección de la prueba dependerá del tipo de datos (y vea nuestra página sobre Tipos de Datos para más información sobre las distinciones entre los datos).
Hay pruebas específicas dependiendo de si se utilizan datos continuos, categóricos o clasificados.
- Para datos categóricos, utilice la prueba de chi-cuadrado (también escrito χ2). Esta mide si las variables son independientes. Sin embargo, no le dirá nada sobre el tipo de relación, sólo que hay una relación.
- Para los datos continuos, la prueba más común es la correlación producto-momento de Pearson, que mide la fuerza y la dirección de una relación entre dos variables. Sólo puede utilizarse cuando la relación es lineal (línea recta), por lo que si se tiene un gráfico de dispersión en forma de U, no puede utilizarse. En este caso, puede dividir los datos en secciones, o clasificar sus valores y utilizar en su lugar una correlación de rango. Sus datos también necesitan estar aproximadamente distribuidos normalmente (hay más información sobre esto en nuestra página sobre distribuciones estadísticas). Antes de utilizar una prueba de correlación de Pearson, también debe eliminar cualquier valor atípico (otra razón para utilizar primero una gráfica de dispersión). El siguiente diagrama muestra un gráfico de dispersión con un gran valor atípico (anillado en rojo), que debe ser eliminado antes de realizar un análisis Pearson.
- Para los rangos, use la correlación de orden de rango de Kendall o la correlación de rango de Spearman.
Realización de pruebas de correlación estadística
Para cada una de estas pruebas, el procedimiento básico es el mismo.
Se calcula el valor de una «estadística de prueba» utilizando una fórmula estándar que es específica para la prueba elegida, e insertando las variables en la fórmula cuando sea necesario. Luego se compara esta estadística de prueba con el valor necesario para obtener el nivel de significación deseado, que se obtiene de una tabla estadística. Esto te dice cuán probable es que las dos variables estén relacionadas de alguna manera.
Significado
La significación significa cuánta confianza tienes en que esta relación no ha ocurrido por casualidad. Los investigadores generalmente miden la importancia al nivel del 1% o 5%, lo que significa que están 95% o 99% seguros de que cualquier relación observada no se debe a la casualidad.
Usando software estadístico
Medir las relaciones mediante pruebas estadísticas suena complicado. Sin embargo, en la práctica es relativamente sencillo. Si se hace a mano, se utilizan fórmulas estándar y se compara la estadística de la prueba con los valores obtenidos de tablas estadísticas estándar y ampliamente disponibles. Sin embargo, la mayoría de los investigadores utilizan paquetes de software estadístico, que hacen todo el trabajo por usted. Ellos calcularán todas las estadísticas de la prueba, y algunos incluso resaltarán el nivel de significación.
Continúe:
Distribuciones estadísticas
Análisis estadístico: Tipos de datos
Ver también:
Análisis estadístico simple
Análisis multivariado
Introducción al álgebra