En el análisis estadístico, la distribución del muestreo es fundamental. La probabilidad de ocurrencia de una muestra dada, o la distribución de la probabilidad, viene determinada por la distribución del muestreo. A continuación se analizan algunos de los factores más comunes que afectan a las distribuciones de muestreo.
En este artículo, le enseñaremos qué es la distribución muestral y cómo se utiliza.
¿Qué es la distribución por muestreo?
Un científico de datos utiliza la distribución de muestreo para determinar los parámetros de un conjunto de datos, como la media o la desviación estándar, cuando trabaja con grandes cantidades de datos. Un valor estadístico se denomina parámetro. En otras palabras, una distribución de muestreo traza los valores de una estadística para una muestra aleatoria que forma parte de un conjunto de datos más amplio.
También se denomina distribución de probabilidad porque se basa en la probabilidad para informar al científico de datos de las estadísticas de la muestra. El uso de una distribución de muestreo simplifica el proceso de hacer inferencias sobre grandes cantidades de datos. Por esta razón, se utiliza a menudo como recurso estadístico en la ciencia de los datos.
Relacionado: Aprende a ser un científico de datos
Entender la distribución de muestreo: Tres factores de variabilidad
La idea que subyace a una distribución de muestreo es que, cuando se dispone de una gran cantidad de datos, el valor de una estadística determinada a partir de muestras aleatorias dentro del grupo le informará del valor de esa estadística para todo el grupo. Esto se debe a que, una vez trazados, los valores de cualquier estadística dada en muestras aleatorias formarán una distribución normal de la que se pueden extraer inferencias.
Cada muestra aleatoria seleccionada tendrá un valor diferente asignado a la estadística estudiada. Por ejemplo, si se toman datos al azar y se determina la media de cada una de las tres muestras, es probable que las tres medias sean diferentes y caigan en algún punto de la curva. Eso' es la variabilidad. Si se hace esto una y otra vez, los datos que se representan deberían parecerse a una curva de campana. Ese proceso es una distribución de muestreo.
La variabilidad de una distribución muestral puede medirse mediante la desviación estándar o la varianza, dependiendo del contexto y de las inferencias que se intenten hacer. Hay tres factores principales que influyen en la variabilidad de una distribución de muestreo. Son los siguientes:
- El número observado en una población: Esta variable se representa por «N.» Es la medida de la actividad observada en un determinado grupo de datos.
- El número observado en la muestra: Esta variable se representa por «n.» Es la medida de la actividad observada en una muestra aleatoria de datos que forma parte de la agrupación mayor.
- El método de elección de la muestra: La forma de elegir las muestras puede explicar la variabilidad, en algunos casos.
Relacionado: Relacionado: Aprenda a ser un analista de datos
Tipos de distribuciones
Hay un par de tipos estándar de distribuciones de muestreo y cómo pueden aplicarse. Siga leyendo para conocer los tipos de distribuciones de muestreo y sus aplicaciones:
- Distribución en T
- Distribución normal
Distribución en T
Una distribución T es una distribución de muestreo que ayuda a los profesionales de los datos a determinar el tamaño de la población o la varianza de la población. La distribución T utiliza una puntuación t para evaluar datos que no serían apropiados para una distribución normal. Por ejemplo, cuando se analiza una muestra muy pequeña. La fórmula de la puntuación t es la siguiente:
t = [ x – μ ] / [ s / sqrt( n ) ]
En la fórmula anterior, «x» es la media de la muestra, «μ» es la media de la población y significa la desviación estándar.
Relacionado: Habilidades analíticas: Definiciones y ejemplos
Distribución normal
Una distribución normal también se llama curva de campana. Se trata de distribuciones con características como una curva simétrica en forma de campana y la media y la mediana son el mismo número y están situadas en el centro de la curva. Si se tienen muchos datos y se crea una distribución de muestreo, lo más probable es que modele una distribución normal de la que se puedan inferir valores estadísticos, a menos que se aplique un modelo como la puntuación t.
Teorema central del límite
El teorema del límite central dice que la distribución muestral que muestra la media de cualquier variable, independiente y aleatoria, será normal o se acercará a ella cuando se utilice una muestra suficientemente grande.
Para determinar si su muestra es lo suficientemente grande, debe tener en cuenta lo siguiente:
- Requisitos de precisión: Las distribuciones de muestreo más precisas tienen suficientes muestreos de datos medios para crear una curva de campana. Cuanto más se acerque la visualización a una distribución normal, más precisa será. Más datos es mejor para la precisión de las distribuciones de muestreo.
- La población de partida' s forma: Si la población de partida se asemeja a una curva de campana de distribución normal, se necesitarán menos muestreos para trazar la forma en una distribución de muestreo.
Los científicos de datos suelen afirmar que entre 30 y 50 puntos de datos son suficientes para hacer una distribución normal bien formada. Sin embargo, si la población es anormal, por ejemplo, sesgada en un sentido u otro, se necesitarán más muestras para obtener el resultado deseado de la distribución muestral.
Ejemplos de la teoría del límite central
A continuación se muestran algunos ejemplos de cómo se aplica la teoría del límite central para transmitir datos de muestras más grandes a través de la distribución de muestreo:
Distribución muestral de la media
Puedes transmitir la distribución muestral de la media sacando todas las muestras posibles de un grupo de datos y calculando la media. Una vez que se tienen todas las medias de los datos de la muestra, se grafican esos datos en una distribución normal. El centro de la distribución normal es la media y ese número refleja toda la población, porque la media de la distribución muestral es la media de la población general de datos.
Distribución muestral de la proporción
Cuando se hace una distribución muestral de la proporción se pueden medir cosas como la probabilidad de aprobar un examen. Imagina que tienes un grupo de datos dividido en todas las muestras posibles. En cada grupo de muestras, encuentras la probabilidad de aprobar el examen. Al representar todas las probabilidades posibles en una distribución normal, has creado una distribución muestral de probabilidad. La media de esa distribución es la probabilidad de que la población general apruebe el examen.