¿Qué es una distribución por muestreo? Definición, factores y tipos

La distribución muestral es un factor importante en el análisis estadístico. La distribución del muestreo determina la probabilidad de ocurrencia, o distribución de la probabilidad, dentro de una muestra determinada. Hay algunos factores comunes que influyen en la distribución del muestreo en el análisis estadístico. En este artículo, le enseñaremos qué es la distribución muestral y cómo se utiliza.

¿Qué es la distribución por muestreo?

Una distribución de muestreo es una distribución que traza los valores de una estadística para una determinada muestra aleatoria que's parte de una suma mayor de datos. Cuando los científicos de datos trabajan con grandes cantidades de datos, a veces utilizan las distribuciones de muestreo para determinar los parámetros del grupo de datos, como la media o la desviación estándar. Los parámetros son hechos sobre los datos en forma de valores estadísticos.

También se denomina distribución de probabilidad porque se basa en la probabilidad para informar al científico de datos de las estadísticas de la muestra. El uso de una distribución de muestreo simplifica el proceso de hacer inferencias sobre grandes cantidades de datos. Por esta razón, se utiliza a menudo como recurso estadístico en la ciencia de los datos.

Relacionado: Aprende a ser un científico de datos

Entender la distribución de muestreo: Tres factores de variabilidad

La idea que subyace a una distribución de muestreo es que, cuando se dispone de una gran cantidad de datos, el valor de una estadística determinada a partir de muestras aleatorias dentro del grupo le informará del valor de esa estadística para todo el grupo. Esto se debe a que, una vez trazados, los valores de cualquier estadística dada en muestras aleatorias formarán una distribución normal de la que se pueden extraer inferencias.

Cada muestra aleatoria seleccionada tendrá un valor diferente asignado a la estadística estudiada. Por ejemplo, si se toman datos al azar y se determina la media de cada una de las tres muestras, es probable que las tres medias sean diferentes y caigan en algún punto de la curva. Eso' es la variabilidad. Si se hace esto una y otra vez, los datos que se representan deberían parecerse a una curva de campana. Ese proceso es una distribución de muestreo.

La variabilidad de una distribución muestral puede medirse mediante la desviación estándar o la varianza, dependiendo del contexto y de las inferencias que se intenten hacer. Hay tres factores principales que influyen en la variabilidad de una distribución de muestreo. Son los siguientes:

  • El número observado en una población: Esta variable se representa por "N." Es la medida de la actividad observada en un determinado grupo de datos.
  • El número observado en la muestra: Esta variable se representa por "n." Es la medida de la actividad observada en una muestra aleatoria de datos que forma parte de la agrupación mayor.
  • El método de elección de la muestra: La forma de elegir las muestras puede explicar la variabilidad, en algunos casos.

Relacionado: Relacionado: Aprenda a ser un analista de datos

Tipos de distribuciones

Hay un par de tipos estándar de distribuciones de muestreo y cómo pueden aplicarse. Siga leyendo para conocer los tipos de distribuciones de muestreo y sus aplicaciones:

  • Distribución en T
  • Distribución normal

Distribución en T

Una distribución T es una distribución de muestreo que ayuda a los profesionales de los datos a determinar el tamaño de la población o la varianza de la población. La distribución T utiliza una puntuación t para evaluar datos que no serían apropiados para una distribución normal. Por ejemplo, cuando se analiza una muestra muy pequeña. La fórmula de la puntuación t es la siguiente:

t = [ x – μ ] / [ s / sqrt( n ) ]

En la fórmula anterior, "x" es la media de la muestra, "μ" es la media de la población y significa la desviación estándar.

Relacionado: Habilidades analíticas: Definiciones y ejemplos

Distribución normal

Una distribución normal también se llama curva de campana. Se trata de distribuciones con características como una curva simétrica en forma de campana y la media y la mediana son el mismo número y están situadas en el centro de la curva. Si se tienen muchos datos y se crea una distribución de muestreo, lo más probable es que modele una distribución normal de la que se puedan inferir valores estadísticos, a menos que se aplique un modelo como la puntuación t.

Teorema central del límite

El teorema del límite central dice que la distribución muestral que muestra la media de cualquier variable, independiente y aleatoria, será normal o se acercará a ella cuando se utilice una muestra suficientemente grande.

Para determinar si su muestra es lo suficientemente grande, debe tener en cuenta lo siguiente:

  • Requisitos de precisión: Las distribuciones de muestreo más precisas tienen suficientes muestreos de datos medios para crear una curva de campana. Cuanto más se acerque la visualización a una distribución normal, más precisa será. Más datos es mejor para la precisión de las distribuciones de muestreo.
  • La población de partida' s forma: Si la población de partida se asemeja a una curva de campana de distribución normal, se necesitarán menos muestreos para trazar la forma en una distribución de muestreo.

Los científicos de datos suelen afirmar que entre 30 y 50 puntos de datos son suficientes para hacer una distribución normal bien formada. Sin embargo, si la población es anormal, por ejemplo, sesgada en un sentido u otro, se necesitarán más muestras para obtener el resultado deseado de la distribución muestral.

Ejemplos de la teoría del límite central

A continuación se muestran algunos ejemplos de cómo se aplica la teoría del límite central para transmitir datos de muestras más grandes a través de la distribución de muestreo:

Distribución muestral de la media

Puedes transmitir la distribución muestral de la media sacando todas las muestras posibles de un grupo de datos y calculando la media. Una vez que se tienen todas las medias de los datos de la muestra, se grafican esos datos en una distribución normal. El centro de la distribución normal es la media y ese número refleja toda la población, porque la media de la distribución muestral es la media de la población general de datos.

Distribución muestral de la proporción

Cuando se hace una distribución muestral de la proporción se pueden medir cosas como la probabilidad de aprobar un examen. Imagina que tienes un grupo de datos dividido en todas las muestras posibles. En cada grupo de muestras, encuentras la probabilidad de aprobar el examen. Al representar todas las probabilidades posibles en una distribución normal, has creado una distribución muestral de probabilidad. La media de esa distribución es la probabilidad de que la población general apruebe el examen.

Te recomendamos

12 objetivos profesionales que deben alcanzar los directores de oficina

Cómo estructurar un argumento eficaz en 5 pasos

¿Qué es una empresa 3PL? Guía de la logística de terceros

18 Términos de enfermería que debe conocer

110 Ideas de marketing de venta directa

Cómo manejar los problemas personales en el trabajo