Estudio de población general y muestra. Validez estadística. Términos y conceptos básicos de las estadísticas médicas

Significancia estadística

Los resultados obtenidos mediante un determinado procedimiento de investigación se denominan Estadísticamente significante si la probabilidad de su ocurrencia aleatoria es muy pequeña. Este concepto se puede ilustrar con el ejemplo de lanzar una moneda. Supongamos que se lanza una moneda 30 veces; Salió 17 veces cara y 13 veces cruz. Lo hace significativo¿Es esto una desviación del resultado esperado (15 caras y 15 cruces) o es una coincidencia? Para responder a esta pregunta, puede, por ejemplo, lanzar la misma moneda muchas veces 30 veces seguidas y, al mismo tiempo, observar cuántas veces se repite la proporción de caras y cruces, igual a 17:13. El análisis estadístico nos salva de este tedioso proceso. Con su ayuda, después de los primeros 30 lanzamientos de monedas, es posible estimar el número posible de ocurrencias aleatorias de 17 caras y 13 cruces. Tal estimación se llama enunciado probabilístico.

En la literatura científica sobre psicología industrial-organizacional, un enunciado probabilístico en forma matemática denotado por la expresión R(probabilidad)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (R< 0,01). Este hecho es importante para comprender la literatura, pero no debe interpretarse como que no tiene sentido hacer observaciones que no cumplan con estos estándares. Los llamados resultados de investigación no significativos (observaciones que se pueden obtener por casualidad) más una o cinco veces de cada 100) puede ser muy útil para identificar tendencias y como guía para futuras investigaciones.

También debe señalarse que no todos los psicólogos están de acuerdo con los estándares y procedimientos tradicionales (p. ej., Cohen, 1994; Sauley y Bedeian, 1989). Los problemas de medición en sí mismos son un tema importante de trabajo para muchos investigadores que estudian la precisión de los métodos de medición y las suposiciones que subyacen. métodos existentes y estándares, así como el desarrollo de nuevos doctores e instrumentos. Quizás en algún momento en el futuro, la investigación en este poder conducirá a un cambio en los estándares tradicionales para evaluar la significancia estadística, y estos cambios ganarán aceptación universal. (El Quinto Capítulo de la Asociación Estadounidense de Psicología reúne a psicólogos que se especializan en el estudio de estimaciones, medidas y estadísticas).

En los informes de investigación, un enunciado probabilístico como R< 0.05, debido a algunos Estadísticas es decir, un número que se obtiene como resultado de cierto conjunto de procedimientos de cálculo matemático. La confirmación probabilística se obtiene comparando estas estadísticas con datos de tablas especiales que se publican para este propósito. En la investigación psicológica industrial-organizacional, estadísticas tales como r, F, t, r>(léase "chi cuadrado") y R(léase "múltiples R"). En cada caso, las estadísticas (un número) obtenidas del análisis de una serie de observaciones se pueden comparar con los números de la tabla publicada. Después de eso, es posible formular una declaración probabilística sobre la probabilidad de obtener aleatoriamente este número, es decir, sacar una conclusión sobre el significado de las observaciones.

Para comprender los estudios descritos en este libro, es suficiente tener una comprensión clara del concepto de significancia estadística y no necesariamente saber cómo se calculan las estadísticas mencionadas anteriormente. Sin embargo, sería útil discutir una suposición que subyace a todos estos procedimientos. Esta es la suposición de que todas las variables observadas se distribuyen aproximadamente de acuerdo con la ley normal. Además, al leer informes sobre investigación psicológica industrial y organizacional, a menudo hay tres conceptos más que juegan un papel importante: en primer lugar, correlación y correlación, en segundo lugar, la variable determinante / predictora y "ANOVA" (análisis de varianza), en tercer lugar , un grupo de métodos estadísticos bajo el nombre general de "meta-análisis".

La investigación generalmente comienza con alguna suposición, que requiere verificación con la participación de hechos. Este supuesto, una hipótesis, se formula en relación con la conexión de fenómenos o propiedades en un determinado conjunto de objetos.

Para probar tales suposiciones sobre los hechos, es necesario medir las propiedades correspondientes de sus portadores. Pero es imposible medir la ansiedad en todas las mujeres y hombres, así como es imposible medir la agresividad en todos los adolescentes. Por lo tanto, al realizar un estudio, se limitan a un grupo relativamente pequeño de representantes de las poblaciones de personas relevantes.

Población- este es el conjunto completo de objetos en relación con los cuales se formula una hipótesis de investigación.

Por ejemplo, todos los hombres; o todas las mujeres; o todos los habitantes de una ciudad. Las poblaciones generales sobre las que el investigador va a sacar conclusiones a partir de los resultados del estudio pueden ser más pequeñas y más modestas, por ejemplo, todos los alumnos de primer grado de una determinada escuela.

Así, la población general es, aunque no infinita en número, pero, por regla general, una multitud de sujetos potenciales inaccesibles para la investigación continua.

Muestra o población muestral- este es un grupo de objetos limitados en número (en psicología - sujetos, encuestados), especialmente seleccionados de la población general para estudiar sus propiedades. En consecuencia, el estudio de las propiedades de la población general en una muestra se llama investigación selectiva. Casi todos investigacion psicologica son selectivos y sus conclusiones se aplican a poblaciones generales.

Así, después de formulada la hipótesis y determinadas las poblaciones generales correspondientes, el investigador se enfrenta al problema de organizar la muestra. La muestra debe ser tal que se justifique la generalización de las conclusiones del estudio de muestra: generalización, su distribución a la población general. Los principales criterios para la validez de las conclusiones del estudio.— estos son la representatividad de la muestra y la validez estadística de los resultados (empíricos).

Representatividad de la muestra- en otras palabras, su representatividad es la capacidad de la muestra para representar los fenómenos estudiados de manera bastante completa - desde el punto de vista de su variabilidad en la población general.

Por supuesto, solo la población en general puede dar una imagen completa del fenómeno en estudio, en toda su gama y matices de variabilidad. Por lo tanto, la representatividad siempre está limitada en la medida en que la muestra es limitada. Y es la representatividad de la muestra el criterio principal para determinar los límites de la generalización de los hallazgos del estudio. No obstante, existen técnicas que permiten obtener una muestra representativa suficiente para el investigador (Estas técnicas se estudian en la asignatura "Psicología Experimental").

La primera y principal técnica es una selección aleatoria simple (aleatorizada). Implica asegurar que cada miembro de la población tenga las mismas posibilidades de ser incluido en la muestra. La selección aleatoria brinda la posibilidad de entrar en la muestra de los más diferentes representantes la población en general. Al mismo tiempo, se toman medidas especiales para excluir la aparición de cualquier regularidad en la selección. Y esto nos permite esperar que al final, en la muestra, la propiedad estudiada esté representada, si no en todos, en su máxima variedad posible.

La segunda forma de garantizar la representatividad es la selección aleatoria estratificada, o selección según las propiedades de la población general. Implica una determinación preliminar de aquellas cualidades que pueden afectar la variabilidad de la propiedad en estudio (puede ser género, nivel de ingresos o educación, etc.). Entonces se determina porcentaje se asegura el número de grupos (estratos) que difieren en estas cualidades en la población general y un porcentaje idéntico de los grupos correspondientes en la muestra. Además, en cada subgrupo de la muestra, los sujetos se seleccionan según el principio de selección aleatoria simple.

Validez estadística, o significación estadística, los resultados del estudio se determinan utilizando métodos de inferencia estadística.

¿Estamos seguros de no cometer errores en la toma de decisiones, con ciertas conclusiones de los resultados del estudio? Por supuesto que no. Después de todo, nuestras decisiones se basan en los resultados de un estudio de una muestra de población, así como en el nivel de nuestro conocimiento psicológico. No somos completamente inmunes a los errores. En estadística, tales errores se consideran aceptables si ocurren no más de un caso de 1000 (probabilidad de error α = 0,001 o el valor asociado de la probabilidad de confianza de la conclusión correcta p = 0,999); en un caso de 100 (probabilidad de error α = 0,01 o el valor asociado de la probabilidad de confianza de la conclusión correcta p = 0,99) o en cinco casos de 100 (probabilidad de error α = 0,05 o el valor asociado de la probabilidad de confianza de la conclusión correcta la salida correcta p=0.95). Es en los dos últimos niveles donde se acostumbra a tomar decisiones en psicología.

A veces, hablando de significancia estadística, se utiliza el concepto de "nivel de significancia" (denotado como α). Los valores numéricos de p y α se complementan entre sí hasta 1000, un conjunto completo de eventos: o llegamos a la conclusión correcta o cometimos un error. Estos niveles no se calculan, se establecen. El nivel de significación puede entenderse como una especie de línea "roja", cuya intersección nos permitirá hablar de este evento como no aleatorio. En todo informe o publicación científica competente, las conclusiones extraídas deben ir acompañadas de una indicación de los valores p o α en los que se realizan las conclusiones.

Los métodos de inferencia estadística se analizan en detalle en el curso "Estadística matemática". Por ahora, solo notamos que imponen ciertos requisitos en el número, o tamaño de la muestra.

Desafortunadamente, no existen recomendaciones estrictas sobre la determinación preliminar del tamaño de muestra requerido. Además, el investigador generalmente recibe una respuesta a la pregunta sobre el número necesario y suficiente demasiado tarde, solo después de analizar los datos de la muestra ya encuestada. Sin embargo, las recomendaciones más generales pueden formularse:

1. Se necesita el tamaño de muestra más grande cuando se desarrolla una técnica de diagnóstico: de 200 a 1000-2500 personas.

2. Si es necesario comparar 2 muestras, su número total debe ser de al menos 50 personas; el número de muestras comparadas debe ser aproximadamente el mismo.

3. Si se está estudiando la relación entre las propiedades, el tamaño de la muestra debe ser de al menos 30-35 personas.

4. Cuanto más variabilidad de la propiedad estudiada, mayor debe ser el tamaño de la muestra. Por tanto, se puede reducir la variabilidad aumentando la homogeneidad de la muestra, por ejemplo, por sexo, edad, etc. Esto, por supuesto, reduce la posibilidad de generalizar conclusiones.

Muestras dependientes e independientes. Una situación de investigación típica es cuando una propiedad de interés para el investigador se estudia en dos o más muestras con el fin de compararlas más. Estas muestras pueden estar en diferentes proporciones, dependiendo del procedimiento para su organización. Muestras independientes se caracterizan por el hecho de que la probabilidad de selección de cualquier sujeto de una muestra no depende de la selección de cualquiera de los sujetos de otra muestra. En contra, muestras dependientes se caracterizan por el hecho de que cada sujeto de una muestra se empareja por un determinado criterio con un sujeto de otra muestra.

En el caso general, las muestras dependientes implican una selección por parejas de sujetos en las muestras comparadas, y las muestras independientes, una selección independiente de sujetos.

Cabe señalar que no se permiten los casos de muestras “parcialmente dependientes” (o “parcialmente independientes”): esto viola su representatividad de manera impredecible.

En conclusión, señalamos que se pueden distinguir dos paradigmas de investigación psicológica.

Así llamado R-metodología implica el estudio de la variabilidad de una determinada propiedad (psicológica) bajo la influencia de alguna influencia, factor u otra propiedad. La muestra es un conjunto de sujetos.

Otro enfoque Q-metodología, implica el estudio de la variabilidad del sujeto (único) bajo la influencia de diversos estímulos (condiciones, situaciones, etc.). Corresponde a la situación cuando la muestra es un conjunto de estimulos.

La significación estadística de un resultado (valor p) es una medida estimada de confianza en su "verdadero" (en el sentido de "representatividad de la muestra"). Más técnicamente, el valor p es una medida que tiene una relación decreciente con la confiabilidad del resultado. Más alto valor p corresponde a un menor nivel de confianza en la dependencia entre variables encontradas en la muestra. Es decir, el valor p representa la probabilidad de error asociada con la distribución del resultado observado a toda la población. Por ejemplo, el valor p = 0,05 (es decir, 1/20) indica que existe un 5 % de probabilidad de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de esta muestra. En otras palabras, si esta relación no existe en la población, y usted realizaría experimentos similares muchas veces, entonces en aproximadamente una de cada veinte repeticiones del experimento esperaría la misma o más fuerte relación entre las variables.

En muchos estudios, un valor p de 0,05 se considera un "límite aceptable" para el nivel de error.

No hay forma de evitar la arbitrariedad al decidir qué nivel de significación debe considerarse realmente "significativo". La elección de un cierto nivel de significación por encima del cual los resultados se rechazan como falsos es bastante arbitraria. En la práctica, la decisión final suele depender de si el resultado se predijo a priori (es decir, antes de realizar el experimento) o se descubrió a posteriori como resultado de muchos análisis y comparaciones realizadas con una gran cantidad de datos, así como de la tradición que existe en este campo de investigación. Por lo general, en muchos dominios, un resultado de p 0,05 es un margen aceptable de significación estadística, sin embargo, debe recordarse que este nivel aún incluye una probabilidad de error bastante grande (5%). Los resultados significativos en p 0,01 generalmente se consideran estadísticamente significativos y los resultados en p 0,005 o p 0,001 como altamente significativos. Sin embargo, debe entenderse que esta clasificación de los niveles de significación es bastante arbitraria y es solo un acuerdo informal basado en experiencia práctica en cualquier área de investigación dada.

Como ya se mencionó, la magnitud de la dependencia y la confiabilidad son dos varias caracteristicas dependencias entre variables. Sin embargo, no se puede decir que sean completamente independientes. hablando lenguaje común, cuanto mayor es la magnitud de la relación (conexión) entre variables en una muestra de tamaño normal, más confiable es.

Si suponemos que no existe relación entre las variables correspondientes en la población, entonces lo más probable es que en la muestra en estudio tampoco exista relación entre estas variables. Así, cuanto más fuerte se encuentra la relación en la muestra, menos probable es que esta relación no se encuentre en la población de la que se extrae.

El tamaño de la muestra afecta la importancia de la relación. Si hay pocas observaciones, entonces hay, en consecuencia, pocas combinaciones posibles de valores para estas variables y, por lo tanto, la probabilidad de encontrar accidentalmente una combinación de valores que muestre una fuerte dependencia es relativamente alta.

Cómo se calcula el nivel de significación estadística. Suponga que ya ha calculado una medida de la relación entre dos variables (como se explicó anteriormente). La siguiente pregunta que tienes ante ti es: "¿Qué importancia tiene esta adicción?" Por ejemplo, ¿es suficiente el 40% de la varianza explicada entre dos variables para que una relación sea significativa? Respuesta: "dependiendo de las circunstancias". Es decir, la significación depende principalmente del tamaño de la muestra. Como ya se explicó, en muestras muy grandes, incluso las relaciones muy débiles entre variables serán significativas, mientras que en muestras pequeñas, incluso las relaciones muy fuertes no son confiables. Por lo tanto, para determinar el nivel de significación estadística, se necesita una función que represente la relación entre la "magnitud" y la "significación" de la relación entre variables para cada tamaño de muestra. Esta función le diría exactamente "cuán probable es obtener una relación de un valor dado (o más) en una muestra de un tamaño dado, asumiendo que no existe tal relación en la población". En otras palabras, esta función daría un nivel de significación (valor p) y, por lo tanto, la probabilidad de rechazar falsamente la suposición de que no existe una relación determinada en la población. Esta hipótesis "alternativa" (que no existe dependencia en la población) suele denominarse hipótesis nula. Sería ideal si la función que calcula la probabilidad de error fuera lineal y solo tuviera diferentes pendientes para diferentes tamaños de muestra. Desafortunadamente, esta función es mucho más compleja y no siempre es exactamente igual. Sin embargo, en la mayoría de los casos se conoce su forma y se puede utilizar para determinar los niveles de significación al examinar muestras de un tamaño determinado. La mayoría de estas funciones están relacionadas con una clase muy importante de distribuciones llamadas normales.

Considere un ejemplo típico de la aplicación de métodos estadísticos en medicina. Los creadores de la droga sugieren que aumenta la diuresis en proporción a la dosis tomada. Para probar esta suposición, dan a cinco voluntarios diferentes dosis de la droga.

De acuerdo con los resultados de las observaciones, se traza una gráfica de diuresis versus dosis (Fig. 1.2A). La dependencia es visible a simple vista. Los investigadores se felicitan mutuamente por el descubrimiento y felicitan al mundo por el nuevo diurético.

De hecho, los datos nos permiten afirmar de forma fiable sólo que la dependencia de la diuresis de la dosis se observó en estos cinco voluntarios. El hecho de que esta dependencia se manifieste en todas las personas que tomen la droga no es más que una conjetura.
WJ

desde

zhenie. No se puede decir que no tiene fundamento; de lo contrario, ¿por qué experimentar?

Pero ahora la droga está en el mercado. Cada vez más personas lo toman con la esperanza de aumentar su diuresis. Y ¿qué vemos? Vemos la figura 1.2B, que indica la ausencia de relación entre la dosis del fármaco y la diuresis. Los círculos negros representan datos del estudio original. La estadística tiene métodos para estimar la probabilidad de obtener una muestra tan "no representativa", además, confusa. Resulta que en ausencia de una relación entre la diuresis y la dosis de la droga, la "dependencia" resultante se observaría en aproximadamente 5 de 1000 experimentos. Entonces, en este caso, los investigadores simplemente no tuvieron suerte. Incluso si aplicaran los métodos estadísticos más perfectos, no los salvaría del error.

Este ejemplo ficticio, pero nada alejado de la realidad, lo citamos no para señalar la inutilidad
Estadísticas. Habla de otra cosa, de la naturaleza probabilística de sus conclusiones. Como resultado de aplicar el método estadístico, no obtenemos la verdad última, sino solo una estimación de la probabilidad de una suposición particular. Además, cada método estadístico se basa en su propio modelo matemático y sus resultados son correctos en la medida en que este modelo se corresponde con la realidad.

Más sobre FIABILIDAD Y SIGNIFICADO ESTADÍSTICO:

Diferencias estadísticamente significativas en indicadores de calidad de vida
Agregado estadístico. Signos de cuenta. El concepto de investigación continua y selectiva. Requisitos para la población estadística y el uso de documentos contables y de informes
ENSAYO. ESTUDIO DE LA CONFIABILIDAD DE LAS LECTURAS DEL TONÓMETRO PARA MEDIR LA PRESIÓN INTRAOCULAR A TRAVÉS DEL PÁRPADO2018, 2018

El concepto de significación estadística

Validez estadística es de gran importancia en la práctica de liquidación de la FCC. Se señaló anteriormente que se pueden seleccionar muchas muestras de la misma población:

Si se eligen correctamente, sus indicadores promedio e indicadores de la población general difieren ligeramente entre sí en la magnitud del error de representatividad, teniendo en cuenta la confiabilidad aceptada;

Si se eligen entre diferentes poblaciones generales, la diferencia entre ellos resulta significativa. La comparación de muestras se considera comúnmente en estadística;

Si difieren insignificantemente, sin importancia, insignificantemente, es decir, en realidad pertenecen a la misma población general, la diferencia entre ellos se llama estadísticamente poco confiable.

Estadísticamente significante una diferencia de muestra es una muestra que difiere significativa y fundamentalmente, es decir, pertenece a diferentes poblaciones generales.

En la FCC, evaluar la significación estadística de las diferencias de muestra significa resolver muchos problemas prácticos. Por ejemplo, la introducción de nuevos métodos de enseñanza, programas, conjuntos de ejercicios, pruebas, ejercicios de control está asociada con su verificación experimental, que debería mostrar que el grupo de prueba es fundamentalmente diferente del grupo de control. Por lo tanto, se utilizan métodos estadísticos especiales, llamados criterios de significación estadística, permitiendo detectar la presencia o ausencia de una diferencia estadísticamente significativa entre las muestras.

Todos los criterios se dividen en dos grupos: paramétricos y no paramétricos. Criterios paramétricos prever la presencia obligatoria de una ley de distribución normal, es decir, esto se refiere a la determinación obligatoria de los principales indicadores de la ley normal: la media aritmética X y la desviación estándar sobre. Los criterios paramétricos son los más precisos y correctos. Pruebas no paramétricas se basan en las diferencias de rango (ordinales) entre los elementos de las muestras.

Estos son los principales criterios de significación estadística utilizados en la práctica de la FCC: prueba de Student, prueba de Fisher, prueba de Wilcoxon, prueba de White, prueba de Van der Waerden (prueba de signos).

criterio del alumno el nombre del científico inglés C. Gosset (Student es un seudónimo), quien descubrió este método. El criterio del estudiante es paramétrico, utilizado para comparar los valores absolutos de las muestras. Las muestras pueden variar en tamaño.

El criterio del estudiante se define de la siguiente manera.

1. Encuentra el criterio del estudiante t de acuerdo con la siguiente fórmula:

donde xi, x 2 - media aritmética de las muestras comparadas; /i b w 2 - errores de representatividad identificados sobre la base de los indicadores de las muestras comparadas.

2. La práctica en la FCC ha demostrado que para el trabajo deportivo basta con aceptar la fiabilidad de la puntuación R= 0,95.

63 Para la confiabilidad de la cuenta: P= 0,95 (a = 0,05), con el número de grados; libertad k= «! + n 2 - 2 según la tabla de aplicación 4 encontramos el valor \ bueno, el valor límite del criterio (^gr).

3. Con base en las propiedades de la ley de distribución normal, se hace una comparación en la prueba de Student t Y t^.

4. Sacar conclusiones:

Si t> ftp, entonces la diferencia entre las muestras comparadas es estadísticamente significativa;

Si t< 7 F, entonces la diferencia no es estadísticamente significativa.

Para los investigadores en el campo de la FCC, la evaluación de la significación estadística es el primer paso para resolver un problema específico: fundamentalmente o no fundamentalmente difieren entre; muestras comparables. El siguiente paso es; evaluación de esta diferencia desde un punto de vista pedagógico, que está determinado por la condición del problema.