significancia estadística. Fiabilidad y significación estadística

FUNCIÓN PAGADA. La función de significancia estadística solo está disponible con algunos planes de precios. Comprueba si está en .

Puede averiguar si existen diferencias estadísticamente significativas en las respuestas recibidas de diferentes grupos de encuestados a las preguntas de la encuesta. Para trabajar con la función de significancia estadística en SurveyMonkey, debe:

Habilite la función de significancia estadística al agregar una regla de comparación a una pregunta en su encuesta. Seleccione Grupos de comparación para ordenar los resultados de la encuesta en grupos para facilitar la comparación.
Examine las tablas de datos de las preguntas de su encuesta para determinar si existen diferencias estadísticamente significativas en las respuestas recibidas de diferentes grupos de encuestados.

Visualización de la importancia estadística

Siguiendo los pasos a continuación, puede crear una encuesta que muestre la importancia estadística.

1. Agregue preguntas cerradas a su encuesta

Para mostrar la importancia estadística durante el análisis de los resultados, deberá aplicar una regla de comparación a cualquier pregunta de su encuesta.

Puede aplicar una regla de comparación y calcular la importancia estadística en las respuestas si utiliza uno de los siguientes en el diseño de su encuesta. los siguientes tipos preguntas:

Es necesario asegurarse de que las opciones de respuesta propuestas se puedan dividir en grupos completos. Las opciones de respuesta que seleccione para la comparación cuando cree una regla de comparación se utilizarán para realizar una tabulación cruzada de sus datos a lo largo de la encuesta.

2. Recoger respuestas

Una vez que haya completado su encuesta, cree un recopilador para distribuirla. Hay varias formas.

Debe obtener al menos 30 respuestas para cada opción de respuesta que planea usar en su regla de comparación para activar y ver la importancia estadística.

Ejemplo de encuesta

Quiere saber si los hombres están significativamente más satisfechos con sus productos que las mujeres.

Agregue dos preguntas de opción múltiple a su encuesta:
¿Cuál es su género? (Macho femenino)
¿Está satisfecho o insatisfecho con nuestro producto? (satisfecho (-flax), insatisfecho (-flax))
Asegúrese de que al menos 30 encuestados elijan 'masculino' para la pregunta de género, Y TAMBIÉN que al menos 30 encuestados seleccionen 'femenino' como su género.
Agregue una regla de comparación a la pregunta "¿Cuál es su género?" y seleccione ambas respuestas como sus grupos.
Utilice la hoja de datos debajo del cuadro de preguntas "¿Está satisfecho o insatisfecho con nuestro producto?" para ver si alguna de las opciones de respuesta muestra una diferencia estadísticamente significativa

¿Qué es una diferencia estadísticamente significativa?

Una diferencia estadísticamente significativa significa que, utilizando un análisis estadístico, existen diferencias significativas entre las respuestas de un grupo de encuestados y las respuestas de otro grupo. Significancia estadística significa que los números obtenidos son significativamente diferentes. Dicho conocimiento lo ayudará en gran medida en el análisis de datos. Sin embargo, la importancia de los resultados obtenidos la determina usted. Eres tú quien decide cómo interpretar los resultados de las encuestas y qué acciones se deben tomar en base a ellos.

Por ejemplo, recibe más reclamos de compradoras que de compradores masculinos. ¿Cómo determinar si tal diferencia es real y si es necesario actuar al respecto? Una excelente manera de probar sus observaciones es realizar una encuesta que le muestre si los clientes masculinos están significativamente más satisfechos con su producto. Con la ayuda de una fórmula estadística, nuestra función de significancia estadística propuesta le permitirá determinar si su producto realmente gusta más a los hombres que a las mujeres. Esto le permitirá tomar medidas basadas en hechos, no en conjeturas.

Diferencia estadísticamente significativa

Si sus resultados están resaltados en la tabla de datos, esto significa que los dos grupos de encuestados son significativamente diferentes entre sí. El término “significativamente” no significa que las cifras obtenidas sean de especial importancia o significado, sino únicamente que existe una diferencia estadística entre ellas.

Sin diferencia estadísticamente significativa

Si sus resultados no están resaltados en la tabla de datos correspondiente, significa que, a pesar de la posible diferencia en las dos cifras comparadas, no existe una diferencia estadística entre ellas.

Las respuestas sin diferencias estadísticamente significativas demuestran que no hay una diferencia significativa entre los dos elementos que se comparan para el tamaño de muestra que utiliza, pero esto no significa necesariamente que no importen. Tal vez al aumentar el tamaño de la muestra, podrá identificar una diferencia estadísticamente significativa.

Tamaño de la muestra

Si tiene un tamaño de muestra muy pequeño, solo las diferencias muy grandes entre los dos grupos serán significativas. Si tiene un tamaño de muestra muy grande, tanto las diferencias pequeñas como las grandes se considerarán significativas.

Sin embargo, el hecho de que dos números sean estadísticamente diferentes no significa que la diferencia entre los resultados sea significativa para usted. valor práctico. Tendrá que decidir por sí mismo qué diferencias son significativas para su encuesta.

Cálculo de la significancia estadística

Calculamos la significancia estadística utilizando el nivel de confianza estándar del 95%. Si una opción de respuesta se muestra como estadísticamente significativa, significa que hay menos del 5 % de probabilidad de que haya una diferencia entre los dos grupos debido solo al azar o al error de muestreo (a menudo se muestra como: p<0,05).

Para calcular diferencias estadísticamente significativas entre grupos, utilizamos las siguientes fórmulas:

Parámetro	Descripción
a1	La proporción de participantes del primer grupo que respondieron la pregunta de cierta manera, multiplicada por el tamaño de la muestra de este grupo.
b1	La proporción de participantes del segundo grupo que respondieron la pregunta de cierta manera, multiplicada por el tamaño de la muestra de este grupo.
Cuota de muestra consolidada (p)	La suma de dos acciones de ambos grupos.
Error estándar (SE)	Una medida de cuánto difiere su parte de su parte real. Un valor menor significa que la participación es cercana a la participación real, un valor mayor significa que la participación es significativamente diferente de la participación real.
Estadística de prueba (t)	Estadística de prueba. El número de valores de desviación estándar por los que este valor difiere de la media.
Significancia estadística	Si el valor absoluto de la estadística de prueba excede 1,96* desviaciones estándar de la media, se considera una diferencia estadísticamente significativa.

*1,96 es el valor utilizado para el nivel de confianza del 95 %, porque el 95 % del rango procesado por la prueba t de Student se encuentra dentro de 1,96 desviaciones estándar de la media.

Ejemplo de cálculo

Continuando con el ejemplo anterior, averigüemos si el porcentaje de hombres que dicen estar satisfechos con tu producto es en realidad significativamente mayor que el porcentaje de mujeres.

Digamos que 1000 hombres y 1000 mujeres participaron en su encuesta, y como resultado de la encuesta resultó que el 70% de los hombres y el 65% de las mujeres dicen que están satisfechos con su producto. ¿Es la puntuación del 70 % significativamente más alta que la puntuación del 65 %?

Sustituya los siguientes datos de la encuesta en las fórmulas sugeridas:

p1 (% de hombres satisfechos con el producto) = 0,7
p2 (% de mujeres satisfechas con el producto) = 0,65
n1 (número de hombres entrevistados) = 1000
n2 (número de mujeres entrevistadas) = 1000

Dado que el valor absoluto de la estadística de prueba es superior a 1,96, esto significa que la diferencia entre hombres y mujeres es significativa. En comparación con las mujeres, es más probable que los hombres estén satisfechos con su producto.

Ocultar la significación estadística

Cómo ocultar la importancia estadística para todas las preguntas

Haga clic en la flecha hacia abajo a la derecha de la regla de comparación en la barra lateral izquierda.
selecciona un artículo Editar regla.
Deshabilitar función Mostrar significación estadística usando el interruptor.
Clic en el botón Aplicar.

Para ocultar la importancia estadística de una sola pregunta, debe:

Clic en el botón Melodía encima del diagrama de preguntas.
abrir una pestaña Opciones de pantalla.
Desmarque la casilla junto a Significancia estadística.
Clic en el botón Salvar.

La opción de visualización se habilita automáticamente cuando se habilita la visualización de significación estadística. Si desmarca esta opción de visualización, la visualización de significación estadística también se desactivará.

Active la función de significancia estadística cuando agregue una regla de comparación a una pregunta en su encuesta. Examine las tablas de datos de las preguntas de su encuesta para identificar cualquier diferencia estadísticamente significativa en las respuestas recibidas de diferentes grupos de encuestados.

La investigación generalmente comienza con alguna suposición, que requiere verificación con la participación de hechos. Este supuesto, una hipótesis, se formula en relación con la conexión de fenómenos o propiedades en un determinado conjunto de objetos.

Para probar tales suposiciones sobre los hechos, es necesario medir las propiedades correspondientes de sus portadores. Pero es imposible medir la ansiedad en todas las mujeres y hombres, así como es imposible medir la agresividad en todos los adolescentes. Por lo tanto, al realizar un estudio, se limitan a un grupo relativamente pequeño de representantes de las poblaciones de personas relevantes.

Población- este es el conjunto completo de objetos en relación con los cuales se formula una hipótesis de investigación.

Por ejemplo, todos los hombres; o todas las mujeres; o todos los habitantes de una ciudad. Las poblaciones generales sobre las que el investigador va a sacar conclusiones a partir de los resultados del estudio pueden ser más pequeñas y más modestas, por ejemplo, todos los alumnos de primer grado de una determinada escuela.

Así, la población general es, aunque no infinita en número, pero, por regla general, una multitud de sujetos potenciales inaccesibles para la investigación continua.

Muestra o población muestral- este es un grupo de objetos limitados en número (en psicología - sujetos, encuestados), especialmente seleccionados de población para estudiar sus propiedades. En consecuencia, el estudio de las propiedades de la población general en una muestra se llama investigación selectiva. Casi todos los estudios psicológicos son selectivos y sus conclusiones se aplican a la población general.

Así, después de formulada la hipótesis y determinadas las poblaciones generales correspondientes, el investigador se enfrenta al problema de organizar la muestra. La muestra debe ser tal que se justifique la generalización de las conclusiones del estudio de muestra: generalización, su distribución a la población general. Los principales criterios para la validez de las conclusiones del estudio.— estos son la representatividad de la muestra y la validez estadística de los resultados (empíricos).

Representatividad de la muestra- en otras palabras, su representatividad es la capacidad de la muestra para representar los fenómenos estudiados de manera bastante completa - desde el punto de vista de su variabilidad en la población general.

Por supuesto, solo la población en general puede dar una imagen completa del fenómeno en estudio, en toda su gama y matices de variabilidad. Por lo tanto, la representatividad siempre está limitada en la medida en que la muestra es limitada. Y es la representatividad de la muestra el criterio principal para determinar los límites de la generalización de los hallazgos del estudio. No obstante, existen técnicas que permiten obtener una muestra representativa suficiente para el investigador (Estas técnicas se estudian en la asignatura "Psicología Experimental").

La primera y principal técnica es una selección aleatoria simple (aleatorizada). Implica asegurar que cada miembro de la población tenga las mismas posibilidades de ser incluido en la muestra. La selección aleatoria brinda la posibilidad de ingresar a la muestra de los representantes más diversos de la población general. Al mismo tiempo, se toman medidas especiales para excluir la aparición de cualquier regularidad en la selección. Y esto nos permite esperar que al final, en la muestra, la propiedad estudiada esté representada, si no en todos, en su máxima variedad posible.

La segunda forma de garantizar la representatividad es la selección aleatoria estratificada, o selección según las propiedades de la población general. Implica una determinación preliminar de aquellas cualidades que pueden afectar la variabilidad de la propiedad en estudio (puede ser género, nivel de ingresos o educación, etc.). Luego se determina la razón porcentual del número de grupos (estratos) que difieren en estas cualidades en la población general y se proporciona una razón porcentual idéntica de los grupos correspondientes en la muestra. Además, en cada subgrupo de la muestra, los sujetos se seleccionan según el principio de selección aleatoria simple.

Validez estadística, o significación estadística, los resultados del estudio se determinan utilizando métodos de inferencia estadística.

¿Estamos seguros de no cometer errores en la toma de decisiones, con ciertas conclusiones de los resultados del estudio? Por supuesto que no. Después de todo, nuestras decisiones se basan en los resultados de un estudio de una muestra de población, así como en el nivel de nuestro conocimiento psicológico. No somos completamente inmunes a los errores. En estadística, tales errores se consideran aceptables si ocurren no más de un caso de 1000 (probabilidad de error α = 0,001 o el valor asociado de la probabilidad de confianza de la conclusión correcta p = 0,999); en un caso de 100 (probabilidad de error α = 0,01 o el valor asociado de la probabilidad de confianza de la conclusión correcta p = 0,99) o en cinco casos de 100 (probabilidad de error α = 0,05 o el valor asociado de la probabilidad de confianza de la conclusión correcta la salida correcta p=0.95). Es en los dos últimos niveles donde se acostumbra a tomar decisiones en psicología.

A veces, hablando de significancia estadística, se utiliza el concepto de "nivel de significancia" (denotado como α). Los valores numéricos de p y α se complementan entre sí hasta 1000, un conjunto completo de eventos: o llegamos a la conclusión correcta o cometimos un error. Estos niveles no se calculan, se establecen. El nivel de significación puede entenderse como una especie de línea "roja", cuya intersección nos permitirá hablar de este evento como no aleatorio. En todo informe o publicación científica competente, las conclusiones extraídas deben ir acompañadas de una indicación de los valores p o α en los que se realizan las conclusiones.

Los métodos de inferencia estadística se analizan en detalle en el curso "Estadística matemática". Por ahora, solo notamos que imponen ciertos requisitos en el número, o tamaño de la muestra.

Desafortunadamente, no existen recomendaciones estrictas sobre la determinación preliminar del tamaño de muestra requerido. Además, el investigador generalmente recibe una respuesta a la pregunta sobre el número necesario y suficiente demasiado tarde, solo después de analizar los datos de la muestra ya encuestada. Sin embargo, las recomendaciones más generales pueden formularse:

1. Se necesita el tamaño de muestra más grande cuando se desarrolla una técnica de diagnóstico: de 200 a 1000-2500 personas.

2. Si es necesario comparar 2 muestras, su número total debe ser de al menos 50 personas; el número de muestras comparadas debe ser aproximadamente el mismo.

3. Si se está estudiando la relación entre las propiedades, el tamaño de la muestra debe ser de al menos 30-35 personas.

4. Cuanto más variabilidad de la propiedad estudiada, mayor debe ser el tamaño de la muestra. Por tanto, se puede reducir la variabilidad aumentando la homogeneidad de la muestra, por ejemplo, por sexo, edad, etc. Esto, por supuesto, reduce la posibilidad de generalizar conclusiones.

Muestras dependientes e independientes. Una situación de investigación típica es cuando una propiedad de interés para el investigador se estudia en dos o más muestras con el fin de compararlas más. Estas muestras pueden estar en diferentes proporciones, dependiendo del procedimiento para su organización. Muestras independientes se caracterizan por el hecho de que la probabilidad de selección de cualquier sujeto de una muestra no depende de la selección de cualquiera de los sujetos de otra muestra. En contra, muestras dependientes se caracterizan por el hecho de que cada sujeto de una muestra se empareja por un determinado criterio con un sujeto de otra muestra.

En el caso general, las muestras dependientes implican una selección por parejas de sujetos en las muestras comparadas, y las muestras independientes, una selección independiente de sujetos.

Cabe señalar que no se permiten los casos de muestras “parcialmente dependientes” (o “parcialmente independientes”): esto viola su representatividad de manera impredecible.

En conclusión, señalamos que se pueden distinguir dos paradigmas de investigación psicológica.

Así llamado R-metodología implica el estudio de la variabilidad de una determinada propiedad (psicológica) bajo la influencia de alguna influencia, factor u otra propiedad. La muestra es un conjunto de sujetos.

Otro enfoque Q-metodología, implica el estudio de la variabilidad del sujeto (único) bajo la influencia de diversos estímulos (condiciones, situaciones, etc.). Corresponde a la situación cuando la muestra es un conjunto de estimulos.

En cualquier situación científica y práctica de un experimento (encuesta), los investigadores no pueden estudiar a todas las personas (población general, población), sino solo a una determinada muestra. Por ejemplo, incluso si estamos examinando a un grupo relativamente pequeño de personas, como aquellas con una enfermedad en particular, es muy poco probable que tengamos los recursos o la necesidad de evaluar a todos los pacientes. En cambio, generalmente se prueba una muestra de la población porque es más conveniente y toma menos tiempo. En ese caso, ¿cómo sabemos que los resultados obtenidos de la muestra representan a todo el grupo? O, para usar terminología profesional, ¿podemos estar seguros de que nuestro estudio describe correctamente todo el población, la muestra de la que utilizamos?

Para responder a esta pregunta, es necesario determinar la significación estadística de los resultados de la prueba. Significancia estadística (Nivel significante, abreviado Sig.), o /7-nivel de significación (nivel p) - es la probabilidad de que un resultado dado represente correctamente a la población de la que se estudió la muestra. Tenga en cuenta que esto es sólo probabilidad- es imposible decir con absoluta certeza que este estudio describe correctamente a toda la población. En el mejor de los casos, solo se puede concluir a partir del nivel de significancia que esto es altamente probable. Surge entonces inevitablemente la siguiente pregunta: ¿cuál debe ser el nivel de significancia para considerar este resultado como una correcta caracterización de la población?

Por ejemplo, ¿a qué valor de probabilidad está dispuesto a decir que esas probabilidades son suficientes para correr un riesgo? ¿Si las posibilidades son 10 de 100 o 50 de 100? Pero, ¿y si esta probabilidad es mayor? ¿Qué pasa con probabilidades como 90 de 100, 95 de 100 o 98 de 100? Para una situación asociada al riesgo, esta elección es bastante problemática, pues depende de las características personales de la persona.

En psicología, tradicionalmente se cree que una probabilidad de 95 o más sobre 100 significa que la probabilidad de que los resultados sean correctos es lo suficientemente alta como para generalizarse a toda la población. Esta cifra se estableció en el proceso de la actividad científica y práctica: no existe una ley según la cual deba elegirse como guía (y, de hecho, en otras ciencias, a veces se eligen otros valores del nivel de significación).

En psicología, esta probabilidad se maneja de una manera un tanto inusual. En lugar de la probabilidad de que la muestra represente una población, la probabilidad de que la muestra sea no representa población. En otras palabras, es la probabilidad de que la relación o las diferencias descubiertas sean aleatorias y no una propiedad de la población. Por lo tanto, en lugar de decir que los resultados de un estudio son 95 de 100 correctos, los psicólogos dicen que hay una probabilidad de 5 de 100 de que los resultados sean incorrectos (de manera similar, 40 de 100 posibilidades a favor de que los resultados sean correctos significa 60 de 100 posibilidades a favor de su error). El valor de probabilidad a veces se expresa como un porcentaje, pero más a menudo se escribe como una fracción decimal. Por ejemplo, 10 posibilidades de 100 se representan como una fracción decimal de 0,1; 5 de 100 se escribe como 0,05; 1 en 100 - 0,01. Con esta forma de registro, el valor límite es 0,05. Para que un resultado se considere correcto, su nivel de significación debe ser debajo este número (recuerde que esta es la probabilidad de que el resultado no está bien describe a la población. Para acabar con la terminología, añadimos que la "probabilidad de resultado erróneo" (que se llama más correctamente Nivel significativo) generalmente denotado por la letra latina r La descripción de los resultados del experimento suele incluir una conclusión resumida, como "los resultados fueron significativos al nivel de significación (R(p) menos de 0,05 (es decir, menos del 5%).

Así, el nivel de significancia ( R) indica la probabilidad de que los resultados no representar a la población. Por tradición en psicología, se cree que los resultados reflejan de manera confiable el panorama general, si el valor R menos de 0,05 (es decir, 5%). Sin embargo, esto es solo una afirmación probabilística y no una garantía incondicional. En algunos casos, esta conclusión puede ser incorrecta. De hecho, podemos calcular con qué frecuencia puede suceder esto si observamos la magnitud del nivel de significación. A un nivel de significación de 0,05, en 5 de cada 100 casos, los resultados probablemente sean incorrectos. 11a a primera vista parece que esto no es muy frecuente, pero si lo piensas bien, entonces 5 posibilidades de 100 es lo mismo que 1 de 20. En otras palabras, en uno de cada 20 casos el resultado será estar equivocado. Tales probabilidades no parecen particularmente favorables, y los investigadores deben tener cuidado de cometer errores del primer tipo. Así se llama el error que se produce cuando los investigadores creen haber encontrado resultados reales, pero en realidad no los hay. Los errores opuestos, consistentes en que los investigadores creen que no han encontrado un resultado, pero en realidad lo hay, se denominan errores del segundo tipo.

Estos errores surgen porque no se puede descartar la posibilidad de un análisis estadístico incorrecto. La probabilidad de error depende del nivel de significación estadística de los resultados. Ya hemos señalado que para que el resultado se considere correcto, el nivel de significancia debe estar por debajo de 0,05. Por supuesto, algunos resultados son más bajos, y no es raro encontrar resultados tan bajos como 0,001 (un valor de 0,001 indica una probabilidad de 1 en 1000 de estar equivocado). Cuanto menor sea el valor de p, mayor será nuestra confianza en la exactitud de los resultados.

En mesa. 7.2 muestra la interpretación tradicional de los niveles de significación sobre la posibilidad de inferencia estadística y la justificación de la decisión sobre la presencia de una conexión (diferencias).

Tabla 7.2

Interpretación Tradicional de los Niveles de Significación Utilizados en Psicología

Con base en la experiencia de la investigación práctica, se recomienda que, para evitar errores del primer y segundo tipo, al hacer conclusiones responsables, se deben tomar decisiones sobre la presencia de diferencias (conexiones), centrándose en el nivel. R n firmar

Prueba estadística(Prueba Estadística - es una herramienta para determinar el nivel de significación estadística. Esta es una regla de decisión que asegura que se acepta una hipótesis verdadera y se rechaza una falsa con alta probabilidad.

Los criterios estadísticos también indican el método para calcular un cierto número y este número en sí. Todos los criterios se utilizan con un objetivo principal: determinar Nivel significativo los datos que analizan (es decir, la probabilidad de que los datos reflejen el verdadero efecto que representa correctamente a la población de la que se extrajo la muestra).

Algunos criterios solo se pueden usar para datos distribuidos normalmente (y si la característica se mide en una escala de intervalo); estos criterios generalmente se denominan paramétrico. Con la ayuda de otros criterios, puede analizar datos con casi cualquier ley de distribución: se denominan no paramétrico

Criterios paramétricos: criterios que incluyen parámetros de distribución en la fórmula de cálculo, es decir, medias y varianzas (prueba t de Student, prueba F de Fisher, etc.).

Criterios no paramétricos: criterios que no incluyen parámetros de distribución en la fórmula para calcular distribuciones y se basan en rangos o frecuencias operativas (criterio q Rosenbaum, criterio tu Maná - Whitney

Por ejemplo, cuando decimos que la importancia de las diferencias se determinó mediante la prueba t de Student, queremos decir que se utilizó el método de la prueba t de Student para calcular el valor empírico, que luego se compara con el valor tabular (crítico).

De acuerdo con la relación de los valores empíricos (calculamos) y críticos del criterio (tabla), podemos juzgar si nuestra hipótesis se confirma o se refuta. En la mayoría de los casos, para que reconozcamos las diferencias como significativas, es necesario que el valor empírico del criterio supere al crítico, aunque existen criterios (por ejemplo, la prueba de Mann-Whitney o la prueba de los signos) en los que debemos adherirnos a la regla opuesta.

En algunos casos, la fórmula de cálculo del criterio incluye el número de observaciones en la muestra de estudio, denotado como pags. Usando una tabla especial, determinamos qué nivel de significancia estadística de las diferencias corresponde a un valor empírico dado. En la mayoría de los casos, el mismo valor empírico del criterio puede resultar significativo o no significativo, dependiendo del número de observaciones en la muestra de estudio ( PAGS ) o de los llamados número de grados de libertad , que se denota como v (g>) o ambos d.f. (a veces D).

Conocimiento PAGS o el número de grados de libertad, podemos determinar los valores críticos del criterio utilizando tablas especiales (las principales se dan en el Apéndice 5) y comparar el valor empírico obtenido con ellos. Suele escribirse así: norte = 22 valores críticos del criterio son tSt = 2.07" o "en v (D) = 2, los valores críticos del criterio de Student son = 4,30” y los denominados.

Sin embargo, por lo general se da preferencia a los criterios paramétricos, y nos adherimos a esta posición. Se consideran más fiables y pueden proporcionar más información y un análisis más profundo. En cuanto a la complejidad de los cálculos matemáticos, al utilizar programas de computador esta dificultad desaparece (pero algunas otras parecen, sin embargo, bastante superables).

En este libro de texto, no tratamos en detalle el problema de la estadística
hipótesis (cero - R0 y alternativa - Hj) y decisiones estadísticas, ya que los estudiantes de psicología estudian esto por separado en la disciplina "Métodos matemáticos en psicología". Además, cabe señalar que al preparar un informe de investigación (trabajo final o tesis, publicación), generalmente no se dan hipótesis estadísticas y soluciones estadísticas. Por lo general, al describir los resultados, se indica un criterio, se dan las estadísticas descriptivas necesarias (medias, sigma, coeficientes de correlación, etc.), valores empíricos de los criterios, grados de libertad y necesariamente el nivel de significancia p. Luego se formula una conclusión significativa en relación con la hipótesis que se está probando, indicando (generalmente en forma de desigualdad) el nivel de significación alcanzado o no alcanzado.

El nivel de significancia en las estadísticas es un indicador importante que refleja el grado de confianza en la precisión y veracidad de los datos recibidos (predichos). El concepto es ampliamente utilizado en varios campos: desde la investigación sociológica hasta la comprobación estadística de hipótesis científicas.

Definición

El nivel de significación estadística (o resultado estadísticamente significativo) muestra cuál es la probabilidad de ocurrencia aleatoria de los indicadores estudiados. La significación estadística general del fenómeno se expresa mediante el valor p (nivel p). En cualquier experimento u observación, existe la posibilidad de que los datos obtenidos surgieran debido a errores de muestreo. Esto es especialmente cierto para la sociología.

Es decir, un valor es estadísticamente significativo, cuya probabilidad de ocurrencia aleatoria es extremadamente pequeña o tiende a los extremos. El extremo en este contexto es el grado de desviación de las estadísticas de la hipótesis nula (una hipótesis cuya consistencia se prueba con los datos de muestra obtenidos). En la práctica científica, el nivel de significancia se elige antes de la recolección de datos y, por regla general, su coeficiente es 0,05 (5%). Para sistemas donde los valores precisos son críticos, esto puede ser 0.01 (1%) o menos.

Antecedentes

El concepto de nivel de significación fue introducido por el estadístico y genetista británico Ronald Fisher en 1925 cuando estaba desarrollando un método para probar hipótesis estadísticas. Al analizar cualquier proceso, existe una cierta probabilidad de ciertos fenómenos. Surgen dificultades cuando se trabaja con porcentajes pequeños (o no obvios) de probabilidades que caen bajo el concepto de "error de medición".

Al trabajar con estadísticas que no eran lo suficientemente específicas para ser probadas, los científicos se enfrentaban al problema de la hipótesis nula, que “impide” operar con valores pequeños. Fisher propuso que tales sistemas determinen la probabilidad de eventos al 5% (0.05) como un corte de muestra conveniente que permite rechazar la hipótesis nula en los cálculos.

Introducción de un coeficiente fijo

en 1933 científicos jerzy Neumann y Egon Pearson en sus artículos recomendaron establecer un cierto nivel de significación por adelantado (antes de la recopilación de datos). Los ejemplos del uso de estas reglas son claramente visibles durante las elecciones. Supongamos que hay dos candidatos, uno de los cuales es muy popular y el otro no es muy conocido. Es obvio que el primer candidato ganará las elecciones y las posibilidades del segundo tienden a cero. Esforzarse, pero no igualar: siempre existe la posibilidad de fuerza mayor, información sensacionalista, decisiones inesperadas que pueden cambiar los resultados electorales previstos.

Neumann y Pearson acordaron que el nivel de significancia propuesto por Fisher de 0.05 (indicado por el símbolo α) es el más conveniente. Sin embargo, el propio Fischer en 1956 se opuso a fijar este valor. Creía que el nivel de α debería establecerse de acuerdo con las circunstancias específicas. Por ejemplo, en física de partículas es 0,01.

valor p

El término valor p fue utilizado por primera vez por Brownlee en 1960. El nivel p (valor p) es un indicador que se encuentra en relación inversa sobre la validez de los resultados. El valor p más alto corresponde al nivel más bajo de confianza en la relación muestreada entre las variables.

Este valor refleja la probabilidad de errores asociados con la interpretación de los resultados. Suponga un valor de p = 0,05 (1/20). Muestra una probabilidad del cinco por ciento de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de la muestra. Es decir, si esta dependencia está ausente, entonces con múltiples experimentos similares, en promedio, en cada vigésimo estudio, uno puede esperar la misma o mayor dependencia entre las variables. A menudo, el nivel p se considera como el "margen" del nivel de error.

Por cierto, el valor p puede no reflejar la relación real entre las variables, sino que solo muestra un cierto valor promedio dentro de los supuestos. En particular, el análisis final de los datos también dependerá de los valores elegidos de este coeficiente. Con p-nivel = 0,05 habrá unos resultados, y con un coeficiente igual a 0,01, otros.

Prueba de hipótesis estadísticas

El nivel de significación estadística es especialmente importante cuando se prueban hipótesis. Por ejemplo, al calcular una prueba de dos caras, el área de rechazo se divide por igual en ambos extremos de la distribución de muestreo (en relación con la coordenada cero) y se calcula la verdad de los datos obtenidos.

Supongamos que, al monitorear un determinado proceso (fenómeno), resulta que la nueva información estadística indica pequeños cambios en relación con los valores anteriores. Al mismo tiempo, las discrepancias en los resultados son pequeñas, no obvias, pero importantes para el estudio. El especialista se enfrenta a un dilema: ¿los cambios realmente ocurren o son errores de muestreo (inexactitud de la medición)?

En este caso, se aplica o se rechaza la hipótesis nula (todo se da de baja como un error, o el cambio en el sistema se reconoce como un hecho consumado). El proceso de resolución del problema se basa en la relación entre la significancia estadística general (valor p) y el nivel de significancia (α). Si nivel p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valores usados

El nivel de significación depende del material analizado. En la práctica, se utilizan los siguientes valores fijos:

α = 0,1 (o 10%);
α = 0,05 (o 5%);
α = 0,01 (o 1%);
α = 0,001 (o 0,1%).

Cuanto más precisos sean los cálculos requeridos, menor será el coeficiente α que se utilice. Naturalmente, los pronósticos estadísticos en física, química, productos farmacéuticos y genética requieren mayor precisión que en ciencias políticas y sociología.

Umbrales de significación en áreas específicas

En campos de alta precisión, como la física de partículas y la fabricación, la importancia estadística suele expresarse como la relación de la desviación estándar (indicada por el coeficiente sigma - σ) en relación con una distribución de probabilidad normal (distribución gaussiana). σ es un indicador estadístico que determina la dispersión de los valores de una determinada cantidad en relación con las expectativas matemáticas. Se utiliza para trazar la probabilidad de eventos.

Dependiendo del campo de conocimiento, el coeficiente σ varía mucho. Por ejemplo, al predecir la existencia del bosón de Higgs, el parámetro σ es igual a cinco (σ=5), lo que corresponde al valor p=1/3,5 millones de áreas.

Eficiencia

Hay que tener en cuenta que los coeficientes α y p-valor no son especificaciones exactas. Cualquiera que sea el nivel de significación en las estadísticas del fenómeno en estudio, no es una base incondicional para aceptar la hipótesis. Por ejemplo, cuanto menor sea el valor de α, mayor será la probabilidad de que la hipótesis que se establezca sea significativa. Sin embargo, existe un riesgo de error, que reduce el poder estadístico (significación) del estudio.

Los investigadores que se centran exclusivamente en resultados estadísticamente significativos pueden sacar conclusiones erróneas. Al mismo tiempo, es difícil verificar su trabajo, ya que aplican suposiciones (que, de hecho, son los valores de α y p-value). Por lo tanto, siempre se recomienda, junto con el cálculo de la significancia estadística, determinar otro indicador: la magnitud del efecto estadístico. El tamaño del efecto es una medida cuantitativa de la fuerza de un efecto.

El concepto de significación estadística

La validez estadística es fundamental en la práctica de cálculo de la FCC. Se señaló anteriormente que se pueden seleccionar muchas muestras de la misma población:

Si se eligen correctamente, sus indicadores promedio e indicadores de la población general difieren ligeramente entre sí en el tamaño del error de representatividad, teniendo en cuenta la confiabilidad aceptada;

Si se eligen entre diferentes poblaciones generales, la diferencia entre ellos resulta significativa. La comparación de muestras se considera comúnmente en estadística;

Si difieren insignificantemente, sin importancia, insignificantemente, es decir, en realidad pertenecen a la misma población general, la diferencia entre ellos se llama estadísticamente poco confiable.

Estadísticamente significante una diferencia de muestra es una muestra que difiere significativa y fundamentalmente, es decir, pertenece a diferentes poblaciones generales.

En la FCC, evaluar la significancia estadística de las diferencias de muestra significa resolver muchos problemas prácticos. Por ejemplo, la introducción de nuevos métodos de enseñanza, programas, conjuntos de ejercicios, pruebas, ejercicios de control está asociada con su verificación experimental, que debería mostrar que el grupo de prueba es fundamentalmente diferente del grupo de control. Por lo tanto, se utilizan métodos estadísticos especiales, llamados criterios de significación estadística, permitiendo detectar la presencia o ausencia de una diferencia estadísticamente significativa entre las muestras.

Todos los criterios se dividen en dos grupos: paramétricos y no paramétricos. Criterios paramétricos prever la presencia obligatoria de una ley de distribución normal, es decir, esto se refiere a la determinación obligatoria de los principales indicadores de la ley normal: la media aritmética X y la desviación estándar sobre. Los criterios paramétricos son los más precisos y correctos. Pruebas no paramétricas se basan en las diferencias de rango (ordinales) entre los elementos de las muestras.

Estos son los principales criterios de significación estadística utilizados en la práctica de la FCC: prueba de Student, prueba de Fisher, prueba de Wilcoxon, prueba de White, prueba de Van der Waerden (prueba de signos).

criterio del alumno el nombre del científico inglés C. Gosset (Student es un seudónimo), quien descubrió este método. El criterio del estudiante es paramétrico, utilizado para comparar los valores absolutos de las muestras. Las muestras pueden variar en tamaño.

El criterio del estudiante se define de la siguiente manera.

1. Encuentra el criterio del estudiante t de acuerdo con la siguiente fórmula:

donde xi, x 2 - media aritmética de las muestras comparadas; /i b w 2 - errores de representatividad identificados sobre la base de los indicadores de las muestras comparadas.

2. La práctica en la FCC ha demostrado que para el trabajo deportivo basta con aceptar la fiabilidad de la puntuación R= 0,95.

63 Para la confiabilidad de la cuenta: P= 0,95 (a = 0,05), con el número de grados; libertad k= «! + n 2 - 2 según la tabla de aplicación 4 encontramos el valor \ bueno, el valor límite del criterio (^gr).

3. Con base en las propiedades de la ley de distribución normal, se hace una comparación en la prueba de Student t Y t^.

4. Sacar conclusiones:

Si t> ftp, entonces la diferencia entre las muestras comparadas es estadísticamente significativa;

Si t< 7 F, entonces la diferencia no es estadísticamente significativa.

Para los investigadores en el campo de la FCC, la evaluación de la significancia estadística es el primer paso para resolver un problema específico: fundamentalmente o no fundamentalmente difieren entre; muestras comparables. El siguiente paso es; evaluación de esta diferencia desde un punto de vista pedagógico, que está determinado por la condición del problema.