Brothers

sábado, 30 de mayo de 2015

Tema 10: Hipótesis estadística. Test de hipótesis


Contrastes de hipótesis

Para controlar los errores aleatorios, además del cálculo de intervalos de confianza, contamos con una segunda herramienta en el proceso de inferencia estadística: los test o contrastes de hipótesis.

Con los intervalos nos hacemos una idea de un parámetro de una población dado un par de números entre los que confiamos que esté el valor desconocido.

Con los contrastes (test) de hipótesis la estrategia es la siguiente:

- Establecemos a priori una hipótesis cerca del valor del parámetro

- Realizamos la recogida de datos

- Analizamos la coherencia entre la hipotesis previa y los datos obtenidos

Son herramientas estadísticas para responder a preguntas de investigación: permite cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos.
Sean cuales sean los deseos de los investigadores, el test de hipótesis siempre va a contrastar la hipótesis nula (la que establece igualdad entre los grupos a comparar, o lo que es lo mismo, la que no establece relación entre las variables de estudio).

DEPENDIENTE

INDEPENDIENTE
Cualitativa
2 Grupos
Cualitativa >
2 Grupos
Cuantitativa
Cualitativa 2 Grupos
Chi cuadrado
T comparación proporciones
P. exacta de Fisher
P. Mc Nemar
Chi cuadrado
Q de Cochran
T student
U. de Mann- Whitney
T. Wilcoxon
Cualitativa > 2 Grupos
Chi cuadrado
Q. de Cochran
Chi cuadrado
Q. de Cochrann
A. varianza
Kruskall-Wallis
F. Friedman
Cuantitativa
Regresión logística
Regression logística
Regression lineal:
Correl. Pearson
Correl. Spearman

Errores de hipótesis

El test de hipótesis mide la probabilidad de error que cometo si rechazo la hipótesis nula.

Con una misma muestra podemos aceptar o rechazar la hipótesis nula. Todo depende de una error, al que llamamos α.

El error α es la probabilidad de equivocarnos al rechazar la hipótesis nula.

El error α más pequeño al que podemos rechazar H0 es el error p.

Habitualmente rechazamos H0 para un nivel α máximo del 5% (p< 0.05). Por encima del 0.05 debo aceptar la hipótesis nula.

Es lo que llamamos “significación estadística”.

Tipos de errores en el test de hipótesis

RESULTADO DEL TEST
REALIDAD
Rechazo H0
Acepto H0
H0 cierta
Error tipo 1 (error α)
No error (1-α)
H0 falsa
No error (1-β)
Error tipo 2 (error β)

Test de hipótesis. Chi cuadrado

Para comparar variables cualitativas (dependiente e independiente).

Suponemos la hipótesis cierta y estudiamos como es de probable que siendo iguales dos grupos a comparar se obtengan resultados como los obtenidos o haber encontrado diferencias más grandes por grupos.

sábado, 23 de mayo de 2015

Tema 9: Estadística inferencial: muestreo y estimación


Inferencia estadística: Cuando planteamos un estudio en el ámbito sanitario para establecer relaciones entre variables, nuestro interés no suele estar exclusivamente en los pacientes concretos a los que hemos tenido acceso, sino más bien en todos los pacientes similares a estos.

Al conjunto de pacientes sobre los que queremos estudiar alguna cuestión le llamamos población de estudio.



Al conjunto de individuos concretos que participan en el estudio le denominamos muestra.

Al número de individuos de la muestra le denominamos tamaño muestral.

Al conjunto de procedimientos estadísticos que permiten pasar de lo particular, la muestra, a lo general, la población, le denominamos inferencia estadística.

Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población le llamamos técnicas de muestreo.

Siempre que trabajamos con muestras (no estudiamos el problema en toda la población sino en una parte de ella), hay que asumir un cierto error.

Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se denomina muestreo probabilístico o aleatorio y el error asociado a esa muestra elegida al azar se llama error aleatorio.

En los muestreos no probabilísticos (Ej: estudios de conveniencia. Utilizar a los pacientes de mi hospital como muestra), no es posible evaluar el error. En los muestreos probabilísticos, el error aleatorio es inevitable pero es evaluable.

Proceso de la inferencia estadística
Tenemos una población de estudio, y la medida que queremos obtener se llama parámetro.
Hacemos una selección aleatoria y obtenemos una muestra, y la medida de la variable de estudio obtenida en la muestra, se denomina estimador.


Al proceso por el que a partir del estimador, me aproximo al parámetro se denomina inferencia.

Error estándar
Es la medida que trata de captar la variabilidad de los valores del estimador (en este caso la media de los días de curación de la úlcera).


El error estándar de cualquier estimador mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población.


Cuanto más pequeño es el error estándar de un estimador, más nos podemos fiar del valor de una muestra concreta. Si en lugar 
de variar el valor de la media en las muestras entre 52 y 64 días, variara entre 20 y 90 días, sería menos probable que al seleccionar una muestra y calcular su media, ésta estuviera cercana a 57,46, que es el valor de la media en la población.


Intervalos de confianza:

Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error aleatorio).

Se trata de un par de números tales que, con un nivel de confianza determinados, podamos asegurar que el valor del parámetro es mayor o menor que ambos números.


Se calcula considerando que el estimador muestral sigue una distribución normal, como establece la teoría central del límite.


Procedimiento Muestral. (Tecnica De Muestreo).


- Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando.

- La población general de la queremos obtener conclusiones la vamos a elegir al azar, para obtener la muestra y a partir de esta hacer inferencia de la población entera. (confianza en %).

Tipos de muestreo

- Probabilístico. Todos los sujetos de la población tienen una probabilidad distinta de cero en la selección de la muestra. Todos y cada uno de los elementos tienen la misma probabilidad de ser elegidos.Es el método que consiste en extraer una parte (o muestra) de una población o universo, de tal forma que todas las muestras posibles de tamaño fijo, tengan la misma posibilidad de ser seleccionados.


1. Aleatorio simple. P=1/n. 1. Se caracteriza porque cada unidad tiene la probabilidad equitativa de ser incluida en la muestra:

· De sorteo o rifa: desventaja de este método es que no puede usarse cuando el universo es grande.
· Tabla de números aleatorios: más económico y requiere menor tiempo.

2. Aleatorio sistemático. Similar al aleatorio simple, en donde cada unidad del universo tiene la misma probabilidad de ser seleccionada. Ejemplo: si N:500 (población) y n:100 (personas que queremos en la muestra; N/n =5, 5 será el intervalo para la selección de cada unidad muestral. Si tengo las personas por numero seria así: elijo el 5, 10, 15, 20, .. así hasta llegar al 100. Si termino la lista y no he llegado al 100, vuelvo a empezar de nuevo, pero siempre con el intervalo que me ha salido.

3. Estratificado. Se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales que deben someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar a los resultados.


4. Conglomerados. Se usa cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo y resulta muy complejo elaborarla. En la selección de la muestra en lugar de escogerse cada unidad se toman los subgrupos o conjuntos de unidades conglomerados. En este tipo de muestreo el investigador no conoce la distribución de la variable. Las inferencias que se hacen en una muestra conglomerada no son tan confiable como las que se obtienen en un estudio hecho por muestreo aleatorio.

- No probabilístico o de conveniencia del investigador. Puede haber personas en la población que no tengan probabilidad o que se desconozca, de ser seleccionado en la muestra. No se sigue el proceso aleatorio. No puede considerarse que la muestra sea representativa de una población. Se caracteriza porque el investigador selecciona la muestra siguiendo algunos criterios identificados para los fines del estudio que realiza.Por conveniencia o intencional: en el que el investigador decide, según sus objetivos, los elementos que integraran la muestra, considerando las unidades “típicas” de la población que desea conocer.


1. Accidental: consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar. De las tres es la más deficiente.

2. Por cuotas: en el que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como: Sexo, raza, religión, etc...

Tamaño de la muestra
El tamaño de la muestra a tomar va a depender de:


- Error estándar. A mayor error estándar, menor tamaño de la muestra.

- De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar.

- De la variabilidad de la variable a estudiar (varianza en la población).

- El tamaño de la población de estudio.

Calculo del tamaño de una muestra para estimar la media de una población: n= Z2x S2/e2

Tema 8: Medidas de tendencia central, posición y dispersión

Resumen numérico de una serie estadística

Ademas de las tablas y graficos podemos resumir una serie de observaciones mediante “estadísticos”: Funcion de los datos observados. Hay tres grandes tipos de medidas estadísticas:

 - Posicion



 - Tendencia central

 - Dispersión

Estas medidas lo que hacen es resumir el comportamiento numérico de una variable continua, es decir, solo puedo aplicar este tipo de medidas a variables continuas. Las medidas de posición nos ayudan a calcular la posición que ocupa un individuo en la serie estadística, es decir, si dentro de una serie numérica esta en una posición baja o alta. Las medidas de tendencia central nos dan idea del comportamiento de la mayoría de los sujetos. Las medidas de dispersión nos informan acerca de la heterogeneidad de los individuos (si están muy dispersos o muy centrados). 


Ej: la variable edad, si yo ordenara de menor a mayor las edades, una medida de posición seria el percentil, que es, por ejemplo, yo extraigo una persona al azar y veo que puesto ocupas en ese orden de edad de menor a mayor. La medida de tendencia central seria la media de edad (sumo todas las edades y las divido por el numero de sujetos) y las medidas de dispersión me informa si la edad se dispersa o estamos todas aproximadas. Ej: en la clase de enfermeria la medida de dispersión seria baja porque tenemos edades aproximadas.


Medidas de tendencia central


Media aritmética o media (x): se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones. La formula es X= sumatorio x/n. (esta es la media)

Cuando los datos son agrupados, para calcular la media utilizamos como valor de referencia de cada intervalo su marca de clase X=sumatorio mcfi/n (esto es media ponderada)

Ejemplo: yo quiero saber la media del peso de esos niños (tabla hecha en clase de 40 niños). La media seria sumo los pesos y lo divido por 40. Si te da una tabla sin proporcionarte los pesos y hay que calcular la media hay que hacer la media aritmética (datos agrupados), que seria, ejemplo, 3.5 (marca de clase) x 3 (frecuencia) + 4x8 + 4.5x14 + 5x6 + 5.5x4 + 6x5 / 40 = 4.68, es decir, el peso medio de los niños esta en 4,68. Moda: es el valor de la observación que mas veces se repite. Es el valor que tiene una mayor frecuencia. Si hay mas de una moda, porque puede suceder que haya dos categorías que se repiten como igual de la variable, se dice entonces que es una muestra bimodal. 


Ej: un estudio de estado civil (soltero, casado, viudo, otras..) y tenemos soltero 50, casado 50, viudo 10 y otras 8. Entonces la moda seria doble, soltero y casado. La moda no es el numero (50), sino la categoría (soltero, casado..). Si los datos están agrupados no puedo saber exactamente la moda, entonces lo que hacemos es calcular el intervalo modal, que corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor. Ejemplo tabla 40 niños, tengo los datos agrupados y no puedo saber exactamente cual es la moda pero si el intervalo modal, solo hay que observar la tabla y ver cual es el mas frecuente (en este caso es 14), pero podemos hacerlo calculando el cociente entre Hi y la amplitud del intervalo (0,50) y aquel intervalo con una amplitud mayor es la solución. En este caso el intervalo modal seria el intervalo que va de 4.25-4.75, porque realmente en esta tabla las amplitudes de los intervalos son iguales (0.5). Pero, si en otra tabla no hay amplitudes exactamente iguales, para calcular el intervalo modal seria hi entre Ci, y el que de el valor mas alto es el correcto. Si todos los intervalos son iguales me voy a la frecuencia mas alta y yasta, pero cuando los intervalos tienen distintas amplitudes debemos dividir la frecuencia hi entre el Ci (amplitud del intervalo, es decir, en un intervalo 0-15 seria 15; en un intervalo 15-65 seria 50; entre un intervalo 65-100, seria 35..)



Medidas de posición

Se les llama cuantiles. Se calculan solo con la variable cuantitativa. Uno de los cuantiles mas importantes es la mediana, la mediana es el único caso de medida que es a la vez medida de posición y medida de tendencia central, las dos cosas. Los cuantiles solo tienen en cuenta la posición ordenados de mayor a menor de los valores de una muestra. Los cuantiles mas empleados son los percentiles, los deciles y los cuartiles. En el caso de percentiles dividimos en 100 fracciones las muestras, los deciles los dividimos en 10 y los cuartiles en 4.

La mediana seria la observación tal que deja el 50% de los datos por debajo y el 50% por encima, es decir, Ej: nos pesamos, y ordenamos los pesos desde el peso mas bajo al mas alto, la persona que deja el 50% por debajo y por encima seria la mediana. Por ejemplo: imaginamos que tenemos 3 sujetos y los pesamos:



- Sujeto numero 1: 65 kg

- Sujeto numero 2: 73 kg

- Sujeto numero 3: 58 kg


La mediana seria 65 kg, porque ordenados de menor a mayor, el valor que deja la mitad de las observaciones por debajo es 65. 

jueves, 14 de mayo de 2015

A veces las cosas no son lo que parecen

Suele suceder que pidamos tener lo que otros tienen, pero a veces no nos damos cuenta de que cada vida tiene sus ventajas y desventajas. Eso le pasó al niño con los zapatos rotos, él deseaba tener ropa limpia y lujosa, estar bien alimentado y mostrarse feliz. Sin embargo, después de que su deseo fue concedido, entendió por qué se equivocó a querer estar en su lugar:


Tema 7: Introducción a la estadística


Cuerpo de conocimientos para aprender de la experiencia, frecuentemente en forma de números provenientes de medidas que muestran variaciones entre los distintos individuos.

Medicion de signos y síntomas

Diferentes naturalezas de las variables, diferentes métodos de medición

Ej: presencia de dolor se puede medir como “si” o “no”, sin embargo la glucemia basal se tendrá que medir por mg de glucosa por dl de sangre, con valores que pueden ir de 0 a 1000 mg/dl, por ejemplo. Son variables de diferente naturaleza.

Para medir variables se utilizan diferentes escalas de medición

1. Escala nominal: es el nivel inferior de medida. En una característica o variable solo se puede comprobar si son iguales o diferentes.

Ej: Raza (blanca, amarilla o negra). En este caso hay tres valores; Género (hombre o mujer); Tipo de profesión (médico, enfermero, técnico)

Los números se utilizan como meros nombres, podrían ser sustituidos por simbolos, letras. Estos números no gozan de ninguna de las propiedades aritméticas. Ej: 1+2=3

Las categorías deben ser exhaustivas y mutuamente excluyentes. Ej: en estado civil, decir solo soltero o casado no seria exhaustivo porque hay mas variables. Ej: profesión ejercida en el hospital, medico, enfermero y técnico no seria exhaustivo, ya que hay mas puestos.

Ej de mutuamente excluyente: un enfermero puede ser también técnico, por lo tanto no es mutuamente excluyente. Para que lo sea, por ejemplo, la profesión que ejerce en el hospital, aunque tenga mas títulos.

2. Escala ordinal: en la medición ordinal dadas dos o mas modalidades de una variable, es posible:

- Establecer si son iguales o diferentes

- Si son distintas, determinar cual de ellas es mayor.Por lo tanto los números expresan relaciones de: igualdad, desigualdad y orden. Ej: Grado de mejoría tras el tratamiento:

(1) Nula (3) Media

(2) Leve (4) Máxima

Caracteristicas:

- No podemos establecer la cantidad de mejoría diferencial que un nivel. Categoria o numero representa en relación a cualquier otro.

- Carecemos de suficiente información para determinar si entre los niveles 3 y 4 existe el mismo grado de mejoría que entre el 3 y 2 ó 2 y 1.

3. Escala de intervalo: presenta las características propias de las dos escalas anteriores: identidad y orden.

El requerimiento de que las distancias o intervalos iguales representan Distancias Equivalentes.

Ej: Temperatura 36º-37º-38º. Hay diferencia y un orden, pero además la distancia entre 36 y 37 es la misma que entre 37 y 38.

El 0 no representa un valor absoluto, no representa la ausencia de calor, sin embargo, la distancia entre cualesquiera de los puntos de la escala es igual. En el caso de 0 no hay calor pero hay temperatura. Las escalas de intervalo permiten valores negativos.

El cambio de temperatura entre 36-37 es el mismo que el de 40-41º.

Caracteristicas

- No puede sacar razones o proporciones. No podemos afirmar que 20ºC es el doble de 10.

- Escala cuantitativa: en ella se pueden aplicar las estadisticas como mediana, desviaciones y correlacion.

4. Escala de razón: nivel más alto de medición. Características propias de las 3 escalas anteriores:

- Igualdad, desigualdad e identidad

- Orden

- Distancias equivalentes entre los intervalos. La ventaja adicional de poseer el 0 absoluto, en la que el 0 representa nulidad o ausencia de lo que se estudia.

Entre dos números atribuidos a las modalidades admitiremos como validas: lsa relaciones de identidad + orden + la existencia de intervalos equivalentes y cuantas veces una modalidad es superior a otra.

Por tanto, en 2 numeros atribuidos a dos modalidades se admitirán como validas las relaciones de : identidad; orden; las operaciones de suma; resta;multiplicación y división.

Tipos de variables

1. Cualitativas: se refieren a propiedades y no pueden ser medidas.

- Nominales: Dicotómicas (2 niveles o categorías. Ej: hombre o mujer); Policotómicas (+ de 2 categorias. Ej: soltero, viudo, casado, separado)


- Ordinales: Establecen un orden, por ejemplo: satisfacción del trabajo (muy satisfecho, satisfecho, poco satisfecho, nada satisfecho)

2. Cuantitativa: Pueden medirse en terminos numericos

- Discretas: solo pueden tomar un numero finito de valores. La unidad de medición no puede ser fraccionada. Son números aislados. Ej: numero de hijos (1,2,3,4,5,6..)

- Continuas: las que pueden valer cualquier numero dentro de un rango. La unidad de medida puede ser subdividida en forma infinita. Ej: la talla, puede ser dividida en cms, mms…

Las nominales no se pueden convertir en cuantitativas. Pero al revés si. Si a partir de una variable continua construyo una variable ordinal lo debo hacer con los mismos criterios que siguen las escalas nominales (exhaustividad y exclusividad)

Variables: representación de datos

Tablas de frecuencia: son la imagen de los datos que muestran frecuencias en columnas y las categorías de las variables en las filas. Presentan información repetitiva de forma visible y comprensible. Requisitos:

- Son autoexplicativas
- Son sencillas y de facil comprension
- Tienen titulo breve y claro
- Indican lugar, fecha y fuente de informacion
- Incluye las unidades de medida en cada cabecera
- Indican la base de las medidas relativas

Representaciones gráficas



Es una forma rápida de comunicar la información numérica (frecuencias)

Diagramas de barras

Se usan preferentemente en variables cualitativas policotomicas (de mas de dos variables). No se pueden usar para variables continuas, edad, peso…


Pictogramas

Es una imagen que represente algo de lo que se esta estudiando. Aportan el mismo tipo de información.



Histogramas y polígonos de frecuencia

Se utilizan exclusivamente para las variables continuas, no se pueden utilizar para las variables cualitativas. La diferencia es que la base del eje de cartesianos proporciona también información, en los diagramas de barras no tiene importancia que el ancho de la columna sea mayor o menor, sin embargo en los histogramas si.



Poligono de frecuencia (unión de puntos):

Es una variante del histograma. La marca de clase (mc) es la media entre los dos intervalos. La marca de clase nos va a ayudar a dibujar el polígono de frecuencia. El resultado es todo lo que haya en el interior de la línea.

Gráficos de tronco y hojas



Yo cojo los datos y voy cogiendo datos como tronco, ramas y hojas (centenas como tronco, decenas como ramas y las unidades como hojas). Las dos primeras cifras como árbol y la otra unidad como hoja. Ej: 105 (10-tronco y 5-hoja). Los troncos del árbol serian 9-10-11-12-13-14 (tabla de apuntes anteriores) y después las hojas seria el 3º numerito. Ej: si la tensión es 110, el tronco seria 11 y las hojas todas las unidades después del once (112-114-117 à 2-4-7)

Diagramas de sectores o graficos de sectores

Se utilizan solo para variables cualitativas y además preferentemente variables cualitativas que tengan pocas opciones (2,3..) o dicotómicas. Tenemos una variable con dos categorías, y representamos la frecuencia de esa variable en un sector circular.

Graficos para datos bidimensionales o multidimensionales



A veces me interesa exponer un grafico donde se representen dos variables a la vez. Ej: quiero saber el numero de trasplantes que se han hecho en andalucia por año, entonces hago una serie temporal. Se representa un grafico para datos bidimensionales (eje x los años y eje y la frecuencia). Esto sirve cuando tengo mas de una variable. La variable de numero de trasplantes es continua y los años cualtitativa.

Seminario 3

Hoy vamos a recodificar variables, cálculos de medidas de tendencia central y dispersión y variables cuantitativas. 

Primero abrimos epiinfo y usamos el modo visual, le damos al modo visual, entramos y le damos a panel de epiinfo. Buscamos sample y le damos a Oswego. Añadir gadget de analysis y a media. Clicamos la edad, y nos sale una tabla con los datos: media, desviación típica, moda, mediana..Ej: tenemos una tabla de colesterol, tenemos el análisis de una serie de paciente y son 80 mg de colesterol, 100mg, 100mg, 110mg y 120mg, es decir, tenemos 80,100,100,110,120 ¿Cuál seria la moda? 100; ¿Cuál seria la mediana? 100. El rango es restar el mayor numero al menor numero, ¿Cuál es el recorrido? 40. ¿Cuál es la media? 102 Otro ejemplo: Si sabemos que la media de unos niños pesa 69,6 y tenemos un índice de confianza del 95% y el intervalo de 65,1 a 72,6. A) ¿Qué significa lo que se ha dicho? En la muestra hay un 95% de que el peso se sitúe entre 65,1 y 72,6.

Un percentil por ejemplo que sea de 99, significa que hay 99 personas por debajo de ese dato, y solo hay un 1% por encima de ti. Los percentiles y la mediana se usa cuando la población es muy asimétrica.

Medidas de dispersión

Desviación típica: es lo que me alejo de las tendencias centrales y la varianza también, lo que me alejo de las tendencias centrales. Son medidas de dispersión. La que tiene menos fuerza es la media. La media y la desviación típica se usan en poblaciones simétricas. Si son asimétricas se usan las medianas y los percentiles. El problema de la media es que coges a una gran muestra y hay valores muy extremos. Normalmente una muestra simétrica es cuando la media, la moda y la mediana coinciden o son muy parecidas porque coinciden mas o menos, con lo cual van a ser iguales a ambos lados.


Medidas de forma

¿Cómo seria la curva? En función de cómo sea la forma hay tres curvas:

- Leptocúrtica: picuda. Son muy parecidos y muy concentrados. Valores >0

- Mesocúrtica: como una meseta. Valores =0


- Platicúrtica: cuando hay mucha dispersión. Valores < 0

El coeficiente de asimetría : si es simétrica el valor vale 0 y si es asimétrica el valor es distinto de 0.

Si dice que el índice de confianza es el 68% se tendría una concentración mas central.

Asimetría negativa, hablamos de que la cola se sitúa a la izquierda y asimetría positiva la cola se sitúa a la derecha.


A continuación vamos a hacer una tabla de frecuencia con epiinfo. Le damos a nueva variable y a variable recodificada y rellenamos el cuadro.

Chi cuadrado: hacemos una tabla de 2x2 o mxn y desagregamos también la variable “situación (enfermo o no) y la ingesta de vainilla”. Si el resultado es menor de 0.05 se coge la alternativa, es decir, si hay relación entre la vainilla y la enfermedad. Cuando P es mayor de 0.05 se acepta la nula.

1. El error α o tipo 1 es aquel que rechaza la hipótesis nula siendo verdadera. Es muy grave.

2. Error tipo 2 o β: acepta la nula siendo falsa. Esto es debido a que la muestra es muy pequeña y extrapolamos los resultados a toda la población.


Gráficos de sectores

Sirven para variables cualitativas (son características: genero, estado civil..) y los sectores de barras sirven para variables discretas o cuantitativas (valores que se miden).





martes, 12 de mayo de 2015

Tema 6: La etapa empírica de la investigación: El diseño y el material y métodos.



Material y métodos

1. Población de estudio: selección de individuos en búsqueda interna y externa (evitar sesgos de selección).

2. Muestreo: Cuando no es posible incorporar toda la poblacion de estudio. Se considerará:

- Tamaño de la muestra: para hacer inferencia con un error determinado (p < 0,50 generalmente).

- Representatividad del muestreo aleatorio simple, sistemático, estratificado, por conglomerados, multietápico…

Planificación de la recogida de datos


- Por observación directa.
- Por fuentes documentales.
- A través de entrevistas, cuestionarios, formularios.
- Cuidado: fiabilidad y precisión.
- Variables: búsqueda de relaciones de asociación (dependiente/s e independientes/s).

Registro y procesamiento
- Agrupación de los datos
- Distribución de frecuencia
- Tablas cruzadas, tabulaciones
- Bases de datos y hojas de calcula (PCS)

Ejecucion de la recogida de datos
- Pilotaje previo.
- Evitar sesgos de información.
- Hoja de recogida de datos.

Análisis

- Revisión de la información.
- Aplicación técnica estadística.
- Comparación de grupos.
- Controlar variables confundentes.
- Estimar magnitud de la asociación.
- Errores en los estudios (aleatorios y sistemáticos),
- Definir validez.

Diseños cuantitativos (epidemiológicos)

1. Diseño descriptivo
Se basa en el estudio de prevalencia sin hipótesis.

2. Diseño analítico
Medir la fuerza de asociación entre dos fenómenos (entre dos variables). Estudio de cohortes (grupo homogéneo de población) o de seguimiento:

- Prospectivo: la cohorte es actual

- Retroprospectivo: se diferencia en que la cohorte no es actual, sino antigua.


Estudio de casos y controles
Porcentaje de personas que tienen EPOC, investigo las causas de su enfermedad. A las personas que no tengan EPOC le hago el mismo cuestionario y veo si son fumadores o no, para ver si afecta a la aparición de la enfermedad. Si en los casos hay 80% de fumadores y en los que están expuestos solo hay 40% de fumadores, se llega a la conclusión de que el tabaco.

- Técnica de apareamiento: selecciono un sujeto control con las mismas características que el caso estudiado. Debieran proceder del mismo entorno que surgieran los casos.

- Tienen un nivel 3, 2 son fiables pero depende del como se ha hecho el estudio de casos controles. Son sencillos de realizar y el investigador se limita a medir. Son estudios observacionales.

3. Diseño experimental

Sirven para medir la fuerza de asociación entre dos fenómenos. La diferencia esta en que en que la variable independiente es introducida por el investigador. No se limita a observar. Hay hipótesis. 

Son los más fiables, pero con muchos defectos éticos. Los resultados tienen mucha validez.
Inconvenientes: Obligas a un sujeto a que haga algo que puede ser nocivo para el. Hay un problema ético.

Diseño cuasiexperimental: no del todo al azar.

No es experimental al 100%, hay que pedir consentimiento informado. Se puede evitar un poco el sesgo incluyendo elementos de ceguera, evitando que el paciente sepa si está expuesto o no a la variable independiente, ya que el saber que está expuesto, puede variar el resultado (efecto placebo por ejemplo). Y si el que reparte las pastillas, por ejemplo, tampoco sabe si es el placebo o no, sería ciego. Actuaría solo el azar. Cuanta más ceguera tenga un ensayo clínico, más fiabilidad tiene. En simple ciego, excepto los sujetos, todos saben acerca del estudio. Doble ciego, es que la enfermera no sabe que no administra las mismas muestras a todos. En el triple ciego, ni si quiera el que analiza los resultados sabe del estudio.

Densidad de incidencia basada en datos individuales

Densidad incidencia= Nuevos casos/personas-tiempo a riesgo. Personas-tiempo:

- Suma de tiempos que los individuos están a riesgo de desarrollar el evento.
- Las unidades a utilizar dependen del investigador.
Calcular el denominador, es decir, el numero de unidades de tiempo con que contribuye cada individuo y el total.
DI= 3/0.25+0.50+1+1.25+1.50+2 = 0.4615 personas por año

Relacion entre incidencia y prevalencia
Tengo un lavabo y hecho un cubo de agua, la prevalencia es el agua que cae en el lavabo cuando en un momento determinado corto, es decir,pongo el tapón,  la cantidad de agua que hay en el lavabo. Prevalencia: cuantas personas resfriadas hay en este momento.  La incidencia es la cantidad de agua que es vertida y que se elimina porque hemos quitado el tapón. 

Medidas de asociación en estudios descriptivos
Una medida de asociación mide la fuerza con la que se asocian dos fenómenos. Ej: yo pienso que las mujeres fuman mas que los hombres, entonces yo quiero saber la medida de asociación que hay entre el sexo y el habito de fumar. Puede ser nula o muy fuerte. son distintas en función del diseño de investigación. No se calcula igual la m.a en un caso de controles que en un caso descriptivo. Son tres las magnitudes de asociación:

- Razón de prevalencias: se utiliza en diseños transversales descriptivos. En un diseño transversal descriptivo, tengo una población y lo que hago es contar cuantos padecen la enfermedad. Ej: tabaquismo, quiero saber si hay asociación entre el sexo y el tabaquismo. Tengo una población que no fuma y otra que fuma. Lo que voy a calcular es la prevalencia de la enfermedad en un grupo y otro grupo. Si estoy considerando que creo que puede haber relación entre el sexo y el tabaquismo lo que voy a hacer es calcular la prevalencia del tabaquismo en mujeres y en hombres.

· Prevalencia en no expuestos= nº de casos entre los no expuestos/nº total de individuos no expuestos

· Prevalencia en expuestos=nº de casos entre los expuestos(nº total de individuos expuestos

La medida de asociación seria relacionar la prevalencia de expuestos con la prevalencia de no expuestos, es decir, dividir la prevalencia de expuestos entre la prevalencia de no expuestos.

Ej: a un grupo de 349 adolescentes de ambos sexos, que participaron en una encuesta realizada por un equipo básico de atención primaria, se les preguntó si consumían o no consumían alcohol, obteniéndose como resultado lo siguiente: 172 varones encuestados de los cuales 159 consumían alcohol y 177 mujeres encuestadas de las cuales 152 consumían alcohol. Ante esos resultados el equipo desea saber si existe asociación entre el sexo y el hecho de consumir alcohol. Para ello se pide que determines:

A) Cual es la hipótesis nula y alternativa, identificando las variables independiente y dependiente.

H0: no hay relación entre el sexo y el consumo de alcohol
H1: los varones beben mas que las mujeres
VI: el sexo
VD: consumo de alcohol

Chicos entrevistados: 172
Chicas entrevistadas: 177
Bebedores de alcohol en el grupo de chicos: 159
Bebedores de alcohol en el grupo de chicas: 152

Vamos a calcular la prevalencia de alcohol entre los chicos: 159/172 = 0.92, es decir, el 92% de los chicos encuestados bebían.Calcular la prevalencia de alcohol entre las chicas: 152/177 = 0.85, es decir, el 85% de las chicas encuestadas bebían.

Razon de prevalencias: 0.92/0.85 = 1.08 ¡¡Esta es la medida de la magnitud de asociación!!

Si fuera 1, querría decir que la prevalencia es igual en los dos grupos. Si da menos de 1, significa que beben menos los hombres que las mujeres.

Ahora, supuesto de que las mujeres fueran las expuestas:
0.85/0.92 (en caso de mujeres expuestas) = 0.92 , es decir, las mujeres beben menos que los hombres porque es menor que 1.

Estudios de seguimiento y experimentales

Medida de asociación

1.  Riesgo relativo: En un estudio de seguimiento hay un grupo de expuestos y un grupo de no expuestos que le voy a hacer un seguimiento durante un tiempo.  Voy a calcular la incidencia pero voy a hacer lo mismo, la incidencia de expuestos y la incidencia de los no expuestos. Normalmente incidencias acumuladas.

Incidencias no expuestos: nº de casos entre los no expuestos/nº total de individuos no expuestos

Incidencias en expuestos: nº de casos entre los expuestos/nº total de individuos expuestos

Entonces la relación entre la incidencia (nuevos casos) en expuestos I.e (incidencia de expuestos) y la incidencia (nuevos casos) en no expuestos I.ne, se puede expresar como Ie/I.ne.

El resigo relativo: R.R=I.e/I.ne à magnitud de la asociación.
Es la razón entre el riesgo en los expuestos y el riesgo en los no expuestos. Cuantifica el incremento en el riesgo producido por la exposición. Si da 1, quiere decir que nos quedamos con la Ho, si nos da por encima de 1 influye el factor de exposición y si da por debajo de 21 influye en términos negativos, es decir, la no exposición produce riesgos.

Otro ejemplo
En una unidad coronaria de un hospital donde muchos pacientes requieren alimentación enteral por sonda nasogástrica, se quiere conocer si se producen mas cuadros diarreicos en aquellos pacientes que se le suministra la alimentación en bolo que en los que reciben un suministro continuo mediante bomba de perfusión. Se estudiaron 93 pacientes a los que aleatoriamente se les asignó la alimentación en bolo o mediante perfusión continua, aplicándose el bolo en 45 pacientes y aplicándose la perfusión continua al resto. En los datos recogidos se obtuvieron los siguientes resultados: 12 pacientes con cuadros diarreicos en el primer grupo y 5 pacientes con cuadros diarreicos en el segundo grupo.

Es un estudio experimental  porque va a aplicar una misma técnica en dos grupos aleatoriamente. Si no dijese nada de aleatorio seria de seguimiento prospectivo.
H0= la forma de administrar la alimentación enteral no influye en los cuadros diarreicos
H1= La administracion por bolo produce mas cuadros diarreicos
H2= La administracion por perfusión continua produce mas cuadros diarreicos
VI: forma de administracion enteral
VD: cuadro diarreico
Nº total de pacientes= 93
Nbolo: 45 à 12 cuadros diarreicos
Bperf: 93-45 = 48 à 5 casos diarreicos
Ie: 12/45 = 0.26
Ine= 5/48: 0.10

El R.R: 0.26/0.10 = 2.6, esto quiere decir que dar la alimentación por bolo produce el doble de riesgo de cuadro diarreico.

Estudios de casos y controles. Estimacion de la magnitud de saociacion
Se trata de relacionar la ODDS o ventaja de los casos con las ODDS o ventajas de los controles.
ODDS de los casos: (presencia del factor entre los casos/ausencia del factor entre los casos)/(presencia del factor entre los controles/ausencia del factor entre los controles)
Es la razón entre: la odds de los casos y la odds de los controles.

Ej: en un centro de salud se pretende realizar un estudio sobre la influencia del tabaquismo sobre las enfermedades pulmonares obstructivas crónicas (EPOC). Para ello, a partir de un grupo de 337 pacientes con EPOC acuden a consulta de enfermería del centro, se selecciona un grupo de otros 337 pacientes que no presentaban EPOC pero que acudían a consulta de enfemería del centro en el programa de atención al paciente diabético. Tras recoger los datos de los antecedentes del tabaquismo de los sujetos de estudio se comprueba que en el primer grupo había 215 pacientes con antecedentes de tabaquismo, mientras que en el segundo grupo se detectaron 122 pacientes con antecedentes de tabaquismo.

Ho: no hay relación entre tabaquismo y EPOC
H1: el tabaquismo favorece la EPOC
H2: el tabaquismo disminuye la EPOC
VI: antecedentes de tabaquismo
VD: EPOC
N: 337+337= 674
Ncasos: 337, de los cuales, hay 215 fumadores. Los no fumadores serian 337-215 = 122 no fumadores
Ncontroles: 337, de los cuales, hay 122 fumadores y no fumadores serian 337-122 = 215.

ODDS de casos de EPOC: 215 fumadores/122 no fumadores= 1.76
ODDS de no EPOC: 122 fumadores/215 no fumadores = 0.56
OR: 1.75/0.56 = 3.08, hay el triple de fumadores en EPOC que los de no EPOC, es decir, hay 3 veces mas posibilidades de que el fumar produzca EPOC.