Metodología
Este estudio propone un modelo de regresión del tipo logit ajustado al caso de encuestas con diseño complejo, como la ENSANUT 2018 (ver, por ejemplo, \citealt{Cramer_2003} para la descripción de los modelos logit, así como aplicaciones de este en economía y otras áreas, y \citealt{g1989} para una adaptación del modelo logit para el caso de encuestas con diseño complejo). Este tipo de modelos probabilísticos nos permite responder a las siguientes preguntas: 1) ¿Cuáles son las variables asociadas a la depresión? ¿Cuál es la probabilidad de que una persona sufra de depresión condicionado a que presenta síntomas inflamatorios?
En una encuesta con diseño complejo se identifican \(H\) estratos, \(n_h\) unidades primarias de muestreo, \(n_{hi}\) unidades secundarias de muestreo y, dentro de cada una de estas, \(n_{hij}\) individuos. De esta forma, el total de individuos considerados, \(N\), puede calcularse como:
\[N=\sum_{h=1}^{H}\sum_{i=1}^{n_h}\sum_{j=1}^{n_{hi}}n_{hij}\]
Sea \(\delta_{hijk}\) una variable indicatriz tal que \(\delta_{hijk}\) es igual a 1 si el \(hijk\)-ésimo individuo (\(h=1,2,\dots,H\), \(i=1,...,n_h\), \(j = 1, 2, \dots, n_{hi}\), \(k=1,2,\dots, n_{hij}\)) forma parte de la muestra y 0 de otra forma. Si se define como \(p_{hijk}\) a la probabilidad de que un individuo se incluya en la muestra, el peso que tiene cada individuo con respecto a la población se calcula entonces como:
\[w_{hijk}=\frac{\delta_{hijk}}{p_{hijk}}\]
Para construir el modelo logit, se define como \(Y_{hijk}\) a la variable dependiente. Esta es una variable binaria que toma el valor de 1 si el \(hijk\)-ésimo individuo sufre de depresión y 0 de otra forma. Además, sea \(X_{hijk}\) un vector \(1\times K\) que agrupa a las \(K\) variables de control, también conocidas como variables exógenas o independientes, que caracterizan al \(hijk\)-ésimo individuo. En este caso, la probabilidad de que algún individuo en la muestra sufra de depresión significativa se calcula como:
\[P\left(Y_{hijk}=1|X_{hijk}\right)=\frac{\exp\left(X_{hijk}\beta\right)}{1+\exp\left(X_{hijk}\beta\right)}\]
Donde \(\beta\) es un vector de dimensión \(K\times1\) con los coeficientes a estimar. Naturalmente, la probabilidad de no presentar síntomas depresivos se calcula como:
\[P\left(Y_{hijk}=0|X_{hijk}\right)=1- P\left(Y_{hijk}=1|X_{hijk}\right) =\frac{1}{1+\exp\left(X_{hijk}\beta\right)}\]
Una de las ventajas de utilizar esta especificación es que, por su simplicidad, los resultados pueden expresarse en términos del cociente de probabilidades, también conocido como razón de momios. Este es:
\[\frac{P\left(Y_{hijk}=1|X_{hijk}\right)}{P\left(Y_{hijk}=0|X_{hijk}\right)}=\exp(X_{hijk}\beta)\]
Para interpretar este cociente se toma como referencia al 1. Específicamente, un cociente mayor a 1 indica que la probabilidad de presentar síntomas depresivos es mayor en relación a la probabilidad de no presentarlos. Lo contrario es verdad si el cociente es menor que 1.
Los coeficientes del vector \(\beta\) se estiman por el método de máxima verosimilitud. Este implica maximizar la función de (pseudo) log-verosimilitud, \(L(\beta)\), la cual tiene la forma: