Los procesos de incorporación de los migrantes y de las “segundas generaciones” o “hijos de migrantes” es un campo de investigación con una extensa tradición e implicancias en términos del discurso público y político, fundamentalmente en países del norte global (Alba, & Nee, 2003; Bohrt, & Itzigsohn, 2015; Itzigsohn, 2009; Levitt, & Waters, 2006; Portes, Aparicio, Gómez, & Haller, 2016; Portes, & Rumbaut, 2006; Portes, & Zhou, 1993). A pesar de esta extensa tradición, las direcciones, magnitudes e implicancias tanto demográficas como culturales y políticas no están claras. Diferentes contextos llevan a que, en Estados Unidos, por ejemplo, se hable de “segunda generación”, “generación 1.5” (Portes, & Rumbaut, 2006) e incluso “tercera generación”; sin embargo, en otros contextos, como el francés, se señala lo problemático de estas categorías (Simon, 2015).
En ese contexto, queremos dirigir nuestra atención a lo que ocurre en un país del sur global como Argentina en general y de manera específica en la Ciudad de Córdoba. El contexto actual de estudio de los mecanismos de incorporación de los hijos de migrantes / “segundas generaciones” se produce cuando existe cierto consenso en reconocer la importancia de las migraciones sur-sur y las particularidades que las distinguen en relación con los flujos norte-sur. Tanto en la composición de clase de los mismos como en los contextos de recepción (Gómez, 2019; Hujo, & Piper, 2010)
En esta nota de investigación presentamos los aspectos metodológicos de un trabajo de investigación en desarrollo en la Ciudad de Córdoba, Argentina, cuyo objetivo es analizar los procesos de incorporación de los hijos de migrantes bolivianos y peruanos. Específicamente, presentamos los problemas metodológicos derivados de la generación de datos primarios sobre el tópico y el desarrollo de la técnica Responden Driven Sampling (RDS).
La generación de datos primarios
Cuando buscamos generar datos primarios sobre hijos de migrantes o “segunda generación” emerge una serie de complejidades que dificultan la utilización de muestreos tradicionales: en primer lugar, la falta de un marco muestral adecuado, es decir, una lista exhaustiva de todos los miembros de la población desde la cual generar nuestra muestra. En segundo lugar, la propia construcción de un marco muestral es compleja ya que la población suele ser de un tamaño tan pequeño que capturarla por medio de una encuesta entre la población general sería altamente prohibitivo en términos de costos. En tercer lugar, la falta de información completa y la baja calidad de la disponible (en los datos secundarios) no permiten definir de manera adecuada la magnitud y la sectorización de este grupo, por lo que se dificulta su acceso mediante los métodos de muestreo de probabilidad estándar. Desde nuestra perspectiva, estos grupos poblacionales pueden ser tratados, entonces, como “hidden population” (poblaciones escondidas o “hard-to-reach”) en términos estadísticos.
Las técnicas más frecuentes para el abordaje muestral de este tipo de poblaciones son el muestreo por bola de nieve (Goodman, 1961), el enfoque de informante clave (Deaux, & Callaghan, 1985) y el muestreo dirigido por mapas etnográficos (Watters, & Biernacki, 1989). Sin embargo, las principales críticas a este tipo de muestreo radican en el sesgo resultante y la validez de los resultados obtenidos, ya que no se trata de un muestreo aleatorio.
Ante este contexto, la técnica de muestreo Respondent-Driven Sampling (en adelante RDS) (Goel, & Salganik, 2010; Heckathorn, 1997; Salganik, & Heckathorn, 2004; Wejnert, & Heckathorn, 2011) tiene como objetivo superar las deficiencias metodológicas mencionadas utilizando elementos conceptuales tanto de la teoría de redes como de la cadena de Markov, junto con un sistema de incentivos estructurado que permite controlar los problemas de sobrerrepresentación por referencia. El RDS supera estos problemas al aplicar un modelo matemático que pondera la muestra para compensar el hecho de que no fue obtenida de manera aleatoria (Salganik, & Heckathorn, 2004).
El Respondent-Driven Sampling (RDS) tiene una relativa extensión en diferentes campos, a saber, y sin pretensión de exhaustividad, como el estudio de los músicos de jazz en Estados Unidos (Heckathorn, & Jeffri, 2001), el estudio de adicciones (Abdul-Quader; Heckathorn; McKnight, et al., 2006), temáticas de género (Ramirez-Valles; Garcia, Campbell, et al., 2008) e incluso estudios sobre temáticas migratorias (Qiu; Yang; Ma, et al., 2012; Tyldum, & Johnston, 2014).
El muestreo RDS “accede” a lo que consideramos población oculta mediante las redes sociales de sus miembros, empleando diversas bolas de nieve o muestreos por “cadenas de referencia”. En ese sentido, el estudio comienza por seleccionar un grupo de personas consideradas como “semillas”. Estas semillas reclutan a sus contactos, amigos o familiares que califican para ser incluidos en el estudio bajo la forma de primera “onda”. La primera onda recluta posteriormente a la “segunda onda”, ésta a la “tercera onda” y así sucesivamente.
Aspectos operacionales
La elección de las semillas (“seeds”) o nodos iniciales se determina mediante un criterio basado en la afinidad entre pares. Después de que una persona completa la encuesta se le solicita que reclute a un número específico de personas para ser encuestadas, y éstas subsecuentemente hacen los mismo hasta llegar al tamaño óptimo de la muestra. En este sentido, la semilla puede no pertenecer a la población objetivo, pero debe garantizar el contacto entre el encuestador y las personas pertenecientes a esta población. Cada eslabón de la cadena (a excepción de la inicial) desempeña entonces un doble rol, el de reclutador y reclutado. Esto permite un mejor acceso debido a la identificación recíproca entre las partes. Dado que la composición del muestreo RDS no depende de las características de las semillas, no es necesario que las mismas sean seleccionadas aleatoriamente. Sin embargo, contar con diversas y heterogéneas semillas incrementa la eficacia del RDS debido a la velocidad a la que la composición de la muestra se vuelve independiente de las características de los primeros encuestados.
Las cadenas de reclutamiento crecen sólo si las semillas tienen un rol activo, por lo tanto, es importante que sean actores con altos niveles de contactos sociales y estén comprometidos con el estudio. En los muestreos tradicionales por bola de nieve a esas semillas de “voluntarios” se les considera una fuente de sesgo. Por el contrario, en el RDS las características previas de las semillas pierden relevancia como fuente de sesgo en la medida en que éstas logren generar cadenas de reclutamiento expansivas. Su alta centralidad en términos de individuos con múltiples conexiones no aumenta el sesgo, sino que lo reduce al acelerar los procesos de reclutamiento. Las semillas, además, no son reclutadas aleatoriamente, de otra manera no estaríamos en presencia de un tipo de población “escondida”, sino que, por el contrario, son personas con las cuales ya tuvimos acceso previamente.
Los encuestados, por su parte, reclutan a sus conocidos, amigos y/o familiares, que generalmente tienden a mostrar perfiles sociodemográficos y económicos similares (en términos de ingresos, educación, religión, etc.). Este principio de “homofilia” produce que el reclutamiento no sea aleatorio sino conformado por la red social que conecta al encuestado con la población objetivo (donde encuestados con mayor densidad están sobrerrepresentados y aquellos con menor densidad subrepresentados). Por consiguiente, la muestra refleja estos patrones.
En ese sentido, el RDS utiliza el modelo de las cadenas de Markov para aproximar este proceso. El mismo se basa en dos elementos (Heckathorn, 2002): en primer lugar, si las cadenas de reclutamiento son lo suficientemente grandes, el equilibro se alcanza y la composición de la muestra es independiente de las semillas iniciales. En segundo lugar, la información recolectada durante el proceso de muestreo puede utilizarse para medir el sesgo.
La técnica considera a este mecanismo de selección un proceso de Markov de primer orden. Las cadenas de Markov tienen la propiedad de que la probabilidad de que se asuma un estado depende solamente de su estado inmediatamente anterior en el proceso. En consecuencia, el sistema de selección asume la propiedad de que las características de cada informante X (i),j sólo dependen de las características del informante inmediatamente anterior X (i),j-1 , es decir, de su reclutador, pero no de quien reclutó a este último. El primer subíndice i=1,.., p. hace referencia a la variable en estudio, mientras que el segundo j=1,…, n. indica la posición del participante en el secuencia de eslabones.
En consecuencia, la probabilidad de que X (i),j =s dependa del estado inmediatamente anterior en la cadena X (i),j-1 , al ser homogéneas en cada eslabón es: P(X (i),j =s| X (i),j-1 =t).
Esta perspectiva posibilita el cálculo de las “probabilidades de transición” (P st ) entre los “m” posibles estados o categorías correspondientes a cada una de las características en estudio y la construcción de las “matrices de transición” (T).
La cadena está conformada por un proceso, en donde en cada eslabón existe la posibilidad de que ocurra alguno de los “m” sucesos mutuamente excluyentes al admitir la vinculación entre “s” y “t” mediante la siguiente notación:
Los valores que asumen p
st
se denominan “probabilidades de transición”. En donde s,t=1,2,…,m. y p
st
≻0. A la vez, se cumple que para categoría “s” se satisface la condición
Por su parte, la combinación de los valores que asumen las P st configuran una matriz de dimensión m×m denominada “matrices de transición” (T).
Estas matrices permiten posteriormente determinar matemáticamente la muestra teórica de equilibro y los niveles de “tolerancia” para la validez estadística.
Suponiendo un proceso X (i) que en cada etapa sólo puede asumir alguno de los dos estados mutuamente excluyentes “s” y “t”, resulta una matriz de transición T 2×2. Los valores de la muestra teórica de equilibrio (P E ) satisface el siguiente sistema.
En donde
En el caso del grupo correspondiente a la categoría o estado “s”, se satisface
Se detalla la obtención de los valores de equilibrio:
En (1) despejamos
Reemplazado a
La muestra de equilibrio para “t” (
En forma alternativa se puede alcanzar la ecuación (5), reemplazando en la ecuación (1) el valor de la muestra de equilibrio de “s” (
Mientras que, p ss =P(X (i),j =s|X (i),j-1 =s) y p st =P(X (i),j =s|X (i),j-1 =t) indican las probabilidades de transición de que el encuestado cuya característica es “s” haya sido precedido por un encuestado con característica “s” y “t”, respectivamente.
El nivel de tolerancia (ε
s
) indica la diferencia entre el valor de la muestra en equilibrio y la distribución real de la muestra (observada). Esto es
Las distribuciones muestrales de “s” y “t” se definen como
Nivel de saturación de la muestra
El nivel saturación del muestreo se encuentra a partir de las ondas necesarias para alcanzar estabilidad en las proporciones entre las categorías de las características definidas para el presente análisis. Las categorías que componen a cada una de esta serie de características deben ser mutuamente excluyentes y permitir la conformación de grupos en la población que sean relevantes para la investigación (Mantecón; Montse; Calafat, et al., 2008).
En relación con esto último, se seleccionarán para la delimitación de los grupos y el posterior análisis de saturación y “tolerancia” muestral las siguientes tres variables dicotómicas:
X (1): “Género”, en donde X (1)=1“Masculino” y X (1)=2 “Femenino”.
X (2): “Grupo etario”, en donde X (2)=1 “Hasta 25 años” y X (2)=2 “Más de 25 años”.
X (3): “Generación migrante”, en donde X (3)=1 “Generación 1.5” y X (3)=2 “Generación 2.0”.
La variable “Generación migrante” hace referencia a aquellos hijos de migrantes “Sur-Sur” que no nacieron en el país, pero migraron antes de los 11 años (“Generación 1.5”) y a aquellos hijos de migrantes que sí nacieron en el país (“Generación 2.0”). En ese sentido, el muestro RDS posee ciertos requisitos particulares de los datos, ya que no sólo necesitamos información sobre las variables de interés sino también dos elementos adicionales de información que sirven para proporcionar el marco de muestreo a partir del cual se calculan los pesos posteriores:
El reclutamiento entre grupos (por ejemplo, en nuestro estudio, el reclutamiento proporcional de hijos de migrantes varones realizados por hijos de migrante mujer y el reclutamiento de hijos de migrantes mujeres realizado por hijos de migrantes varones).
El tamaño medio estimado de la red (por ejemplo, a cuántas personas conoce que sean hijos de migrante o que llegaron antes de los 11 años a la Argentina).
La razón por la cual debemos hacer un seguimiento de quién reclutó a quién se halla en que podamos calcular estas proporciones de reclutamiento entre grupos. Preguntamos, asimismo, el tamaño de la red personal de cada individuo para poder calcular el grado medio estimado.
En cada una de las ondas de relevamiento se medirá las proporciones de estos atributos para observar sus valores muestrales. Como señala Mantecón et al. (2008), la cantidad de ondas es variable y depende de la investigación. Los autores mencionados, por ejemplo, llegaron a 12 ondas hasta estabilizar la muestra. A pesar de que existe la posibilidad de que la muestra logre estabilidad con rapidez, establecemos como objetivo inicial las 12 ondas o más, tal cual sugiere la literatura (Heckathorn, 2002).
Sistema de reclutamiento
El sistema de incentivos dual es característico de este enfoque y fundamental para lograr el tamaño muestral necesario en el tiempo de relevamiento estimado. En ese sentido, los incentivos funcionan como el sistema de reclutamiento.
Este régimen de incentivos se basa en una doble “recompensa” para cada individuo en función de los dos roles que asume: el de encuestado y reclutador. En consecuencia, se bonifica a cada participante en cada uno de estos momentos para motivar su compromiso.
La estructuración de tal régimen se pensó a partir de la entrega de un cupón en cada instancia, por su participación como encuestado y por cada reclutamiento en que se garantice la encuesta. En cada uno de estos cupones se estipula que participarán en un sorteo por definir. Como señalamos previamente, el sesgo en el muestreo es minimizado en el RDS cuando logramos mayores cadenas de referencia. En ese sentido, para estimular cadenas de referencias mayores y promover mayor profundidad sociométrica se utilizan cuotas (cantidad máxima de cupones por participante) de reclutamiento para limitar la capacidad de que los miembros de la población con grandes redes personales dominen la muestra (Heckathorn, 1997).
Como señalan Wejnert, & Heckathorn (2011), si un encuestado recluta a 10 personas, cada uno de los cuales recluta a 10 más, el tamaño de la muestra crecería rápidamente. Por ejemplo, se comienza con una sola semilla (onda 0) a 10, luego a 100, a 1 000 y 10 000 en la onda 4. En contraste, si cada encuestado sólo recluta a 2 personas, el crecimiento será mucho más lento, desde la semilla inicial a 2, luego a 4, luego 8 y finalmente 16 en la onda 4. Es decir, cuotas de reclutamiento más restrictivas producen cadenas de reclutamiento con más ondas y consiguen que los reclutamientos sean escasos y valiosos como para perderlos.
Siguiendo con el argumento de Wejnert, & Heckathorn (2011), elegir el tamaño de la cuota de reclutamiento implica un trade-off. Si la cuota es demasiado pequeña, el reclutamiento puede desaparecer porque algunos sujetos no van a lograr reclutar la cantidad potencial que podrían, además de que al ser tan restrictiva la cuota se invalida el potencial que podrían alcanzar sujetos con alta densidad de redes sociales. La recomendación es que las cuotas sean pequeñas (aquí es importante un conocimiento previo del campo de estudio). Los antecedentes señalan que las cuotas se han establecido entre 3 y 4 por reclutador. En ese sentido, en nuestro estudio se tiene previsto limitar a un máximo de 4 la cantidad de reclutados por participante.
Estimación de los valores poblacionales e intervalos de confianza
Los valores poblacionales de cada atributo pueden estimarse mediante el conocimiento de la población objetivo que posee el encuestado y la matriz de transición de probabilidades resultante de la muestra.
La densidad de la población (D) se abordará mediante la incorporación en la encuesta de una pregunta que indague sobre la cantidad de personas de la población objetivo que el participante conoce en cada una de las “m” categorías de las variables analizadas (X
(1), X
(2), X
(3)). Esto nos permite tener una primera idea del tamaño medio de la población (Mantecón et al., 2008). A modo de ilustración, consideremos la variable X
(1) que indica el género del hijo o hija de migrantes sur-sur, en donde la primera categoría (“s”) refiere a la categoría “varón” y la segunda (“t”) a la condición “mujer”. Por lo tanto, cada individuo “j” nos revela la cantidad de personas que conoce en cada una de las subpoblaciones mencionadas (D
js
y D
jt
). En consecuencia, a partir de los valores obtenidos en la muestra podemos estimar tanto el tamaño promedio de la red general (
Uno de los aportes más importante que realiza esta metodología es la posibilidad de construcción de intervalos de confianza para los estimadores obtenidos. Esto se logra mediante la generación de nuevas muestras de igual tamaño construidas a partir de un proceso de selección con reemplazo (“bootstrap”) realizado sobre la muestra original obtenida.
El método particiona la muestra al ubicar a cada individuo “j” en función del grupo al que corresponde el individuo “j-1” que lo reclutó. Estos grupos son los conformados por las categorías de las características de relevancia seleccionadas (X
(i)
). En consecuencia, al ser “m” la cantidad de categorías o estados posibles que puede asumir cada observación en una variable específica (X
(i)
)se consideran “m” particiones sobre la muestra original (n). En cada sub-muestra (n
k
) se ubicarán aquellas personas que fueron reclutadas por personas pertenecientes al mismo grupo. Por lo que se cumple que
Posteriormente se selecciona un elemento de la muestra (n) y se observa el valor que asume la característica de estudio (X i =k). Es decir, se observa a qué grupo de la población objetivo pertenece el encuestado y en función de dicha respuesta se selecciona un nuevo elemento en la submuestra conformada por encuestados reclutados por personas pertenecientes a este grupo.
El proceso de selección continúa con esta lógica hasta que la nueva muestra (n´) obtenida logra el tamaño de la muestra inicial (n) y se comienza un nuevo proceso de selección para alcanzar una nueva réplica (n´´) de igual tamaño.
A partir de las réplicas obtenidas se calculan las proporciones muestrales y se construyen los intervalos de confianza para dicho estimador. Por lo tanto, es importante en el RDS realizar un seguimiento estricto de quién reclutó a quién para calcular las proporciones correspondientes.
El estimador de la proporción poblacional para el grupo “s” (
Estimador Poblacional RDS
p
st
proporción (muestral) del grupo “s” seleccionado por el grupo “t”, p
ts
. proporción (muestral) del grupo “t” seleccionado por el grupo “s”,
Se detalla la obtención de los valores de equilibrio:
Despejando en (2)
Reemplazando en el segundo miembro de (3) el valor del estimador
El estimador de
Intervalo de Confianza del Estimador Poblacional RSD
Específicamente para el procesamiento de los datos resultado del muestreo RDS se tiene previsto trabajar con el software R (R Core Team, 2020) y el paquete RDS (Handcock; , Fellows, , & Gile, 2012).
Con la generación de datos primarios se tiene previsto contribuir a la discusión sobre las interrelaciones entre los procesos migratorios y los mecanismos de producción y reproducción de desigualdades en los países del sur global. Se espera profundizar este debate y superar las limitaciones propias de los datos secundarios disponibles. En efecto, en las estadísticas disponibles generadas por el aparato estadístico estatal, como las encuestas periódicas de hogares, no es frecuente tener información sobre la nacionalidad de los padres. Y cuando ésta existe, la población de interés relevada es de tamaño pequeño (n).