Introducción
El descubrimiento de cantidades grandes de marcadores polimorfismos de un solo nucleótido (SNPs); la tecnología de rendimiento alto para genotipar animales en miles de SNPs de manera rentable y los avances en metodologías estadísticas para análisis, ayudaron a generalizar el uso de selección genómica (SG) en el mundo (Meuwissen et al., 2016). Actualmente se estudia el efecto en conjunto de marcadores moleculares en la predicción de valores genéticos (VG) de características de interés económico en los animales (De los Campos et al., 2013).
El éxito del aprovechamiento de marcadores SNP en SG reside en lograr predicciones precisas de los VG para las características estudiadas. Según Meuwissen et al. (2016) se requieren individuos con información fenotípica confiable y con la mayor cantidad posible de SNPs. Para mejorar la precisión de las predicciones de los VG, se han propuesto variantes de la metodología innovadora de (Meuwissen et al., 2001), como los enfoques semiparamétricos (Gianola et al., 2006) o no paramétricos (Gianola et al., 2009). Además, continúan surgiendo estudios sobre modificaciones y aportaciones metodológicas, como el uso del agrupamiento de K-means para validación cruzada contra la metodología común (Saatchi et al., 2011). La evaluación genómica en un solo paso (ssGBLUP) es un análisis estadístico novedoso en SG que permite utilizar información genómica y de pedigrí, con precisión superior en comparación con otros métodos de varios pasos (Wang et al., 2014). El análisis ssGBLUP requiere la construcción de varias matrices: la matriz A (de relaciones genéticas aditivas), la matriz G (de relaciones genómicas) y la matriz H (de relaciones entre animales genotipados y no genotipados) (Pértile et al., 2016).
Independientemente del uso de metodologías estadísticas para el análisis de la información, se requiere que ésta sea de buena calidad. Anderson et al. (2010) detallan la metodología para realizar un buen control de calidad del genotipo (GQC), una de las etapas es la eliminación de los marcadores con frecuencia del alelo menor o Minor Allele Frequency (MAF) muy baja. La MAF se define como todos aquellos alelos, en la secuencia de ADN, cuya frecuencia varía de 0.01 a 0.2 (Chouraki & Seshadri, 2014). La MAF también se ha relacionado con la prevalencia de enfermedades genéticas raras (Kido et al., 2018). Estos autores reportaron que 50 % de MAF se asocia con enfermedades complejas, como Alzheimer, diabetes, cáncer y esquizofrenia.
En la edición de la información genética, al eliminar los alelos de menor frecuencia se pretende aumentar la frecuencia de los alelos que tienen un efecto importante en las características en estudio. Para asegurar la calidad del genotipo en las predicciones de valores genéticos se eliminan los marcadores con MAF menor que 5 % o hasta 1 %. Por ejemplo, Minozzi et al. (2012) trabajaron en el GQC de genotipos bovinos, eliminando marcadores con MAF menor que 1 %. Anderson et al. (2010) indican que el no eliminar los alelos de baja frecuencia provoca el uso de información falsa, por dos razones 1) las asociaciones observadas en estos SNPs son pequeñas porque son impulsadas por los genotipos de pocos individuos; y 2) pueden provenir de errores de genotipado en los marcadores que en realidad son monomórficos en la población.
Para características de crecimiento en bovinos no existe claridad completa del efecto del umbral de MAF en la precisión de las predicciones en poblaciones pequeñas, aunque se entiende que al aumentar la calidad del genotipo se incrementará también la precisión en las predicciones de los VG, aun cuando utilizar valores altos de MAF implique eliminar gran parte de la información de marcadores SNP. Por lo anterior, el objetivo del presente estudio fue comparar el efecto de diferentes umbrales MAF en la edición de GQC utilizando SNPs, para la predicción genómica en una sola etapa de características de crecimiento en bovinos Suizo Europeo.
Material y Métodos
Origen de la información
La información fenotípica provino de la base de datos de la Asociación Mexicana de Criadores de Ganado Suizo de Registro. Se tomaron los registros genealógicos, identificación y los pesos al nacimiento (BW) y al destete (WW) de los animales. El pedigrí lo conformaron 184,788 animales nacidos entre 1901 y 2016.
Para la información genómica se colectaron muestras de pelo de 300 animales, 236 hembras y 64 machos, seleccionados aleatoriamente de ranchos ubicados en los estados de Colima, Jalisco y Veracruz, México. Posteriormente las muestras se enviaron a genotipar a GeneSeek (Lincoln, NE, USA). El chip usado fue Genomic Profile Bovine LD, de 30,000 y 50,000 marcadores SNP para 150 animales cada uno.
Fenotipos
Para BW, se eliminaron los registros de individuos con BW fuera del intervalo promedio ± tres desviaciones estándar, sin información de hato o edad de la madre. Los grupos contemporáneos se definieron combinando los efectos de sexo, hato, año y época de nacimiento. Las épocas de nacimiento se definieron considerando el día juliano: del día 80-171, primavera; 172-264, verano; 265-354, otoño; 355-366, invierno; y 1-79, invierno. La información de animales en grupos contemporáneos con menos de dos individuos y animales en grupos de tres o más individuos con varianza cero también se eliminó. Finalmente se obtuvieron 28,973 registros fenotípicos para análisis posteriores.
Para WW se eliminaron los registros con edades al destete inconsistentes, que estuvieron tres desviaciones estándar por arriba o por debajo de la media, sin información de manejo, hato o edad de la madre. Los grupos contemporáneos se definieron combinando los efectos de manejo, sexo, hato, año y época de nacimiento. El manejo para WW se definió de tres maneras 1) alimentación de la cría con leche de la madre; 2) leche de la madre más alimento balanceado; y 3) leche de la madre y de una nodriza más alimento balanceado. Las épocas de nacimiento se definieron igual que para BW, así como el criterio de eliminación dentro de grupos contemporáneos. Finalmente se obtuvieron 18,994 registros fenotípicos para análisis subsecuentes.
Los fenotipos seleccionados para el análisis con el método ssGBLUP fueron de los animales genotipados y de sus ancestros cinco generaciones atrás. La cantidad de datos con que se realizaron estos análisis se muestran en el Tabla 1.
Genotipos
La información de los genotipos se editó de la siguiente manera: información genómica: se tomaron los SNPs en común del chip de 30K y del de 50K, obteniéndose 12,835 SNPs de los 300 animales; recodificación: los efectos aditivos se recodificaron como AA=0, AB=1 y BB=2; imputación: los genotipos faltantes se imputaron dentro de tamaño de chip utilizando las muestras de distribución marginal de los genotipos de los marcadores; y calidad del genotipo: se eliminaron los SNPs monomórficos y con diferentes umbrales de MAF. En la Tabla 2 se observan los números de marcadores SNP disponibles una vez que se aplicaron los umbrales MAF estudiados.
Cálculo de la matriz H
La matriz de relaciones entre animales genotipados y no genotipados (H) se obtuvo de manera similar a como lo descrito por Christensen & Lund (2010) y Legarra et al. (2009). La matriz H, que incluye información de pedigrí y genómica, se define como:
donde Ann, Agn y Agg son submatrices de A que contienen las relaciones entre animales no genotipados, entre genotipados con no genotipados y entre genotipados, respectivamente.
Ga es una matriz de relación ajustada obtenida de la matriz G descrita anteriormente:
Ga=βG+ y se obtienen al resolver el sistema de ecuaciones:
En la primera ecuación el promedio de los elementos de la
diagonal de G es igual al promedio de los elementos de la diagonal de Agg. En la segunda ecuación el promedio de todos los elementos de G es igual al promedio de todos los elementos de Agg. Para más detalles sobre el cálculo de H consultar (Christensen et al., 2012).
Análisis estadístico
Las características de crecimiento BW y WW se analizaron bajo el enfoque de análisis genómico en un solo paso, modificación del método de mejor predicción genómica insesgada genómica (GBLUP) propuesto por (VanRaden et al., 2009), siendo el cambio más importante la permutación de la matriz G, por la matriz H. En notación matricial el modelo puede escribirse como:
donde y es el vector de fenotipos; Z1 y Z2 son matrices de incidencia que relacionan las mediciones fenotípicas con los efectos fijos y los efectos aleatorios y ; y es el vector de efectos aleatorios de error residual. Las varianzas aditivas genéticas, de grupo contemporáneo y residual se supusieron:
respectivamente.
El modelo para BW (1) incluyó los efectos fijos de la covariable edad de la madre lineal (EM) y cuadrático (EM2); el efecto de grupo contemporáneo (GC) fue considerado aleatorio. El modelo para WW (2) incluyó los mismos efectos fijos que (1) más el de la covariable edad al destete (ED).
Validación cruzada
La habilidad predictiva de los modelos utilizados se probó mediante validación cruzada. La población se dividió en cinco grupos, uno de los cuales sirvió como de entrenamiento y el resto como de prueba. La validación cruzada se repitió cuatro ocasiones, con cada uno de los grupos de datos de prueba y finalmente se obtuvo la media aritmética de los resultados de cada iteración obteniendo un único resultado para cada análisis.
Criterios de comparación de los análisis Efecto de MAF en la jerarquización de animales
Para determinar el efecto de MAF sobre el grado de similitud entre la jerarquización de animales de acuerdo con los valores genómicos predichos (GEBVs) para BW y WW, se obtuvieron los estimadores de correlación Spearman y Pearson entre los GEBVs obtenidos con MAF = 0.05 y con los correspondientes GEBVs obtenidos con MAF = 0, 0.02 y 0.04.
Habilidad de predicción de los modelos
Para evaluar el efecto de MAF en la habilidad predictiva de los modelos se realizó una validación cruzada. Se dividió la información en conjuntos de entrenamiento y validación, utilizando el conjunto de validación para evaluar la capacidad predictiva del modelo entrenado. Se eliminó aleatoriamente 20 % de los valores fenotípicos de las características de crecimiento BW y WW. Posteriormente para cada modelo con MAF de 0, 0.02, 0.04 y 0.05 se obtuvieron los GEBVs para dichas características y se obtuvo el promedio de cuatro repeticiones de los coeficientes de correlación de los fenotipos eliminados con los predichos.
Coeficiente de regresión lineal simple
Los estimadores de los coeficientes de regresión lineal simple se utilizaron para determinar el efecto de MAF en los cambios en magnitud de los GEBVs, utilizando como variables independientes los GEBVs con MAF 0.05 y como variables dependientes los valores genómicos predichos con MAF 0, 0.02 y 0.04. La hipótesis nula probada fue que el estimador del coeficiente de regresión fue igual que cero.
Para todos los análisis estadísticos se utilizó el programa R (RStudio Team, 2019).
Resultados y discusión
Jerarquización de los animales
Los coeficientes de correlación de Spearman y Pearson entre los GEBVs con los análisis considerando diferentes umbrales de MAF se muestran en la Tabla 3. Los estimadores en ambos tipos de correlaciones fueron mayores que 0.999 (p ≤ 2x10-16), hubo pocos cambios en la jerarquización de los animales de acuerdo con los GEBVs obtenidos con los diferentes umbrales probados. Esto indica que el efecto de MAF no fue importante en la jerarquización de los GEBVs.
MAF | BW | WW | ||
---|---|---|---|---|
Pearson | Spearman | Pearson | Spearman | |
0 | 0.99993 (<2×10-16) |
0.99980 (<2×10-16) |
0.99976 (<2.2×10-16) |
0.99960 (<2.2×10-16) |
0.02 | 0.99990 (<2×10-16) |
0.99976 (<2×10-16) |
0.99974 (<2.2×10-16) |
0.99957 (<2.2×10-16) |
0.04 | 0.99991 (<2×10-16) |
0.99978 (<2×10-16) |
0.99983 (<2.2×10-16) |
0.99968 (<2.2×10-16) |
MAF = umbral de frecuencia de alelo menor; BW = peso al nacimiento; WW = peso al destete.
Estos resultados sugieren que con fines de selección de animales como progenitores, cuando las evaluaciones se hacen utilizando información de SNPs, se puede utilizar cualquier umbral MAF entre 0.0 y 0.05 en el control de calidad durante la edición de genotipos, aunque 0.05 es el estándar en las evaluaciones genómicas realizadas con animales de acuerdo con (VanRaden et al., 2009).
Las precisiones obtenidas mediante los estimadores de correlación fueron ligeramente mayores para BW que para WW, esto puede deberse al mayor tiempo de influencia del ambiente sobre los animales para WW y que puede afectar las predicciones.
En el control de calidad del genotipo en bovinos HolsteinFriesian australianos, usando el chip Illumina Bovine SNP50TM y 798 animales, se eliminó MAF <2.5 % (Hayes et al., 2009). Estos autores obtuvieron para peso vivo exactitudes de los GEBVs de 50 a 67 %, similares a las obtenidas en el presente estudio. Por su parte, Wiggans et al. (2009) eliminaron registros utilizando MAF menores que 2 % en genotipos de 941 bovinos Jersey y 344 toros Suizo Europeo, las dos poblaciones de animales utilizadas en estos estudios no pueden considerarse grandes de acuerdo con VanRaden et al. (2009). Estos autores sugieren usar MAF no menor que 5 %, aunque en poblaciones grandes se puede disminuir sin afectar la precisión.
Wiggans et al. (2009) argumentan que el número de animales disponibles por raza en su estudio hizo que sus resultados se consideraran preliminares, ya que el tamaño de muestra no permitió obtener resultados definitivos. Lo anterior puede explicar los resultados obtenidos en la presente investigación, pues la cantidad de animales utilizados no se considera una población grande, en comparación con los tamaños poblacionales utilizados en otros estudios (VanRaden et al., 2009).
Habilidad de predicción del modelo con diferente umbral de MAF
La Tabla 4 muestra que establecer un MAF mayor en el control de calidad en la edición de los genotipos, mejora la precisión de predicción de los GEBVs, aunque la diferencia en precisión, para BW, entre utilizar MAF = 0.0 contra MAF = 0.05 es muy baja, 0.0027, y es más baja para WW donde la diferencia fue 0.0007. Esto significa que, en el GQC de una muestra de 300 animales con 12,835 SNPs, el umbral de MAF a utilizar de hasta 0.05 no es importante en la predicción de GEBVs para BW y WW.
MAF | BW | WW |
---|---|---|
0 | 0.7130 | 0.6444 |
0.02 | 0.7127 | 0.6447 |
0.04 | 0.7136 | 0.6451 |
0.05 | 0.7136 | 0.6451 |
MAF = umbral de frecuencia de alelo menor; BW = peso al nacimiento; WW = peso al destete.
Linck & Battey (2019) realizaron un estudio con información de SNPs simulada, utilizando umbrales de MAF entre 0.017 y 0.25; estos autores reportaron que utilizar un MAF mayor que 0.03 implica un cambio en la estructura de la distribución de los datos por la caída en el tamaño total de la matriz después del filtrado y genera un aumento en la precisión de los predictores. Lo anterior puede explicar que en el presente estudio utilizar MAF = 0.05 para BW, implique obtener ligeramente mejores predicciones.
La habilidad de predicción de los modelos para BW y WW para cada uno de los umbrales estudiados no representa cambios significativos. Lo anterior puede explicarse por la poca cantidad de SNPs eliminados dada la información utilizada comparada con la información que se usó en otros estudios como el realizado por (Zhu et al., 2017) con 82,594 marcadores por (De la Cruz & Raska, 2014), 40,000 en el estudio de (Linck & Battey, 2019), y 600,000 en el estudio con aves de (Abdollahi-Arpanahi et al., 2014). Estos autores reportaron un efecto importante del MAF en la predicción genómica de las características estudiadas. Un aspecto adicional es el bajo número de animales que se utilizó en el presente estudio, lo que no permite obtener resultados concluyentes. Se recomienda realizar el estudio con un número mayor de animales.
Estimador de los coeficientes de regresión
En la Tabla 5 se observa que los coeficientes de regresión son similares entre sí; sin embargo, el coeficiente para WW se reduce ligeramente conforme incrementa el MAF para el control de calidad en la edición del genotipo. Conforme los estimadores de los coeficientes de regresión sean diferentes de la unidad, la diferencia en la predicción de los GEBVs con las alternativas de análisis en comparación es mayor (Mäntysaari et al., 2010), todos los estimadores de los coeficientes de regresión se encuentran cerca de la unidad en consecuencia las diferencias entre los efectos de los umbrales de MAF probados son mínimas.
MAF | BW | WW |
---|---|---|
0 | 0.99756±0.00072 (<2×10-16) |
0.99323 ± 0.00136 (<2×10-16) |
0.02 | 0.99605±0.00076 (<2×10-16) |
0.99255 ± 0.00141 (<2×10-16) |
0.04 | 0.99578 ± 0.00072 (<2×10-16) |
0.99400±0.00114 (<2×10-16) |
MAF = umbral de frecuencia de alelo menor; BW = peso al nacimiento; WW = peso al destete.
Los resultados del presente estudio son similares a los reportados por (Edriss et al., 2012), quienes utilizando información de 5,500 animales Holstein y Jersey con 54,000 SNPs, estimaron para las características de fertilidad, proteína en leche y mastitis, las correlaciones entre valores reales y predichos usando los umbrales de MAF: 0.075, 0.275, 0.3, 0.325 y 0.35, sus resultados mostraron mínimas diferencias, por ejemplo, en Holstein las correlaciones para fertilidad tuvieron una diferencia máxima de 0.014; concluyendo que los resultados de su estudio sugieren que para una población de referencia pequeña, los marcadores SNP con MAF bajo no dañan la predicción genómica, afirmación que también aplica a lo encontrado en el presente estudio, pero para características de crecimiento.
De acuerdo con lo reportado por VanRaden et al. (2009) y Wiggans et al. (2009), en relación con el número de animales que conforman la población y el número de marcadores, los resultados utilizados en este estudio deberán tomarse con precaución, y como mencionaron Hayes et al. (2009), deberán considerarse preliminares y susceptibles a cambios que en un futuro pudieran presentarse al repetir el estudio con un número mayor de animales y marcadores, ya que el efecto de MAF se debe a la caída en el tamaño total de la matriz después del filtrado en la GQC, caída que puede no ser significativa si la cantidad de información es limitada (Linck & Battey, 2019).
Conclusión
El umbral de frecuencia de alelo menor a utilizar en la evaluación genómica puede encontrarse en el rango de 0 a 0.05, sin alterar de forma importante la predicción de valores genómicos, pues no tiene un predictive efecto significativo sobre la jerarquización de los valores genómicos predichos y la habilidad predictiva del modelo. Se reconoce que 0.05 puede ser un umbral recomendable para utilizar en evaluación de poblaciones pequeñas y con un número de marcadores limitado.