Introducción
La motivación principal del método de regresión cuantil (QR) reside en que la mayoría de los modelos para evaluación genética asumen normalidad, lo que no siempre se cumple. Otro problema es que en ocasiones registros fenotípicos muy alejados del promedio de la población se consideran como errores de registro o datos atípicos y por consiguiente se eliminan de los análisis, visto desde el punto de vista genómico se está perdiendo información valiosa de marcadores asociados a ciertas regiones de ADN con fuerte influencia en características de interés.
Con el método QR se obtienen resultados robustos y una visión amplia de las variables explicativas sobre las dependientes1. Los datos generados a partir de experimentos ómicos frecuentemente son complejos y de gran dimensión, por consiguiente existe un desafío estadístico para extraer información biológica relevante del gran volumen de datos2,3. El uso de un enfoque sólido como QR hace que la inferencia sea menos sesgada y esté menos sujeta a falsos positivos2. En estudios recientes que utilizan QR, se describen aplicaciones diversas como estudios de asociación genética4, genética de poblaciones5, expresión génica6,7 y selección genómica8-10.
Uno de los primeros estudios donde se utilizó QR para predecir el mérito genético individual lo presentaron Nascimento et al11, quienes utilizaron datos simulados encontrando ventajas al usar QR frente a metodologías convencionales. El mismo año12 se publicaron resultados usando QR para ajustar curvas de crecimiento con datos de cerdos y marcadores moleculares; no solo ajustaron con éxito las curvas de crecimiento sino que identificaron marcadores de importancia asociados con la característica estudiada. Otro trabajo similar del mismo equipo de investigadores fue presentado por Nascimento et al13, pero con datos de frijol. Recientemente Pérez-Rodríguez et al10 extendieron el modelo de regresión cuantil para incluir información de pedigrí a través del uso de la matriz de relaciones genéticas aditivas, mejorando aún más la habilidad predictiva de los modelos y al mismo tiempo identificando las proporciones de las varianzas atribuidas a marcadores, relaciones entre individuos y el residual, lo cual permite obtener de manera precisa una partición de la varianza fenotípica.
El objetivo del presente estudio fue estudiar el poder predictivo del modelo de regresión cuantil utilizando datos simulados y datos reales (pesos al nacimiento, destete y al año) de bovinos Suizo Europeo y se consideraron los modelos: 1) QR con información de marcadores moleculares SNP (QRM), 2) QR incluyendo simultáneamente información de marcadores moleculares y genealógica derivada del pedigrí (QRH); 3) GBLUP el cual al igual que QRM solo incluyó información de marcadores moleculares, y 4) evaluación genómica en un solo paso (ssGBLUP) que incluyó información de marcadores y pedigrí.
Material y métodos
Genotipos
Se utilizó información de 300 animales (236 hembras, 64 machos) nacidos de 2001 a 2016 en ocho hatos ubicados en el Este, Centro y Oeste de México. Se recolectaron muestras de pelo para su genotipado por la compañía GeneSeek (Lincoln, https://www.neogen.com/, NE, EE. UU.), utilizando el panel GeneSeek® Genomic Profiler Bovine LDv.4, con 30,000 y 50,000 marcadores SNP, 150 animales con cada Chip. La genotipación se realizó en dos ocasiones distintas, inicialmente 150 individuos con el Chip de 30K y posteriormente otro grupo de 150 individuos con el Chip de 50K ya que el Chip de 30K no estuvo disponible en ese momento. Se utilizaron los SNP en común entre los chips de 30K y 50K (12,835 SNP). Se calcularon las proporciones de valores faltantes para cada marcador y para cada individuo. El promedio de valores faltantes por individuo fue 2.09 % con una desviación estándar de 7.50 %. La tasa de llamada promedio (proporción no faltante para cada marcador) fue 97.90 % con una desviación estándar del 4.66 %. Se eliminaron los marcadores con una tasa de llamada inferior al 95 %. Los genotipos se recodificaron como AA= 0, AB= 1 y BB= 2, de donde se obtuvo una matriz con 300 filas (individuos) y 12,835 columnas (marcadores) cuyas celdas toman valores en el conjunto
Fenotipos
La información fenotípica y de pedigrí de la población de ganado Suizo Europeo se obtuvo de la base de datos de la Asociación Mexicana de Criadores de Ganado Suizo de Registro. Los registros de pesos al nacer (PN), al destete (PD) y al año (PA) se utilizaron para el análisis. La edición de los fenotipos fue similar para PN, PD y PA, se descartaron los registros de animales no relacionados genéticamente con aquellos genotipados o con información faltante para hato, edad de la madre y manejo. Los grupos contemporáneos (GC) se definieron al eliminar los animales en GC de 2 individuos o con varianza igual a cero. Para PN los GC se definieron combinando los efectos del hato (8 hatos), año (1998 a 2016) y temporada de nacimiento; las temporadas de nacimiento se definieron considerando el calendario juliano, de 80 a 171 días, primavera; de 172 a 264 días, verano; de 265 a 354 días, otoño; de 355 a 366 días y de 1 a 79 días, invierno. Después de la edición de datos para PN se obtuvieron 330 registros. Para PD y PA los GC se definieron combinando los efectos del hato (6 hatos), año (de 1998 a 2016), temporada de nacimiento (igual que PN) y manejo. En el caso de PD los grupos de manejo se definieron de tres formas: terneros alimentados con leche de su madre; leche de su madre más alimento balanceado; y leche de su madre y nodriza más alimentación balanceada. Para PA los grupos de manejo se definieron de tres maneras: animales en pastoreo; animales en pastoreo con concentrado alimenticio; y animales estabulados con alimentación equilibrada. La edición de datos de PD y PA finalizó con 267 y 232 registros para análisis posteriores. En el Cuadro 1 se presenta un resumen del número de animales genotipados, y fenotipados para PN, PD y PA. La Figura 1 muestra las gráficas de violín para PN, PD y PA, la media muestral está representada por el punto rojo y la mediana muestral por la línea horizontal dentro del recuadro, de la gráfica es claro que las variables respuestas presentan una distribución asimétrica y los círculos con relleno sólido en la misma sugieren la presencia de datos atípicos.
Grupo | Peso al nacer | Peso al destete | Peso al año |
---|---|---|---|
Genotipado | 300 | 300 | 300 |
Genotipado y fenotipado | 232 | 218 | 191 |
Fenotipados en QRM y GBLUP | 232 | 218 | 191 |
Fenotipados en QRH y ssGBLUP | 330 | 267 | 232 |
QRM=Regresión cuantil usando información de marcadores, QRH=Regresión cuantil usando información de marcadores y pedigrí, GBLUP=Mejor predictor lineal insesgado genómico, ssGBLUP=Evaluación genómica en un solo paso.
Modelos
Modelo de regresión cuantil con marcadores (QRM)
El modelo para regresión cuantil es:
donde
donde
donde
donde
El modelo QR puede extenderse para incluir otros términos, en particular para las características de crecimiento, se utiliza el siguiente modelo:
donde
GBLUP
El modelo está dado por:
donde
Modelo de regresión cuantil en un solo paso (QRH)
Este método se considera una extensión del modelo de cuantiles para una matriz de relaciones construida utilizando matrices de relaciones para animales genotipados y no genotipados y de los cuales se tiene disponible un pedigrí. La matriz que resulta se conoce en la literatura como matriz H16,17, esta matriz está dada por:
donde, A
gg
es una submatriz de A para animales genotipados, G
a
= β
G + α;
El modelo QRH está dado por:
donde
Modelo de regresión GBLUP en un solo paso (ssGBLUP)
El modelo ssGBLUP es equivalente al modelo GBLUP descrito anteriormente con la diferencia de que se reemplaza la matriz de relaciones genómicas G por la matriz de relaciones genéticas extendida H, se asume que
Validación cruzada
La capacidad predictiva de los modelos se evaluó mediante validación cruzada, la cual se realizó de la siguiente manera. El conjunto de datos se dividió en cinco grupos del mismo tamaño
Simulación
Con la finalidad de evaluar el poder predictivo del modelo QR frente a GBLUP se realizó además una simulación de datos asimétricos con presencia de datos atípicos; la simulación del presente trabajo es análoga a la utilizada por Pérez-Rodríguez et al10. La idea principal es resaltar que el modelo de regresión por cuantiles funciona de manera adecuada en la presencia de observaciones atípicas, varianzas no homogéneas y variables respuesta con respuestas con distribución asimétrica. En el contexto de selección, por ejemplo, no es poco usual contar con distribuciones asimétricas para los fenotipos debido al proceso mismo, ya que, si se selecciona para alguna característica Y, y si existe además de esto otra característica de interés O, entonces la distribución condicional de Y |O>o19 es asimétrica. En el contexto de selección genómica es también usual encontrar subconjuntos de observaciones que difieren significativamente del resto y estas observaciones podrían considerarse como atípicas. Montesinos-López et al20 propusieron un modelo con errores Laplace y mostraron que predice de manera adecuada aun en presencia de datos atípicos, el modelo propuesto es un caso especial del modelo de regresión cuantil que se estudia en el presente trabajo. Se consideraron los 9,628 SNP resultantes del control de calidad descrito anteriormente para 300 animales, la simulación de los datos se realizó considerando el modelo lineal:
donde
Software y ajuste de los modelos
Los modelos de regresión por cuantiles se ajustaron usando una estrategia computacional similar a la descrita por Pérez-Rodríguez et al10. Las adaptaciones de los algoritmos para incluir efectos fijos y aleatorios no presentan gran dificultad computacional. Los códigos para el ajuste de los modelos se desarrollaron en los lenguajes de programación R25 y C. Los códigos para el ajuste de los modelos fueron organizados de tal forma que puedan ser ejecutados fácilmente desde el software estadístico R y están disponibles solicitándolos al primer autor del presente estudio. En todos los casos se seleccionaron tres cuantiles,
Resultados
Datos reales
Los Cuadros 2, 3 y 4 muestran los resultados del experimento realizado con datos de PN, PD y PA de una población de bovinos Suizo Europeo, evaluados bajo dos escenarios 1) solo con información de marcadores, y 2) información de marcadores y pedigrí. De manera general las correlaciones entre valores observados y predichos más altas se obtuvieron con QR, excepto para PN donde las correlaciones de GBLUP y ssGBLUP fueron más altas que las obtenidas con QRM y QRH, sin embargo, las correlaciones de QRM
Modelo | Cor( |
MSE |
|
DIC |
---|---|---|---|---|
QRM |
0.7521 | 3.9973 | 2.7260 | 513.5014 |
(0.0753) | (1.6108) | (1.9762) | (531.5701) | |
QRM |
0.5619 | 7.3249 | 8.6297 | 970.7680 |
(0.1501) | (0.4561) | (0.2660) | (6.9791) | |
QRM |
0.7902 | 3.6535 | 2.4268 | 716.4237 |
(0.0766) | (0.0943) | (0.4829) | (35.7161) | |
GBLUP | 0.7924 | 2.3269 | 3.0035 | 803.0675 |
(0.0874) | (0.2063) | (0.5578) | (31.9814) | |
QRH |
0.6713 | 3.5026 | 2.3645 | 872.3949 |
(0.1329) | (1.2848) | (1.9670) | (432.0737) | |
QRH |
0.6816 | 2.9988 | 2.7372 | 659.1450 |
(0.1253) | (0.7769) | (1.8239) | (1079.8674) | |
QRH |
0.6981 | 4.1405 | 2.8610 | 1077.2027 |
(0.1140) | (0.6187) | (0.8666) | (60.6781) | |
ssGBLUP | 0.7055 | 2.4463 | 3.2641 | 1189.4282 |
(0.1191) | (0.2204) | (0.4244) | (26.5023) |
Cor(
Modelo | Cor( |
MSE |
|
DIC |
---|---|---|---|---|
QRM |
0.5661 | 476.5293 | 419.4138 | 1550.5339 |
(0.2212) | (17.4612) | (23.3216) | (13.9644) | |
QRM |
0.5695 | 357.7328 | 396.8138 | 1576.8871 |
(0.2307) | (8.9681) | (47.7433) | (21.5826) | |
QRM |
0.5493 | 175.1298 | 67.9660 | 737.2216 |
(0.2196) | (47.6181) | (82.0807) | (1150.7340) | |
GBLUP | 0.5677 | 294.5807 | 376.7794 | 1583.2355 |
(0.2377) | (36.6279) | (24.1379) | (16.2187) | |
QRH |
0.4816 | 644.1278 | 551.5150 | 1962.1296 |
(0.0672) | (50.8464) | (64.8091) | (20.9916) | |
QRH |
0.4797 | 366.5940 | 356.9005 | 1537.7760 |
(0.0274) | (56.8604) | (238.5303) | (903.3492) | |
QRH |
0.3918 | 216.1753 | 5.9471 | -706.1573 |
(0.0544) | (53.2417) | (11.7834) | (2034.7757) | |
ssGBLUP | 0.4712 | 303.0404 | 421.8316 | 1982.3314 |
(0.0502) | (37.6933) | (55.2774) | (21.9229) |
Cor(
Modelo | Cor( |
MSE |
|
DIC |
---|---|---|---|---|
QRM |
0.5421 | 1037.6529 | 953.6807 | 1487.1104 |
(0.1350) | (175.2648) | (261.8652) | (35.8873) | |
QRM |
0.5341 | 868.3651 | 964.4477 | 1524.0511 |
(0.1355) | (34.0429) | (113.1832) | (12.4648) | |
QRM |
0.5115 | 938.8244 | 700.7849 | 1284.0829 |
(0.1290) | (241.2205) | (465.2109) | (402.9787) | |
GBLUP | 0.5330 | 725.7579 | 924.8388 | 1526.7596 |
(0.1389) | (71.3999) | (90.0089) | (11.6346) | |
QRH |
0.5306 | 1277.9493 | 1172.2877 | 1850.7122 |
(0.1411) | (44.0948) | (108.7991) | (17.2025) | |
QRH |
0.5098 | 894.4148 | 1061.3157 | 1883.6773 |
(0.1700) | (35.3996) | (129.4702) | (15.4422) | |
QRH |
0.5027 | 915.1871 | 666.8830 | 1706.4933 |
(0.1748) | (162.7629) | (413.5046) | (209.8455) | |
ssGBLUP | 0.4712 | 778.6416 | 1071.3096 | 1891.9029 |
(0.0502) | (84.9871) | (128.2878) | (17.5592) |
Cor(
Datos simulados
Los resultados del ejercicio de simulación donde se compara QR con GBLUP bajo diferentes grados de asimetría y proporciones de datos atípicos se muestran en el Cuadro 5. En la columna 2 se registran las correlaciones entre los efectos de marcador “verdaderos” y los efectos de marcador estimados, las correlaciones obtenidas con QR fueron más altas que las obtenidas con GBLUP. La columna 3 muestra las correlaciones entre las “señales verdaderas” y las estimadas, las correlaciones más altas se obtuvieron con QR. La columna 4 registra la estimación de los componentes de varianza asociados al error y la columna 5 los valores de DIC, los valores más bajos en ambas columnas se obtuvieron con QR
Modelo | Cor( |
Cor( |
|
DIC |
---|---|---|---|---|
| ||||
QR |
0.0784 | 0.4963 | 0.6821 | 620.5455 |
(0.0034) | (0.0336) | (0.1806) | (49.3305) | |
QR |
0.0766 | 0.4643 | 0.6644 | 665.8219 |
(0.0042) | (0.0493) | (0.0703) | (16.3032) | |
QR |
0.0606 | 0.4269 | 0.1438 | 290.6870 |
(0.0132) | (0.0386) | (0.1421) | (148.9695) | |
GBLUP | 0.0722 | 0.4910 | 0.7375 | 691.6503 |
(0.0064) | (0.0398) | (0.0723) | (19.9391) | |
| ||||
QR |
0.0614 | 0.4369 | 0.4683 | 407.6496 |
(0.0183) | (0.0329) | (0.4030) | (330.6304) | |
QR |
0.0728 | 0.4579 | 0.7947 | 706.7931 |
(0.0045) | (0.0420) | (0.1063) | (20.5797) | |
QR |
0.0574 | 0.4061 | 0.4482 | 381.4644 |
(0.0092) | (0.0399) | (0.3225) | (474.7138) | |
GBLUP | 0.0654 | 0.4556 | 0.8717 | 731.9104 |
(0.0057) | (0.0314) | (0.0890) | (21.8563) | |
| ||||
QR |
0.0773 | 0.4835 | 0.5578 | 582.4254 |
(0.0087) | (0.0562) | (0.2523) | (83.0548) | |
QR |
0.0771 | 0.4689 | 0.6369 | 662.0337 |
(0.0074) | (0.0515) | (0.0868) | (23.8018) | |
QR |
0.0598 | 0.4169 | 0.2398 | 219.1691 |
(0.0128) | (0.0450) | (0.2033) | (444.5060) | |
GBLUP | 0.0703 | 0.4804 | 0.7316 | 692.6392 |
(0.0056) | (0.0333) | (0.0831) | (24.0645) | |
| ||||
QR |
0.0731 | 0.4386 | 0.8739 | 677.0858 |
(0.0081) | (0.0789) | (0.1077) | (23.5472) | |
QR |
0.0734 | 0.4529 | 0.8154 | 711.2935 |
(0.0078) | (0.0615) | (0.0845) | (14.9809) | |
QR |
0.0541 | 0.3945 | 0.3628 | 385.6030 |
(0.0056) | (0.0583) | (0.2572) | (393.1935) | |
GBLUP | 0.0640 | 0.4491 | 0.8913 | 736.7880 |
(0.0077) | (0.0517) | (0.0654) | (14.8343) | |
| ||||
QR |
0.0615 | 0.5286 | 0.1535 | 205.6973 |
(0.0144) | (0.0271) | (0.1657) | 277.5807 | |
QR |
0.0741 | 0.5514 | 0.4860 | 614.2282 |
(0.0037) | (0.0167) | (0.0663) | 15.7647 | |
QR |
0.0467 | 0.4855 | 0.0166 | -271.4761 |
(0.0112) | (0.0150) | (0.0192) | 288.4509 | |
GBLUP | 0.0737 | 0.5428 | 0.5305 | 625.9703 |
(0.0030) | (0.0121) | (0.0353) | 11.3632 | |
| ||||
QR |
0.0768 | 0.4807 | 0.7817 | 650.8593 |
(0.0080) | (0.0687) | (0.0888) | 22.8417 | |
QR |
0.0696 | 0.4630 | 0.6154 | 511.5287 |
(0.0148) | (0.0600) | (0.3369) | 412.6645 | |
QR |
0.0507 | 0.3967 | 0.0204 | -160.1660 |
(0.0031) | (0.0505) | (0.0127) | 213.0462 | |
GBLUP | 0.0659 | 0.4649 | 0.7876 | 709.7240 |
(0.0065) | (0.0418) | (0.0528) | 14.8566 |
Cor(
Discusión
En este estudio se compararon las metodologías de análisis QR con GBLUP y ssGBLUP. Esta comparación se hizo con fenotipos simulados con diferentes grados de asimetría y proporciones de datos atípicos y datos reales de pesos al nacimiento, al destete y al año.
Datos reales
Las correlaciones de fenotipos observados y predichos obtenidos de la validación cruzada con datos reales fueron más altas al usar QRM y QRH en las características de PD y PA. Para PN las correlaciones más altas se obtuvieron con GBLUP y ssGBLUP; sin embargo, en este estudio solo se probaron tres cuantiles 0.25, 0.50 y 0.75, hay evidencia en otros estudios donde QR es mejor que GBLUP como en el caso del trabajo de Nascimento et al4, quienes compararon QR con modelos como BLASSO, BayesB y RR-BLUP. Estos autores encontraron una ganancia en la capacidad predictiva de QR frente a RR-BLUP de 15.15 %, cabe señalar que matemáticamente RR-es equivalente a GBLUP, además de que los conjuntos de datos usados en este experimento presentaron asimetría.
Los valores del cuadrado medio del error (MSE) miden el promedio de los errores al cuadrado, es decir, la diferencia entre el estimador y lo que se estima, por lo que se prefieren valores bajos; los promedios de MSE de QRM y QRH fueron menores que los obtenidos con GBLUP y ssGBLUP únicamente para PD. El estimador de la varianza residual es un indicativo de que tan bien o mal se ajusta el modelo a los datos observados, se prefieren valores bajos; los componentes de varianza del error menores se obtuvieron con QRM y QRH para las tres características analizadas. Finalmente, el valor de DIC se usa para seleccionar modelos candidatos y al igual que MSE y los componentes de varianza del error se prefieren valores bajos. Los valores de DIC más bajos se obtuvieron con QRM
En el análisis de datos reales, una limitación del presente estudio es el tamaño de muestra, lo cual puede impactar la variabilidad de los parámetros estimados con los modelos y en consecuencia la variabilidad de las predicciones, sin embargo, todos los modelos se ajustaron utilizando la misma información y por tanto la comparación de la capacidad predictiva de los modelos se considera razonable, lo ideal sería contar con tamaños de muestra grandes, pero por cuestión de limitaciones económicas esto no siempre es posible. Por otro lado, actualmente es muy común utilizar modelos de predicción en el que el número de registros fenotípicos es más pequeño que el número de predictores (SNPS), es decir
Datos simulados
En el experimento de datos simulados las correlaciones entre efectos de marcador “verdadero” y efectos estimados, así como las correlaciones de señales “verdaderas” y estimadas fueron más altas cuando se usó QR comparado con GBLUP. Estos resultados son similares a los obtenidos por otros investigadores10, quienes simularon datos con tres diferentes coeficientes de asimetría 0.75, 0.95, 0.999 con 5 % y 10 % de datos atípicos y encontraron que las correlaciones obtenidas con QR fueron más altas que las obtenidas con la regresión de cresta bayesiana (BRR), además, este patrón fue más evidente con una mayor asimetría y proporción de datos atípicos. En este estudio se realizaron simulaciones con coeficientes de asimetría de 0.950, 0.975, 0.999 y los cuantiles con los que se obtuvieron correlaciones más altas variaron entre 0.25 y 0.50; la ventaja de QR es que se puede probar diferentes cuantiles obteniendo mejores resultados dependiendo del cuantil utilizado, esta ventaja en la capacidad de predicción de efectos de marcadores y señales ha sido aprovechada por otros investigadores4, quienes no encontraron ninguna asociación de rasgo usando el modelo tradicional GWAS de SNP único, pero, cuando usaron QR con cuantiles extremos como 0.1 el modelo fue capaz de encontrar hasta 7 SNP asociados con las características estudiadas.
Los coeficientes de varianza del error indican qué tan bien se ajusta el modelo propuesto a los datos estudiados, entre más pequeño sea este valor, el ajuste es mejor, el DIC es otro valor que se usa para comparar modelos candidatos. Los modelos con un DIC más pequeño se prefieren a los modelos con un DIC mayor24. Los estimadores de varianza residual y los valores de DIC más bajos se obtuvieron con QR
QR tuvo un desempeño igual o mejor que GBLUP y ssGBLUP para predecir características de crecimiento PN, PD y PA, las ventajas de este método son más notorias cuando los datos están más sesgados y presentan mayor proporción de datos atípicos como en el caso del experimento de simulación.
Conclusiones e implicaciones
El desempeño predictivo de QR tanto sólo con información de marcadores como con marcadores más pedigrí, con el conjunto de datos reales, fue mejor que las metodologías GBLUP y ssGBLUP para PD y PA. Para PN GBLUP y ssGBLUP fueron mejores; sin embargo, solo se utilizaron los cuantiles 0.25, 0.50 y 0.75, y la distribución de PN no fue asimétrica. En el experimento de datos simulados, las correlaciones entre efectos de marcador “verdadero” y efectos estimados, así como las correlaciones de señales “verdaderas” y estimadas fueron más altas cuando se usó QR comparado con GBLUP. Las ventajas de QR fueron más notorias con distribución asimétrica de los fenotipos y con mayor proporción de datos atípicos, como fue el caso del conjunto de datos simulados.