Introducción
En los océanos, que son el sistema ecológico más grande del mundo, habitan aproximadamente 3.6 × 1028 microorganismos a una densidad promedio de 5 × 105 células mL-1 (Cock et al. 2010). Además de abundantes, las comunidades microbianas marinas son altamente diversas debido a que los microorganismos se originaron en un mismo ambiente y han evolucionado adaptaciones fisiológicas exitosas (Hellweger et al. 2014).
La importancia y el impacto de las comunidades microbianas en un ambiente específico se han puesto de manifiesto con los estudios del microbioma del cuerpo humano, el cual es un reservorio de aproximadamente 109 microorganismos. Los seres humanos pueden contener hasta 10 veces más microbios que células propias, y la comunidad microbiana, por tanto, juega un papel primordial en la salud de las personas (NRC 2007). La mayor densidad microbiana se ubica en el tracto gastrointestinal humano (Ley et al. 2006), y la microbiota del intestino de un individuo contiene al menos 160 de las 1000-1150 especies de bacterias intestinales que pueden existir, según las 3.3 millones de secuencias identificadas en muestras fecales de 124 individuos (Olsen et al. 2012).
Los océanos son los ambientes de mayor extensión en el planeta y los microorganismos son la parte dominante tanto en biomasa como en actividad metabólica, por lo que el estudio de la composición y dinámica de las poblaciones microbianas marinas es muy importante (Fuhrman et al. 2015). En el océano, los microorganismos son los que capturan y traducen la energía solar, catalizan las transformaciones biogeoquímicas clave de los nutrientes y elementos traza que soportan la productividad oceánica, participan en la regulación de los gases de efecto invernadero y representan una gran reserva de variabilidad genética (Karl 2007, Karl y Church 2014). En la industria de la acuicultura, las comunidades bacterianas de los sistemas de bioflocs se han convertido en excelentes herramientas para el control de la calidad del agua y para mejorar la producción acuícola (Crab et al. 2012).
Comunidades microbianas marinas
Para analizar comunidades microbianas marinas y así comprender el ambiente marino se han desarrollado proyectos con amplia cobertura. Por ejemplo, en el proyecto del mar de los Sargazos (Sargasso Sea shotgun sequencing project), la secuenciación aleatoria de muestras de virus y células microbianas permitió la identificación de más de un millón de genes codificantes de proteínas (Venter et al. 2004, Sjöstedt et al. 2014). Una continuación de este trabajo fue la expedición Global Ocean Sampling, posiblemente el proyecto de secuenciación más grande para la construcción de una genoteca metagenómica, que ha permitido la identificación de 148 nuevos filotipos y 69,901 nuevos genes (Rusch et al. 2007, Barberá et al. 2012). En el proyecto Series de tiempo del Océano en Hawái (Hawaii Ocean Time-series), las observaciones de cinco años desde la estación ALOHA (10-4000 m de profundidad) permitieron la descripción de nuevos genes (Karl y Church 2014). El International Census of Marine Microbes (ICoMM), uno de los 14 censos de la vida marina apoyado por diferentes laboratorios de investigación, tiene como finalidad determinar la distribución y los rangos de diversidad genética de diferentes microorganismos en los océanos. Comprende 356 bases de datos de secuencias de la región V6 del gen rRNA 16S bacteriano recabados de estudios de 40 biomas diferentes, desde regiones pelágicas y bentónicas hasta manglares y comunidades bacterianas asociadas a esponjas (Amaral-Zettler et al. 2010, Karsenti et al. 2011, Zinger et al. 2012). Con base en estudios de muestras de recolectadas de 210 sitios oceánicos distintos y a profundidades de hasta 2000 m, el consorcio multinacional Tara Oceans ha generado un catálogo de genes de referencia (Ocean Microbial Reference Gene Catalog) de 35,650 microbios oceánicos taxonómicamente diferentes (Karsenti et al. 2011, Logares et al. 2014, Sunagawa et al. 2015).
Otros estudios se han dirigido a buscar una correlación entre las propiedades genómicas del 16S de los microbiomas y las condiciones ambientales. Los resultados, provenientes de diferentes regiones oceánicas, indican que la temperatura es el factor más importante en la determinación de la composición microbiana en las capas epipelágicas del océano (Sunagawa et al. 2015).
Los estudios de las comunidades microbianas marinas pueden agruparse por las características de los ambientes donde se establecen:
Comunidades microbianas planctónicas pelágicas. Los estudios se han centrado en determinar el patrón global de la composición de la comunidad microbiana. Los resultados indican que en todos los océanos están presentes los mismos taxones, y lo que se observa en una región y tiempo dado son los cambios en las abundancias relativas de sus miembros (Gibbons et al. 2013). Más allá de una descripción cualitativa, los estudios han profundizado para determinar los niveles de fluctuación estacional, interanual e interestacional de estas comunidades (Hatosy et al. 2013, Karl y Church 2014). Actualmente, se están realizando grandes avances en el conocimiento de los procesos metabólicos que desarrollan las comunidades y su papel en los ciclos biogeoquímicos (Hahnke et al. 2013, Brown et al. 2014, Karl y Church 2014, Klindworth et al. 2014, Logares et al. 2014).
Comunidades microbianas planctónicas costeras. Independientemente de la influencia oceánica, estas comunidades muestran cambios en su estructura atribuidos a las partículas en suspensión provenientes de ríos, escurri-mientos o surgencias (Boeuf et al. 2013, Ameryk et al. 2014, Satinsky et al. 2014, Aylward et al. 2015, Mueller et al. 2015). En estos ambientes, es posible diferenciar una comunidad adherida a materia orgánica y otra de vida libre (Smith et al. 2013, Bižić-Ionescu et al. 2014, Mohit et al. 2014, Simon et al. 2014).
Comunidades microbianas bentónicas. Estas comunidades son muy dinámicas con la más rica diversidad dentro de las comunidades marinas. Esto posiblemente sea influenciado por los nutrientes, las condiciones ambientales y la heterogeneidad del sustrato que se presentan en el bentos, lo que favorece las altas tasas de recambio de las poblaciones (Ramette et al. 2009, Miller et al. 2013, Gobet et al. 2014). Las comunidades microbianas bentónicas son las responsables de los procesos de nitrificación y oxidación anaeróbica de amonio (Prabavathi y Mathivanan 2012, Wang et al. 2012, Laverock et al. 2014, Lipsewers et al. 2014, Vigneron et al. 2014, Bowen et al. 2015), lo que permite la reutilización del nitrógeno orgánico.
Comunidades microbianas relacionadas con volcanes marinos (fumarolas). Estas comunidades representan un ambiente extremo y no muestran gran diversidad. Sin embargo, como un reflejo de la gran presión evolutiva ejercida por el medio, los miembros de los principales grupos taxonómicos presentan mayor variación en sus secuencias del 16S (Biddle et al. 2006, Havelsrud et al. 2011, Roussel et al. 2011, Tang et al. 2013, Shao et al. 2014, Kato et al. 2015).
ARNr 16S
Con la intención de tener una herramienta estandarizada para la identificación de los organismos existentes en los diversos ambientes, Hebert et al. (2003) propusieron el llamado código de barras del ADN, que proyectaba su utilidad en estudios de sistemática, ecología y biología evolutiva. Estos autores pretendieron generar un método rápido, confiable y reproducible, basado en la amplificación de una región estandarizada del ADN por la reacción en cadena de la polimerasa (PCR, por sus siglas en inglés), y la región propuesta fue un fragmento de 600 pares de bases del ADN mitocondrial, que codifica para la subunidad I del citocromo c oxidasa (COI). El uso de la región COI fue excelente herramienta para la clasificación taxonómica de muchos animales, incluso para distinguir entre especies; sin embargo, su utilidad para estudios taxonómicos y/o filogenéticos en plantas, hongos y microorganismos estuvo limitada (Blaxter 2004, Lebonah et al. 2014) y fue necesario buscar otras secuencias o genes candidatos que pudieran usarse como marcadores.
En general, para que sea considerada como un marcador molecular para estudios de código de barra y/o en cualquier estudio taxonómico o de evolución, una región de ADN deberá cumplir con las siguientes características: (a) contener una variabilidad y una divergencia genética significativa a nivel de especie; (b) poseer sitios conservados adyacentes, que permitan el diseño de iniciadores universales, para su amplificación por PCR; y (c) tener una longitud adecuada que permita la extracción y secuenciación de forma fácil, reproducible y precisa (Kress y Erickson 2012). Aunque se sugirieron varias regiones o genes, el ácido ribonucléico ribosomal 16S (ARNr 16S), originalmente propuestó por Pace et al. (1986), fue presentado como una buena opción para la clasificación de bacterias. La idea fue rápidamente adoptada por la comunidad científica y la secuencia del ARNr 16S se ha utilizado para conformar bases de datos especializadas. Lo anterior ha permitido que las secuencias del ARNr 16S sean utilizadas como una herramienta importante en la reconstrucción de relaciones filogenéticas. Además, el uso de secuencias del ARNr 16S facilitó el establecimiento del proyecto árbol de la vida universal (All-Species Living Tree Project), el cual se ha constituido como una referencia de relación de procariotas fácilmente organizada en bases de datos dinámicas que compilan y curan los datos de todas las secuencias accesibles del gen ARNr 16S (Yarza et al. 2008, 2010). Pese a algunas controversias y dificultades técnicas, el ARNr 16S se sigue utilizando como un excelente marcador molecular y se han planteado nuevas estrategias de estudio, aprovechando las bondades de las nuevas técnicas genómicas (Savolainen et al. 2005, Tanabe y Toju 2013). Debido a la rápida generación de información genómica y a la caracterización de las secuencias del ARNr 16S, en los últimos años se ha observado un cambio significativo en los métodos para la identificación de especies bacterianas y una aceleración en la asignación de especies.
Características del ARNr 16S
El ARNr 16S es un polirribonucleótido de aproximadamente 1500 nucleótidos codificado por el gen rrs, también denominado ADN ribosomal 16S. Como cualquier secuencia nucleotídica de cadena sencilla, el ARNr 16S se pliega y adquiere una estructura secundaria que se caracteriza por tener segmentos de doble cadena que permiten la formación de asas y hélices. Esta molécula ha sido reconocida como un poderoso marcador universal debido a que se encuentra en todos los organismos conocidos. Su estructura parece mantenerse por largos periodos de tiempo y, como su función no ha cambiado, los cambios en la secuencia probablemente son aleatorios. En su contraparte eucariota, el ARNr 18S, las mutaciones son adquiridas lentamente, y es posible obtener información acerca de todos los organismos en una escala evolutiva. Sin embargo, los ARNr poseen suficiente variabilidad para diferenciar no sólo los organismos más alejados, sino también los más próximos, y es posible diferenciar especies, cepas o variedades. Además, el tamaño relativamente largo de los ARNr 16S (1500 nucleótidos) minimiza las fluctuaciones estadísticas, y la conservación de su estructura secundaria favorece el alineamiento preciso durante la comparación de secuencias (Rodicio y Mendoza 2004). El ARNr 16S contiene nueve regiones (V1-V9) menos conservadas o hipervariables (Baker et al. 2003), que son las que aportan la mayor información útil para estudios de filogenética y taxonomía. Las regiones conservadas son de gran ayuda para diseñar iniciadores universales que permitan la amplificación de las diversas regiones hipervariables de la gran mayoría de los ARNr 16S de los microorganismos presentes en una comunidad.
El uso de los iniciadores universales ha favorecido la detección y análisis de secuencias; sin embargo, algunos autores señalan la deficiencia que tienen para detectar un número considerable de especies bacterianas no cultivadas provenientes de muestras medioambientales (Baker et al. 2003, Huws et al. 2007). Existen varios trabajos que reportan la cobertura de iniciadores universales y sus combinaciones, con secuencias obtenidas de estudios metagenómicos. Por ejemplo, mediante un análisis in silico se determinó que el segmento que incluye las regiones V4/V5 es el más eficiente para la clasificación de la microbiota intestinal, mientras que el segmento que abarca las regiones V7/V8 es el menos eficiente (Liu et al. 2007, 2008).
Las regiones hipervariables
Con la introducción de técnicas de secuenciación masiva, hubo un incremento importante en el número de reportes sobre la caracterización de comunidades bacterianas con el gen ARNr 16S como marcador. Sin embargo, las secuencias son parciales y corresponden a distintas regiones variables. Las discrepancias en los hallazgos fomentó estudios comparativos entre algunas regiones variables y el gen completo (Nelson 2011, Sun et al. 2013).
Los índices de diversidad son una forma de evaluar las comunidades bacterianas, por lo que la capacidad del par de iniciadores, y la región del gen ARNr 16S que amplifican, tiene un efecto determinante en la descripción de la diversidad bacteriana de muestras ambientales. Por ejemplo, en un análisis de poblaciones microbianas de sedimentos, Miller et al. (2013) utilizaron como herramienta taxonómica la región V3 en lugar de la secuencia completa y observaron que la diversidad estimada fue menor y el número de unidades taxonómicas operativas (OTU, por sus siglas en inglés) que no pudieron ser clasificadas, ni siquiera a nivel de filo, se incrementó de 8.6% a 34.6%. En la caracterización de comunidades microbianas de aguas residuales, la información obtenida con un fragmento que contenía a las regiones V1 y V2 no fue suficiente para detectar organismos de los filos Verrucomi-crobia, Planctomycetes y Chlamydiae (Cai et al. 2013). En otro estudio, Huse et al. (2008) analizaron muestras tan distintas como de intestino humano y chimeneas submarinas y demostraron que cada región del ARNr 16S proporciona diferentes valores de diversidad microbiana: mientras que con el uso de la región V3 registraron 42 taxones, con la V6 solamente encontraron 26. Pese a estos inconvenientes, el uso del ARNr 16S como marcador sigue siendo la herramienta más fuerte para el entendimiento de las comunidades bacterianas de todos los ambientes estudiados. Ante las diferencias de especificidades entre los iniciadores conocidos, a veces altamente específicos para un grupo de bacterias, algunos autores recomiendan el uso combinado de diferentes juegos de iniciadores, diferentes técnicas de extracción de ADN y una secuenciación profunda del material genómico obtenido de la comunidad bacteriana (Tringe y Hugenholtz 2008, Hong et al. 2009, Wang Yong y Qian 2009).
En el contexto de los nuevos campos de investigación "ómicas" y del interés de estudiar de forma integral las comunidades bacterianas de ambientes específicos, surgió la meta-genómica, que, a través de diversos enfoques y metodologías, permite la comprensión de las funciones de una comunidad microbiana. El término meta significa trascender y en el concepto metagenómica es estratégico porque este campo de la ciencia incluye investigación a tres niveles interrelacionados (procesamiento de muestras, secuenciación de ADN y análisis funcional) para comprender la función e importancia de los genes en una comunidad y analizar su influencia en las actividades de otros genes al realizar una función colectiva (NRC 2007). Además, el proceso general de estudio (ver Fig. 1), y algunas técnicas metagenómicas han sido útiles para estudiar y conocer la información genómica de especies que no son cultivables. Por ello, algunos autores definen estos estudios como la ruta metodológica para la caracterización genómica de comunidades microbianas independientes de cultivos (Chen y Pachter 2005).
La importancia de estos estudios recae en que aproximadamente el 99% de los microorganismos en un ambiente natural no son cultivables (Amann et al. 1995, Curtis et al. 2002, Handelsman 2004, Cock et al. 2010). El porcentaje de organismos no cultivables varía dependiendo del ambiente de donde provienen y de la intensidad con que se han estudiado. Por ejemplo, el porcentaje de organismos no cultivables del microbioma humano es del ~70-80% (Nelson 2011), mientras que el porcentaje para los biomas marinos es mayor que el 97% (Rappé y Giovannoni 2003). El estudio de las comunidades microbianas marinas puede beneficiarse de la aplicación de técnicas genómicas que eviten el aislamiento y crecimiento de los microbios y que generen información útil para la clasificación e identificación taxonómica.
Asignación de taxones
Cuando se utiliza el ARNr 16S para esudiar una comunidad microbiana, la extracción del ADN, la amplificación del gen o un segmento y la correspondiente secuenciación no representan retos técnicos, pues los protocolos generales empleados están muy bien establecidos y son altamente reproducibles. La parte central del proceso es la asignación de taxones y/o identificación de los miembros, no solamente por las diferencias que se pueden obtener dependiendo de los iniciadores seleccionados o de las regiones comprendidas en el estudio, sino también por los aspectos conceptuales inherentes al trabajo taxonómico, a las herramientas bioinformáticas y a la disponibilidad de secuencias de referencia.
El concepto biológico de especie es, hasta cierto punto, problemático de aplicar a los microorganismos. Durante muchos años, la asignación de las categorías taxonómicas (especie y/o cepa) de microorganismos estuvo basada en la distinción de características bioquímicas y/o antigénicas y, en el mejor de los casos, en aspectos fisiológicos detectables por análisis químicos o bioquímicos. Con el desarrollo de las técnicas genómicas, primero se tomaron en cuenta algunas características químicas y fisicoquímicas de los ácidos nucleicos y, posteriormente, se llegó a la comparación de secuencias de fragmentos relativamente cortos o un par de genes. Las nuevas tecnologías de secuenciación con alta resolución y que permiten análisis masivos proponen un concepto de especie que va más allá de la similitud de un segmento nucleotídico o de algunos genes. Si bien es cierto que estas nuevas herramientas incrementan la precisión y el aporte de información, también introducen mayor complejidad, y la frontera delimitante entre especie y cepa continúa sin definirse con precisión. Actualmente, se considera que una especie procariota es un grupo genómicamente coherente de individuos/cepas, que comparten un alto grado de similitud en características independientes (Rosselló-Mora y Amann 2001).
La primera metodología genotípica empleada de manera sistemática para estudios taxonómicos o de identificación fue la determinación del contenido de los nucleótidos guanina y citosina (G+C). Hoy en día es relativamente simple estimar la composición de un genoma completo y se ha observado que, en casi todos los casos, la diferencia de contenido G+C entre cepas no rebasa el 1%; los valores superiores al 1% son indicativos de diferentes especies (Rosselló-Mora y Amann 2001, Meier-Kolthoff et al. 2013). Durante los últimos 50 años, la hibridación ADN-ADN (DDH, por sus siglas en inglés) ha sido considerada una herramienta de oro para la comparación de procariotas, y parece ser muy útil para medir directamente el grado de similitud entre dos genomas. En la actualidad, en aquellos casos donde un taxón contiene más de una cepa, se recomienda la aplicación de esta técnica para mostrar el grado de hibridación y la similitud entre los probables miembros (Tindall et al. 2010). El uso de DDH también se recomienda para demostrar cercanía cuando las cepas tienen más del 97% de similitud en sus secuencias de ARNr 16S. Inicialmente, se consideraba que una similitud igual o mayor que el 97% entre las secuencias de ARNr 16S indicaba pertenencia a la misma especie (Stackebrandt y Ebers 2006, Vos 2011). Un estudio más reciente, apoyado por pruebas estadísticas de validación cruzada, reveló que un valor del 98.65% de similitud del gen ARNr 16S puede ser utilizado como umbral para la diferenciación de dos especies (Kim et al. 2014). Además, se ha establecido que una similitud entre dos ARNr 16S igual o menor que el 94.5%, 86.5%, 82.0%, 78.5% ó 75.0% establece la distinción de género, familia, orden, clase y filo, respectivamente (Yarza et al. 2014).
También se ha propuesto el uso de secuencias de otros genes para la asignación taxonómica, pero hay menos de 100 genes con la distribución y la variabilidad adecuada para ser utilizados como marcadores (Koonin 2003). El índice de nucleótidos promedio (ANI) representa una media de valores de identidad o similitud entre regiones genómicas homólogas (Konstantinidis y Tiedje 2005). Un valor ANI del 95-96% es comparado con un valor DDH del 70% y son los valores mínimos para considerar dos organismos dentro de la misma especie (Kim et al. 2014). La medición del ANI puede ser apoyada por el análisis de secuencias multilocus (MLSA: multilocus sequence analysis), aunque no es aplicable para organismos no cultivados (Schleifer 2009). Una variación del MLSA es la tipificación por secuencias multilocus ribosoma-les (rMLST: ribosomal multilocus sequence typing) que analiza 53 genes codificantes para proteínas ribosomales, aunque algunos de estos genes no se han detectado en algunos geno-mas bacterianos (Larsen et al. 2014). Por otro lado, la determinación de la distancia filogénica por comparación de genomas (GBDP: Genome BLAST Distance Phylogeny) es una estrategia que considera la secuencia genómica completa y se realiza una comparación global mediante un alineamiento local con herramientas como BLAST o BLAT (Chun y Rainey 2014). Otra estrategia genómica para la asignación taxonómica es la caracterización de fragmentos de ADN y sus variaciones, que pueden ser sitios de restricción, inserciones, supresiones, secuencias repetidas o microsatélites, polimorfismos de una sola base u otras diferencias de las secuencias (Moore et al. 2010). La detección de polimorfismo del tamaño de fragmentos amplificados (AFLP: amplified fragment length polymorphism) ha mostrado ser útil para la delineación de nuevas especies (Nemec et al. 2001). Con la intención de utilizar la mayor información posible e incrementar la precisión en la caracterización, también se han propuesto protocolos de asignación de taxones con otras moléculas y con un enfoque polifásico (Moore et al. 2010) mediante espectrometría de masas (Ramasamy et al. 2014). Las técnicas más utilizadas para la asignación taxonómica y el nivel de resolución que permiten se presentan en la Figura 2.
Bases de datos y estrategias de análisis
Debido a que la asignación taxonómica se realiza por comparación de secuencias, las bases de datos donde se almacenan estas secuencias, las herramientas de búsqueda y las estrategias de comparación son primordiales. Existen distintas bases de datos y programas que se pueden utilizar para la asignación taxonómica; cada programa sigue diferentes estrategias de análisis y las bases de datos con las que operan muestran algunas variaciones. El nivel de desarrollo que han alcanzado los estudios sobre el ARNr 16S y sus aplicaciones, ha favorecido el establecimiento de bases de datos específicas, que son herramientas fundamentales para la clasificación taxonómica microbiana (Santamaria et al. 2012, Kim et al. 2013, Selama et al. 2013, Chun y Rainey 2014).
Bases de datos generales
El Centro Nacional para la Información Biotecnológica (NCBI) de los Estados Unidos es la institución con mayor número de secuencias depositadas en sus bases de datos, el GenBank, con más de 182 millones de registros (Fig. 3). Las secuencias del ARNr 16S están localizadas en dos bases de datos con secuencias de nucleótidos: la base de datos no redundante, que contiene más de 30 millones de registros, y la base de datos 16S, que contiene solamente secuencias (17,600, completas en su mayoría) del ARNr 16S de bacterias y arqueas identificadas. Si bien ambas bases de datos pueden servir como referencia para la búsqueda y comparación de secuencias nucleotídicas, mediante el algoritmo BLAST, la base de datos no redundante es más amplia y contiene las colecciones de secuencias del GenBank, del Instituto Europeo de Bioinformática (EMBL-EBI), del Banco de Datos de ADN de Japón (DDBJ), y del Banco de Datos de Proteínas (PDB), además de las secuencias de referencia del NCBI (RefSeq). Se le considera no redundante porque en algunos casos las secuencias idénticas han sido fusionadas en una sola entrada, que conserva el número de acceso, el identificador del GenBank, título e información taxonómica para cada secuencia (http://www.ncbi.nlm.nih.gov/guide/all/#databases).
A través del International Nucleotide Sequence Database Collaboration (INSDC), la información del GenBank también se puede encontrar en las bases de datos de EMBL-EBI y DDBJ. La INSDC es una iniciativa de larga duración entre DDBJ, EMBL-EBI y NCBI para mantener actualizadas y accesibles las bases de datos de secuencias y la lectura de datos crudos, así como los alineamientos y ensambles para anotaciones funcionales y con información contextual relacionada a las muestras (Karsch-Mizrachi et al. 2012).
Bases de datos específicas
Aunque el gen ARNr 16S originalmente se utilizó para la identificación de bacterias, hoy en día es utilizado como un estándar en la clasificación e identificación de microorganismos y las secuencias están disponibles en muchas bases de datos públicas. Sin embargo, con frecuencia esas secuencias no han sido validadas y por ello se han creado varias bases de datos que recolectan únicamente secuencias 16S. Algunas bases de datos, como la de Greengenes (http:// greengenes.lbl.gov/), no se encuentran actualizadas pero permiten el acceso a y descarga de las secuencias registradas. A continuación, se mencionan las bases de datos más importantes.
SILVA: Bases de datos de ARN ribosomal de alta calidad
SILVA es un portal (http://www.arb-silva.de) que alberga secuencias del ARNr tanto de 16S/18S (subunidad pequeña, SSU) como de 23S/28S (subunidad grande) para los dominios Bacteria, Archaea y Eukarya. Para la SSU, la información se encuentra en tres bases de datos que se diferencian por el tamaño y la calidad de las secuencias: (1) SSU Parc contiene más de 4.3 millones de secuencias con tamaño mayor que 300 nucleótidos; (2) SSU Ref contiene más de 1.5 millones de secuencias de buena calidad y con longitud cercana a la del gen completo (1450 nucleótidos); y (3) SSU Ref NR contiene más de 534,000 secuencias no redundantes, que básicamente son las mismas de la base de datos SSU Ref, pero con similitud por debajo del 99%. Todas las secuencias están asociadas a su registro en GenBank, taxonomía, alineamiento de secuencias múltiples, información del tipo de cepa y última nomenclatura válida (Yilmaz et al. 2014).
Además de las bases de datos, SILVA dispone del programa SILVA Incremental Aligner (SINA), que permite alinear cientos de secuencias sobre la base de alineamiento semilla utilizando una combinación de búsqueda por k-meros y un alineamiento de orden parcial para mantener alta exactitud de alineación (Pruesse et al. 2012). Posterior al alineamiento, es posible clasificar taxonómicamente a través del método del ancestro común más bajo (LCA) (Clemente et al. 2011), basado en diferentes taxonomías alojadas por SILVA (SILVA, LTP, Greengenes, RDP, EMBL).
Ribosomal Database Project
El Ribosomal Database Project (RDP) es un portal (https://rdp.cme.msu.edu/index.jsp) de la Universidad Estatal de Michigan (EUA) que, además de contener secuencias de ARNr 16S alineadas y con anotaciones, proporciona servicios de análisis y un marco de referencia taxonómico y filogenético. En esta base de datos se encuentran más de tres millones de secuencias de bacterias y arqueas, tanto cultivables como no cultivables (Cole et al. 2005, Cole et al. 2014). Las secuencias son alineadas por medio de un programa de alineamientos basados en el contexto estocástico (INFERNAL: INFERence of RNA ALignment) que incorpora información sobre la estructura secundaria del ARNr16S (Nawrocki et al. 2009, Nawrocki y Eddy 2013). Para la identificación taxonómica, esta base de datos utiliza la herramienta RDP Classifier, la cual se basa en un algoritmo Bayesiano sencillo (Vilo y Dong 2012).
EzTaxon
La base de datos EzTaxon (http://www.ezbiocloud.net/eztaxon) originalmente incluía solamente las secuencias de 16S de cepas bacterianas tipo de especies identificadas (Chun et al. 2007). Posteriormente se amplió al incluir el registro de secuencias provenientes de especies no cultivadas, las cuales son muy frecuentes en los estudios medioambientales (Kim et al. 2012). Actualmente, esta base de datos contiene más de 64,000 especies y filotipos, y para la búsqueda de secuencias similares se utiliza BLAST y MEGABLAST, además de un riguroso alineamiento de secuencias globales por pares (Myers y Miller 1988).
Programas computacionales
MEGAN es un programa que permite el análisis de secuencias metagenómicas mediante la herramienta de comparación BLAST y el algoritmo LCA para la asignación de taxones, y utiliza como referencia la taxonomía del NCBI (Huson et al. 2007).
PhymmBL es un programa diseñado para la clasificación taxonómica de lecturas cortas de secuencias metagenómicas. Básicamente, el programa combina las predicciones taxonómicas basadas en composición (Phymm) y aquellas basadas en la homología (BLAST) (Brady y Salzberg 2009).
RITA es un programa que realiza un consenso entre los enfoques basados en homología y aquellos basados en composición, lo cual incrementa de forma importante la certeza en las asignaciones taxonómicas. RITA utiliza un clasificador Bayesiano ingenuo e involucra a algoritmos optimizados de detección de homología, por lo que es más rápido que PhymmBL y otros programas (MacDonald et al. 2012).
Kraken es un programa para la asignación de niveles taxonómicos de secuencias metagenómicas que utiliza el alineamiento exacto de la secuencia problema con la base de datos de k-meros, lo cual lo convierte en una herramienta rápida en comparación con las que realizan el alineamiento inexacto. Además, provee una mayor riqueza taxonómica, ya que el utilizar k-meros de 31 pares de bases le permite una alta sensibilidad entre secuencias con un alto grado de similitud. La sensibilidad y precisión se modifican dependiendo de la base de datos que utiliza el programa para hacer las comparaciones (Wood y Salzberg 2014).
RDP Classifier es un clasificador Bayesiano ingenuo que permite la rápida clasificación de bacterias con asignaciones taxonómicas de dominio a género. Utiliza "palabras" de ocho bases subsecuentes, logrando un equilibrio entre la sensibilidad y la velocidad de análisis o requerimientos computacio-nales. La posición de la palabra es ignorada y solamente las palabras que se encuentran contribuyen en la calificación. Este programa es útil para analizar secuencias largas y no discrimina bien al utilizar secuencias cortas (Wang et al. 2007).
Tendencias
Existen múltiples estrategias para el uso del ARNr 16S como herramienta de identificación de los organismos presentes en comunidades microbianas; sin embargo, se hace patente que la clasificación precisa de los microorganismos es una tarea compleja. Más aún, la identificación de organismos de una comunidad, ya sea que se utilice la secuencia completa o una región del ARNr 16S, se facilita si una buena proporción de sus miembros ha sido previamente localizada dentro de un arreglo taxonómico. En ambientes como el marino, donde la vida microbiológica ha sido poco revelada, la tarea de identificación se ve dificultada por la ausencia de secuencias de referencia. Muchas investigaciones centradas en la caracterización de comunidades microbianas de ambientes poco conocidos encontraron en las nuevas técnicas de secuenciación una opción para generar información génica, pero se enfrentaron con otras limitantes inherentes a la gran extensión de datos crudos producidos en la secuenciación, como almacenamiento, procesamiento, análisis e interpretación. Afortunadamente, todas las limitantes se han ido resolviendo gracias al desarrollo de la infraestructura computacional y el desarrollo de algoritmos y programas con la precisión suficiente para la identificación microbiana.
Con la secuenciación masiva se ha generado una gran cantidad de secuencias parciales y los esfuerzos para obtener una secuencia completa aún no dan los resultados deseados (Miller et al. 2011, 2013). Muchos estudios que utilizan secuencias parciales para la identificación microbiológica no encuentran una secuencia de referencia, y reducen la certeza de las determinaciones taxonómicas. En otros casos, el resultado puede ser una sobreestimación de la diversidad. En el análisis de una comunidad simulada, construida por las secuencias del ARNr 16S de bacterias del suelo pertenecientes a 20 OTUs y usando fragmentos que incluían a las regiones V4/V5 y V2/V3, después de un proceso adecuado de selección de calidad y eliminación de quimeras, se encontraron de 72 a 333 OTUs, dependiendo de las condiciones experimentales durante la secuenciación (Jeon et al. 2015). Por ello, para mantener el paralelismo con el desarrollo de las técnicas "ómicas" y el incremento exponencial de las bases de datos del ARNr 16S y, particularmente en el estudio de las comunidades bacterianas marinas (Giovannoni et al. 2005, Pedros-Alio 2006, Kämpfer y Glaeser 2012), es necesario contar con un mayor número de secuencias completas de este gen para resolver con mayor precisión y reproducibilidad las distintas asignaciones taxonómicas.