Recovery and characterization of viral diversity from aquatic short- and long-read
metagenomes

Zaragoza-Solas, Asier

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/11000/28972

Recovery and characterization of viral diversity from aquatic short- and long-read metagenomes

Ver/Abrir:
PhD Thesis_KC_without signatures_compressed (1).pdf
2,18 MB
Adobe PDF
Compartir:

Título :
Recovery and characterization of viral diversity from aquatic short- and long-read metagenomes

Autor :
Zaragoza-Solas, Asier

Tutor:
Rodríguez Valera, Francisco Eduardo
López Pérez, Mario

Editor :
Universidad Miguel Hernández de Elche

Departamento:
Departamentos de la UMH::Bioquímica y Biología Molecular

Fecha de publicación:
2022-07-15

URI :
https://hdl.handle.net/11000/28972

Resumen :
Viruses are the most abundant biological entities in marine ecosystems and play an essential role in global biogeochemical cycles. They have important ecological functions as drivers of bacterial populations through lytic infections and contribute to bacterial genetic diversification. Unfortunately, their study is severely limited by the difficulty to culture and isolate them in lab conditions. Culture-independent techniques such as metagenomics can complement culture-based approaches to capture more phage diversity. However, the vast majority of viral sequences recovered through these methods are uncharacterized and therefore do not provide any information about their interactions with the bacterial community, a phenomenon that has been named “viral dark matter”. In this thesis, several bioinformatic techniques are applied to both short- and long-read metagenomic datasets to recover biological information from marine viral sequences contained therein. A pipeline for recovering viral sequences based on a reference genome was developed and applied to the study of myophages infecting the alphaproteobacterial SAR11 clade, one of the most abundant bacterioplankton groups in surface marine and freshwater ecosystems. We were able to recover 22 new genomes which include the first genomes of myophages infecting LD12, the SAR11 freshwater clade. These sequences are underrepresented in datasets derived from the viral fraction, suggesting a bias of either technical or biological nature. Surprisingly, this family of phages code for an operon which resembles the secretion system type VIII operon in Escherichia coli. The function of this phage operon is still unknown. Next, a long-read dataset from the Mediterranean Sea was explored for viral contigs to contrast phage recovery between long- and short-read datasets. The analysis revealed that while long-read assemblies resulted in viral sequences of better quality, there was a sizable amount of intra-clade viral diversity that was not included in the assemblies. This viral diversity only found in long reads is even greater than previously thought. This untapped diversity could aid biotechnological efforts as evidenced by the discovery of new endolysins. Finally, a tool (Random Forest Assignment of Hosts, or RaFAH) for assigning hosts to phage sequences obtained from metagenomic datasets was created. The tool is based on a machine learning tool trained with phage protein clusters generated de novo. Benchmarking shows that RaFAH is on par with other state-of-the-art classifiers and is able to classify phage contigs at the level of Kingdom, which makes it the first classifier to accurately detect Archaea viruses from metagenomic samples. A feature importance analysis reveals that the protein clusters with the most predictive power are those involved in host recognition.
Los bacteriófagos (”fagos”) son los organismos más abundantes en los ecosistemas marinos y tienen un papel esencial en los ciclos biogeoquímicos globales. Asimismo, influencian la evolución de las poblaciones bacterianas que infectan y contribuyen a la diversificación del acervo genético bacteriano. Desgraciadamente, su estudio se ve limitado por la dificultad de cultivar y aislar estos organismos en el laboratorio. El uso de técnicas que no requieren cultivo, como la metagenómica, pueden complementar el cultivo en laboratorio para recuperar una mayor diversidad de fagos. Sin embargo, la inmensa mayoría de secuencias virales recuperadas mediante metagenómica no pueden ser caracterizadas, por lo que no proporcionan ninguna información sobre sus interacciones con la comunidad bacteriana, un fenómeno que se ha nombrado “materia oscura viral”. En esta tesis se han utilizado múltiples procesos bioinformáticos en colecciones de metagenomas de lectura corta y larga para caracterizar las secuencias virales que contienen. Se ha desarrollado un procedimiento para recuperar secuencias virales a partir de un genoma de referencia y se ha aplicado al estudio de miofagos que infectan al clado SAR11 de las Alfaproteobacteria, uno de los grupos de bacterioplankton más abundantes en agua dulce y agua salada de superficie. Se consiguió recuperar 22 nuevos genomas que incluyen el primer genoma que infecta LD12, el subclado de SAR11 de agua dulce. Estos genomas están poco representados en colecciones obtenidas de la fracción viral, lo que sugiere que las afecta un sesgo técnico o biológico. Sorprendentemente, esta familia de fagos contiene un operón similar al sistema de secreción tipo VIII de Escherichia coli. La función de este operón es aún desconocida. Asimismo, se contrastó la recuperación de secuencias víricas entre colecciones de lectura corta y larga utilizando colecciones obtenidas en el mar Mediterráneo. Los resultados muestran que aunque los ensamblajes derivados de las lecturas largas producen secuencias virales de mejor calidad, en el proceso se pierde una gran cantidad de diversidad intraclado. Esta diversidad es mucho mayor de la recuperada con lecturas cortas, y podría explotarse para aplicaciones biotecnológicas, como el descubrimiento de nuevas endolisinas. Finalmente, se desarrolló un programa (Random Forest Assignment of Hosts, o RaFAH) para asignar hospedadores a secuencias virales obtenidas de colecciones metagenómicas. El programa se basa en el uso de algoritmos de machine learning entrenados con grupos de proteínas creados de novo. RaFAH muestra un rendimiento similar a otros clasificadores de secuencias y es capaz de clasificar secuencias víricas al nivel taxonómico de Reino, siendo así el primer clasificador capaz de detectar fagos que infectan arqueas con precisión. El análisis de importancia de rasgo revela que los grupos de proteínas con mayor poder predictivo son aquellos involucrados en el reconocimiento del hospedador.

Palabras clave/Materias:
bacteriófagos
virus
metagenomas

Área de conocimiento :
CDU: Ciencias puras y naturales: Biología

Tipo de documento :
info:eu-repo/semantics/doctoralThesis

Derechos de acceso:
info:eu-repo/semantics/openAccess

Aparece en las colecciones:
Tesis doctorales - Ciencias e Ingenierías

Mostrar el registro Dublin Core completo del ítem Ver estadísticas

La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.