Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/11000/4163

Implementación en lenguaje Perl de algoritmos de recuento de k-meros y su aplicación al ensamblaje de novo de genomas


Vista previa

Ver/Abrir:
 TFG Caballero Sánchez Noemí.pdf
1,15 MB
Adobe PDF
Compartir:
Título :
Implementación en lenguaje Perl de algoritmos de recuento de k-meros y su aplicación al ensamblaje de novo de genomas
Autor :
Caballero Sánchez, Noemi
Tutor:
Candela Antón, Héctor
Fecha de publicación:
2017-07-12
URI :
http://hdl.handle.net/11000/4163
Resumen :
En este trabajo, hemos perfeccionado un programa para el ensamblaje de novo de secuencias nucleotídicas basado en grafos bidirigidos de De Bruijn. Entre las mejoras que hemos introducido, destaca la posibilidad de realizar el recuento de k-meros mediante tres algoritmos distintos. El recuento de k-meros es una etapa crítica en cualquier programa de ensamblaje de novo basado en grafos. Además, los algoritmos seleccionados permiten optimizar la cantidad de memoria utilizada ya que se emplean distintas estrategias para descartar los k-meros que, presumiblemente, contienen errores de secuenciación. Hemos utilizado algoritmos que utilizan filtros de Bloom o crean particiones de los datos para hacer el recuento de los k-meros. Para comprobar la eficacia de los algoritmos implementados, hemos realizado ensamblajes de novo de los genomas de Escherichia coli y Arabidopsis thaliana.
In this work, we have improved a program for de novo assembly of nucleotide sequences based on the use of bidirected De Bruijn graphs. Among the new developments, we highlight the possibility of counting k-mers through three different algorithms. Counting kmers is a critical step for all de novo assembly programs that use graphs to represent the sequences. In addition to this, the selected algorithms allow one to optimize the amount of memory required, as they use different strategies to discard k-mers derived from sequences containing sequencing errors. We have used algorithms that use Bloom filters or that partition the data in order to count the k-mers. To test the efficiency of the implemented algorithms, we have carried out de novo assemblies of the Escherichia coli and Arabidopsis thaliana genomes.
Palabras clave/Materias:
Genomas
filtros de Bloom
grafos
Área de conocimiento :
CDU: Ciencias puras y naturales: Biología
Tipo documento :
application/pdf
Derechos de acceso:
info:eu-repo/semantics/openAccess
Aparece en las colecciones:
TFG - Biotecnología



Creative Commons La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.