Please use this identifier to cite or link to this item: https://hdl.handle.net/11000/4163

Implementación en lenguaje Perl de algoritmos de recuento de k-meros y su aplicación al ensamblaje de novo de genomas


Thumbnail

View/Open:
 TFG Caballero Sánchez Noemí.pdf
1,15 MB
Adobe PDF
Share:
Title:
Implementación en lenguaje Perl de algoritmos de recuento de k-meros y su aplicación al ensamblaje de novo de genomas
Authors:
Caballero Sánchez, Noemi
Tutor:
Candela Antón, Héctor
Issue Date:
2017-07-12
URI:
http://hdl.handle.net/11000/4163
Abstract:
En este trabajo, hemos perfeccionado un programa para el ensamblaje de novo de secuencias nucleotídicas basado en grafos bidirigidos de De Bruijn. Entre las mejoras que hemos introducido, destaca la posibilidad de realizar el recuento de k-meros mediante tres algoritmos distintos. El recuento de k-meros es una etapa crítica en cualquier programa de ensamblaje de novo basado en grafos. Además, los algoritmos seleccionados permiten optimizar la cantidad de memoria utilizada ya que se emplean distintas estrategias para descartar los k-meros que, presumiblemente, contienen errores de secuenciación. Hemos utilizado algoritmos que utilizan filtros de Bloom o crean particiones de los datos para hacer el recuento de los k-meros. Para comprobar la eficacia de los algoritmos implementados, hemos realizado ensamblajes de novo de los genomas de Escherichia coli y Arabidopsis thaliana.
In this work, we have improved a program for de novo assembly of nucleotide sequences based on the use of bidirected De Bruijn graphs. Among the new developments, we highlight the possibility of counting k-mers through three different algorithms. Counting kmers is a critical step for all de novo assembly programs that use graphs to represent the sequences. In addition to this, the selected algorithms allow one to optimize the amount of memory required, as they use different strategies to discard k-mers derived from sequences containing sequencing errors. We have used algorithms that use Bloom filters or that partition the data in order to count the k-mers. To test the efficiency of the implemented algorithms, we have carried out de novo assemblies of the Escherichia coli and Arabidopsis thaliana genomes.
Keywords/Subjects:
Genomas
filtros de Bloom
grafos
Knowledge area:
CDU: Ciencias puras y naturales: Biología
Type of document:
application/pdf
Access rights:
info:eu-repo/semantics/openAccess
Appears in Collections:
TFG - Biotecnología



Creative Commons ???jsp.display-item.text9???