Titulo:

Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
.

Sumario:

Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propo... Ver más

Guardado en:

1909-9762

1909-9991

13

2020-06-06

Revista Ingeniería Biomédica - 2020

info:eu-repo/semantics/openAccess

http://purl.org/coar/access_right/c_abf2

id metarevistapublica_eia_revistaingenieriabiomedica_81_article_1404
record_format ojs
spelling Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
Graphical alignment of sequences through parallel programming: an approach from the post-genomic era
Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propone una estrategia que trabaja sobre múltiples procesadores para realizar alineamientos a nivel genómico en menor tiempo de ejecución que GEPARD, logrando aceleraciones hasta de 27,9 veces utilizando 64 procesadores respecto al valor nominal. La estrategia permite la identificación de reorganizaciones cromosómicas, elementos repetitivos, comparación entre genomas de distintas especies y la medición de forma gráfica de la calidad de ensamblaje de secuencias genómicas rápidamente.
A graphical alignment or “dot plot” is a method of visual representation of genomic data analysis, commonly used to compare the similarity of two biological sequences. The DOTTER program, developed in 1995, is the most widely used tool for this type of task. The biggest problem with this software is the high runtime for large scale genomic data. GEPARD (2007), performs faster alignments for larger sequences than DOTTER, but reducing the execution time of the alignment of a chromosome against itself, from 382 years with DOTTER to 61 minutes with GEPARD, although with a low level of detail because it uses an approximation method. This article proposes a strategy that works on multiple processors to perform genomic-level alignments in a shorter run time than GEPARD, achieving accelerations up to 27.9 times using 64 processors from the nominal value. The strategy allows the identification of chromosomal rearrangements, repetitive elements, comparison between genomes of different species and the graphic measurement of the assembly quality of genomic sequences quickly. 
Piña Duran, Johan Sebastian
Orozco Arias, Simón
Guyot, Romain
Tabares Soto, Reinel
Tobón Orozco, Nicolás
Candamil Cortés, Mariana Sofía
Alineamiento gráfico
Bioinformática
Computación de alto rendimiento
Programación paralela.
Graphic alignment
Bioinformatics
High-performance computing
Parallel programming
13
26
Artículo de revista
Journal article
2020-06-06 00:00:00
2020-06-06 00:00:00
2020-06-06
application/pdf
Universidad EIA
Revista Ingeniería Biomédica
1909-9762
1909-9991
https://revistas.eia.edu.co/index.php/BME/article/view/1404
10.24050/19099762.n26.2019.1404
https://doi.org/10.24050/19099762.n26.2019.1404
spa
https://creativecommons.org/licenses/by-nc-sa/4.0/
Revista Ingeniería Biomédica - 2020
O. Lecompte, J. D. Thompson, F. Plewniak, J.-C. Thierry, and O. Poch, “Multiple alignment of complete sequences (MACS) in the post-genomic era,” Gene, vol. 270, no. 1, pp. 17–30, 2001.
N. M. Luscombe, D. Greenbaum, and M. Gerstein, “A Proposed Definition and Overview of the Field,” Methods Inf. Med., vol. 40, no. 4, pp. 346–358, 2001.
S. P. Holmes and D. Gusfield, “Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology,” J. Am. Stat. Assoc., vol. 94, no. 447, p. 989, 1999.
W. Chen, B. Liao, and W. Li, “Use of image texture analysis to find DNA sequence similarities,” J. Theor. Biol., vol. 455, pp. 1–6, 2018.
B. Liao and T.-M. Wang, “New 2D graphical representation of DNA sequences,” J. Comput. Chem., vol. 25, no. 11, pp. 1364–1368, 2004.
T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, pp. 195–197, 1981.
S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443–453, 1970.
A. L. Delcher, S. Kasif, R. D. Fleischmann, J. Peterson, O. White, and S. L. Salzberg, “Alignment of whole genomes,” Nucleic Acids Res., vol. 27, no. 11, pp. 2369–2376, 1999.
E. L. L. Sonnhammer and R. Durbin, “A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (Reprinted from Gene Combis, vol 167, pg GC1-GC10, 1996),” Gene, vol. 167, no. 1–2, pp. Gc1–Gc10, 1995.
J. Krumsiek, R. Arnold, and T. Rattei, “Gepard: A rapid and sensitive tool for creating dotplots on genome scale,” Bioinformatics, vol. 23, no. 8, pp. 1026–1028, 2007.
S. Orozco-Arias, R. Tabares-Soto, D. Ceballos, and R. Guyot, “Parallel Programming in Biological Sciences, Taking Advantage of Supercomputing in Genomics,” in Advances in Computing, 2017, pp. 627–643.
D. Milone, A. Azar, and H. Rufiner, “Supercomputadoras basadas en ‘clusters’ de PCs,” Rev. Cienc., pp. 173–208, 2002.
S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, “Basic local alignment search tool,” J. Mol. Biol., vol. 215, no. 3, pp. 403–410, 1990.
S. Orozco Arias et al., “Inpactor, Integrated and Parallel Analyzer and Classifier of LTR Retrotransposons and Its Application for Pineapple LTR Retrotransposons Diversity and Dynamics,” Biology (Basel)., vol. 7, p. 32, 2018.
B. Langmead and S. L. Salzberg, “Fast gapped-read alignment with Bowtie 2,” Nat. Methods, vol. 9, no. 4, pp. 357–359, 2012.
G. Van Rossum and F. L. Drake Jr, Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam, 1995.
S. Schwartz et al., “Human-mouse alignments with BLASTZ.,” Genome Res., vol. 13, no. 1, pp. 103–107, 2003.
S. Hicks, D. A. Wheeler, S. E. Plon, and M. Kimmel, “Prediction of missense mutation functionality depends on both the algorithm and sequence alignment employed,” Hum. Mutat., vol. 32, no. 6, pp. 661–668, 2011.
G. L. Johanning et al., “Expression of human endogenous retrovirus-K is strongly associated with the basal-like breast cancer phenotype,” Sci. Rep., vol. 7, no. February, pp. 1–11, 2017.
S. van der Walt, S. C. Colbert, and G. Varoquaux, “The NumPy Array: A Structure for Efficient Numerical Computation,” Comput. Sci. Eng., vol. 13, no. 2, pp. 22–30, 2011.
J. D. Hunter, “Matplotlib: A 2D Graphics Environment,” Comput. Sci. Eng., vol. 9, no. 3, pp. 90–95, May 2007.
M. Hattori et al., “The DNA sequence of human chromosome 21 - supplement table,” Nature, vol. 405, no. May, p. 7118, 2000.
M. Jette, A. Yoo, and M. Grondona, “SLURM: Simple linux utility for resource management,” in LECTURE NOTES IN COMPUTER SCIENCE, 2003.
H. Carroll, P. Ridge, M. Clement, and Q. Snell, “Effects of gap open and gap extension penalties,” Proc. Third …, pp. 1–5, 2006.
J. L. Wegrzyn et al., “Unique features of the loblolly pine (Pinus taeda L.) megagenome revealed through sequence annotation,” Genetics, vol. 196, no. 3, pp. 891–909, 2014.
https://revistas.eia.edu.co/index.php/BME/article/download/1404/1330
info:eu-repo/semantics/article
http://purl.org/coar/resource_type/c_6501
http://purl.org/redcol/resource_type/ARTREF
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/version/c_970fb48d4fbd8a85
info:eu-repo/semantics/openAccess
http://purl.org/coar/access_right/c_abf2
Text
Publication
institution UNIVERSIDAD EIA
thumbnail https://nuevo.metarevistas.org/UNIVERSIDADEIA/logo.png
country_str Colombia
collection Revista Ingeniería Biomédica
title Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
spellingShingle Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
Piña Duran, Johan Sebastian
Orozco Arias, Simón
Guyot, Romain
Tabares Soto, Reinel
Tobón Orozco, Nicolás
Candamil Cortés, Mariana Sofía
Alineamiento gráfico
Bioinformática
Computación de alto rendimiento
Programación paralela.
Graphic alignment
Bioinformatics
High-performance computing
Parallel programming
title_short Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
title_full Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
title_fullStr Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
title_full_unstemmed Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
title_sort alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
title_eng Graphical alignment of sequences through parallel programming: an approach from the post-genomic era
description Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propone una estrategia que trabaja sobre múltiples procesadores para realizar alineamientos a nivel genómico en menor tiempo de ejecución que GEPARD, logrando aceleraciones hasta de 27,9 veces utilizando 64 procesadores respecto al valor nominal. La estrategia permite la identificación de reorganizaciones cromosómicas, elementos repetitivos, comparación entre genomas de distintas especies y la medición de forma gráfica de la calidad de ensamblaje de secuencias genómicas rápidamente.
description_eng A graphical alignment or “dot plot” is a method of visual representation of genomic data analysis, commonly used to compare the similarity of two biological sequences. The DOTTER program, developed in 1995, is the most widely used tool for this type of task. The biggest problem with this software is the high runtime for large scale genomic data. GEPARD (2007), performs faster alignments for larger sequences than DOTTER, but reducing the execution time of the alignment of a chromosome against itself, from 382 years with DOTTER to 61 minutes with GEPARD, although with a low level of detail because it uses an approximation method. This article proposes a strategy that works on multiple processors to perform genomic-level alignments in a shorter run time than GEPARD, achieving accelerations up to 27.9 times using 64 processors from the nominal value. The strategy allows the identification of chromosomal rearrangements, repetitive elements, comparison between genomes of different species and the graphic measurement of the assembly quality of genomic sequences quickly. 
author Piña Duran, Johan Sebastian
Orozco Arias, Simón
Guyot, Romain
Tabares Soto, Reinel
Tobón Orozco, Nicolás
Candamil Cortés, Mariana Sofía
author_facet Piña Duran, Johan Sebastian
Orozco Arias, Simón
Guyot, Romain
Tabares Soto, Reinel
Tobón Orozco, Nicolás
Candamil Cortés, Mariana Sofía
topicspa_str_mv Alineamiento gráfico
Bioinformática
Computación de alto rendimiento
Programación paralela.
topic Alineamiento gráfico
Bioinformática
Computación de alto rendimiento
Programación paralela.
Graphic alignment
Bioinformatics
High-performance computing
Parallel programming
topic_facet Alineamiento gráfico
Bioinformática
Computación de alto rendimiento
Programación paralela.
Graphic alignment
Bioinformatics
High-performance computing
Parallel programming
citationvolume 13
citationissue 26
publisher Universidad EIA
ispartofjournal Revista Ingeniería Biomédica
source https://revistas.eia.edu.co/index.php/BME/article/view/1404
language spa
format Article
rights https://creativecommons.org/licenses/by-nc-sa/4.0/
Revista Ingeniería Biomédica - 2020
info:eu-repo/semantics/openAccess
http://purl.org/coar/access_right/c_abf2
references O. Lecompte, J. D. Thompson, F. Plewniak, J.-C. Thierry, and O. Poch, “Multiple alignment of complete sequences (MACS) in the post-genomic era,” Gene, vol. 270, no. 1, pp. 17–30, 2001.
N. M. Luscombe, D. Greenbaum, and M. Gerstein, “A Proposed Definition and Overview of the Field,” Methods Inf. Med., vol. 40, no. 4, pp. 346–358, 2001.
S. P. Holmes and D. Gusfield, “Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology,” J. Am. Stat. Assoc., vol. 94, no. 447, p. 989, 1999.
W. Chen, B. Liao, and W. Li, “Use of image texture analysis to find DNA sequence similarities,” J. Theor. Biol., vol. 455, pp. 1–6, 2018.
B. Liao and T.-M. Wang, “New 2D graphical representation of DNA sequences,” J. Comput. Chem., vol. 25, no. 11, pp. 1364–1368, 2004.
T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, pp. 195–197, 1981.
S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443–453, 1970.
A. L. Delcher, S. Kasif, R. D. Fleischmann, J. Peterson, O. White, and S. L. Salzberg, “Alignment of whole genomes,” Nucleic Acids Res., vol. 27, no. 11, pp. 2369–2376, 1999.
E. L. L. Sonnhammer and R. Durbin, “A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (Reprinted from Gene Combis, vol 167, pg GC1-GC10, 1996),” Gene, vol. 167, no. 1–2, pp. Gc1–Gc10, 1995.
J. Krumsiek, R. Arnold, and T. Rattei, “Gepard: A rapid and sensitive tool for creating dotplots on genome scale,” Bioinformatics, vol. 23, no. 8, pp. 1026–1028, 2007.
S. Orozco-Arias, R. Tabares-Soto, D. Ceballos, and R. Guyot, “Parallel Programming in Biological Sciences, Taking Advantage of Supercomputing in Genomics,” in Advances in Computing, 2017, pp. 627–643.
D. Milone, A. Azar, and H. Rufiner, “Supercomputadoras basadas en ‘clusters’ de PCs,” Rev. Cienc., pp. 173–208, 2002.
S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, “Basic local alignment search tool,” J. Mol. Biol., vol. 215, no. 3, pp. 403–410, 1990.
S. Orozco Arias et al., “Inpactor, Integrated and Parallel Analyzer and Classifier of LTR Retrotransposons and Its Application for Pineapple LTR Retrotransposons Diversity and Dynamics,” Biology (Basel)., vol. 7, p. 32, 2018.
B. Langmead and S. L. Salzberg, “Fast gapped-read alignment with Bowtie 2,” Nat. Methods, vol. 9, no. 4, pp. 357–359, 2012.
G. Van Rossum and F. L. Drake Jr, Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam, 1995.
S. Schwartz et al., “Human-mouse alignments with BLASTZ.,” Genome Res., vol. 13, no. 1, pp. 103–107, 2003.
S. Hicks, D. A. Wheeler, S. E. Plon, and M. Kimmel, “Prediction of missense mutation functionality depends on both the algorithm and sequence alignment employed,” Hum. Mutat., vol. 32, no. 6, pp. 661–668, 2011.
G. L. Johanning et al., “Expression of human endogenous retrovirus-K is strongly associated with the basal-like breast cancer phenotype,” Sci. Rep., vol. 7, no. February, pp. 1–11, 2017.
S. van der Walt, S. C. Colbert, and G. Varoquaux, “The NumPy Array: A Structure for Efficient Numerical Computation,” Comput. Sci. Eng., vol. 13, no. 2, pp. 22–30, 2011.
J. D. Hunter, “Matplotlib: A 2D Graphics Environment,” Comput. Sci. Eng., vol. 9, no. 3, pp. 90–95, May 2007.
M. Hattori et al., “The DNA sequence of human chromosome 21 - supplement table,” Nature, vol. 405, no. May, p. 7118, 2000.
M. Jette, A. Yoo, and M. Grondona, “SLURM: Simple linux utility for resource management,” in LECTURE NOTES IN COMPUTER SCIENCE, 2003.
H. Carroll, P. Ridge, M. Clement, and Q. Snell, “Effects of gap open and gap extension penalties,” Proc. Third …, pp. 1–5, 2006.
J. L. Wegrzyn et al., “Unique features of the loblolly pine (Pinus taeda L.) megagenome revealed through sequence annotation,” Genetics, vol. 196, no. 3, pp. 891–909, 2014.
type_driver info:eu-repo/semantics/article
type_coar http://purl.org/coar/resource_type/c_6501
type_version info:eu-repo/semantics/publishedVersion
type_coarversion http://purl.org/coar/version/c_970fb48d4fbd8a85
type_content Text
publishDate 2020-06-06
date_accessioned 2020-06-06 00:00:00
date_available 2020-06-06 00:00:00
url https://revistas.eia.edu.co/index.php/BME/article/view/1404
url_doi https://doi.org/10.24050/19099762.n26.2019.1404
issn 1909-9762
eissn 1909-9991
doi 10.24050/19099762.n26.2019.1404
url2_str_mv https://revistas.eia.edu.co/index.php/BME/article/download/1404/1330
_version_ 1811200368440246272