Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
.
Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propo... Ver más
1909-9762
1909-9991
13
2020-06-06
Revista Ingeniería Biomédica - 2020
info:eu-repo/semantics/openAccess
http://purl.org/coar/access_right/c_abf2
id |
metarevistapublica_eia_revistaingenieriabiomedica_81_article_1404 |
---|---|
record_format |
ojs |
spelling |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica Graphical alignment of sequences through parallel programming: an approach from the post-genomic era Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propone una estrategia que trabaja sobre múltiples procesadores para realizar alineamientos a nivel genómico en menor tiempo de ejecución que GEPARD, logrando aceleraciones hasta de 27,9 veces utilizando 64 procesadores respecto al valor nominal. La estrategia permite la identificación de reorganizaciones cromosómicas, elementos repetitivos, comparación entre genomas de distintas especies y la medición de forma gráfica de la calidad de ensamblaje de secuencias genómicas rápidamente. A graphical alignment or “dot plot” is a method of visual representation of genomic data analysis, commonly used to compare the similarity of two biological sequences. The DOTTER program, developed in 1995, is the most widely used tool for this type of task. The biggest problem with this software is the high runtime for large scale genomic data. GEPARD (2007), performs faster alignments for larger sequences than DOTTER, but reducing the execution time of the alignment of a chromosome against itself, from 382 years with DOTTER to 61 minutes with GEPARD, although with a low level of detail because it uses an approximation method. This article proposes a strategy that works on multiple processors to perform genomic-level alignments in a shorter run time than GEPARD, achieving accelerations up to 27.9 times using 64 processors from the nominal value. The strategy allows the identification of chromosomal rearrangements, repetitive elements, comparison between genomes of different species and the graphic measurement of the assembly quality of genomic sequences quickly. Piña Duran, Johan Sebastian Orozco Arias, Simón Guyot, Romain Tabares Soto, Reinel Tobón Orozco, Nicolás Candamil Cortés, Mariana Sofía Alineamiento gráfico Bioinformática Computación de alto rendimiento Programación paralela. Graphic alignment Bioinformatics High-performance computing Parallel programming 13 26 Artículo de revista Journal article 2020-06-06 00:00:00 2020-06-06 00:00:00 2020-06-06 application/pdf Universidad EIA Revista Ingeniería Biomédica 1909-9762 1909-9991 https://revistas.eia.edu.co/index.php/BME/article/view/1404 10.24050/19099762.n26.2019.1404 https://doi.org/10.24050/19099762.n26.2019.1404 spa https://creativecommons.org/licenses/by-nc-sa/4.0/ Revista Ingeniería Biomédica - 2020 O. Lecompte, J. D. Thompson, F. Plewniak, J.-C. Thierry, and O. Poch, “Multiple alignment of complete sequences (MACS) in the post-genomic era,” Gene, vol. 270, no. 1, pp. 17–30, 2001. N. M. Luscombe, D. Greenbaum, and M. Gerstein, “A Proposed Definition and Overview of the Field,” Methods Inf. Med., vol. 40, no. 4, pp. 346–358, 2001. S. P. Holmes and D. Gusfield, “Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology,” J. Am. Stat. Assoc., vol. 94, no. 447, p. 989, 1999. W. Chen, B. Liao, and W. Li, “Use of image texture analysis to find DNA sequence similarities,” J. Theor. Biol., vol. 455, pp. 1–6, 2018. B. Liao and T.-M. Wang, “New 2D graphical representation of DNA sequences,” J. Comput. Chem., vol. 25, no. 11, pp. 1364–1368, 2004. T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, pp. 195–197, 1981. S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443–453, 1970. A. L. Delcher, S. Kasif, R. D. Fleischmann, J. Peterson, O. White, and S. L. Salzberg, “Alignment of whole genomes,” Nucleic Acids Res., vol. 27, no. 11, pp. 2369–2376, 1999. E. L. L. Sonnhammer and R. Durbin, “A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (Reprinted from Gene Combis, vol 167, pg GC1-GC10, 1996),” Gene, vol. 167, no. 1–2, pp. Gc1–Gc10, 1995. J. Krumsiek, R. Arnold, and T. Rattei, “Gepard: A rapid and sensitive tool for creating dotplots on genome scale,” Bioinformatics, vol. 23, no. 8, pp. 1026–1028, 2007. S. Orozco-Arias, R. Tabares-Soto, D. Ceballos, and R. Guyot, “Parallel Programming in Biological Sciences, Taking Advantage of Supercomputing in Genomics,” in Advances in Computing, 2017, pp. 627–643. D. Milone, A. Azar, and H. Rufiner, “Supercomputadoras basadas en ‘clusters’ de PCs,” Rev. Cienc., pp. 173–208, 2002. S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, “Basic local alignment search tool,” J. Mol. Biol., vol. 215, no. 3, pp. 403–410, 1990. S. Orozco Arias et al., “Inpactor, Integrated and Parallel Analyzer and Classifier of LTR Retrotransposons and Its Application for Pineapple LTR Retrotransposons Diversity and Dynamics,” Biology (Basel)., vol. 7, p. 32, 2018. B. Langmead and S. L. Salzberg, “Fast gapped-read alignment with Bowtie 2,” Nat. Methods, vol. 9, no. 4, pp. 357–359, 2012. G. Van Rossum and F. L. Drake Jr, Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam, 1995. S. Schwartz et al., “Human-mouse alignments with BLASTZ.,” Genome Res., vol. 13, no. 1, pp. 103–107, 2003. S. Hicks, D. A. Wheeler, S. E. Plon, and M. Kimmel, “Prediction of missense mutation functionality depends on both the algorithm and sequence alignment employed,” Hum. Mutat., vol. 32, no. 6, pp. 661–668, 2011. G. L. Johanning et al., “Expression of human endogenous retrovirus-K is strongly associated with the basal-like breast cancer phenotype,” Sci. Rep., vol. 7, no. February, pp. 1–11, 2017. S. van der Walt, S. C. Colbert, and G. Varoquaux, “The NumPy Array: A Structure for Efficient Numerical Computation,” Comput. Sci. Eng., vol. 13, no. 2, pp. 22–30, 2011. J. D. Hunter, “Matplotlib: A 2D Graphics Environment,” Comput. Sci. Eng., vol. 9, no. 3, pp. 90–95, May 2007. M. Hattori et al., “The DNA sequence of human chromosome 21 - supplement table,” Nature, vol. 405, no. May, p. 7118, 2000. M. Jette, A. Yoo, and M. Grondona, “SLURM: Simple linux utility for resource management,” in LECTURE NOTES IN COMPUTER SCIENCE, 2003. H. Carroll, P. Ridge, M. Clement, and Q. Snell, “Effects of gap open and gap extension penalties,” Proc. Third …, pp. 1–5, 2006. J. L. Wegrzyn et al., “Unique features of the loblolly pine (Pinus taeda L.) megagenome revealed through sequence annotation,” Genetics, vol. 196, no. 3, pp. 891–909, 2014. https://revistas.eia.edu.co/index.php/BME/article/download/1404/1330 info:eu-repo/semantics/article http://purl.org/coar/resource_type/c_6501 http://purl.org/redcol/resource_type/ARTREF info:eu-repo/semantics/publishedVersion http://purl.org/coar/version/c_970fb48d4fbd8a85 info:eu-repo/semantics/openAccess http://purl.org/coar/access_right/c_abf2 Text Publication |
institution |
UNIVERSIDAD EIA |
thumbnail |
https://nuevo.metarevistas.org/UNIVERSIDADEIA/logo.png |
country_str |
Colombia |
collection |
Revista Ingeniería Biomédica |
title |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica |
spellingShingle |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica Piña Duran, Johan Sebastian Orozco Arias, Simón Guyot, Romain Tabares Soto, Reinel Tobón Orozco, Nicolás Candamil Cortés, Mariana Sofía Alineamiento gráfico Bioinformática Computación de alto rendimiento Programación paralela. Graphic alignment Bioinformatics High-performance computing Parallel programming |
title_short |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica |
title_full |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica |
title_fullStr |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica |
title_full_unstemmed |
Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica |
title_sort |
alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica |
title_eng |
Graphical alignment of sequences through parallel programming: an approach from the post-genomic era |
description |
Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propone una estrategia que trabaja sobre múltiples procesadores para realizar alineamientos a nivel genómico en menor tiempo de ejecución que GEPARD, logrando aceleraciones hasta de 27,9 veces utilizando 64 procesadores respecto al valor nominal. La estrategia permite la identificación de reorganizaciones cromosómicas, elementos repetitivos, comparación entre genomas de distintas especies y la medición de forma gráfica de la calidad de ensamblaje de secuencias genómicas rápidamente.
|
description_eng |
A graphical alignment or “dot plot” is a method of visual representation of genomic data analysis, commonly used to compare the similarity of two biological sequences. The DOTTER program, developed in 1995, is the most widely used tool for this type of task. The biggest problem with this software is the high runtime for large scale genomic data. GEPARD (2007), performs faster alignments for larger sequences than DOTTER, but reducing the execution time of the alignment of a chromosome against itself, from 382 years with DOTTER to 61 minutes with GEPARD, although with a low level of detail because it uses an approximation method. This article proposes a strategy that works on multiple processors to perform genomic-level alignments in a shorter run time than GEPARD, achieving accelerations up to 27.9 times using 64 processors from the nominal value. The strategy allows the identification of chromosomal rearrangements, repetitive elements, comparison between genomes of different species and the graphic measurement of the assembly quality of genomic sequences quickly.
|
author |
Piña Duran, Johan Sebastian Orozco Arias, Simón Guyot, Romain Tabares Soto, Reinel Tobón Orozco, Nicolás Candamil Cortés, Mariana Sofía |
author_facet |
Piña Duran, Johan Sebastian Orozco Arias, Simón Guyot, Romain Tabares Soto, Reinel Tobón Orozco, Nicolás Candamil Cortés, Mariana Sofía |
topicspa_str_mv |
Alineamiento gráfico Bioinformática Computación de alto rendimiento Programación paralela. |
topic |
Alineamiento gráfico Bioinformática Computación de alto rendimiento Programación paralela. Graphic alignment Bioinformatics High-performance computing Parallel programming |
topic_facet |
Alineamiento gráfico Bioinformática Computación de alto rendimiento Programación paralela. Graphic alignment Bioinformatics High-performance computing Parallel programming |
citationvolume |
13 |
citationissue |
26 |
publisher |
Universidad EIA |
ispartofjournal |
Revista Ingeniería Biomédica |
source |
https://revistas.eia.edu.co/index.php/BME/article/view/1404 |
language |
spa |
format |
Article |
rights |
https://creativecommons.org/licenses/by-nc-sa/4.0/ Revista Ingeniería Biomédica - 2020 info:eu-repo/semantics/openAccess http://purl.org/coar/access_right/c_abf2 |
references |
O. Lecompte, J. D. Thompson, F. Plewniak, J.-C. Thierry, and O. Poch, “Multiple alignment of complete sequences (MACS) in the post-genomic era,” Gene, vol. 270, no. 1, pp. 17–30, 2001. N. M. Luscombe, D. Greenbaum, and M. Gerstein, “A Proposed Definition and Overview of the Field,” Methods Inf. Med., vol. 40, no. 4, pp. 346–358, 2001. S. P. Holmes and D. Gusfield, “Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology,” J. Am. Stat. Assoc., vol. 94, no. 447, p. 989, 1999. W. Chen, B. Liao, and W. Li, “Use of image texture analysis to find DNA sequence similarities,” J. Theor. Biol., vol. 455, pp. 1–6, 2018. B. Liao and T.-M. Wang, “New 2D graphical representation of DNA sequences,” J. Comput. Chem., vol. 25, no. 11, pp. 1364–1368, 2004. T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, pp. 195–197, 1981. S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443–453, 1970. A. L. Delcher, S. Kasif, R. D. Fleischmann, J. Peterson, O. White, and S. L. Salzberg, “Alignment of whole genomes,” Nucleic Acids Res., vol. 27, no. 11, pp. 2369–2376, 1999. E. L. L. Sonnhammer and R. Durbin, “A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (Reprinted from Gene Combis, vol 167, pg GC1-GC10, 1996),” Gene, vol. 167, no. 1–2, pp. Gc1–Gc10, 1995. J. Krumsiek, R. Arnold, and T. Rattei, “Gepard: A rapid and sensitive tool for creating dotplots on genome scale,” Bioinformatics, vol. 23, no. 8, pp. 1026–1028, 2007. S. Orozco-Arias, R. Tabares-Soto, D. Ceballos, and R. Guyot, “Parallel Programming in Biological Sciences, Taking Advantage of Supercomputing in Genomics,” in Advances in Computing, 2017, pp. 627–643. D. Milone, A. Azar, and H. Rufiner, “Supercomputadoras basadas en ‘clusters’ de PCs,” Rev. Cienc., pp. 173–208, 2002. S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, “Basic local alignment search tool,” J. Mol. Biol., vol. 215, no. 3, pp. 403–410, 1990. S. Orozco Arias et al., “Inpactor, Integrated and Parallel Analyzer and Classifier of LTR Retrotransposons and Its Application for Pineapple LTR Retrotransposons Diversity and Dynamics,” Biology (Basel)., vol. 7, p. 32, 2018. B. Langmead and S. L. Salzberg, “Fast gapped-read alignment with Bowtie 2,” Nat. Methods, vol. 9, no. 4, pp. 357–359, 2012. G. Van Rossum and F. L. Drake Jr, Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam, 1995. S. Schwartz et al., “Human-mouse alignments with BLASTZ.,” Genome Res., vol. 13, no. 1, pp. 103–107, 2003. S. Hicks, D. A. Wheeler, S. E. Plon, and M. Kimmel, “Prediction of missense mutation functionality depends on both the algorithm and sequence alignment employed,” Hum. Mutat., vol. 32, no. 6, pp. 661–668, 2011. G. L. Johanning et al., “Expression of human endogenous retrovirus-K is strongly associated with the basal-like breast cancer phenotype,” Sci. Rep., vol. 7, no. February, pp. 1–11, 2017. S. van der Walt, S. C. Colbert, and G. Varoquaux, “The NumPy Array: A Structure for Efficient Numerical Computation,” Comput. Sci. Eng., vol. 13, no. 2, pp. 22–30, 2011. J. D. Hunter, “Matplotlib: A 2D Graphics Environment,” Comput. Sci. Eng., vol. 9, no. 3, pp. 90–95, May 2007. M. Hattori et al., “The DNA sequence of human chromosome 21 - supplement table,” Nature, vol. 405, no. May, p. 7118, 2000. M. Jette, A. Yoo, and M. Grondona, “SLURM: Simple linux utility for resource management,” in LECTURE NOTES IN COMPUTER SCIENCE, 2003. H. Carroll, P. Ridge, M. Clement, and Q. Snell, “Effects of gap open and gap extension penalties,” Proc. Third …, pp. 1–5, 2006. J. L. Wegrzyn et al., “Unique features of the loblolly pine (Pinus taeda L.) megagenome revealed through sequence annotation,” Genetics, vol. 196, no. 3, pp. 891–909, 2014. |
type_driver |
info:eu-repo/semantics/article |
type_coar |
http://purl.org/coar/resource_type/c_6501 |
type_version |
info:eu-repo/semantics/publishedVersion |
type_coarversion |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
type_content |
Text |
publishDate |
2020-06-06 |
date_accessioned |
2020-06-06 00:00:00 |
date_available |
2020-06-06 00:00:00 |
url |
https://revistas.eia.edu.co/index.php/BME/article/view/1404 |
url_doi |
https://doi.org/10.24050/19099762.n26.2019.1404 |
issn |
1909-9762 |
eissn |
1909-9991 |
doi |
10.24050/19099762.n26.2019.1404 |
url2_str_mv |
https://revistas.eia.edu.co/index.php/BME/article/download/1404/1330 |
_version_ |
1811200368440246272 |