Titulo:

Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
.

Sumario:

En el presente artículo se describe la obtención de un modelo de minería de datos aplicado al problema de la deserción universitaria en el programa de Ingeniería de Sistemas de la Universidad de Cundinamarca, extensión Facatativá. El modelo se estructuró mediante la metodología de minería de datos KDD (knowledge discovery in databases) haciendo uso del lenguaje de programación Python, la librería de procesamiento de datos Pandas y de machine learning Sklearn. Para el proceso se tuvieron en cuenta problemas adicionales al proceso de minería, como, por ejemplo, la alta dimensionalidad, por lo cual se aplicaron los métodos de selección de las variables estadístico univariado, feature importance y SelectFromModel (Sklearn). En el proyecto se se... Ver más

Guardado en:

2382-3399

2745-2220

7

2020-04-11

134

150

Revista Ontare - 2019

info:eu-repo/semantics/openAccess

http://purl.org/coar/access_right/c_abf2

id metarevistapublica_ean_revistaontare_54_article_2676
record_format ojs
spelling Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
Obtaining a data mining model to be applied to university desertion from the Systems Engineering program of the University of Cundinamarca
En el presente artículo se describe la obtención de un modelo de minería de datos aplicado al problema de la deserción universitaria en el programa de Ingeniería de Sistemas de la Universidad de Cundinamarca, extensión Facatativá. El modelo se estructuró mediante la metodología de minería de datos KDD (knowledge discovery in databases) haciendo uso del lenguaje de programación Python, la librería de procesamiento de datos Pandas y de machine learning Sklearn. Para el proceso se tuvieron en cuenta problemas adicionales al proceso de minería, como, por ejemplo, la alta dimensionalidad, por lo cual se aplicaron los métodos de selección de las variables estadístico univariado, feature importance y SelectFromModel (Sklearn). En el proyecto se seleccionaron cinco técnicas de minería de datos para evaluarlas: vecinos más cercanos (K nearest neighbors, KNN), árboles de decisión (decision tree, DT), árboles aleatorios (random forest, RF), regresión logística (logistic regression, LR) y máquinas de vectores soporte (support vector machines, SVM). Respecto a la selección del modelo final se evaluaron los resultados de cada modelo en las métricas de precisión, matriz de confusión y métricas adicionales de la matriz de confusión. Por último, se ajustaron los parámetros del modelo seleccionado y se evaluó la generalización del modelo al graficar su curva de aprendizaje.
This article describes how a data mining model was obtained and applied to the problem of university dropout in the Systems Engineering program of the University of Cundinamarca, in Facatativá. The model was structured by means of the KDD (knowledge discovery in databases) data mining methodology using Python programming language, Pandas data processing library, and the Sklearn machine learning. For the process, we took into account problems that are additional to the ones specific to the mining process, such as high dimensionality, reason why the methods of selection of the univariate statistical variables, feature importance, and SelectFromModel (Sklearn) were applied. In the project, five data mining techniques were selected for evaluation: nearest neighbors (KNN), decision tree (DT), random forest (RF), logistic regression (LR), and support vector machines (SVM). Regarding the selection of the final model, the results of each model were tested on the precision metrics, confusion matrix, and additional metrics of the confusion matrix. Finally, the parameters of the selected model were adjusted and the generalization of the model was evaluated by plotting its learning curve.
Ayala-Yaguara, Holmes Yesid
Valenzuela-Sabogal, Gina Maribel
Espinosa-García, Alexander
Minería de datos
Deserción universitaria
Universidad de Cundinamarca, extensión Facatativá
Análisis de regresión logística
Data mining
College dropouts
University of Cundinamarca, extension Facatativa
Logistic regression analysis
7
, Año 2019 : Inteligencia Artificial y soluciones de ingeniería sostenible
Artículo de revista
Journal article
2020-04-11T00:00:00Z
2020-04-11T00:00:00Z
2020-04-11
application/pdf
Universidad Ean
Revista Ontare
2382-3399
2745-2220
https://journal.universidadean.edu.co/index.php/Revistao/article/view/2676
10.21158/23823399.v7.n0.2019.2676
https://doi.org/10.21158/23823399.v7.n0.2019.2676
spa
https://creativecommons.org/licenses/by-nc-sa/4.0/
Revista Ontare - 2019
134
150
Fischer, E. S. (2012). Modelo para la automatización del proceso de determinación de riesgo de deserción en estudiantes universitarios. Santiago de Chile: Universidad de Chile.
Galvis, M.; Martínez, F. (2004). Confrontación de dos técnicas de minería de datos aplicadas a un dominio específico. Bogotá: Pontificia Universidad Javeriana.
Hernández, J.; Ramírez, J.; Ferri, C. (2004). Introducción a la minería de datos. Madrid: Pearson. MEN (Ministerio de Educación Nacional). (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá: Ministerio de Educación Nacional.
Moine, J. M.; Gordillo, S.; Haedo, A. (2011). Estudio comparativo de metodologías para minería de datos. Texto presentado en el XIII Workshop de Investigadores en Ciencias de la Computación. Red de Universidades con Carreras en Informática (RedUNCI), San Juan, Argentina, 5-6 de mayo. Recuperado de http://hdl.handle.net/10915/20034
Müller, A.; Guido, S. (2016). Introduction to machine learning: a guide for data scientists. Sebastopol CA: O' Reilly.
Pedregosa, F. et al. (2011). Scikit-learn: machine learning in python. Journal of Machine Learning Research, 12, 2826-2830. Recuperado de https://hal.inria.fr/hal 00650905
Raschka, S. (2015). Python machine learning. Birmingham: Packt Publishing.
Universidad de Cundinamarca. (2019). Boletín Estadístico X Edición. Universidad de Cundinamarca, Dirección Planeación Institucional. Fusagasugá: Fusunga Casa Editorial.
https://journal.universidadean.edu.co/index.php/Revistao/article/download/2676/2087
info:eu-repo/semantics/article
http://purl.org/coar/resource_type/c_6501
http://purl.org/redcol/resource_type/ARTREF
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/version/c_970fb48d4fbd8a85
info:eu-repo/semantics/openAccess
http://purl.org/coar/access_right/c_abf2
Text
Publication
institution UNIVERSIDAD EAN
thumbnail https://nuevo.metarevistas.org/UNIVERSIDADEAN/logo.png
country_str Colombia
collection Revista Ontare
title Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
spellingShingle Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
Ayala-Yaguara, Holmes Yesid
Valenzuela-Sabogal, Gina Maribel
Espinosa-García, Alexander
Minería de datos
Deserción universitaria
Universidad de Cundinamarca, extensión Facatativá
Análisis de regresión logística
Data mining
College dropouts
University of Cundinamarca, extension Facatativa
Logistic regression analysis
title_short Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
title_full Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
title_fullStr Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
title_full_unstemmed Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca
title_sort obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de ingeniería de sistemas de la universidad de cundinamarca
title_eng Obtaining a data mining model to be applied to university desertion from the Systems Engineering program of the University of Cundinamarca
description En el presente artículo se describe la obtención de un modelo de minería de datos aplicado al problema de la deserción universitaria en el programa de Ingeniería de Sistemas de la Universidad de Cundinamarca, extensión Facatativá. El modelo se estructuró mediante la metodología de minería de datos KDD (knowledge discovery in databases) haciendo uso del lenguaje de programación Python, la librería de procesamiento de datos Pandas y de machine learning Sklearn. Para el proceso se tuvieron en cuenta problemas adicionales al proceso de minería, como, por ejemplo, la alta dimensionalidad, por lo cual se aplicaron los métodos de selección de las variables estadístico univariado, feature importance y SelectFromModel (Sklearn). En el proyecto se seleccionaron cinco técnicas de minería de datos para evaluarlas: vecinos más cercanos (K nearest neighbors, KNN), árboles de decisión (decision tree, DT), árboles aleatorios (random forest, RF), regresión logística (logistic regression, LR) y máquinas de vectores soporte (support vector machines, SVM). Respecto a la selección del modelo final se evaluaron los resultados de cada modelo en las métricas de precisión, matriz de confusión y métricas adicionales de la matriz de confusión. Por último, se ajustaron los parámetros del modelo seleccionado y se evaluó la generalización del modelo al graficar su curva de aprendizaje.
description_eng This article describes how a data mining model was obtained and applied to the problem of university dropout in the Systems Engineering program of the University of Cundinamarca, in Facatativá. The model was structured by means of the KDD (knowledge discovery in databases) data mining methodology using Python programming language, Pandas data processing library, and the Sklearn machine learning. For the process, we took into account problems that are additional to the ones specific to the mining process, such as high dimensionality, reason why the methods of selection of the univariate statistical variables, feature importance, and SelectFromModel (Sklearn) were applied. In the project, five data mining techniques were selected for evaluation: nearest neighbors (KNN), decision tree (DT), random forest (RF), logistic regression (LR), and support vector machines (SVM). Regarding the selection of the final model, the results of each model were tested on the precision metrics, confusion matrix, and additional metrics of the confusion matrix. Finally, the parameters of the selected model were adjusted and the generalization of the model was evaluated by plotting its learning curve.
author Ayala-Yaguara, Holmes Yesid
Valenzuela-Sabogal, Gina Maribel
Espinosa-García, Alexander
author_facet Ayala-Yaguara, Holmes Yesid
Valenzuela-Sabogal, Gina Maribel
Espinosa-García, Alexander
topicspa_str_mv Minería de datos
Deserción universitaria
Universidad de Cundinamarca, extensión Facatativá
Análisis de regresión logística
topic Minería de datos
Deserción universitaria
Universidad de Cundinamarca, extensión Facatativá
Análisis de regresión logística
Data mining
College dropouts
University of Cundinamarca, extension Facatativa
Logistic regression analysis
topic_facet Minería de datos
Deserción universitaria
Universidad de Cundinamarca, extensión Facatativá
Análisis de regresión logística
Data mining
College dropouts
University of Cundinamarca, extension Facatativa
Logistic regression analysis
citationvolume 7
citationedition , Año 2019 : Inteligencia Artificial y soluciones de ingeniería sostenible
publisher Universidad Ean
ispartofjournal Revista Ontare
source https://journal.universidadean.edu.co/index.php/Revistao/article/view/2676
language spa
format Article
rights https://creativecommons.org/licenses/by-nc-sa/4.0/
Revista Ontare - 2019
info:eu-repo/semantics/openAccess
http://purl.org/coar/access_right/c_abf2
references Fischer, E. S. (2012). Modelo para la automatización del proceso de determinación de riesgo de deserción en estudiantes universitarios. Santiago de Chile: Universidad de Chile.
Galvis, M.; Martínez, F. (2004). Confrontación de dos técnicas de minería de datos aplicadas a un dominio específico. Bogotá: Pontificia Universidad Javeriana.
Hernández, J.; Ramírez, J.; Ferri, C. (2004). Introducción a la minería de datos. Madrid: Pearson. MEN (Ministerio de Educación Nacional). (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá: Ministerio de Educación Nacional.
Moine, J. M.; Gordillo, S.; Haedo, A. (2011). Estudio comparativo de metodologías para minería de datos. Texto presentado en el XIII Workshop de Investigadores en Ciencias de la Computación. Red de Universidades con Carreras en Informática (RedUNCI), San Juan, Argentina, 5-6 de mayo. Recuperado de http://hdl.handle.net/10915/20034
Müller, A.; Guido, S. (2016). Introduction to machine learning: a guide for data scientists. Sebastopol CA: O' Reilly.
Pedregosa, F. et al. (2011). Scikit-learn: machine learning in python. Journal of Machine Learning Research, 12, 2826-2830. Recuperado de https://hal.inria.fr/hal 00650905
Raschka, S. (2015). Python machine learning. Birmingham: Packt Publishing.
Universidad de Cundinamarca. (2019). Boletín Estadístico X Edición. Universidad de Cundinamarca, Dirección Planeación Institucional. Fusagasugá: Fusunga Casa Editorial.
type_driver info:eu-repo/semantics/article
type_coar http://purl.org/coar/resource_type/c_6501
type_version info:eu-repo/semantics/publishedVersion
type_coarversion http://purl.org/coar/version/c_970fb48d4fbd8a85
type_content Text
publishDate 2020-04-11
date_accessioned 2020-04-11T00:00:00Z
date_available 2020-04-11T00:00:00Z
url https://journal.universidadean.edu.co/index.php/Revistao/article/view/2676
url_doi https://doi.org/10.21158/23823399.v7.n0.2019.2676
issn 2382-3399
eissn 2745-2220
doi 10.21158/23823399.v7.n0.2019.2676
citationstartpage 134
citationendpage 150
url2_str_mv https://journal.universidadean.edu.co/index.php/Revistao/article/download/2676/2087
_version_ 1811200245654093824