Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/11000/26781
Clasificación de textos mediante algoritmos de Machine Learning
Título : Clasificación de textos mediante algoritmos de Machine Learning |
Autor : Singh Kaur, Sukhwinder |
Tutor: Sainz-Pardo Auñón, José Luis |
Editor : Universidad Miguel Hernández de Elche |
Departamento: Departamentos de la UMH::Estadística, Matemáticas e Informática |
Fecha de publicación: 2021-06 |
URI : http://hdl.handle.net/11000/26781 |
Resumen :
El presente trabajo se centra en el estudio de algunos algoritmos que se engloban bajo el concepto de Machine Learning aplicados a la clasificación de textos, y hacer una comparativa entre ellos en cuanto a la eficacia y precisión a la hora de realizar las agrupaciones en cada uno de los casos.
El primero de ellos consiste en la clasificación de los emails, si son spam o no, y el segundo se centra en la clasificación de las noticias en sus correspondientes categorías. Los algoritmos que se han elegido son el de Naive Bayes y el de Support Vector Machine.
Tras el correspondiente análisis de los resultados se llegaron a varias conclusiones. Primero de todo, hay que destacar la necesidad e importancia de un correcto preprocesamiento de los datos. Si se lleva a cabo de una forma correcta y recomendable, las diferencias en los resultados finales son notables.
Segundo, según el tipo de datos y de acuerdo con la forma de prepararlos, existen funciones que se pueden adaptar mejor al modelo que otras, y de esta forma influir de una manera directa sobre los resultados deseados.
Por último, indicar que de entre los modelos que se emplearon para la resolución de los casos, aquel que mejor se adaptó y que realizó las clasificaciones con una mayor precisión fue el de Support Vector Machine.
|
Palabras clave/Materias: machine learning algoritmos |
Área de conocimiento : CDU: Ciencias sociales: Demografía. Sociología. Estadística: Estadística |
Tipo documento : application/pdf |
Derechos de acceso: info:eu-repo/semantics/openAccess Attribution-NonCommercial-NoDerivatives 4.0 Internacional |
Aparece en las colecciones: TFG - Estadística Empresarial
|
La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.