Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/11000/4487

Análisis de catálogos robustos desde la perspectiva de la minería de reglas de asociación


Vista previa

Ver/Abrir:
 TD Lazcorreta Puigmartí, Enrique.pdf
2,35 MB
Adobe PDF
Compartir:
Título :
Análisis de catálogos robustos desde la perspectiva de la minería de reglas de asociación
Autor :
Lazcorreta Puigmartí, Enrique
Tutor:
Botella Beviá, Federico
Fernández Caballero, Antonio
Departamento:
Departamentos de la UMH::Ciencia de Materiales, Óptica y Tecnología Electrónica
Fecha de publicación:
2017-09-08
URI :
http://hdl.handle.net/11000/4487
Resumen :
Los datasets de clasificación son conjuntos de registros que recogen las características de individuos clasificados de una población. Las características son los valores que toma el individuo en ciertos atributos medibles. La clasificación ha de ser única, un individuo pertenece a una y sólo una de las clases en que se ha dividido la población El análisis de un dataset de clasificación proporciona reglas de clasificación, mediante las que se puede clasificar a un individuo del que sólo se conozcan algunas de sus características. Estos datasets contienen información sobre las relaciones existentes entre las diferentes características de la población en estudio. Cuando el dataset es una muestra representativa de la población, podemos dividir esta información en dos tipos bien diferenciados: 1. Estructural Si un atributo está relacionado con otro, esta relación se mostrará en los registros del dataset. Si no es posible que un individuo tome el valor x en un atributo y el valor y en otro atributo simultáneamente, no habrá ningún registro con ambos valores. 2. Probabilística Si el valor de un atributo aparece simultáneamente con el valor de un atributo de forma frecuente en la población, en el dataset ocurrirá lo mismo. Cuando el dataset no es una muestra representativa, sólo contiene información estructural de la población. En este caso, se pueden eliminar los duplicados que contenga el dataset para reducir sus dimensiones y poder analizarlo mejor. Los duplicados sólo proporcionan información probabilística con la que estimar frecuencias poblacionales. Si el dataset no contiene este tipo de información, los duplicados sólo dan información estructural redundante. Sólo es necesario mantener un representante de los registros duplicados en el dataset. Denominando catálogo al dataset reducido tras eliminar registros duplicados, los catálogos son datasets de clasificación que sólo contienen información sobre la estructura de la población en estudio. La minería de reglas de asociación o la minería de reglas de clasificación asociativa, que se basan en la información probabilística que tiene una muestra representativa de una población, no pueden utilizarse del modo habitual cuando se analiza un catálogo. Esta tesis presenta una nueva metodología que permite descubrir información sobre la estructura de la población contenida en los catálogos. Al aplicarla sobre datasets difíciles de tratar con algoritmos basados en minería de reglas de asociación, proporciona una colección de catálogos que, utilizando menos atributos que el dataset original, contienen la misma información sobre la estructura de la población en estudio.
Palabras clave/Materias:
Informática
Matrices
Bases de datos
Área de conocimiento :
CDU: Ciencias aplicadas: Ingeniería. Tecnología
Tipo documento :
application/pdf
Derechos de acceso:
info:eu-repo/semantics/openAccess
Aparece en las colecciones:
Tesis doctorales - Ciencias e Ingenierías



Creative Commons La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.