Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/11000/8272

Procesamiento del lenguaje natural: Desarrollo de aplicaciones para inteligencia competitiva


Vista previa

Ver/Abrir:
 TFG-Ortuño Lorente, José Manuel.pdf
624,68 kB
Adobe PDF
Compartir:
Título :
Procesamiento del lenguaje natural: Desarrollo de aplicaciones para inteligencia competitiva
Autor :
Ortuño Lorente, José Manuel
Tutor:
Sainz-Pardo Auñón, José Luis
Editor :
Universidad Miguel Hernández de Elche
Departamento:
Departamentos de la UMH::Estadística, Matemáticas e Informática
Fecha de publicación:
2019-12
URI :
http://hdl.handle.net/11000/8272
Resumen :
La combinación entre el crecimiento que ha experimentado la red durante los últimos años y los avances en la capacidad de computación de los ordenadores han desembocado en una nueva revolución de la información. Cada día en la red se generan volúmenes enormes de datos de toda clase. La mayor parte de ellos son desaprovechados y almacenados en grandes servidores en espera de la aparición de una forma de aprovecharlos y explotarlos. Dentro de estos datos, encontramos que muchos de ellos son textos con información que podría ser valiosa para multitud de usos, esa es la razón por la cual cada día surgen nuevos métodos para analizar y procesarlos. Al análisis y procesamiento de texto se le conoce como análisis de texto. Una de las tareas que se desarrollan en el análisis de texto es la organización y clasificación de textos. Existen diversas herramientas y técnicas para abordar esta cuestión como las redes neuronales o los árboles de decisión, entre otros, pero en el presente trabajo nos centraremos en una herramienta conocida como clasificador Naïve Bayes. Esta herramienta destaca por su sencillez y los buenos resultados frente a otras técnicas como las mencionadas anteriormente. El objetivo de este trabajo es doble: por una parte, nos centraremos en el desarrollo de una aplicación que nos permita clasificar cualquier tipo de texto del que desconozcamos su categoría en otras categorías conocidas mediante la aplicación del clasificador Naïve Bayes; y por otra parte, iremos más allá desarrollando un crawler que, a partir de una serie de enlaces aportados por el usuario, identifique las URLs que contiene las mismas creando copias del texto plano de las sucesivas páginas para posteriormente clasificarlas. A lo largo del presente trabajo se expondrá todo el marco teórico que envuelve a dichas herramientas con el objetivo de comprender tanto la capacidad que tienen dichas técnicas como las limitaciones que presentan las mismas. Además, exploraremos sus aplicaciones prácticas. Las aplicaciones desarrolladas serán mostradas en profundidad, con una explicación sobre sus características, estructura y código, para posteriormente 5 someterla a pruebas con datos reales, clasificando noticias, la detección de Spam en mensajes de SMS y la obtención de un listado de webs que traten una categoría dada. El objeto de estas pruebas no será otro que el de estudiar el rendimiento de las aplicaciones y su capacidad para hacer clasificaciones correctas.
Palabras clave/Materias:
clasificación de textos
clasificador Naïve Bayes
procesamiento de lenguaje natural
Python
crawler
scraping
Área de conocimiento :
CDU: Ciencias sociales: Demografía. Sociología. Estadística
CDU: Ciencias aplicadas: Gestión y organización. Administración y dirección de empresas. Publicidad. Relaciones públicas. Medios de comunicación de masas
Tipo de documento :
info:eu-repo/semantics/bachelorThesis
Derechos de acceso:
info:eu-repo/semantics/openAccess
Aparece en las colecciones:
TFG - Estadística Empresarial



Creative Commons La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.