Una nueva metodología basada en Gradient Boosting para la estimación de fronteras de  mejores prácticas

Guillén García, María Dolores

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/11000/35611

Una nueva metodología basada en Gradient Boosting para la estimación de fronteras de mejores prácticas

Ver/Abrir:
TESIS SF MariaGuillenGarcia (1).pdf

3,74 MB
Adobe PDF
Compartir:

Título :
Una nueva metodología basada en Gradient Boosting para la estimación de fronteras de mejores prácticas

Autor :
Guillén García, María Dolores

Tutor:
Aparicio, Juan

Editor :
Universidad Miguel Hérnández de Elche

Departamento:
Departamentos de la UMH::Estadística, Matemáticas e Informática

Fecha de publicación:
2024

URI :
https://hdl.handle.net/11000/35611

Resumen :
Dentro de los campos de la econometría y la ingeniería de producción, un tema de interés es la evaluación de la eficiencia técnica de entidades a partir de la estimación de la frontera de mejores prácticas, la cual delimita el conjunto de posibilidades de producción o tecnología. Por definición, una tecnología debe satisfacer un conjunto de postulados microeconómicos. Del mismo modo, un estimador válido de una tecnología debe cumplir el mismo conjunto de axiomas. Dentro de los enfoques no paramétricos, destacan el Data Envelopment Analysis (DEA) y el Free Disposal Hull (FDH). Ambas metodologías son deterministas y cumplen el principio de mínima extrapolación. Esto implica que son susceptibles a errores de medición debido al ruido, y al sobreajuste de la muestra de datos usada para generar el estimador, limitando su capacidad de inferencia fuera de la muestra de datos. La literatura reciente ha explorado el uso de técnicas de aprendizaje automático para mejorar la estimación de fronteras de producción. Sin embargo, no se ha explorado el uso de técnicas de boosting, una metodología de aprendizaje automático basada en la combinación secuencial de múltiples modelos débiles para mejorar la predicción. En esta Tesis se desarrolla una nueva metodología basada en el algoritmo de aprendizaje automático Gradient Tree Boosting para la estimación de fronteras de producción. Como se señala nada más comenzar, la Tesis es un compendio de tres artículos publicados, recogidos en los Apéndices A, B y C. En el primero de ellos, se adapta el algoritmo original de modo que el estimador resultante cumpla con los axiomas de monotonicidad y libre disponibilidad (necesarios para los estimadores de fronteras de producción), dando lugar al algoritmo EATBoosting. En el segundo, se muestra cómo calcular diferentes medidas de eficiencia técnica utilizando como base la tecnología generada por el nuevo estimador. Sin embargo, desde un punto de vista computacional, los problemas de optimización asociados al nuevo enfoque presentan miles de variables de decisión, lo que dificulta su resolución. Para hacer frente a este problema, también se propone una aproximación heurística a las medidas de eficiencia exactas. Finalmente, para facilitar el uso de esta nueva metodología por parte de otros investigadores y profesionales, se ha desarrollado una librería en R denominada "BoostingDEA", que incorpora las funcionalidades principales de DEA, FDH y EATBoosting. La principal ventaja del nuevo enfoque radica en su capacidad para abordar el problema del sobreajuste. A diferencia de las técnicas tradicionales, nuestra metodología no subestima sistemáticamente la ineficiencia real de las Decision Making Units (DMUs), funcionando más como una herramienta inferencial que meramente descriptiva. Esto permite un mayor poder discriminatorio, conduciendo a una identificación más precisa de las ineficiencias, mejorando a FDH en los escenarios simulados tanto en error cuadrático medio como en sesgo. Además, nuestro enfoque proporciona una posible solución al problema de la maldición de la dimensionalidad, presente cuando la relación entre el número de DMUs y el número de variables es baja. La aplicación de EATBoosting en estos casos permite realizar un análisis de eficiencia más sólido y preciso.
In econometrics and production engineering, a topic of interest is the evaluation of technical efficiency of firms from the estimation of the best practice frontier, which delineates the production possibility set or technology. By definition, a technology must satisfy a set of microeconomic postulates. Likewise, a valid estimator of a technology should meet the same set of axioms. Among non-parametric approaches, Data Envelopment Analysis (DEA) and Free Disposal Hull (FDH) stand out. Both methodologies are deterministic and fulfill the minimal extrapolation principle. This implies that they are susceptible to random and systematic measurement errors due to noise, and to overfitting of the sample data used to generate the estimator, limiting their ability for inference outside the data sample. Recent literature has explored the use of machine learning techniques to improve the estimation of production frontiers. However, the use of boosting techniques, a machine learning methodology based on the sequential combination of multiple weak models to improve the final prediction, has not been explored. In this Thesis, a new methodology based on the Gradient Tree Boosting algorithm for the estimation of production frontiers is developed. As pointed out in the very beginning, the Thesis is a compendium of three published articles, gathered in Appendices A, B and C. In the first of these, the original algorithm is adapted so that the resulting estimator meets the axioms of monotonicity and free disposability (compulsory for production frontier estimators), leading to the EATBoosting algorithm. In the second one, it is shown how to calculate different measures of technical efficiency using the technology generated by the new estimator as a basis. Nevertheless, from a computational point of view, the new approach involves thousands of decision variables, making it difficult to solve. To address this issue, a heuristic approximation to exact efficiency measures is also proposed. Finally, to facilitate the use of this new methodology by other researchers and professionals, an R library called BoostingDEA has been developed, which includes the main functionalities of DEA, FDH, and EATBoosting. The main advantage of the new approach lies in its ability to tackle the problem of overfitting. Unlike traditional techniques, our methodology does not systematically underestimate the real inefficiency of the Decision Making Units (DMUs), functioning more as an inferential tool rather than merely descriptive. This allows for greater discriminatory power, leading to a more precise identification of inefficiencies, outperforming FDH in the simulated scenarios in both mean squared error and bias. Additionally, our approach provides a potential solution to the curse of dimensionality problem, which occurs when the ratio between the number of DMUs and the number of variables is low. The application of EATBoosting in these cases allows for a more robust and precise efficiency analysis.

Palabras clave/Materias:
Inteligencia Artificial
Computación en Estadística
Estadística económica

Área de conocimiento :
CDU: Ciencias puras y naturales: Matemáticas

Tipo de documento :
info:eu-repo/semantics/doctoralThesis

Derechos de acceso:
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Aparece en las colecciones:
Tesis doctorales - Ciencias e Ingenierías

Mostrar el registro Dublin Core completo del ítem Ver estadísticas

La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.