Please use this identifier to cite or link to this item:
https://hdl.handle.net/11000/39842Technical efficiency estimation using adaptive constrained enveloping splines
| Title: Technical efficiency estimation using adaptive constrained enveloping splines |
| Authors: España Roch, Víctor Javier |
| Tutor: Aparicio Baeza, Juan Barber Vallès, Josep Xavier |
| Editor: Universidad Miguel Hernández |
| Department: Departamentos de la UMH::Estadística, Matemáticas e Informática |
| Issue Date: 2026 |
| URI: https://hdl.handle.net/11000/39842 |
| Abstract: The accurate measurement of technical efficiency represents a central goal in both theoretical and applied economic analysis, as it allows organizations, industries, and policymakers to assess performance, allocate resources efficiently, and identify areas for improvement. Among the various tools developed for this purpose, Data Envelopment Analysis (DEA) has emerged as a predominant non-parametric methodology, widely adopted for its conceptual simplicity and operational flexibility. DEA constructs a production frontier enveloping observed data without requiring prior specification of a functional form, making it suitable for diverse applications across sectors such as education, healthcare or banking. However, despite its widespread use, DEA presents several important methodological limitations that hinder its broader applicability and accuracy in practice. Chief among these are issues related to overfitting, particularly when the number of inputs and outputs is large relative to the sample size, leading to overly optimistic efficiency estimates. Additionally, DEA lacks a natural framework for statistical inference, preventing the derivation of confidence intervals or hypothesis testing without relying on complex and computationally intensive bootstrap procedures. A further critical limitation lies in the absence of systematic guidance for variable selection, which makes the analysis highly sensitive to the analyst’s choices and susceptible to distortions from irrelevant or redundant variables. These challenges become even more pronounced in high-dimensional data environments, where relationships among variables tend to be complex and nonlinear, often exceeding the capacity of DEA to accurately capture the underlying production structure. The thesis presents a unified family of techniques for estimating production frontiers, designed to address key limitations of traditional DEA, such as overfitting, limited robustness, and challenges in high-dimensional settings. This family includes three complementary methods: Adaptive Constrained Enveloping Splines (ACES), which offers a flexible estimator of technical efficiency; Random Forest-ACES (RF-ACES), which enhances robustness through ensemble learning; and Quick-ACES (Q-ACES), which focuses on computational efficiency for large-scale applications. Each method addresses different empirical needs, enabling researchers to select the most appropriate approach based on the characteristics of the data. At the core of this framework lies ACES, a method built upon an adapted version of Multivariate Adaptive Regression Splines (MARS), specifically tailored for production frontier estimation. ACES integrates essential shape constraints—monotonicity and concavity—into a spline-based, non-parametric regression model, ensuring consistency with microeconomic theory. The estimation is formulated as a constrained optimization problem and follows a two-stage procedure: first, a rich set of candidate basis functions is generated through forward selection; then, the model is refined via backward elimination guided by generalized cross-validation. This process yields a flexible estimator capable of modeling complex, nonlinear input–output relationships while avoiding the overfitting commonly associated with DEA. A key strength of ACES is its ability to remain fully deterministic while achieving strong generalization beyond the observed sample—representing a major advance over traditional enveloping methods. To improve robustness and mitigate the sensitivity of spline-based models to local data configurations, the thesis extends ACES into an ensemble version named RF-ACES. This method builds on the principles of bagging and random feature selection, inspired by the Random Forest algorithm. In RF-ACES, multiple ACES models are trained on bootstrap samples of the original dataset using randomly selected subsets of inputs at each iteration. The resulting estimators are aggregated to form a final predictor that is significantly more stable and less sensitive to random noise. An important strength of RF-ACES lies in its ability to provide internal variable importance measures, which can be used to guide dimensionality reduction and identify the most influential inputs. This makes it particularly effective in high-dimensional settings or when irrelevant variables are suspected to distort the estimation. Nevertheless, this increase in robustness comes at the cost of computational burden, since multiple constrained estimations must be performed and aggregated. Finally, to address computational limitations and ensure scalability to large datasets or timesensitive applications, the thesis proposes a third member of the family: Q-ACES. This accelerated variant introduces a set of heuristic strategies designed to reduce the computational burden of the estimation process without compromising the theoretical principles underlying ACES. These strategies include input pre-selection based on correlation analysis, reduction of knot sets through neighborhood analysis derived from DEA projections, and adaptive filtering of candidate basis functions during the forward selection phase. In addition to these mechanisms, Q-ACES incorporates a new automated procedure for variable selection, which serves as an alternative to the Random Forest-based relevance assessment implemented in RF-ACES. This procedure allows for efficient identification of the most influential inputs while preserving the model’s accuracy. As a result, Q-ACES achieves substantial improvements in execution time and memory efficiency, enabling the application of shape-constrained frontier estimation in large-scale scenarios where the original ACES framework would be computationally impractical. Together, these three methods—ACES, RF-ACES, and Q-ACES—constitute a flexible and modular toolkit for technical efficiency analysis. Analysts can select the most appropriate variant depending on the size and complexity of the dataset, the tolerance for approximation, and the need for robustness. This family-based approach allows practitioners to move beyond the static and sample-dependent nature of DEA, adopting frontier estimators that are not only theoretically grounded but also adaptive to modern data analysis challenges. The proposed methodologies have been extensively validated through hundreds of simulation experiments, covering a wide range of scenarios with varying dimensionality, noise levels, and production structures. Results consistently confirm the competitiveness of ACES and its variants against established techniques such as DEA, Corrected Concave Non-parametric Least Squares (CCNLS), Stochastic Non-Smooth Envelopment of Data (StoNED), and Bootstrap DEA, often yielding more accurate and stable estimates. Furthermore, the thesis offers practical guidance on how to configure and tune ACES in different empirical contexts, helping researchers make informed decisions to maximize performance and reliability in their applications. La medición de la eficiencia técnica representa un objetivo relevante tanto en el análisis económico teórico como en el aplicado, ya que permite a organizaciones, industrias y responsables políticos evaluar el desempeño, asignar recursos de forma eficiente e identificar áreas de mejora. Entre las diversas herramientas desarrolladas con este fin, el Análisis Envolvente de Datos (en inglés, Data Envelopment Analysis, DEA) ha surgido como una de las metodologías no paramétricas predominantes, ampliamente adoptada por su simplicidad conceptual y flexibilidad operativa. DEA construye una frontera de producción que envuelve los datos observados sin requerir la especificación previa de una forma funcional, lo que la hace adecuada para aplicaciones en sectores tan diversos como la educación, la sanidad o la banca. Sin embargo, a pesar de su uso extendido, DEA presenta importantes limitaciones metodológicas que dificultan su aplicabilidad y precisión en contextos reales. Entre ellas destacan los problemas de sobreajuste, especialmente cuando el número de inputs y outputs es elevado en relación con el tamaño de la muestra, lo que conduce a estimaciones de eficiencia excesivamente optimistas. Además, DEA carece de un marco natural para la realización de inferencia estadística, lo que impide determinar intervalos de confianza o contrastes de hipótesis sin recurrir a procedimientos bootstrap complejos y computacionalmente costosos. Otra limitación crítica es la ausencia de un criterio sistemático para la selección de variables, lo que hace que los resultados dependan en exceso del juicio del analista y puedan verse distorsionados por variables irrelevantes o redundantes. Estos desafíos se agravan en entornos de datos de alta dimensión, donde las relaciones entre variables tienden a ser complejas y no lineales, superando con frecuencia la capacidad de DEA para capturar con precisión la estructura subyacente del proceso productivo. La tesis presenta una familia unificada de técnicas para la estimación de fronteras de producción, diseñada para abordar estas limitaciones clave de DEA, tales como el sobreajuste, la falta de robustez y las dificultades en entornos de alta dimensión. Esta familia incluye tres métodos complementarios: Adaptive Constrained Enveloping Splines (ACES), que ofrece un estimador flexible de la eficiencia técnica; Random Forest-ACES (RF-ACES), que mejora la robustez mediante la agregación de modelos; y Quick-ACES (Q-ACES), que se centra en la eficiencia computacional para aplicaciones a gran escala. Cada uno de estos métodos responde a necesidades empíricas distintas, permitiendo al investigador seleccionar la alternativa más adecuada según las características del conjunto de datos. En el núcleo de este marco se encuentra ACES, un método basado en una adaptación del algoritmo Multivariate Adaptive Regression Splines (MARS), ajustado específicamente para la estimación de fronteras de producción. ACES integra restricciones de forma esenciales —monotonía y concavidad—en un modelo de regresión no paramétrica con splines, garantizando así la coherencia con la teoría microeconómica. El procedimiento de estimación se formula como un problema de optimización con restricciones y sigue un enfoque en dos etapas: primero, se genera un conjunto amplio de funciones base mediante selección hacia adelante (forward selection); después, el modelo se depura con un paso de selección hacia atrás (backward elimination) guiado por validación cruzada generalizada. El resultado es un estimador flexible, capaz de capturar relaciones input–output complejas y no lineales, evitando al mismo tiempo el sobreajuste característico de DEA. Una de las principales fortalezas de ACES es su capacidad para mantenerse completamente determinista y, aun así, generalizar más allá de la muestra observada —lo que representa un avance significativo frente a los métodos envolventes tradicionales. Para mejorar la robustez y reducir la sensibilidad de los modelos basados en splines a la configuración local de los datos, la tesis amplía ACES mediante una versión agregada denominada RF-ACES. Este método se inspira en los principios del bagging y la selección aleatoria de variables característicos del algoritmo Random Forest. En RF-ACES, múltiples modelos ACES se entrenan sobre muestras bootstrap del conjunto de datos original, utilizando subconjuntos aleatorios de inputs en cada iteración. Los estimadores resultantes se agregan para formar un predictor final más estable y menos sensible al ruido aleatorio. Una ventaja adicional de RF-ACES es su capacidad para proporcionar medidas internas de importancia de las variables, útiles para guiar la reducción dimensional e identificar los inputs más influyentes. Esto lo convierte en una opción especialmente eficaz en contextos de alta dimensionalidad o cuando se sospecha que hay variables que distorsionan la estimación. No obstante, esta mejora en robustez conlleva un mayor coste computacional, ya que implica realizar múltiples estimaciones con restricciones y combinarlas. Para abordar las limitaciones computacionales y garantizar la escalabilidad del método en conjuntos de datos extensos o en aplicaciones que requieren tiempos de respuesta reducidos, la tesis propone un tercer miembro de la familia: Q-ACES. Esta variante acelerada introduce un conjunto de estrategias heurísticas diseñadas para reducir la carga computacional del proceso de estimación sin comprometer los principios teóricos que sustentan ACES. Entre estas estrategias se incluyen la preselección de variables basada en análisis de correlación, la reducción del conjunto de knots mediante análisis de vecindad a partir de proyecciones DEA, y el filtrado adaptativo de funciones base durante la fase de selección hacia adelante. Además, Q-ACES incorpora un nuevo procedimiento automático de selección de variables, que constituye una alternativa al mecanismo basado en Random Forest utilizado en RF-ACES. Este procedimiento permite identificar de manera eficiente los inputs más relevantes, preservando al mismo tiempo la precisión del modelo. Gracias a estas mejoras, Q-ACES logra reducciones sustanciales en el tiempo de ejecución y el uso de memoria, lo que permite aplicar estimadores de frontera con restricciones de forma en escenarios a gran escala donde el uso de ACES sería impracticable. Conjuntamente, estos tres métodos —ACES, RF-ACES y Q-ACES— conforman una caja de herramientas flexible y modular para el análisis de eficiencia técnica. El analista puede seleccionar la variante más adecuada en función del tamaño y la complejidad del conjunto de datos, el grado de tolerancia al uso de heurísticas y la necesidad de robustez. Este enfoque basado en una familia de métodos permite superar la naturaleza estática y dependiente de la muestra de DEA, y adoptar estimadores de frontera que no solo están fundamentados teóricamente, sino que también se adaptan a los desafíos contemporáneos del análisis de datos. Las metodologías propuestas han sido validadas mediante cientos de experimentos de simulación, que cubren un amplio rango de escenarios con diferentes niveles de dimensionalidad, estructura productiva y complejidad funcional. Los resultados confirman de forma consistente la competitividad de ACES y sus variantes frente a técnicas consolidadas como DEA, Corrected Concave Non-parametric Least Squares (CCNLS), Stochastic Non-Smooth Envelopment of Data (StoNED) o Bootstrap DEA, ofreciendo en muchos casos estimaciones más precisas y estables. Además, la tesis proporciona una guía práctica para configurar y ajustar ACES según el contexto empírico, ayudando a los investigadores a tomar decisiones fundamentadas para maximizar el rendimiento y la fiabilidad de sus análisis. |
| Keywords/Subjects: Data Envelopment Analysis (DEA) production frontier estimation technical efficiency Adaptive Constrained Enveloping Splines (ACES) |
| Knowledge area: CDU: Ciencias sociales: Economía CDU: Ciencias puras y naturales: Matemáticas CDU: Generalidades.: Ciencia y tecnología de los ordenadores. Informática. |
| Type of document: info:eu-repo/semantics/doctoralThesis |
| Access rights: info:eu-repo/semantics/openAccess Attribution-NonCommercial-NoDerivatives 4.0 Internacional |
| Appears in Collections: Tesis doctorales - Ciencias e Ingenierías |
.png)
