Medición: Econometrics vs Machine Learning (2/3)
Entrábamos en la primavera del 2007, en Toulouse, la ciudad que me acogió durante mis años de estudiante, y se vivía una efervescencia alrededor de las elecciones presidenciales de ese año. Era la primera vez en la historia de Francia donde la posibilidad de ver a una mujer ganar una elección presidencial era plausible. Segolène Royal afrontaba a Nicolas Sarkozy de Nagy Bocsa, las quinielas estuvieron muy equiparadas a lo largo de toda la campaña presidencial. Los debates sobre los posicionamientos políticos, sociales y culturales de ambos candidatos resultaron ser apasionados. Era muy difícil encontrar personas que no tuvieran posiciones bien definidas en cuanto a su candidata o candidato. Se afrontaban un cierta visión de la izquierda encarnada por Segolène Royal, y por otro lado una idea de continuidad de la derecha representada en Nicolas Sarkozy, que en ese momento era Ministro del Interior de Jacques Chirac. En la cantina de la universidad, o en el intermedio de las clases se respiraba la efervescencia política y electoral del momento, comenzaba el buen tiempo y las noches de debate resultaban tanto o más apasionantes que una final del Mundial de Fútbol.
Sin embargo, en un studio cerca a la Place de la Trinité1, construido con gruesas vigas de madera y suelos del mismo material, nuestr máxima concentración, y aquello que consumía gran parte de nuestro tiempo y nuestras energías, estaban dedicados a interiorizar los conceptos de teoría econométrica que habíamos estudiado a lo largo del año en los anfiteatros de la Manufacture de Tabacs. Las fórmulas matriciales y las demostraciones explicadas en clase, luego nos las llevábamos a casa, al parque, al tren, al avión, e incluso en algunas soirées estudiantiles se seguían anticipando puntos del temario que podría ser objeto de preguntas en los exámenes finales .
Uno de los resultados más elegantes dada su utilidad y potencia de aplicación, era el Teorema de Frish-Waugh-Lovell (FWL). Básicamente consiste en un método de descomposición de grupos de variables exógenas, o variables independientes, que estimadas de manera secuencial, y con unas reglas relacionales entre los variables independientes, dependientes y los errores, de una cierta manera dan resultados equivalentes a estimar los valores de la regresión en un solo paso con todas las variables agrupadas en la función de Least Squares.
Curiosamente, a posteriori, caería en la cuenta de que Ragnar Frisch, el que le da el primer apellido al teorema, fue de los personajes más ilustres en la consolidación de la econometría como disciplina académica. A Frisch se le atribuye la acuñación misma del término Econometría. Fue uno de los fundadores de la Econometric Society, primer editor de la revista Econometrica, sin tilde, así como Premio Nobel de Economía en 1969. La Econometric Society es muy probablemente la más prestigiosa société savante2 en el mundo académico económico y econométrico. Llegar a ser presidente de la Econometric Society sería el equivalente de convertirse en Inmortal según los cánones de la Académie Française o el director del Institute for Advanced Studies de Princeton. Asimismo, la elección a dicho cargo suele ser predictor de un aumento en las probabilidades de algún día recibir la recompensa suprema, el Nobel de Economía. Según Ragnar Frisch, la econometría no pretender ser un estadística aplicada a la economía, tampoco una economía matemática, o matemáticas aplicadas a la economía, sino que pretende llegar a proponer la unificación de teoría económica, estadística y matemáticas que permita comprender de manera cuantitativa, medible, los problemas reales de la economía.
No lo sabíamos aún, en esa primera del 2007, pero el responsable, M. Magnac3, de que la demostración de los diferentes conceptos vistos en clase (FWL, Gauss-Markov, Bayes, Weighted Least Square, Instrumental Variables, ARIMA y GARCH, entre otros) nos privara de una participación más activa en los debates acalorados previos a la elección del 2007, sería elegido en 2009 Fellow de la Econometric Society. Años más tarde tendría la oportunidad, enriquecedora intelectualmente, de tener como profesores a dos antiguos presidentes de la Econometric Society4, M. JC Rochet5 (2012) y M. Jean Tirole(1998)6, éste último acabaría recibiendo el Nobel de Economía en el 2014 por sus trabajos en “analysis of market power and regulation”.
Llegar a demostrar de manera ágil dicho Teorema era hasta cierto punto iniciático. Lo mismo nos pasaría luego con las demostraciones de Weighted Least Squares o Feasible Generalised Least Squares7. Poder plasmar el FWL en un papel, haciendo un uso razonable de cálculo matricial e hipótesis de correlaciones entre variables y términos de error, nos ayudarían luego a seguir progresando hacia tópicos más avanzados, como por ejemplo 2SLS (Two Stage Least Squares) y su aplicación en la estimación de Instrumental Variables (IV), así como en el estudio de Non-linear Regressions.
La condición sine qua non para poder aprehender de manera secuencial, robusta, razonada, explicativa y sin ambages los entresijos de la base de la econometría, no puede estar excepto del automatismo de poder explicar de manera detallada los pasos y las asunciones para calcular la beta de una regresión lineal. Siendo Y la variable dependiente (endógena) y X la matriz de variables independientes (exógena) que explicarían, el comportamiento de la variable Y, bajo una serie de supuestos de dicha formulación.
Los supuestos del modelo lineal, se pueden resumir en el acrónimo LINE, sin embargo la versatilidad del modelo permite que todas las asunciones, salvo la de linealidad, puedan fallar pero seguiremos teniendo un modelo con cierto sentido en cuanto a la dirección de los coeficientes y a la magnitud de los mismos.
L: hace referencia a modelo lineal, que define la relación de las variables independientes y las dependientes, en los parámetros que definen el modelo (puede no serlo en sus variables independientes o exógenas).
I: los errores del modelo son independientes entre sí.
N: los errores del modelo siguen una distribución normal.
E: la variance de los errores, para cada valor de la predicción, equivalente a sigma al cuadrado sin depender del tiempo o de la predicción. Esta es la hipótesis de homoscedaticidad.
Un estimador es unbiased (insesgado), querría decir que la Esperanza Matemática de un estimador es igual al valor “real” del parámetro (poblacional). Bajo ciertos supuestos, el estimador de una regresión calculada bajo la metodología de Mínimos Cuadrados Ordinarios (MCO, OLS por sus siglas en inglés). Por otro lado se habla mucho de la consistency (consistencia) del estimador, esto implica que a medida que la muestra tiene a infinito el estimador (variable aleatoria) se acerca al valor real del parámetro (poblacional). Una vez que hemos comprobado si el estimador es unbiased y que además es consistent, tendríamos que echar un vistazo a cómo se comportan sus momentos de orden 2, es decir a la Covariance-Variance Matrix de modo que podamos analizar cómo se comportan las variables entre sí, y qué rangos de variación (varianza) tienen los estimadores de la regresión.
Otro concepto clave es la precision (precisión) que se define, en términos sencillos como la inversa la Covariance-Variance Matrix. Mientras más pequeño se el denominador de dicho ratio, mayor será la precisión del modelo obtenido.También hablamos de efficiency (eficiencia) cuando un estimador es más preciso que otro estimador competidor, o dicho en otras palabras, cuando la comparación de varianzas, en el caso de dimensión 1, da como resultado que el estimador OLS tenga menos varianza que cualquier otro.
Uno de los resultados más potentes en los modelos de regresión, es el Teorema de Gauss-Markov. En esencia viene a decir que un estimador OLS es BLUE, no es un color, o dicho en otros términos Best Linear Unbiased Estimator, condicionado a cumplir con las especificaciones LINE definidas en párrafos anteriores.
Diremos que un modelo es correctly specified (correctamente especificado) si el DGP se corresponde con el modelo bajo estudio, en el caso contrario nos encontraremos en la tesitura de tener un modelo misspecified (incorrectamente identificado). Los problemas asociados a la misspecification de un modelo son más severos por el hecho de omitir variables, que no por el de incluir variables que no aportan al modelo incrementalmente (formalmente se le llama overspecification, pero no se considera estrictamente una forma de misspefication). Mientras que omitir variables implicará que obtendremos estimadores sesgados y a su vez que la matriz de varianzas-covarianzas se verá severamente afectada. Por el lado de la overspecification, los estimadores serán unbiased pero no serán los más eficientes en términos de varianza, y podrían conducir a inflar los R-squared del modelo.
Para validar la goodness of fit (grado de ajuste) de un modelo se utilizan las métricas de R-squared. Es el ratio entre ESS/TSS. En términos simples esto equivale a la expresión: 1-SSR/TSS. Dónde TSS, es la Total Sum of Squared, que incorpora la ESS (Explained Sum of Squares) y la SSR (Sum of Square Residuals). Cuanto más grande es el R-squared mejor, eso quiere decir que la parte explicada por el modelo, en relación a la información que se quiere obtener es muy superior a la suma de cuadrados de los residuos.
Para comprobar la validez de los parámetros obtenidos de una regresión, someteremos la especificación del modelo a diferentes Test estadísticos. Se define una hipótesis nula, en general propone que el valor del parámetro es igual a un cierto valor escalar (por simplicidad, igual a cero). Un test estadístico es a su vez una variable aleatoria que tiene una función de distribución conocida, bajo la hipótesis nula. Se calcula unos umbrales a partir de los cuales se aceptan o rechaza el test. Por lo general, si la hipótesis nula tiene un p-valor asociado inferior al 5% se rechaza la misma. Pueden existir errores en los test, de tipo I y II. Los errores de tipo I, implican que se rechaza la hipótesis nula dado que esta es verdadera, la probabilidad de cometer este error es el nivel del test, o nivel de significancia estadística (usualmente del 5%). Por otro lado, los errores de tipo II suceden cuando no se rechaza la hipótesis nula dado que esta es falsa. De manera explícita estaremos entrando en el terreno de la Inferencia estadística aplicada a problemas econométricos. La correcta aplicación de los Test de hipótesis nos ayuda a investigar relaciones, causales entre las variables utilizadas en los modelos econométricos para resolver un problema.
Asimismo, para comprobar la validez de los parámetros estimados, será necesario proponer una parrilla de intervalos de confianza. Un intervalo de confianza se define como todos los valores para los cuales el estadístico o parámetro estimado mediante el modelo econométrico no puede ser rechaza bajo la hipótesis nula. Dichos intervalos pueden ser exactos o asintóticos. Exactos, cuando la distribución del estimador, es conocida. Asintóticos, cuando dicha distribución se puede representar de manera asintótica, pero no tan fácilmente en muestras no asintóticas. Los intervalos de confianza pueden ser simétricos o asimétricos, calcularse con distribuciones exactas o asintóticas, o incluso mediante simulación (por ejemplo, bootstrapping).
Si la idea es tratar con modelos en los cuales la distribución de los errores no se puede considerar como homoscedástica, sino que existen indicios de heteroscedasticidad se podrían aplica las técnicas del estimador sandwich HCCEM (Heteroskedasticity-Consistent Covariance Matrix Estimator) o HAC (Heteroskedasticity and Auto-correlation Consistency).
Mientras que los modelos de regresión lineal se aproximan muy bien con el método de los OLS, esto deja ser totalmente cierto en el caso de modelos de regresión no lineales, dónde tendremos que recurrir a Métodos de Momentos o Non-Linear Least Squares. Asimismo, cuando los errores dejan de estar no correlacionados (entre sí) y sus variances se vuelve heteroscedásticas, los resultados de OLS y NLS ya no funcionan igual, se necesita otra lógica que viene a dar solución al no cumplimiento de estas asunciones, se recurren a los métodos de Generalised Least Squares (GLS), dónde su caso más particular da lugar a los Weighted Least Squares Models (WLS) o Feasible Generalised Least Square ( feasible GLS).
Cuando se observa, o se asume, correlación entre los errores y las variables explicativas del modelo, entramos en una dimensión aún más complicada. La metodología que propone la teoría econométrica es la de Instrumental Variables, por ejemplo cuando las variables en un modelo de regresión se observan con un error (errors in variables). El ejemplo más común es cuando el nivel de educación y salario dependen en la habilidad, que no se puede observar directamente, pero pasamos a través de un instrumento que podrían ser los “scores” que haya obtenido un individuo en diferentes pruebas o assessments.
No está demás mencionar que los GMM (Generalised Method of Moments) tienen la capacidad de capturar las desviaciones a las asunciones LINE del modelo linear y aunarlos todos bajo el mismo paraguas, con el consiguiente resultado de mayor trazabilidad, robustez y eficiencia de dichas estimaciones. Asimismo si la hipótesis de normalidad de los residuos no es plausible, podríamos entrar en el ámbito de los estimadores por Maximum Likelihood (ML, Máxima Verosimilitud), que en su caso particular pueden ser aplicados a modelos de regresión (por ejemplo, logística) pero que en su generalización pueden ser implementados en cualquier otra tipología de modelos, que admita funciones de likelihood (densidades conjuntas), la gran ventaja de los estimadores ML es que requieren de pocas condiciones de regularidad y se pueden forzar a que asintónticamente sigan una distribución normal, bajo algún supuesto más fuerte.
Asimismo, cuando comenzamos a analizar con mayor detalle los resultados de una regresión habrá que saber identificar si existen outliers, es decir puntos que no comparten un patrón común con los datos que se utilizan en la estimación, o por el contrario lo que existen son puntos influyentes, que sin alejarse del patrón de los datos se ubican en los extremos de la distribución, o nube de puntos. Construir estimadores resistentes a outliers, es un reto estadístico e inferencias complejo, pero no imposible, dado que se pueden proponer métodos para su detección y tratamiento, de manera que el resultado final, las betas del modelo no se vean desvirtuadas por los outliers. Por otro lado, tratar los puntos influyentes podría implicar un poco más subjetivo, dado que stricto sensu siguen un patrón similar a los otros datos.
Este post ha tratado de proponer un recorrido secuencial, partiendo de la base de los hechos teóricos más relevantes de las técnicas econométricas de regresión. He tratado de dejar referencias, semánticas, de manera global de aquellos escenarios adicionales que podrían desviarse de las asunciones LINE del modelo lineal básico y las diferentes técnicas que las podrían atajar. Las derivaciones de las diferentes técnicas y especificaciones de modelos, nos debería hacer reflexionar sobre la utilización y la utilidad de los mismos. Puede darse el caso de que la barrera de entrada para interiorizar en profundidad la maquinaria de la teoría econometría sea alta, sin embargo una vez capturada la foto global, luego se podrá ir refinando en función de la tipología de problemas que queremos solucionar, reconociendo qué asunciones de base se desvían del modelo de regresión básico. La algorítmica del Machine Learning ayuda a poder entrar en el entendimiento de los datos de manera más acelerada, sin embargo la econometría nos puede ayudar a comprender las asunciones profundas de los datos, así como de las implicaciones de eficiente, robustez, precisión, ajuste, heteroscedasticidad o si existen variables instrumentales necesarias para evidenciar el comportamiento latente de variables subyacentes.
Place de la Trinité
https://fr.wikipedia.org/wiki/Place_de_la_Trinité_(Toulouse)
https://fr.wikipedia.org/wiki/Société_d%27économétrie
https://fr.wikipedia.org/wiki/Société_savante
Thierry Magnac. Professor of Economics. Toulouse School of Economics
https://www.tse-fr.eu/people/thierry-magnac
https://www.econometricsociety.org/society/organization-and-governance/executive-committee/past-presidents
Jean Charles Rochet. Professor of Economics Toulouse School of Economics.
https://www.tse-fr.eu/people/jean-charles-rochet
Jean Tirole. Professor of Economics Toulouse School of Economics.
https://www.nobelprize.org/prizes/economic-sciences/2014/tirole/facts/
La referencia principal de este post es el libro de Davidson y Mackinon “Econometric Theory and Methods”.
https://russell-davidson.arts.mcgill.ca/textbooks/ETM-davidson-mackinnon-2021.pdf