Medición: Econometrics vs Machine Learning (1/3)
Mis primeras incursiones en la lectura no los asocio tanto a aventuras de caballeros medievales o de exploradores polares, sino que en mi memoria aparecen títulos de manuales de economía y econometría que encontraban cobijo en las estanterías de la biblioteca familiar. La sensación tan única de poder tocar con la yema de los dedos la textura del papel, identificar el número de la edición y la casa editora, así como rememorar el olor tan característico de un libro van de la par de las formas de las carátulas y gráficos de los manuales de Principios de Economía de Gregory Mankiw, Macroeconomía de Olivier Blanchard, Econometría de Jan Kmenta, Price Theory and Applications de David Hirshleifer, A Course in Econometrics de Arthur Goldberger, Econometría de Robert Pyndick y David Rubinfeld, así como otras muy variadas referencias de teoría microeconómica y macroeconómica1. Algunos de estos libros estaban en la biblioteca de casa desde antes de que yo naciera. Muchos de ellos bien podrían encontrar nueva compañía junto a Elements of Statistical Learning2 de Hastie, Tibshirani y Friedman o Pattern Recognition and Machine Learning de Bishop3.
Emmanuel Flachaire4 describe el tandem entre econometría y Machine Learning de manera muy gráfica: existen 2 culturas. La econometría se basa en una data modeling culture, dónde los modelos econométricos parten de una asunción en la cual el proceso de generación del dato, el DGP (data generation process) se genera a partir de procesos estocásticos o aleatorios, y la caracterización de dichos datos se asume que se pueden capturar a partir de una función de distribución de probabilidades conocida (por ejemplo, una distribución normal para simplificar el planteamiento). Por otro lado, en el mundo del ML, existe una correspondencia con una algorithmic modeling culture, dónde se parte de la asunción que los datos siguen una especificación “desconocida”, los datos viven en unos espacios métricos y a partir de allí es necesaria toda una algorítmica para identificar los patrones de dichos datos y por lo tanto se necesitan algoritmos para explicar el problema que se quiere resolver. En ambos casos, econometría y ML, se busca la minimización de una función de pérdida que suele ser el error, definido como la diferencia entre la estimación y la observación. Existen similitudes evidentemente pero los mecanismos para llegar a la resolución de un problema pueden ser muy diversos.
Al acabar una de las clases sobre la Teoría de los Business Cycles5, en la Université Toulouse Capitole6, allá en un lejano 2006, recuerdo una conversación muy interesante con el profesor de la asignatura, Martial Dupaigne7, sobre qué especialización de la Licence podría ser la más adecuada para seguir una carrera en el mundo de la economía financiera, ya sea a nivel teórico o empírico. Me dijo algo como “l’économie au final c’est des mathématiques, et l’econométrie c’est un outil très puissant pour arriver à réussir une carrière académique en finance ou travailler en banque, mon conseil c’est d’aller vers la Licence Econométrie”. En buen castellano, me vino a decir que la economía sin medición perdía de su poder, y que la econometría era su herramienta más potente, proseguir una especialización en econometría era una apuesta segura sea cual fuera mi elección de carrera en el futuro. En ese momento cronológico del tiempo superpuse a mis aspiraciones de economista académico a la de económetra8 que se decanta por lo medible, que utiliza las técnicas no de manera mecanicista sino más bien con un sentido más formal y matemático de cómo la econometría ejercía el rol de herramienta poderosa para respaldar (o desmentir) con estimadores, ratios de convergencia, cálculos matriciales, model identification9 paramétricos o no paramétricos, simulaciones o bootstapping10 las hipótesis que la teoría económica proponía. Muy probablemente la actualización a la época actual de la misma escena concluiría con el profesor aconsejando seguir el camino del estudio formal del Machine Learning o Data Science, o en sentido más extenso de la Artificial Intelligence. Mi propuesta en los próximos párrafos tratar de proponer que existe un puente entre ambas culturas, y que esto les confiere un carácter complementario.
La incursión formal en la teoría econométrica no debería resultar algo novedoso, de hecho se da por descontado como toolkit básico para poder acceder a los círculos más mainstream del mundo de la economía, banca y las finanzas. Sin embargo, entender conceptualmente cómo funciona un modelo econométrico versus conocerlo en profundidad, supone un abismo de diferencia. En el primer caso, el modelo econométrico es únicamente una herramienta de cuantificación, que pretende validar una propuesta o hipótesis estructural del problema que se quiere solucionar. En el segundo caso, el método en sí mismo se convierte en un objetivo de estudio que requiere grados de profundización y control muy detallados, hay que entrar sin mucho vértigo en el mundo de las hipótesis primeras, convergencia de los estimadores, la correlación (o ausencia) de la misma de los errores del modelo, optimización de la función de pérdida, validación del modelo general o contrates de hipótesis sobre la significación estadística de los estimadores. La econometría tiene como piedra angular a los modelos de regresión, en todas sus declinaciones: lineales simples, lineales múltiples, no lineales, quantile regression11, regresión logística (para variables binarias, 0 o 1), panel data12, o la generalización de dichos modelos enmarcados en los GLM13. Por otro lado tenemos los Generalized Method of Moments (GMM14) dónde se aúnan los conceptos de OLS, Instrumental Variables, MLE caben dentro de la especificación de modelos GMM.
En el momento de la conversación con M. Dupaigne, 2006, el mundo del Machine Learning estaba en proceso de buscar superordenadores para obtener más potencia de cálculo y la transcripción de los algoritmos de ML a programas más asequibles como R o Python. Una parte de los trabajos de Yann Le Cun, Yoshua Bengio y Geoffrey Hinton ya habían sido publicados y revigorizaban el tandem hombre-máquina en los círculos académicos o centros de investigación de vanguardia, sin embargo todavía no había alcanzado aún el status de rock star del que gozan a día de hoy, no solo en los círculos de iniciados sino incluso en la prensa generalista o en las discusiones más acaloradas en Twitter sobre la utilización de las neural networks. A día de hoy no sería raro encontrarse en la subida al Machupicchu, o en el puente aéreo Barcelona-Madrid, inmerso en una discusión, más o menos estructurada, sobre las asunciones de los algoritmos de aprendizaje supervisado o no supervisado, el momentum de los Generative AI o los algoritmos GAN, e incluso citando referencias del NIPS15, pudiendo incluso derivar en cuestiones más fundamentales a la elección de las distancias euclidianas, Manhattan o las de Mahalanobis.
Mi primer contacto formal con los algoritmos de Machine Learning había tenido lugar hacía unos años en la clase de Mutivariate Analysis, habíamos incursionado en los algoritmos de Clustering y PCA. De cierta manera había tocado con mis manos cómo y para qué se utilizaban dichos algoritmos, pero ese semestre del 2009 me dio un flavor sobre la complejidad de dicha algorítmica. Me viene a la mente también un recuerdo vívido del 2009, tratando de prestar focalizar toda mi atención a la clase de Phillipe Berthet. Philippe era un profesor que imprimía un ritmo frenético a sus explicaciones, y demostraciones, de los teoremas de Vapnik-Chervonenkis , su vena pedagógica conllevaba que también pusiera el acento en las implicaciones teóricas en la evolución de los algoritmos de Machine Learning. El curso se llamaba Apprentissage Statistique del Master Recherche Probabilités et Statistique, y recuerdo haber compartido clase con tipos brillantes en probabilidades y matemáticas, que razonaban sobre la necesidad de aplicar conceptos avanzados de análisis funcional, Functional Data Analysis, procesos escolásticos y espacios de Hilbert a sus futuros proyectos de investigación.
El grado de abstracción al cual puede llegar la algorítmica del aprendizaje en términos estadísticos y probabilísticos necesitan de unos mínimos de formalización matemática, diría, alto o muy alto. Hay que tener cierta humildad intelectual para reconocer que hay campos del saber que son inherentemente complejos y dónde nuestro aporte será más bien testimonial, aunque luego la utilización que hagamos de dichos conceptos puedan marcar diferencias notables en la aplicación que podamos implementar en problemas del mundo real. Explicar cómo funciona un random forest o un k-means es relativamente sencillo, son conceptos que salen en las entrevistas que diseño para las vacantes de analista de modelos de riesgos, y en general los candidatos suelen acertar en sus respuestas.
En los post posteriores trataré de describir algunos hechos estilizados de la utilización de los modelos econométricos y de Machine Learning en la medición, clasificación, discriminación, predicción en el sector bancario en sentido extenso. Creo que ambas disciplinas se complementan en las diferentes fases del proceso de creación de modelos. Si nos enfrentamos a millones, o miles de millones de datos, y queremos detectar patrones o clústers de población con características comunes, recurrir a la algorítmica del ML será muy útil como primer paso en el entendimiento de los datos y la clarificación del problema. Por otro lado, una vez que la estructura de los datos es más o menos inteligible, tratar de articular hipótesis propias de una definición de modelo econométrica permitirá ir a buscar las relaciones causa-efecto entre variables input y output, así como el impacto marginal de cómo afecta al output la variación de 1 unidad de las variables input. Ambos mundos podrán interaccionar de la manera más fluida con el único objetivo de plantear el problema correctamente, medirlo, resolverlo y capturar la sensibilidad a desviaciones en las hipótesis primeras de la solución de dicho problema.
Lista de referencias temáticas de libros de econometría:
https://www.econometricsbooks.com
Trevor Hastie, Robert Tibshirani and Jerome Friedman. Elements of Statistical Learning (2009)
https://hastie.su.domains/ElemStatLearn/
Christopher Bishop. Pattern Recognition and Machine Learning (2006)
https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
Emmanuel Flachaire. Machine Learning and Econometrics.
https://egallic.fr/Enseignement/ML/ECB/Machine_Learning_and_Econometrics_EF.pdf
Frank Portier. Lecture Notes on Business Cycles
https://fportier.files.wordpress.com/2023/01/2022-2023-econ0039-lecture4-businesscycles.pdf
https://www.ut-capitole.fr/home/research/prizes-and-distinctions/shanghai-ranking-2023-ut-capitole-named-top-french-institution-in-economics#:~:text=Through%20its%20Toulouse%20School%20of,up%202%20places%20on%202022).
https://www.tse-fr.eu
Martial Dupaigne, Researcher TSE
https://www.tse-fr.eu/people/martial-dupaigne
RAE. Económetra
https://dle.rae.es/económetra
Arthur Lewbel. The Identification Zoo - Meanings of Identification in Econometrics
http://fmwww.bc.edu/EC-P/wp957.pdf
STATS 200: Introduction to Statistical Inference. Lecture 19: Bootstrap
https://web.stanford.edu/class/stats200/Lecture19.pdf
Roger Koenker and Kevin F. Hallock. Journal of Economic Perspectives—Volume 15, Number 4—Fall 2001—Pages 143–156
https://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.15.4.143
William Greene. Econometric Analysis of Panel Data (2012)
https://pages.stern.nyu.edu/~wgreene/Econometrics/PanelDataNotes.htm
6.1. Introduction to GLM
https://online.stat.psu.edu/stat504/lesson/6/6.1
Beyond Logistic Regression: Generalized Linear Models (GLM)
https://online.stat.psu.edu/stat504/lesson/beyond-logistic-regression-generalized-linear-models-glm
Guido Imbens and Jeffrey Woolridge. What is new in Econometrics, 2007. NBER Summer.
https://users.nber.org/~confer/2007/si2007/WNE/lect_15_el.pdf
https://nips.cc

