Les bénéfices de l’utilisation de facteurs économiquement significatifs dans la science des données financières

La sélection des facteurs est l’une de nos considérations les plus importantes lors de l’élaboration de modèles financiers. Ainsi, à mesure que l’apprentissage automatique (ML) et la science des données sont de plus en plus intégrés à la finance, quels facteurs devrions-nous prendre en compte pour nos modèles d’investissement basés sur le ML, et comment devrions-nous les sélectionner ?

Ce sont des questions ouvertes et critiques. Après tout, les modèles ML peuvent aider non seulement au traitement des facteurs, mais également à la découverte et à la création de facteurs.

Bouton S'abonner

Facteurs dans les modèles statistiques et ML traditionnels : les (très) bases

La sélection de facteurs dans l’apprentissage automatique est appelée « sélection de fonctionnalités ». Les facteurs et les caractéristiques aident à expliquer le comportement d’une variable cible, tandis que les modèles de facteurs d’investissement décrivent les principaux moteurs du comportement du portefeuille.

La plus simple des nombreuses méthodes de construction de modèles factoriels est peut-être la régression des moindres carrés ordinaires (OLS), dans laquelle le rendement du portefeuille est la variable dépendante et les facteurs de risque sont les variables indépendantes. Tant que les variables indépendantes ont une corrélation suffisamment faible, différents modèles seront statistiquement valides et expliqueront le comportement du portefeuille à des degrés divers, révélant de quel pourcentage du comportement d’un portefeuille le modèle en question est responsable et dans quelle mesure le rendement d’un portefeuille est sensible à chacun des éléments. eux. comportement des facteurs exprimé par le coefficient bêta associé à chaque facteur.

Comme leurs homologues statistiques traditionnels, les modèles de régression ML décrivent également la sensibilité d’une variable à une ou plusieurs variables explicatives. Cependant, les modèles ML peuvent souvent mieux expliquer le comportement non linéaire et les effets d’interaction que leurs homologues non ML et ne fournissent généralement pas d’analogues directs aux résultats de la régression OLS, tels que les coefficients bêta.

Graphiques pour le manuel sur l'intelligence artificielle et les applications Big Data en investissement

Parce que les facteurs doivent être économiquement significatifs

Bien que les facteurs synthétiques soient populaires, les facteurs économiquement intuitifs et validés empiriquement présentent des avantages par rapport à ces facteurs « statistiques », malgré le trading à haute fréquence (HFT) et d’autres cas particuliers. La plupart d’entre nous, chercheurs, préférons le modèle le plus simple possible. Nous commençons donc souvent par la régression OLS ou quelque chose de similaire, obtenons des résultats convaincants, puis passons peut-être à un modèle ML plus sophistiqué.

Mais dans les régressions traditionnelles, les facteurs doivent être suffisamment distincts, ou peu corrélés, pour éviter le problème de multicolinéarité, qui peut disqualifier une régression traditionnelle. La multicolinéarité implique qu’un ou plusieurs facteurs explicatifs d’un modèle sont trop similaires pour fournir des résultats compréhensibles. Ainsi, dans une régression traditionnelle, une corrélation plus faible entre les facteurs – évitant ainsi la multicolinéarité – signifie que les facteurs sont probablement économiquement distincts.

Mais la multicolinéarité ne s’applique souvent pas dans la construction de modèles ML comme c’est le cas dans une régression OLS. En effet, contrairement aux modèles de régression OLS, les estimations du modèle ML ne nécessitent pas d’inversion d’une matrice de covariance. De plus, les modèles ML n’ont pas d’hypothèses paramétriques strictes et ne reposent pas non plus sur l’homoscédasticité (indépendance aux erreurs) ou d’autres hypothèses de séries chronologiques.

Cependant, bien que les modèles ML soient relativement exempts de règles, une quantité importante de travail préalable au modèle peut être nécessaire pour garantir que les entrées d’un modèle donné ont à la fois une pertinence en matière d’investissement et une cohérence économique et sont suffisamment uniques pour produire des résultats pratiques sans redondances explicatives.

Bien que la sélection des facteurs soit essentielle pour tout modèle factoriel, elle est particulièrement critique lors de l’utilisation de méthodes basées sur le ML. Une façon de sélectionner des facteurs distincts mais économiquement intuitifs dans la phase de pré-modèle consiste à utiliser la technique LASSO (rétrécissement et sélection minimum absolu de l’opérateur). Cela donne aux concepteurs de modèles la possibilité de distiller un large ensemble de facteurs en un ensemble plus petit tout en offrant un pouvoir explicatif considérable et une indépendance maximale entre les facteurs.

Une autre raison clé d’utiliser des facteurs économiquement significatifs : ils s’appuient sur des décennies de recherche et de validation empirique pour les étayer. L’utilité de Fama-FrançaisFacteurs Carhartpar exemple, c’est Bien documentéet les chercheurs les ont étudiés dans des régressions OLS et d’autres modèles. Par conséquent, leur application dans des modèles basés sur l’apprentissage automatique est intuitive. En effet, dans ce qui est peut-être le premier article de recherche à appliquer l’apprentissage automatique aux facteurs d’équité, Chenwei Wu, Daniel Itano, Vyshaal Narayana et moi-même démontré que les facteurs Fama-French-Carhartavec deux cadres de ML bien connus – les forêts aléatoires et l’apprentissage des règles d’association – peuvent réellement aider à expliquer les rendements des actifs et à créer des modèles de trading d’investissement réussis.

Enfin, en mettant en œuvre des facteurs économiquement significatifs, nous pouvons mieux comprendre certains types de résultats de ML. Par exemple, les forêts aléatoires et autres modèles ML fournissent des valeurs dites d’importance relative des caractéristiques. Ces scores et classements décrivent le pouvoir explicatif que chaque facteur offre par rapport aux autres facteurs d’un modèle. Ces valeurs sont plus faciles à comprendre lorsque les relations économiques entre les différents facteurs du modèle sont clairement délimitées.

Boîte de certificat de science des données

Conclusion

Une grande partie de l’attrait des modèles ML réside dans leur nature relativement exempte de règles et dans leur capacité à prendre en compte différentes entrées et heuristiques. Cependant, certaines règles de conduite devraient guider la manière dont nous appliquons ces modèles. En nous appuyant sur des facteurs économiquement significatifs, nous pouvons rendre nos cadres d’investissement basés sur l’apprentissage automatique plus compréhensibles et garantir que seuls les modèles les plus complets et informatifs éclairent notre processus d’investissement.

Si vous avez aimé cet article, n’oubliez pas de vous abonner Investisseur entreprenant.


Tous les messages représentent l’opinion de l’auteur. En tant que tels, ils ne doivent pas être interprétés comme des conseils en investissement et les opinions exprimées ne reflètent pas nécessairement celles du CFA Institute ou de l’employeur de l’auteur.

Crédit image : ©Getty Images / PashaIgnatov


Formation professionnelle pour les membres du CFA Institute

Les membres du CFA Institute sont habilités à déterminer eux-mêmes et à déclarer eux-mêmes les crédits d’apprentissage professionnel (PL) acquis, y compris le contenu sur Investisseur entreprenant. Les membres peuvent facilement enregistrer des crédits en utilisant les leurs Localisateur PL en ligne.

Nous serions ravis de connaître votre avis

Laisser un commentaire

Tumely
Logo
Compare items
  • Total (0)
Compare
0