Côté pouvoir explicatif du modèle

Mon éditorial

Me revoilà dans l’univers des parts d’énergie. Pendant les deux derniers jours, j’étudiais les données de la Banque Mondiale à propos de la part d’énergie renouvelable dans la consommation finale d’énergie. Si je fais donc un panier de toutes les formes d’énergie que j’utilise dans la vie quotidienne – l’électricité, du fuel pour ma voiture, le gaz que je brûle dans ma cuisinière et dans ma chaudière etc. – j’obtiens un total de consommation finale d’énergie. Maintenant, je prends toute l’énergie renouvelable que j’ai utilisé dans le cadre de mon entière consommation et je la divise par ladite entière consommation. Le quotient que j’obtiens c’est l’indicateur de la part relative d’énergie renouvelable dans la consommation totale et vous pouvez l’étudier à l’adresse : https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS. Cependant, la Banque Mondiale publie un autre indicateur, à signification très voisine du précédent : la part d’énergie renouvelable dans la production primaire d’électricité, accessible sous https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS . Ce deuxième indicateur est dans un certain sens en amont du précédent ; il reflète la structure énergétique à l’une des sources d’énergie, c’est-à-dire l’électricité.

Je prends donc ma base des données habituelle – Penn Tables 9.0 (Feenstra et al. 2015[1]) assaisonnée avec les données de la Banque Mondiale, au choix – j’y ajoute ce deuxième indicateur concernant la structure primaire d’électricité produite et je répète la même procédure d’exploration quantitative que j’avais effectuée hier, dans “Those new SUVs are visibly purchased with some capital rent” . Je spécule donc à propos d’une variable socio-économique, probablement une proportion, qui pourrait bien expliquer la part d’énergie verte dans la production primaire d’électricité, ou ‘%RenEl’ dans les équations qui vont suivre. Hier, avec ce premier indicateur (renouvelables comme % de la consommation finale), j’avais opté pour le PIB par tête d’habitant, donc pour l’indicateur de base de niveau de vie, auquel j’avais ajouté la population comme facteur d’échelle. Essayons voir. Je réduis tout ça aux logarithmes naturels pour niveler, au moins en partie, la non-stationnarité de mes séries temporelles, et je pose formellement :

ln(%RenEl) = a1*ln(PIB par tête) + a2*ln(Pop) + valeur résiduelle

Je teste donc cette première équation dans un ensemble de n = 3511 observations valides dans ma base de données et je vais vous dire, ce n’est pas vraiment un tir chanceux. J’obtiens un coefficient de détermination égal à R2 = 0,116. Franchement, pas de quoi informer le gouvernement. A titre de comparaison, hier, lorsque j’avais testé cette première équation avec la part des renouvelables dans la consommation finale d’énergie, j’avais obtenu R2 = 0,326, donc trois fois plus de pouvoir explicatif. D’un autre côté, les corrélations ainsi obtenues sont solides, ce que vous pouvez constater en jetant un coup d’œil au tableau des coefficients, ci-dessous (Table 1) :

Table 1

Variable coefficient Erreur standard Statistique t p-valeur
ln(PIB par tête) -0,476 0,022 -21,767 0,000
ln(Pop) -0,061 0,013 -4,665 0,000
Valeur résiduelle 0,721 0,128 5,624 0,000

   Quoi que dotée de peu de valeur explicative, cette première équation montre une régularité intéressante : la variable « PIB par tête d’habitant » a le même signe et une magnitude très similaire à ce que j’avais obtenu hier à propos de la structure de consommation finale d’énergie. Peu importe donc si on parle de la consommation finale d’énergie ou bien de la production primaire d’électricité, plus la nation est riche, en termes de PIB par tête d’habitant, moins elle a d’énergie renouvelable dans son panier énergétique. Bon, fini de s’extasier, faut bosser. Je répète donc la même procédure un peu Bayésienne que j’avais appliquée hier : je projette les valeurs résiduelles de cette équation dans ma base de données (donc chaque observation pays-année acquiert un résiduel de la variable ‘ln(%RenEl)’qui n’est pas expliqué par le PIB par tête, ni par la taille de la population) et j’observe avec quelles autres variables ce résiduel est-il corrélé. D’une manière assez surprenante, la seule corrélation de Pearson significative est celle avec, précisément, la part des renouvelables dans la consommation finale d’énergie, ou ‘%Ren’ pour les amis. La ‘%Ren’ est corrélée avec la valeur résiduelle de cette première équation avec un coefficient de Pearson égal à r = 0,534.

D’une part, c’était à prévoir. Il y a évidemment un lien entre la structure de la consommation finale d’énergie et celle de la production primaire d’électricité. Ce qui est un peu surprenant, dans cette phase de mon exploration, c’est le manque d’autres corrélations significatives. De toute façon, maintenant, c’est pratiquement de la routine : je teste la nouvelle équation ln(%RenEl) = a1*ln(PIB par tête) + a2*ln(Pop) + a3*ln(%Ren) + valeur résiduelle, je projette les valeur résiduelles à nouveau dans la base des données, je cherche des nouvelles corrélations et ainsi de suite, aussi longtemps que ça marche. Je teste donc, et avec n = 3 496 observations valables j’obtiens un pouvoir explicatif de R2 = 0,481. Eh ben voilà un joli progrès ! Allons voir le tableau des coefficients de cette régression linéaire. Le voilà en-dessous :

Table 2

variable coefficient Erreur standard Statistique t p-valeur
ln(PIB par tête) 0,09 0,018 4,896 0,000
ln(Pop) -0,018 0,01 -1,779 0,075
ln(%Ren) 0,816 0,019 43,312 0,000
Valeur résiduelle 1,082 0,088 12,292 0,000

Voilà donc que j’ai obtenu une sorte de jonction entre la structure de la consommation finale d’énergie et celle de la production primaire d’électricité. Elles sont mutuellement corrélées, au point de pousser de côté et déboussoler ma variable explicative initiale, le PIB par tête d’habitant, qui, en présence de cette corrélation, change de signe et de magnitude dans la régression. Désolé, PIB par tête d’habitant, la science est cruelle par moments, mais il faut que je fasse cette projection des résiduelles. Je procède, donc, et je heurte un mur : cette fois, la valeur résiduelle de cette seconde équation n’est corrélée avec aucune autre variable dans ma base des données, même pas avec les variables que j’avais pu inclure hier dans la modélisation de la structure de consommation finale. Mon singe interne (oui, j’en ai un !) essaie d’expérimenter en jetant dans cette équation des variables qui ont ‘marché’ dans me recherche précédente – la densité de population, le déficit alimentaire, la part des salaires dans le PIB, le stock de capital fixe par tête d’habitant et ainsi de suite – mais rien n’apporte un pas vraiment significatif en avant en termes de pouvoir explicatif estimé avec le coefficient de détermination R2. Ce R2 c’est en fait le pourcentage de la variance observée dans la variable sur le côté gauche de l’équation, expliqué, de façon linéaire, par les variables sur le côté droit. Un R2 égal à 0,481, par exemple, veut dire que mes variables à droite, toutes prises ensemble, expliquent 48,1% de la variance observée à gauche.

Dans ce cas précis, rien ne semble marcher. Quel cocktail de variables que je mette sur le côté gauche, ce R2 tourne autour du même niveau, à peu près 0,5. Avec toutes les inter-corrélations possibles entre les variables explicatives sur le côté gauche, un changement de mon R2 de ce 0,48& initial en R2 = 0,511 – obtenu avec trois variables de plus, donc la densité de population, le déficit alimentaire et la part d’amortissement dans le PIB – n’a rien de bien excitant. En ajoutant trois variables explicatives, j’ai gagné trois points de pourcentage côté pouvoir explicatif du modèle. Pas vraiment une aubaine.

Je résume et je retourne à mon idée de départ : une communauté locale basée à 100% sur les énergies renouvelables. Cette recherche que j’ai effectuée hier et aujourd’hui m’apporte quelques indications. Mon idée concerne la génération d’électricité dans ces communautés locales et je peux constater que la structure de production primaire d’électricité est étroitement liée à la structure de la consommation finale. Si je veux donc une communauté locale basée sur l’énergie renouvelable, le changement social qui devrait accompagner est un changement de style de vie : échanger les voitures à combustion interne contre des électriques, remplacer le gaz par l’électricité dans la cuisson et le chauffage etc. C’est logique : un business centré sur la génération d’électricité des sources renouvelables a plus de chances de marcher si je réussis à agrandir le marché local d’électricité en tant que tel.

[1] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at http://www.ggdc.net/pwt