Those a’s and b’s to put inside (a + b) when doing (a + b) power (p+q)

My editorial

I am finishing compiling notes for that article on the role of monetary systems in the transition towards renewable energies, at least I hope I am. This is a bit of a strange frame of mind when I hope I am. Could I be hoping I am not? Interesting question. Anyway, one of the ways I make sure I understand what I am writing about is to take a classic, whom I previously kind of attached to this particular piece of science I am trying to make, and I kind of filter my own thoughts and findings through that particular classic’s thoughts and findings. This time, Thomas Bayes is my classic. Didn’t have much to do with renewable energies, you would say? Weeeell, he was a philosopher and a mathematician, but he lived (and died) in the 18th century, when Europe was being powered by wind and water, thus, as a matter of fact, he had much to do with renewable energies. At the end of the 18th century, in my homeland – Southern Poland, and back in the day is was Austrian Galicia – there was one watermill per 382 people, on average.

And so I am rereading the posthumous article, attributed to reverend Thomas Bayes, received by Mr John Canton, an editor of ‘Philosophical Transactions’ at the Royal Society. On the 23rd of December, 1763, John Canton read a letter, sent from Newington-Green, on the 10th of November, by Mr Richard Price. The letter was being accompanied by an attachment, in the form of a dissertation on ‘the doctrine of chances’, allegedly found by Mr Price in the notes of a defunct friend, Thomas Bayes. The friend had been defunct for two years, at the time, which is quite intriguing in itself. Anyway, Mr Richard Price presented the dissertation as Thomas Bayes’ work, and this is how Bayesian statistics were born  (Bayes, Price 1763[1]). Just as a reminder: in Thomas Bayes’ world, we are talking about having p successes and q failures in p + q trials, in the presence of one single success being probable at the rate ‘a’, and the probability of a single failure being ‘b’. The general way of thinking about it, in this specific universe, is that we take the sum of probabilities, like (a + b), and we give it some depth by elevating it to the power p + q. We create a space of probability through developing the Newtonian binomial (a + b)p+q.

At this point it is useful to dig a little bit into the logic of the Newtonian binomial. When I do (a + b)p+q , Isaac Newton tells me to kind of climb a ladder towards q, one step at a time, and so I am climbing that ladder of failure. First, I consider full success, so my p successes are exactly equal to my n trials, and my failure count is q = 0. In this most optimistic case, the number of different ways I can have that full score of successes is equal to the binomial coefficient (pq/q!) = (p0/0!) = 1/1 = 1. I have just one way of being successful in every trial I take, whatever the number of trials, and whatever the probability of a single success. The probability attached to that one-million-dollar shot is (pq/q!)*ap. See that second factor, the ap.? The more successes I want the least probability I have them all. A probability is a fraction smaller than 1. When I elevate it to any integer, it gets smaller. If the probability of a single success is like fifty-fifty, thus a = 0,5, and I want 5 successes on 5 trials, and I want no failures at all, I can expect those five bull’s eyes with a probability of (50/0!)*0,55 = 0,55 = 0,03125. Now, if I want 7 successes on 7 trials, zero failures, my seven-on-seven-shots-in-the-middle-probability is equal to (70/0!)*0,57 = 0,57 = 0,0078125. See? All I wanted was two more points scored, seven on seven instead of five on five, and this arrogant Newtonian-Bayesian approach sliced my odds by four times.

Now, I admit I can tolerate one failure over n trials, and the rest has to be just pure success, and so my q = 1. I repeat the same procedure: (p1/1!)*ap-1b1. With the data I have just invented, 4 successes on 5 trials, with 0,5 odds of having a single success, so with a = b = 0.5, I have (41/1!) = 4 ways of having that precise compound score. Those 4 ways give me, at the bottom line, a compound probability of (41/1!)*0,54*0,51 = 4*0,54*0,51 = 0,125. Let’s repeat, just to make it sink. Seven trials, two failures, five successes, one success being as probable as one failure, namely a = b = 0,5. How many ways of having 5 successes and 2 failures do I have over 7 trials? I have (52/2!) = 12,5 them ways. How can I possibly have 12,5 ways of doing something? This is precisely the corkscrewed mind of Thomas Bayes: I have between 12 and 13 ways of reaching that particular score. The ‘between’ has become a staple of the whole Bayesian theory.

Now, I return to my sheep, as the French say. My sheep are renewable (energies). Let’s say I have statistics telling me that in my home country, Poland, I have 12,52% of electricity being generated from renewable sources, A.D. 2014. If I think that generating a single kilowatt-hour the green way is a success, my probability of single success, so P(p=1) = a = 0,1252. The probability of a failure is P(q=1) = b = 1 – 0,1252 = 0,8748. How many kilowatt-hours do I generate? Maybe just enough for one person, which, once again averaged, was 2495,843402 kg of oil equivalent or 29026,65877 kilowatt hour per year per capita (multiplied the oil of by 11,63 to get the kilowatt hours). Here, Thomas Bayes reminds me gently: ‘Mr Wasniewski, I wrote about the probability of having just a few successes and a few failures over a few plus a few equals a few total number trials. More than 29 thousands of those kilowatt-hours or whatever it is you want, it is really hard to qualify under ‘a few’. Reduce.’ Good, so I reduce into megawatt hours, and that gives me like n = 29.

Now, according to Thomas Bayes’ logic, I create a space of probabilities by doing (0,1252 + 0,8748)29. The biggest mistake I could make at this point would be to assume that 0,1252 + 0,8748 = 1, which is true, of course, but most impractical for creating spaces of probability. The right way of thinking about it is that I have two distinct occurrences, one marked 0,1252, the other marked 0,8748, and I project those occurrences into a space made of 29 dimensions. In this interesting world, where you have between six and eight ways of being late or being tall, I have like patches of probability. Each of those patches reflects my preferences. You want to have 5 megawatt hours, out of those 29, generated from renewable sources, Mr Wasniewski? As you please, that will make you odds of ((529-5/(29-5)!)*0,12525*0,874829-5 = 1,19236E-13 of reaching this particular score. The problem, Mr Wasniewski, is that you have only 0,000000096 ways of reaching it, which is a bit impractical, as ways come. Could be impossible to do, as a matter of fact.

So, when I create my multiverse of probability the Thomas Bayes way, some patches of probability turn out to be just impracticable. If I have like only 0,000000096 ways of doing something, I have a locked box, with the key to the lock being locked inside the box. No point in bothering about it. When I settle for 10 megawatt hours successfully generated from renewable sources, against 19 megawatt hours coming from them fossil fuels, the situation changes. I have ((1029-10)/(29-10)!) = 82,20635247, or rather between 82 and 83, although closer to 82 ways of achieving this particular result. The cumulative probability of 10 successes, which I can score in those 82,20635247 ways, is equal to ((1029-10)/(29-10)!)*0,125210*0,874829-10 =  0,0000013. Looks a bit like the probability of meeting an alien civilisation whilst standing on my head at 5 a.m. in Lisbon, but mind you, this is just one patch of probability, and I have more than 82 ways of hitting it. My (0,1252 + 0,8748)29 multiverse contains 29! = 8,84176E+30 such patches of probability, some of them practicable, like 10 megawatt hours out of 29, others not quite, like 5 megawatt hours over 29. Although Thomas Bayes wanted to escape the de Moivre – Laplace world of great numbers, he didn’t truly manage to. As you can see, patches of probability on the sides of this multiverse, with very few successes or very few failures, seem blinking red, like the ‘Occupied’ sign on the door to restrooms. Only those kind of balanced ones, close to successes and failures scoring close to fifty-fifty, yield more than one way of hitting them. Close to the mean, man, you’re safe and feasible, but as you go away from the mean, you can become less than one, kind of.

Thus, if I want to use the original Bayesian method in my thinking about the transition towards renewable energies, it is better to consider those balanced cases, which I can express in the form of just a few successes and a few failures. As tail events enter into my scope of research, so when I am really honest about it, I have to settle for the classical approach based on the mean, expected values, de Moivre – Laplace way. I can change my optic to use the Bayesian method more efficiently, though. I consider 5 local projects, in 5 different towns, and I want to assess the odds of at least 3 of them succeeding. I create my multiverse of probabilities as (0,1252 + 0,8748)3+2=5, which has the advantage of containing just 5! = 120 distinct patches of probability. Kind of more affordable. Among those 120 patches of probability, my target, namely 3 successful local projects out of 5 initiated, amounts to (32/2!) = 4,5 ways of doing it (so between 4 and 5), and all those alternative ways yield a compound probability of (32/2!)*0,12523*0,87472 = 0,006758387. Definitely easier to wrap my mind around it.

I said, at the beginning of the today’s update, that I am using Thomas Bayes’ theory as a filter for my findings, just to check my logic. Now, I see that the results of my quantitative tests, those presented in previous updates, should be transformed into simple probabilities, those a’s and b’s to put inside (a + b) when doing (a + b)p+q. My preferences as for successes and failures should be kept simple and realistic, better below 10.

[1] Mr. Bayes, and Mr Price. “An essay towards solving a problem in the doctrine of chances. by the late rev. mr. bayes, frs communicated by mr. price, in a letter to john canton, amfrs.” Philosophical Transactions (1683-1775) (1763): 370-418

Pas vraiment de l’impressionnant, mais du plutôt solide

Mon éditorial

Je suis en train de résumer les résultats de la recherche – aussi bien ma propre recherche empirique que la revue de littérature – que j’avais faite durant les deux derniers jours. A titre de rappel : je suis en train d’explorer le rôle des systèmes monétaires dans la transition vers les énergies renouvelables. Je vois que cette exploration prend deux dimensions contingentes : le changement structurel comme tel, et les effets d’échelle d’autre part. J’explique. J’ai deux variables de base qui forment l’état désirable des choses : la part relative d’énergie renouvelable dans la consommation totale d’énergie  et la part d’énergie renouvelable dans la production primaire d’électricité . Bien sûr, l’idéal serait 100% dans chacun de ces deux cas, mais – comme vous pouviez le constater dans le court survol du contexte local en Inde et en Espagne (voir ‘Deux théories, deux environnements’) ce n’est pas évident du tout. Mon objectif en termes de recherche est d’étudier les phénomènes qui ont une influence significative sur cette transition.

Je peux faire deux hypothèses de base. Premièrement, je peux dire que la structure du marché de l’énergie est influencée par la structure de quelque chose d’autre. J’ai une structure « A », donc celle du marché de l’énergie, et une structure « B », qui correspond à ce quelque chose d’autre. Dans cette approche, prise purement et strictement, je bâtis un modèle mathématique avec des variables structurelles, donc avec des proportions. Par ailleurs, j’ai déjà identifié au moins une corrélation de ce type, c’est-à-dire celle entre la part d’énergies renouvelables dans la consommation finale d’énergie et la part des salaires (rémunération de travail) dans le PIB. Deuxièmement, je peux formuler l’hypothèse que la structure du marché de l’énergie dépend de la quantité de quelque chose d’autre, par exemple de la quantité absolue de l’énergie consommée. Dans cette approche-là, une structure marche de façon congruente avec une quantité. L’idée de base est très proche de ce que j’ai présenté hier, dans « Countries never behave as they should » : le passage vers les énergies renouvelables au niveau de la production primaire d’électricité dépend significativement de la taille absolue du marché final d’énergies renouvelables.

Je peux mettre ces deux hypothèses dans un même modèle. Il est possible de combiner les variables structurelles avec des variables de quantité dans une seule équation. Comme je m’apprête à écrire un article sur le rôle des systèmes monétaires dans la transition énergétique, je viens de remarquer qu’il me manque encore une pièce du puzzle : une équation purement quantitative, genre gros équilibre monétaire. En d’autres mots, il serait bon que je concocte – et que je teste – une équation basée sur ce principe monétariste fondamental qui nous dit :

            P             *              T                               =                              M                    *            V

(Index des prix)      (Volume des transactions)        (masse monétaire)      (vélocité de l’argent)

Bien que l’équation monétariste soit très largement une astuce purement arithmétique, qui se réduit à la tautologie Q = Q, elle donne une idée intéressante : T = M*V/P où le volume de transactions dans un marché dépend de la masse monétaire en circulation, de sa vélocité ainsi que du niveau des prix. C’est donc l’idée générale que si je mets le volume du marché d’énergies renouvelables sur le côté gauche d’une équation, je veux retrouver sur le côté droit les variables monétaires ainsi que le niveau des prix. Il se fait que la base de données que j’ai à ma disposition j’ai une décomposition très détaillée du niveau des prix : les prix de consommation (pl_c), ceux d’investissement (pl_i), de dépenses publiques (pl_g), de l’exportation (pl_x) ainsi que d’importation (pl_m). J’ai donc à ma disposition des indexes de prix pour chaque composante de demande finale agrégée. C’est la contribution originale des créateurs de Penn Tables 9.0 (Feenstra et al. 2015[1]).

Je développe donc une hypothèse monétariste à propos du marché d’énergies renouvelables et je la teste, surtout pour vérifier quel est le pouvoir explicatif de cette approche, comparée à celles que j’avais déjà étudié précédemment. Pour chaque observation « pays – année » dans ma base de données, je calcule le produit de deux indicateurs « énergétiques » fournis par la Banque Mondiale – la part des renouvelables dans na consommation finale d’énergie multipliée par le coefficient de consommation finale d’énergie par tête d’habitant (en kilogrammes d’équivalent pétrole, donc en des blocks d’à peu près 11,63 kilowattheures) – et ensuite je multiplie le résultat par le nombre desdites têtes d’habitants. J’obtiens le volume absolu du marché d’énergies renouvelables, que je baptise « RenQ ». Si vous faites ça par vous-mêmes, faites gaffe aux ordres de magnitude : la Banque Mondiale fournit les pourcentages comme des nombres des points de pourcentage. Dans ces tables Excel que vous pouvez télécharger, 22% sera donc le chiffre « 22 » et ainsi de suite. Faut diviser ça par 100 pour pouvoir l’insérer dans vos calculs.

En ce qui concerne les variables monétaires, c’est du bien connu. J’ai cette variable structurelle de la Banque Mondiale, la masse monétaire comme pourcentage du PIB qui n’est donc rien d’autre que l’inverse de la vélocité V de l’argent. Je peux l’utiliser dans une équation monétariste à la simple condition de lire les résultats de régression à l’envers. Lorsque je multiplie ce coefficient par le PIB côté demande finale, fourni par les Penn Tables 9.0, j’obtiens la masse monétaire M présente dans le système. Bon, donc maintenant il n’y a plus qu’à poser ln(RenQ) = a1*ln(M) + a2*ln(V) + a3*ln(pl_c) + a4*ln(pl_i) + a5*ln(pl_g) + a6*ln(x) + a7*ln(pl_m) + constante résiduelle et tester tout ce bazar, dans un ensemble de données fait de n = 2 037 observations valides. Voilà alors que j’ai un coefficient de détermination R2 = 0,389 et les coefficients de régression à trouver dans la table 1, ci-dessous.

Table 1

Variable coefficient Erreur standard Statistique t p-valeur
ln(M) 0,808 0,03 26,526 0,000
ln(pl_c) -1,099 0,198 -5,558 0,000
ln(pl_i) 1,084 0,185 5,859 0,000
ln(pl_g) -0,096 0,113 -0,845 0,398
ln(pl_x) 3,554 0,503 7,061 0,000
ln(1/V) -1,501 0,128 -11,749 0,000
ln(pl_m) -2,963 0,638 -4,647 0,000
Valeur résiduelle 18,867 0,464 40,628 0,000

Ce n’est pas vraiment de l’impressionnant, vu ce R2, mais c’est plutôt du solide. Sauf la corrélation un peu fofolle de l’index des prix des dépenses publiques « pl_g », qui indique un doute sérieux à propos du facteur fiscal dans ce modèle, le reste à l’air bien robuste. Conclusion générale : le modèle monétariste explique pratiquement 39% de la variance observée dans la taille absolue du marché d’énergies renouvelables. Comme je dois lire le coefficient de 1/V à l’envers, je peux conclure que l’offre de la masse monétaire aussi bien que sa vélocité ont un impact positif sur la taille dudit marché. Ceci, à son tour, veut dire que l’efficacité du système bancaire n’est pas à négliger.

Ensuite, le coefficient positif qui accompagne les prix de l’investissement suggère que dans l’échantillon étudié la croissance du marché des renouvelables est associée avec une demande croissante sur le marché des biens de production en général, donc avec ce qu’on appelle parfois la croissance Schumpétérienne. Les coefficients des prix de commerce extérieur – positif à l’exportation et négatif en ce qui concerne les importations – est congruente avec les résultats de recherche publiés par Peter D. Lund (Lund 2009[2]) : plus la position commerciale du pays (en termes de valeur ajoutée) est avantageuse, plus grand est le marché d’énergies renouvelables. Vu la magnitude des coefficients associés avec ces prix de commerce extérieur, ce facteur de position commerciale a l’air beaucoup plus important que je ne le pensais initialement.

[1] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

[2] Lund, P.D., 2009, Effects of energy policies on industry expansion in renewable energy, Renewable Energy 34 (2009) 53–64

Countries never behave as they should

My editorial

After having started, yesterday, an overview of articles concerning renewable energies (see ‘Deux théories, deux environnements’), I continue on this path and I am reading through a paper by Peter D. Lund, entitled ‘Effects of energy policies on industry expansion in renewable energy’ (Lund 2009[1]). Peter D. Lund comes to the conclusion that policies of pure growth, like pumping money in R&D or favouring the development of exports, bring substantial results regarding the development of renewable energies. Moreover, substantial technological change in industries upstream of renewable energies can have a pushing effect on the latter, and the role of public policies, in this case, is to make or facilitate the connection between them. As for details, Peter D. Lund covers the following cases: Denmark, Germany, Finland, Austria, USA, Brazil, Japan, Estonia, Sweden, China, and Canada. The really strong claim of that article is that the size of exports from a given country, in renewable energy properly spoken or in technologies upstream of energy production, is more important for the development of renewable energies in the given country than its domestic market. In general, the capacity to expand into the global market, either with energy as such or with technologies serving to generate it, seems to be crucial for the transition to green energies inside the country.

As usually, I want to confront the claim with my own empirical data. First of all, I took a handful of countries, and I compared the size of their respective, domestic markets in renewable energy, to the share of renewable energies in their primary output of electricity, in 2014. The percentage of variables in electricity output comes straight from the World Bank (see: https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS ). As for the size of domestic markets in renewable, this is my own calculation, mostly on the grounds of World Bank data. First, I took the indicator of final energy consumption per capita, in kilograms of oil equivalent (https://data.worldbank.org/indicator/EG.USE.PCAP.KG.OE ), and I multiplied it by the population of each country reported. That gave me the total size of domestic markets in energy, which I put against another indicator, namely the percentage of renewables in the final consumption of energy (https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS ). Anyway, you can see the results of that little rummaging in Table 1, below. As I am looking at this form of data, the coin starts dropping: it does not look like a strong correlation between market size in renewables and their share in the output of electricity. I am minting that coin (the one which has just dropped in my mind, I mean) with the royal stamp of Pearson correlation of moments, and it looks respectable: r = -0,075205406. I mean, this is a lousy correlation, it just has the name of correlation, but not the guts it takes to correlate significantly, and still it shows a part of a point: there is no correlation between market size and the share of renewables in the output of electricity. Peter D. Lund, you were at least partly right.

   Table 1

country Renewable electricity output as % of total electricity output, 2014  Renewable energies consumption, in tons of oil equivalent, 2014
Australia 14,9%  12 305 298,40
Austria 81,1%  11 441 257,56
Belgium 17,0%  4 880 723,09
Canada 62,8%  58 225 979,12
Chile 41,2%  10 259 815,33
Czech Republic 10,8%  5 304 306,22
Denmark 55,9%  4 955 203,30
Estonia 11,2%  1 528 618,08
Finland 38,6%  14 145 185,02
France 16,4%  31 607 372,84
Germany 26,1%  40 451 222,42
Greece 24,2%  3 647 766,79
Hungary 10,7%  2 348 769,99
Iceland 100,0%  4 398 469,36
Ireland 24,5%  1 095 777,67
Israel 1,5%  2 113 663,77
Italy 43,4%  24 579 456,45
Japan 14,0%  24 318 733,45
Luxembourg 20,9%  264 125,74
Mexico 17,5%  18 553 983,66
Netherlands 11,3%  4 101 339,30
New Zealand 79,1%  6 181 040,15
Norway 97,7%  17 204 238,06
Poland 12,5%  11 130 427,59
Portugal 60,7%  6 434 268,18
Republic of Korea 1,6%  7 478 135,80
Slovakia 22,9%  1 874 348,18
Slovenia 38,5%  1 533 076,92
Spain 40,1%  19 664 012,75
Sweden 55,8%  23 125 017,52
Switzerland 58,0%  5 921 322,49
Turkey 20,9%  13 827 194,22
United Kingdom 19,4%  12 912 006,53
United States 13,0%  196 963 466,86

Source: World Bank, Penn Tables 9.0

Now, my internal happy bulldog, that cute beast who has just enough brains to rummage in raw empirical data, has gathered momentum. We made a table, so why couldn’t we make an equation? And when we will have made that equation, why not running just some linear regression and test it? Good, let’s waltz. Science can be fun, after all, and so I am unfolding an equation. I take my percentage of renewables in the production of electricity, or ‘%RenEl’, and I put it on the left side of my equation, as explained variable. That gives me ‘ln(%RenEl) = ?’. I follow up with a makeshift right side. There has to be that market size in renewables, which I endow with the symbol ‘RenQ’, and this leads me to saying ‘ln(%RenEl) = a1*ln(RenQ) + ?’. Now, I need something connected to exports. The closest match I can find with the intuitions by Peter G. Lund is the share of exports in the GDP, or ‘X/Q’. Good, so now, I can proudly state that ‘ln(%RenEl) = a1*ln(RenQ) + a2*ln(X/Q) + ?’. Smells interestingly. I drop another size factor, namely population (Pop), into the kettle, and as I keep stirring with my right hand, I use the left one, temporarily left free by having pegged the left side of the equation, to add other logarithm-ized things of life: GDP per capita (Q/Pop), and my dear supply of money as % of GDP (M/Q). The recipe seems to be ready, and it looks like:

ln(%RenEl) = a1*ln(RenQ) + a2*ln(X/Q) + a3*ln(Pop) + a4*ln(Q/Pop) + a5*ln(M/Q) + residual constant

Testing time. I take my database, namely Penn Tables 9.0 (Feenstra et al. 2015[2]), now embroidered with loads of other data from the World Bank, and I am about to test my equation, and this is the moment when my internal curious ape becomes vocal and says: ‘Oooogh’, which means ‘Look, Krzysztof, why not to repeat that trick with density of population as control variable. It worked once, it might work more times, as well. So?’ (meaningful frown). Fine. If could have indulged to the wants of a bulldog, I can cooperate with the ape. Will not kill me, after all. So I slice my database into sextiles of density in population, and I am going to perform, and to delight you, my readers, with the results of seven tests: one general and six specific. I start with the general one: n = 1 913 valid observations yield R2 = 0,427 in terms of explanatory power. The table of coefficients shows an interesting landscape, which, for the moment, contradicts the findings by Peter G. Lund. Everything on the right side of the equation, with the exception of market size in renewable energies, has a negative sign, and the share of exports in GDP does not make exception.

Table 2

variable coefficient std. error t-statistic p-value
ln(Pop) -0,764 0,036 -20,968 0,000
ln(M/Q) -0,251 0,059 -4,286 0,000
ln(Q/Pop) -0,311 0,033 -9,348 0,000
ln(RenQ) 0,756 0,029 25,871 0,000
ln(X/Q) -0,277 0,03 -9,143 0,000
constant -8,316 0,62 -13,41 0,000

Right, now I am ploughing through sextiles (regarding the density of population). First sextile, between 0,632 and 11,713 people per square kilometre: n = 111 observations, coefficient of determination R2 = 0,493. Coefficients in Table 3, below. Small and quite robust, I could say, save for the share of exports in the GDP, which, with a p-value of 0,527 is basically on vacation. Money starts counting, by the way, as I am controlling for that density of population.

Table 3

variable coefficient std. error t-statistic p-value
ln(Pop) -0,332 0,166 -1,998 0,048
ln(M/Q) 1,281 0,491 2,61 0,010
ln(Q/Pop) -1,075 0,238 -4,508 0,000
ln(RenQ) 0,835 0,113 7,416 0,000
ln(X/Q) -0,274 0,431 -0,635 0,527
constant -10,2 3,542 -2,88 0,005

Second sextile, from 11,713 to 29,352 people per square kilometre. It has n = 366 valid observations to present, and they yield quite a crunch into explanatory power, with R2 = 0,720. Table 4, below, shows that all coefficients get back to discipline, in their p-values, and still money becomes negative again. The domestic market size in renewable energies seems rock-solid in this model: it keeps the same sign, same magnitude, and a robust p – value, across all those sampling tricks I have made so far.

 Table 4

variable coefficient std. error t-statistic p-value
ln(Pop) -0,852 0,073 -11,693 0,000
ln(M/Q) -0,102 0,043 -2,39 0,017
ln(Q/Pop) -0,317 0,05 -6,37 0,000
ln(RenQ) 0,895 0,075 11,886 0,000
ln(X/Q) -0,434 0,091 -4,751 0,000
constant -11,513 1,561 -7,376 0,000

Good. Third class of density in population, between 29,352 and 56,922 people per km2. Here, it becomes lax, somehow: n = 362 observations yield just R2 = 0,410 in terms of explanatory power. The coefficients of regression (Table 5) suggest that the story changes as people cluster on that square kilometre. Money is even more deeply negative, and the size of domestic market in renewables becomes negative, as well. I noticed it already with another model, a few updates ago, which I controlled for the density of population. There are some classes of density, which look just like kind of transitory states between more solid equilibriums. That could be the case here.

Table 5

variable coefficient std. error t-statistic p-value
ln(Pop) 0,146 0,092 1,587 0,113
ln(M/Q) -1,36 0,175 -7,784 0,000
ln(Q/Pop) 0,08 0,118 0,68 0,497
ln(RenQ) -0,181 0,09 -2,02 0,044
ln(X/Q) -0,635 0,113 -5,633 0,000
constant 9,478 1,766 5,366 0,000

And so I swing my intellectual weight towards the fourth class of density in population, 56.922 ÷ 97.881 people per square kilometre. I have n = 336 observations here, and they echo to me with a R2 = 0,510 coefficient of determination. It looks like my house when my wife decides to do what she calls ‘put order in all that’. The result is a strange mix of scalpel-sharp order in some places with bloody mess in other places. Here, as you can see in Table 6, this is something akin. The size of domestic market in renewables comes back to the throne, and good for it. Still, the velocity of money goes completely unhinged, with the probability of null hypothesis towering over 90%. Another transitory state? Maybe.Table 6

variable coefficient std. error t-statistic p-value
ln(Pop) -0,487 0,054 -8,956 0,000
ln(M/Q) 0,008 0,066 0,114 0,909
ln(Q/Pop) -0,362 0,047 -7,673 0,000
ln(RenQ) 0,795 0,054 14,834 0,000
ln(X/Q) -0,04 0,045 -0,889 0,375
constant -10,109 1,335 -7,571 0,000

And so I climb the ladder of density, and I come to the fifth sextile, which hosts between 97,881 and 202,36 people on my average square kilometre. I mean, not just mine, yours as well. I have n = 419 observations, and I have a bit of disappointment in my R2, as my R2 makes R2 = 0,342 this time, and I have the coefficients shown in Table 7. Those coefficients look nice, and robust in their p-values, but on the whole, they are not really blockbusters in terms of R2. What do you want, there are those situations in life, when being nice and predictable does not necessarily give you power.

Table 7

variable coefficient std. error t-statistic p-value
ln(Pop) -1,104 0,12 -9,233 0,000
ln(M/Q) 0,502 0,088 5,703 0,000
ln(Q/Pop) -0,39 0,061 -6,443 0,000
ln(RenQ) 0,817 0,111 7,378 0,000
ln(X/Q) -0,628 0,082 -7,65 0,000
constant -11,583 2,39 -4,846 0,000

And so comes the top dog, namely the sixth and highest sextile of density in population: 202,36 ÷ 21 595,35 people per km2. I have n = 299 valid observations in this category, and they allow to determine 56%, or R2 = 0,560, of the overall variance in the percentage of electricity coming from renewable sources. Table 8 gives details regarding the coefficients of my equation. This highest class of population density seems to be the only one that yields a result fully coherent with the findings by Peter G. Lund: both the size of the domestic market in renewable energies, and the share of exports in the GDP have positive signs, respectable magnitudes, and robust correlations. Interestingly, my pampered factor, namely the velocity of money, goes feral again. There must be something about social structures, as measured by the density of their populations, which sometimes just creates an opening for money to play a significant role. Interesting. Worth going deeper. Bulldog! Come over, please. Here, dig.

Table 8

variable coefficient std. error t-statistic p-value
ln(Pop) -0,214 0,186 -1,149 0,251
ln(M/Q) 0,073 0,125 0,584 0,559
ln(Q/Pop) -0,92 0,102 -9,042 0,000
ln(RenQ) 0,784 0,073 10,73 0,000
ln(X/Q) 0,976 0,213 4,571 0,000
constant -5,162 1,871 -2,758 0,006

Now, some general discussion about those results. In general, my research partly contradicted the findings by Peter G. Lund. Cross-sectional analysis (Table 1) shows no correlation between the size of domestic market in renewable energies, and their share in the output of electricity. More elaborate an investigation, with hypotheses-testing in a time-space sample of observations, shows a major role to be played by domestic markets. Still, in the highest class of population density, the pattern found by Peter G. Lund seems to hold. I can categorize the countries studied by Peter G. Lund into those classes of density in population I have defined. It looks like (numbers in brackets are densities of population in 2014):

1st sextile: Canada (3,909 people per km2)

2nd sextile: Brazil (24,656), Finland (17,972), Sweden (23,805),

3rd sextile: USA (34,863), Estonia (31,011),

5th sextile: Austria (103,505), Denmark (133,535), China (145,317),

6th sextile: Germany (232,108), Japan (348,727),

Unfortunately, I cannot really test my equation at the level of countries. When all the variables have been accounted for, I have like 17 – 24 observations per country, which is just not enough for quantitative tests, and the correlations I get are not robust regarding their p – values. I cannot say, thus, if those countries behave as they should, regarding their density of population. But you know what? Countries never behave as they should.

[1] Lund, P.D., 2009, Effects of energy policies on industry expansion in renewable energy, Renewable Energy 34, pp. 53–64

[2] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

Deux théories, deux environnements

 

Mon éditorial

Je rumine les résultats de ma recherche empirique, celle que je vous ai présentée durant les quelques derniers jours. Comme je suis encore en train de mettre de l’ordre dans tout ça, je me suis dit qu’il serait utile de faire une petite balade dans la littérature, juste pour prendre un peu de distance vis à vis mes propres résultats. J’ai trouvé quelques articles dans une revue intitulée « Renewable energy », issue par Elsevier. C’est ainsi que je commence par un article de J.R. San Cristóbal (2011[1]) qui examine les modèles formels de prise de décisions à propos de développement de nouvelles installations sur la base d’énergie renouvelables. Cet article a deux facettes, en quelque sorte : le contenu et le contexte. Quant au contenu, il est très formel, puisque la théorie présentée est celle de prise de décision du type multicritère. Sur ce niveau théorique, l’article est un peu à l’opposé de ma propre approche du problème. Moi, j’étudie le passage aux énergies vertes surtout au niveau macroéconomique, et je considère les décisions individuelles prises pour telle ou telle installation comme limitées dans leur rationalité, suivant les principes fondamentaux de Herbert A. Simon (Simon 1955[2]). J.R. San Cristóbal examine les cas individuels de prise de décision d’un point de vue managérial, où tout un modèle mathématique est utilisé pour maximiser la rationalité des décisions.

Quant au contexte, c’est l’Espagne et leur programme « Renewable Energy » de 2005, qui visait 12% d’énergies renouvelables dans la production primaire d’énergie en 2010. Je peux comparer les objectifs de ce programme avec les données quantitatives de la Banque Mondiale. Je les présente dans Table 1, ci-dessous. C’est un exemple intéressant de ce que J.R. San Cristóbal définit comme « distance de l’idéal ». Le programme espagnol de 2005 visait un certain pourcentage d’énergies renouvelables dans la production primaire d’énergie. Moi, je dispose de données au sujet de la production primaire d’électricité et de la consommation finale d’énergie. Les mesures que vous pouvez trouver dans Table 1 sont en quelque sorte deux bornes, entre lesquelles est comprise la mesure citée par San Cristóbal. La production primaire d’énergie c’est essentiellement la production primaire d’électricité plus la production primaire d’autres formes d’énergie plus la production secondaire (voitures, par exemple) plus importations d’énergie moins les exportations. Je peux assumer que les changements observables dans ces deux mesures de la Table 1 sont des indicateurs indirects des changements qui prennent place dans la structure de la production primaire d’énergie. Si j’observe donc ces deux indicateurs de la Banque Mondiale, deux conclusions sautent aux yeux. Premièrement, ça semble marcher, vraiment, chez les Espagnols : ces pourcentages grimpent tous les deux. Quels modèles de prise de décision qu’ils n’utilisent, ça déménage. Deuxièmement, ça déménage beaucoup plus au niveau de la production primaire d’électricité qu’au niveau de la consommation finale. Si vous calculez la distance, en points de pourcentage, entre les avancements niveau électricité et ceux dans la consommation finale d’énergie, cette distance a récemment une tendance à agrandir. Les changements structurels dans le secteur électro-énergétique vont beaucoup plus vite que les changements des styles de vie et de consommation.

Table 1

Année Pourcentage d’énergies renouvelables dans la production primaire d’électricité en Espagne Pourcentage d’énergies renouvelables dans la consommation finale d’énergie en Espagne
1990 17% 11%
1991 18% 10%
1992 13% 8%
1993 16% 9%
1994 18% 9%
1995 15% 8%
1996 24% 10%
1997 20% 9%
1998 19% 9%
1999 13% 8%
2000 16% 8%
2001 21% 9%
2002 14% 7%
2003 22% 9%
2004 18% 8%
2005 15% 7%
2006 18% 8%
2007 19% 9%
2008 20% 10%
2009 25% 12%
2010 33% 14%
2011 30% 15%
2012 30% 16%
2013 40% 17%
2014 40% 17%

    Source : Banque Mondiale

Comme je survole un peu ces articles que j’ai trouvé dans la revue « Renewable energy », ils traitent souvent d’outils de planification. Côté méthodologie, j’ai l’impression que le comité éditorial est composé des gens très versés dans la programmation et dans les modèles d’optimalisation. Bon, passons à un autre article, un peu plus récent, celui écrit par Rohit Sen et Subhes C. Bhattacharyya (2014[3]), sur un sujet très proche de mon idée fixe, celle de créer des systèmes énergétiques locaux basés 100% sur les énergies renouvelables. Sen et Bhattacharyya étudient le cas d’un village dans la province indienne, où un système exactement comme j’en rêve avait été conçu. Ils présentent trois conclusions majeures de leur étude. Premièrement, lorsqu’une communauté locale dispose d’un potentiel de génération hydraulique, son exploitation est l’un des premiers pas à faire. Comme quoi, si vous avez une rivière, de la place pour du photovoltaïque ainsi qu’un emplacement convenable pour des turbines éoliennes, et vous disposez des fonds limités pour l’investissement, vous investissez en une centrale hydraulique en premier lieu. Deuxièmement, Sen et Bhattacharyya soutiennent quelque chose d’un peu contre-intuitif : un mix d’installations dans une communauté locale marche mieux en termes purement affaires qu’une technologie mono-source. Donc oui, allez en premier lieu vers l’hydraulique, seulement faites gaffe de n’aller que vers l’hydraulique : de l’hydraulique, du photovoltaïque et de l’éolien, tout dans une même assiette de génération primaire d’énergie, ça marche mieux qu’une monoculture technologique concentrée sur une seule source d’énergie. Quand j’ai qualifié cette approche de contre-intuitive, je voulais dire qu’elle va à l’encontre de ce vieux principe d’économies d’échelle. Je les aime bien déjà, Sen et Bhattacharyya. Ce singe curieux que j’ai en moi adore aller à l’encontre des vieux principes. Pour que ça ne soit pas tout rose, Sen et Bhattacharyya soutiennent que ces systèmes locaux hors-réseau, au moins en Inde, risquent de se casse la gueule côte finance si le gouvernement ne les soutient pas avec des subventions. Par pure curiosité (le singe, encore) j’ai compilé les données de la Banque Mondiale à propos de la structure de la production primaire d’électricité ainsi que de la consommation finale d’énergie en Inde, point de vue pourcentage des renouvelables (Table 2). Voilà un cas intéressant par son contraste avec le précédent, l’Espagne. En Inde, les deux indicateurs de présence d’énergies renouvelables montrent une tendance descendante, à l’opposé de l’Espagne. Nous avons donc ici deux environnements socio-économiques complètement différents.

Table 2

Année Pourcentage d’énergies renouvelables dans la production primaire d’électricité en Inde Pourcentage d’énergies renouvelables dans la consommation finale d’énergie en Inde
1990 24,5% 58,7%
1991 22,8% 57,6%
1992 20,8% 57,2%
1993 19,6% 57,0%
1994 21,2% 55,6%
1995 17,3% 54,5%
1996 15,8% 53,8%
1997 16,0% 52,5%
1998 16,7% 52,7%
1999 15,3% 51,7%
2000 13,6% 51,6%
2001 13,2% 51,8%
2002 12,1% 50,6%
2003 13,5% 50,8%
2004 14,5% 49,7%
2005 16,6% 48,6%
2006 17,5% 47,4%
2007 17,9% 45,9%
2008 16,5% 43,6%
2009 15,7% 40,8%
2010 16,0% 39,5%
2011 17,3% 38,9%
2012 15,7% 38,4%
2013 16,9% 37,7%
2014 15,4% 36,5%

            Source : Banque Mondiale

En comparant deux articles à propos de décisions optimales à prendre au sujet d’énergies renouvelables, j’en suis donc venu à comparer deux environnements socio-économiques complètement différents. Espagne avance décidément vers un pourcentage accru d’énergies renouvelables, l’Inde c’est exactement l’opposé. Espagne a une densité de population aux alentours de 93 personnes par kilomètre carré, en Inde c’est quelque chose comme 436 personnes sur le même kilomètre carré. Enfin, pas exactement le même, juste métaphoriquement. Si je réfère ces densités aux tests de mes équations avec la densité de population comme variable de contrôle (regardez “Le mûrissement progressif du marché, ça promet” ), j’ai donc Espagne dans le quatrième sextil de densité, où le modèle économique que j’essaie de développer marche d’une façon plutôt brumeuse, pendant que l’Inde est dans le sixième sextil de densité, avec un rôle très solide des variables économiques comme la vélocité de la masse monétaire. En 1961, lorsque commencent les statistiques de la Banque Mondiale à propos de la densité de population, l’Inde avait 154,3 habitants par kilomètre carré pendant qu’en Espagne c’était 61,5 habitants. Entre 1961 et le jour présent, l’Inde est donc passée du cinquième sextil de densité dans le sixième, donc, en accord avec mon modèle, d’un environnement mi-figue mi-raisin en termes économiques à un environnement super-capitaliste. L’Espagne, en revanche, est restée ancrée dans ce quatrième sextil de densité et dans ses conditions floues. Paradoxalement, ce sont ces conditions floues qui semblent encourager le passage vers les renouvelables plus que les conditions fermes et sans équivoque, observables dans le cas Indien.

[1] San Cristóbal, J.R., 2011,  Multi-criteria decision-making in the selection of a renewable energy project in spain: The Vikor method, Renewable Energy 36 (2011), pp. 498 – 502

[2] Simon A.,H., A Behavioral Model of Rational Choice, The Quarterly Journal of Economics, Vol. 69, No. 1 (Feb., 1955), pp. 99-118

[3] Rohit Sen, Subhes C. Bhattacharyya, 2014, Off-grid electricity generation with renewable energy technologies in India: An application of HOMER, Renewable Energy 62 (2014), pp. 388 – 398

The difference jumps to my eye, but what does it mean?

My editorial

I hope I am on the right track with that idea that the maturing of markets can be represented as incremental change in the density of population. This is what I came up with yesterday, in my research update in French (see ‘Le mûrissement progressif du marché, ça promet’). I am still trying to sort it out, intellectually. This is one of those things, which just seem to work but you don’t exactly know how they do it. I think I need some time and some writing in order to develop a nice, well-rounded, intellectual crystallization of that concept. It all started, I think, as I multiplied tests on different quantitative models to explain incremental changes in the value of those two variables I am currently interested in: the percentage of renewable energy in the primary production of electricity (https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS ), and the percentage of renewables in the final consumption of energy (https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS ).

With the software I have, that Wizard for MacOS – and this is really not heavy artillery as statistical software comes – testing models sums up to quick clicking. Setting up and testing a model – or an equation – with that tool is much faster than my writing about it. This is both the blessing and the curse of modern technology: it does things much faster than we can wrap our mind around things. In order to understand fully this idea that I came up with yesterday, I need to reconstruct, more or less, the train of my clicking. That should help me in reconstructing the train of my thinking. So, yesterday, I was trying to develop, once again, on that idea of the Wasun, or virtual currency connected to the market of renewable energies. I assumed that empirical exploration of the question would consist in taking the same equations I have been serving you on my blog for the last few weeks, and inserting the supply of money as one more explanatory variable on the right side in those equations. It kind of worked, but just kind of: adding the supply of money, as a percentage of the GDP, to a model explaining the percentage of renewables in the final consumption of energy, for instance, added some explanatory power to that model, i.e. it pumped the R2 coefficient of determination up. Still, the correlation attached to the supply of money, in that model, did not seem very robust. With a p-value like 0,3 or 0,4 – depending on the exact version of the equation I was testing – it turned out that I have like 30 or 40% of probability that I can have any percentage of renewable energies with a given velocity of money. That p-value is the probability of the null hypothesis, i.e. of no correlation whatsoever between variables.

Interestingly, I had the same problem with a structural variable I was using as well: the density of population. I routinely use the density of population as a quantitative estimator of difference between social structures. I have that deeply rooted intuition that societies displaying noticeable differences in their densities of population are very different in other respects as well. Being around in a certain number in a given territory, and thus having, on average, a given surface of that territory per person, is, for me, a fundamental trait of any society. Fundamental or not, it behaved in those equations of mine in the same way the supply of money did: it added to the coefficient of determination R2, but it refused to establish robust correlations. Just for you, my readers, to understand the position I was in, as a researcher: imagine that you discover some kind of super cool spice, which can radically improve the taste of a sauce. You know it does, but you have one tiny little problem: you don’t know how much of that spice, exactly, you should add to the sauce, and you know that if you add too much or too little, the sauce will taste much worse. Imagined that? Good. Now, imagine you have two such spices, in the same recipe. Bit of a cooking challenge, isn’t it?

What you can do, and what great cooks allegedly do, is to prepare a few alternative sauces, each with the same recipe, but with a different, and precisely defined amount of the spice under investigation. As you taste each of those alternative sauces, you can discover the right amount of spice to add. If you are really good at it, you can even discover the gradient of taste, i.e. the incremental change in taste that has been brought by a given incremental change in the quantity of one particular ingredient. In quantitative research, we call it ‘control variable’: instead of putting a variable right in the equation, we keep it out, we select different subsets of empirical data, each characterized by a different class of value in this particular variable, and we test the equation, without the variable in question, in those different subsets. The mathematical idea behind this approach is that we never know for sure whether our way of counting and measuring things is accurate and adequate to the changes and differences we can observe in those things. Take distance, for example: sometimes it is better to use kilometres, but sometimes even a centimetre it too much. Sometimes, small incremental changes in a measurable phenomenon induce too much complexity for us to crystallize any intelligible thought about it. In statistics, it manifests as a relatively high p-value, or the probability of the null hypothesis. Taking that complexity out of the equation and simplify it into a few big chunks of reality can help our understanding.

Anyway, I had two spices: the density of population, and the supply of money. I had to take one of them out of the equation and treat as control variable. As I am investigating the role of monetary systems in all that business of renewable energies, it seemed just stupid to take it out of the equation. Mind you: it seemed, which does not mean it was. There is a huge difference between seeming to be stupid and being really stupid. Anyway, I decided to keep the supply of money in, whilst taking the density of population out and just controlling for it, i.e. testing the equation in different classes of said density. For a reason that I ignore, when I ask my statistical software to define classes in a control variable, it makes sextiles (spelled jointly!), i.e. it divides the whole sample into six subsets of roughly the same size, 1577 or 1578 observations each in the case of the actual database I am using in that research. Why six? Dunno… Why not, after all?

So I had those sextiles in the density of population, and I had my equation, regarding the percentage of renewable energies in the final consumption of energy, and I had that velocity of money in it, and I tested inside each sextile. Interesting things happened. In the least dense populations, the equation barely had any explanatory power at all. As my equation was climbing the ladder of density in population, it gained explanatory power as well. Still, there is an interval of density, where that explanatory power fell again, just to soar in the densest populations. Those changes in the coefficient of determination R2 were accompanied by visible changes in the sign and the magnitude of the regression coefficient attached to the velocity of money. The same happened in other explanatory variables as well. My equation, as I was trying to wrap my mind around all that, works differently in different types of populations, regarding their density. It works the most logically, in economic terms, in the densest populations. The percentage of renewable energy in the final basket of consumption depends nicely and positively on the accumulation of production factors and on the supply of money. The more developed the local economic system, the better are the chances of going greener and greener in that energy mix.

In economics, demographic variables tend to be considered as a rich and weird cousin. The cousin is rich, so they cannot be completely ignored, but the cousin is kind of a weirdo as well, not really the kind you would invite risk-free to a wedding, so we don’t really invite them a lot. This nice metaphor sums up to saying that I tried to find a purely economic interpretation for those changes I observed when controlling for the density of population. My roughest guess was that money matters the most when we have really a lot of people around us and a lot of transactions to make (or avoid). With hardly any people around me (around is another simplification here, it can be around via Internet), money tends to have less importance. That’s logical. In other words, the velocity of money depends on the degree of development in the market we consider. The more developed a market is, the more transactions are there to finance, and the more money we need in the system to make that market work. Right, this works for any market, regardless whether we are talking about long-range missiles, refrigerators or spices. Now, how does it matter for this particular market, the market of energy? Please, notice: I used the ‘how?’ question instead of ‘why?’. Final consumption of energy is a lifestyle and a social structure doing its job. If the factors determining the percentage of renewable energies in said final consumption work differently in different classes of density in the population, those classes probably correspond to different lifestyles and different types of local social structures.

I imagined a local community, where people progressively transition towards the idea of renewable energies. In the beginning, there are just a few enthusiasts, who, with time, turn into a few hundred, then a few thousands and so on. From then on, I unhinged my mind a bit. I equalled the local community at the starting point, when nobody gives a s*** about green energy, as a virgin land. As new settlers come, new social relations emerge, and new opportunities to transact and pay turn up. Each person, who starts actively to use renewable energies, is like a pioneering settler coming to that virgin land. The emergence of a new market, like that of renewable energy, in an initially indifferent population, is akin to a growing density in a population of settlers. So, I further speculated, the nascence and development of a new market can be represented as a growing density in the population of customers. I know: at this point, it could be really hard to follow me. I even have trouble following myself. After all, if there are like 150 people per square kilometre in a population, according to my database, there are just them in that square kilometre, and no one else. It is not like they are here, those 150 pioneers, and a few hundred others, who are there, but remain kind of passive. Here, you have an example of the kind of mindfuck a researcher deals all the time. Data exploration is great, but data tends to have sharp edges. There is a difference, regarding the role of money in going green in our energies, between a population of 100 per km2 and a population of 5000 per km2. The difference is there, it jumps to my eye, but what does it mean? How does it work? My general intuition is that the density of population, as control variable, controls for the intensity of social interactions (i.e. interactions per unit of time). The degree of maturity in a market is the closest economic meaning I can associate with that intensity of interactions, but there could be something else.

Le mûrissement progressif du marché, ça promet

Mon éditorial

Je suis en train de découvrir les limites de l’exploration quantitative de ma base de données. C’est une expérience intéressante. J’essaie d’utiliser ma base de données pour étudier une autre composante de mon idée fixe : le Wasun. « Wasun » est un nom colloquial que j’avais donné à une monnaie virtuelle (donc un peu comme Bitcoin ou Ethereum), purement hypothétique pour le moment, qui serait attachée fonctionnellement au marché d’énergies renouvelables. J’ai essayé d’utiliser ma base de données pour simuler le développement de communautés locales basées à 100% sur les énergies renouvelables et pour découvrir en même temps le rôle des systèmes monétaires dans ce développement.

Mon éditorialBon, maintenant une petite gymnastique intellectuelle. Comment puis-je représenter le développement d’une communauté locale avec l’aide des variables macroéconomiques que j’ai dans ma base de données ? L’idée de base est que toute communauté locale est faite d’êtres humains sur un territoire. Pas vraiment une percée, vous direz, et encore… Dans ma petite base de données j’ai une variable qui reflète cette idée de base : c’est la densité de population. La formation d’une communauté équivaut à la croissance de la densité de population. Plus il y a de personnes sur un territoire donné, plus il est possible de les appeler, tous ensemble, une communauté. Le développement d’une communauté locale basée à 100% sur les énergies renouvelables c’est la croissance de la densité de population corrélée avec une augmentation soit dans le pourcentage d’énergies renouvelables dans la consommation finale d’énergie soit dans le volume absolu d’énergies renouvelables consommées.

J’imagine donc un point de départ, moment T0 pour les amis. Une communauté locale au moment T0 est fait de gens qui se foutent éperdument de l’énergie verte. Néanmoins, l’idée commence à germer : une personne après l’autre devient accro à la vision de n’utiliser que les énergies renouvelables. Maintenant je fais un soubresaut intellectuel : la communauté locale entière est comme un territoire désert et comme certains de ses membres se convertissent à l’idée d’énergie verte, c’est comme si des colons arrivaient dans ce territoire désert. Un colon, deux colons, trois colons et ainsi de suite jusqu’à ce que, à un moment ultérieur Tn, quelqu’un s’écrie « Faudrait bien élire un maire ! Je peux me sacrifier pour le bien de la communauté, puisque vous insistez tellement ». Quand on y pense, c’est bien comme ça que la plupart des marchés nouveaux voient le jour : dans une population générale qui, initialement, s’en fiche par ailleurs, une personne après l’autre devient intéressée par le produit ou service donné. La densité de population de ces accros du marché nouveau augmente progressivement et ils commencent à former une communauté.

Si je désigne donc la densité de population comme « DP », je peux poser une condition formelle de formation d’une communauté locale : DP(Tn) > DP(T0) ou   n > 0.

Bon, voilà du terrain défriché. Maintenant, je fais un modèle, largement basé sur cette exploration empirique que vous avez pu suivre à travers “C’est compliqué, mais gardons notre calme”  suivi par “Those new SUVs are visibly purchased with some capital rent” ainsi que “Côté pouvoir explicatif du modèle”  ou encore “If I want to remain bluntly quantitative” . Je pose donc une hypothèse complexe que le pourcentage « %Ren » d’énergies renouvelables dans la consommation finale d’énergie dépend d’une façon significative de la quantité « CK/Pop » de capital fixe par tête d’habitant, ainsi que de la part « labsh » des salaires dans le revenu brut de la population et du PIB par tête d’habitant (« GDP/Pop »). J’ajoute la proportion entre la masse monétaire agrégée et le PIB ou, en d’autres mots, ladite masse monétaire exprimée comme un pourcentage « M/GDP » du PIB. Ça vaut la peine de noter que comme le côté gauche de mon équation est un ratio (le pourcentage d’énergies renouvelables dans un total de consommation), je compose le côté droit avec des variables de nature similaire, donc des coefficients de proportion. Après avoir réduit tout ça à des valeurs logarithmiques pour éliminer un peu de bruit statistique, je pose donc formellement :

ln(%Ren) = a1*ln(CK/Pop) + a2*ln(labsh) + a3*ln(GDP/Pop) + a4*ln(M/GDP) + valeur résiduelle     

Je teste ce modèle dans ma base des données habituelle – Penn Tables 9.0 (Feenstra et al. 2015[1]) enrichie avec les données de la Banque Mondiale – et je corse le plat en ajoutant la densité de population comme variable de contrôle. Je demande poliment à mon logiciel d’analyse statistique, le Wizard pour MacOS, de définir des classes de densité de population. Pour une raison que j’ignore, ce Wizard définit habituellement des sextiles, c’est-à-dire il divise la base entière en des sous-ensembles de 1577 – 1578 observations « pays – année » chacun. J’ai donc six classes de densité de population et je teste mon modèle à l’intérieur de chaque classe séparément. Ici, j’entre sur du terrain incertain. Ma condition de base était : DP(Tn) > DP(T0) ou   n > 0, donc je parlais de changement de densité de population dans le temps. Dans ma base de données j’ai des observations « pays – année » : je combine changement dans le temps avec du mouvement à travers l’espace. Néanmoins, comme j’utilise des logarithmes naturels et non des valeurs directes des variables en question, les différences d’échelle entre pays se nivellent significativement. En remplaçant donc la densité de population à un moment donné – DP(Tn) – par k-ième observation dans la base de données, je simplifie ma condition et j’en fais DPk > DPk-i.

Alors, je teste. L’enfance du marché local d’énergie renouvelable c’est le premier sextil de densité de population, entre 0,632 et 11,713 personnes par kilomètre carré. Ici, j’ai n = 210 observations valides, qui me donnent un coefficient de détermination de R2 = 0,370. Densité basse, détermination basse, comme qui dirait. Dans ce stade infantile du marché, l’offre de la masse monétaire est un facteur positif ; plus il y en a, plus grand est le pourcentage de renouvelables dans l’assiette totale d’énergie consommée.

Table 1

Variable coefficient Erreur standard Statistique t p-valeur
ln(labsh) 1,061 0,409 2,598 0,010
ln(M/GDP) 0,821 0,238 3,446 0,001
ln(CK/Pop) -1,443 0,2 -7,228 0,000
ln(GDP/Pop) 0,331 0,278 1,193 0,234
valeur résiduelle 11,585 1,256 9,226 0,000

Bon, avançons. Je passe au deuxième sextil de densité de population, entre 11,713 et 29,352 personnes par kilomètre carré. Là, j’ai n = 304 observations et un coefficient de détermination égal à R2 = 0,521. Pas mal, ça monte, ma détermination. Les coefficients, présentés ci-dessous en Table 2, montrent un virage progressif. L’influence de capital par tête d’habitant tourne d’une valeur négative à une valeur quasi-nulle, donc quasi neutre, pendant que l’intensité-travail du PIB local acquiert une importance primordiale. Le développement d’un marché de l’emploi local à un rôle à jouer dans le passage aux renouvelables. La masse monétaire en circulation garde son calme, quoi qu’elle cède un peu de terrain.

Table 2

Variable coefficient Erreur standard Statistique t p-valeur
ln(labsh) 5,096 0,831 6,13 0,000
ln(M/GDP) 0,363 0,138 2,622 0,009
ln(CK/Pop) 0,002 0,104 0,024 0,981
ln(GDP/Pop) -0,739 0,162 -4,561 0,000
valeur résiduelle 12,53 1,282 9,776 0,000

Le troisième sextil de densité de population correspond à l’intervalle entre 29,352 et 56,922 personnes par kilomètre carré. J’ai n = 362 observation et un coefficient de détermination des plus respectables, R2 = 0,713. Pas mal, étant donné que dans mon exploration précédente, avec le modèle général, non-contrôlé avec la densité de population ; j’arrivais à peine aux alentours de R2 = 0,5. Ça commence à être logique : plus grande est la densité de population, donc plus mon marché mûrit, plus de cohérence puis-je atteindre dans l’explication de la façon dont ce marché fonctionne. Ce fonctionnement semble changer. Regardez les coefficients, dans Table 3. A ce stade de densité, la masse monétaire semble un peu dysfonctionnelle, tout comme le stock de capital par tête d’habitant.

Table 3

Variable coefficient Erreur standard Statistique t p-valeur
ln(labsh) 2,297 0,203 11,32 0,000
ln(M/GDP) -0,704 0,096 -7,352 0,000
ln(CK/Pop) -0,211 0,077 -2,75 0,006
ln(GDP/Pop) -0,404 0,109 -3,69 0,000
valeur résiduelle 12,853 0,316 40,652 0,000

Le quatrième sextil correspond à une densité comprise entre 56,922 et 97,881 personnes par kilomètre carré. Ici, mon pouvoir explicatif diminue. Avec n = 306 observations valides, j’atteins à peine R2 = 0,382. Néanmoins, la logique du marché, dans cette part que je peux expliquer avec mon modèle, reste similaire au sextil précédent (voir Table 4, ci-dessous). Vous pourrez remarquer, au passage, qu’avec la diminution de R2, la robustesse des corrélations a chuté un peu, aussi.

Table 4

Variable coefficient Erreur standard Statistique t p-valeur
ln(labsh) 1,18 0,347 3,398 0,001
ln(M/GDP) -0,12 0,097 -1,241 0,215
ln(CK/Pop) -0,379 0,172 -2,199 0,029
ln(GDP/Pop) -0,185 0,204 -0,91 0,363
valeur résiduelle 9,32 0,587 15,879 0,000

L’avant-dernière classe de densité de population c’est le sextile entre 97,881 et 202,36 personnes par kilomètre carré. Encore une fois, c’est comme un paysage embrumé. Avec n = 410 observations valides, j’obtiens à peine R2 = 0,391, tout comme si ces classes de densité de population correspondaient à une transformation de mon marché, genre entre deux paradigmes différents. Le facteur prédominant jusqu’alors, la part des salaires dans le PIB local, perd complétement le nord : son coefficient devient négatif et tombe un ordre de valeur plus bas, pendant que sa corrélation avec la variable expliquée devient plutôt une coïncidence (avec une p-valeur égale à 0,476, la probabilité de l’hypothèse nulle est presque 50%). En même temps, la masse monétaire regagne du terrain comme facteur de formation du marché.

Table 5

Variable coefficient Erreur standard Statistique t p-valeur
ln(labsh) -0,192 0,269 -0,713 0,476
ln(M/GDP) 0,471 0,068 6,93 0,000
ln(CK/Pop) 0,005 0,172 0,029 0,977
ln(GDP/Pop) -0,633 0,208 -3,04 0,003
valeur résiduelle 6,464 0,383 16,875 0,000

Le stade final dans le développement du marché c’est le dernier sextil de densité de population, entre 202,36 et 21 595,35 personnes par kilomètre carré. Ici, j’ai en tout n = 274 observations valides dans ce sous-ensemble et elles rendent un coefficient de détermination égal à R2 = 0,730. Table 6, ci-dessous, donne les coefficients de régression linéaire de mon modèle dans ce sextil. Il y a deux trucs intéressants à noter. Ceux qui ont suivi mes tortures intellectuelles jusqu’alors se souviennent peut-être que dans le modèle général, présenté dans mes mises à jours précédentes, le coefficient de capital par tête d’habitant avait un signe négatif, opposé à celui de la rémunération de main d’œuvre comme % du PIB. Ici, ces deux variables ont des signes positifs. Je peux en déduire, prudemment, qu’à un état mûr du marché, quand la densité de population est la plus élevée, il est important d’accumuler les deux facteurs de production : capital et travail. L’offre de masse monétaire « M/GDP » agit de façon similaire : plus de pognon en circulation, plus il est probable de voir mon pourcentage des renouvelables croître sur le côté gauche de l’équation.

Table 6

Variable coefficient Erreur standard Statistique t p-valeur
ln(labsh) 1,885 0,308 6,112 0,000
ln(M/GDP) 0,46 0,14 3,287 0,001
ln(CK/Pop) 1,873 0,332 5,65 0,000
ln(GDP/Pop) -3,431 0,367 -9,34 0,000
valeur résiduelle 13,947 0,431 32,354 0,000

Bon, je conclue. Ce chemin de développement d’un marché simulé comme passage entre classes de densité de population, ça promet. Il y a une logique qui émerge. Plus dense est la population, plus cohérent devient le paradigme de fonctionnement du marché. En même temps, le mûrissement progressif du marché correspond à une importance croissante des mécanismes économiques de base : accumulation des facteurs de production et le développement des systèmes monétaires.

[1] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

If I want to remain bluntly quantitative

My editorial

I am still mining my database in order to create some kind of theoretical model for explaining the relative importance of renewable energies in a given society. Now, I am operating with two variables for measuring said importance. Firstly, it is the percentage of renewables in the final consumption of energy (https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS ). This is renewable energy put into the whole dish of energy that we, humans, use in ways other than feeding ourselves: driving around, air-conditioning, texting to girlfriends and boyfriends, launching satellites, waging war on each other and whatnot. The second estimate is the percentage of renewable energy in the primary production of electricity (https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS ). That one is obviously, much nicer and gentler a variable, less entangled sociologically and biologically. These two are correlated with each other. In my database, they are Pearson-correlated at r = 0,676. This is a lot, for a Pearson-correlation of moments, and still it means that these two mutually explain their respective variances at more or less R2 = 0,6762 = 0,456976. Yes, this is the basic meaning of that R2 coefficient of determination, which kind of comes along whenever I or someone else presents the results of quantitative regression. I take each explanatory variable in my equation, so basically each variable I can find on the right side, and I multiply it, for each empirical observation, by the coefficient of regression attached to this variable.

When I am done with multiplication, I do addition and subtraction: I sum up those partial products, and I subtract this sum, for each particular observation, from the actual value of the explained variable, or the one on the left side of the equation. What I get is a residual constant, so basically the part of the actually observed explained variable, which remains unmatched by this sum of products ‘coefficient of regression times the value of the explanatory variable’. I make an arithmetical average out of those residuals, and I have the general constant in those equations I use to present you on this blog whenever I report the results of my quantitative tests. Once I have that general function, I trace it as a line, and I compute the correlation between this line, and the actual distribution of my left-hand variable, the explained one. This correlation tells me how closely my theoretical line follows the really observed variable.

Now, why the heck elevating this coefficient of correlation to power two, so why converting the ‘r’ into the capital ‘R2’? Well, correlations, as you probably know, can be positive or negative in their sign. What I want, though, is kind of a universal indicator of how close did I land to real life in my statistical simulations. As saying something like ‘you are minus 30% away from reality’ sounds a bit awkward, and as you cannot really have a negative distance, the good idea is to get rid of the minuses by elevating them power two. It can be any even power, by the way. There is no mathematical reason for calculating R2 instead of R22, for instance, only the coefficients of correlation are fractions, whose module is always smaller than one. If you elevate a decimal smaller than one to power 22, you get something so tiny you even have problems thinking about it without having smoked something interesting beforehand. Thus, R2 is simply handier than R22, with no prejudice to the latter.

Oh, I started doctoring, kind of just by letting myself being carried away. All right, so this is going to be a didactic one. I don’t mind: when I write as if I were doctoring you, I am doctoring myself, as a matter of fact, and it is always a good thing to learn something valuable from someone interesting, for one. For two, this blog is supposed to have educational value. Now, the good move consists in asking myself what exactly do I want to doctor myself about. What kind of surprise in empirical reality made me behave in this squid-like way, i.e. release a cloud of ink? By experience, I know that what makes me doctoring is cognitive dissonance, which, in turn, pokes its head out of my mind when I experience too much incoherence in the facts of life. When I have smeared the jam of my understanding over too big a toast of reality, I feel like adding more jam on the toast.

As I am wrestling with those shares of renewable energies in the total consumption of energy, and in the primary generation of electricity, what I encounter are very different social environments, with very different shares of renewables in their local cocktails of energy, and those shares seem not to be exactly scalable on kind of big, respectable socio-economic traits, like GDP per capita or capital stock per capita. These idiosyncrasies go as far as looking as paradoxes, in some instances. In Europe, we have practically no off-grid electricity from renewable sources. In Africa or in Asia, they have plenty. Building a power source off-grid means, basically, that the operator of the power grid doesn’t give a s*** about it and you are financially on your own. Hence, what you need is capital. Logically, there should be more off-grid power systems in regions with lots of capital per capita, and with a reasonably high density of population. Lots of capital per capita times lots of capita per square kilometre gives lots of money to finance any project. Besides, lots of capital per capita is usually correlated with better an education in the average capita, so with better an understanding of how important it is to have reliable and clean, local sources of energy. Still, it is exactly the opposite that happens: those off-grid, green power systems tend to pop up where there is much less capital per capita and where the average capita has much poorer an access to education.

At the brutal bottom line, it seems that what drives people to install solar farms or windfarms in their vicinity is the lack of access to electricity from power grids – so the actual lack and need of electricity – much more than the fact of being wealthy and well educated. Let’s name it honestly: poverty makes people figure out, and carry out, much more new things than wealth does. I already have in my database one variable, very closely related to poverty: it is food deficit, at the very core of being poor. Dropping food deficit in a model related to very nearly any socio-economic phenomenon instantaneously makes those R2’s ramp up. Still, a paradox emerges: when I put food deficit, or any other variable reflecting true poverty, into a quantitative model, I can test it only on those cases, where this variable takes a non-null value. Where food deficit is zero, I have a null value associated with non-null values in other variables, and such observations are automatically cut out of my sample. With food deficit in an equation, empirical tests yield their results only regarding those countries and years, where and when local populations actually starved. I can test with Ethiopia, but I cannot test with Belgium. What can I do in such case? Well, this is where I can use that tool called ‘control variable’. If dropping a variable into an equation proves kind of awkward, I can find a way around it by keeping that variable out of the equation but kind of close to. This is exactly what I did when I tested some of my regressions in various classes of food deficit (see, for example ‘Cases of moderate deprivation’ ).

Good, so I have that control variable, and different versions of my basic model, according to the interval of values in said control variable. I kind of have two or more special cases inside a general theoretical framework. The theory I can make out of it is basically that there are some irreducible idiosyncrasies in my reality. Going 100% green, in a local community in Africa or in Asia is so different from going the same way inside European Union that it risks being awkward to mix those two in the same cauldron. If I want that SEAP, or Sustainable Energy Action plan (see the website of the Global Covenant of Mayors for more information ), and I want it to be truly good a SEAP, it has to be based on different socio-economic assumptions according the way local communities work. One SEAP for those, who starve more or less, and have problems with basic access to electricity. Another SEAP for the wealthy and well-educated ones, whose strive for going 100% green is driven by cultural constructs rather than by bare needs.

Right, it is time to be a bit selfish, thus to focus on my social environment, i.e. Poland and Europe in general, where no food deficit is officially reported at the national scale. I take that variable from the World Bank –  the percentage of renewable energy in the primary production of electricity (https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS ) – and I name it ‘%RenEl’, and I am building a model of its occurrence. It is quite hard to pin down the correlates of this variable as such. There seems to be a lot of history in the belt of each country as for their power systems and therefore it is hard to capture those big, macroeconomic connections. Interestingly, its strongest correlation is with that other metric of energy structure, namely the percentage of renewables in the final consumption of energy (https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS ), or ‘%Ren’ in acronym. This is logical: the ways we produce energy are linked to the ways we consume it. Still, I have a basic intuition that in relatively non-starving societies people have energy to think, so they have labs, and they make inventions in those labs, and they kind of speed up their technological change with those inventions. Another intuition that I have regarding my home continent is that we have big governments, with lots of liquid assets in their governmental accounts. Those liquid public assets are technically the residual difference between gross public debt and net public debt. Hence, I take the same formal hypothesis I made in ‘Those new SUVs are visibly purchased with some capital rent’ and I pepper it with the natural logarithms of, respectively, the number of patent applications per million people (‘PatApp/Pop’), and the share of liquid public assets in the GDP (‘LPA/GDP’). That makes me state formally that

           ln(%RenEl) = a1*ln(GDP per capita) + a2*ln(Pop) + a3*ln(Labsh) + a4*ln(Capital stock per capita) + a5*ln(%Ren) + a6*ln(LPA/GDP) + a7*ln(PatApp/Pop) + residual

When I test this equation in my database, I can see an interesting phenomenon. The fact of adding the ln(PatApp/Pop) factor to my equation, taken individually, adds some 2% to the overall explanatory power of my model. Without the ln(PatApp/Pop), my equation is being tested on n = 2 068 observations and yields a coefficient of determination equal to R2 = 0,492. Then, I drop a pinch of ln(PatApp/Pop) into my soup, it reduces my sample to n = 1 089 observations, but pumps up the coefficient of determination to R2 = 0,515. Yet, the ln(PatApp/Pop) is not really robustly correlated with my ln(%RenEl): the p-value attached to this correlation is p = 0,503. It means that for any given value of ln(PatApp/Pop), my ln(%RenEl) can be found anywhere in one entire half of the normal distribution. This is one of those cases when I can see a pattern, but I cannot guess what is it exactly what I see.

If I want to remain bluntly quantitative, which sometimes pays off, I take those patent applications out of the equation and park it close by, as a control variable. I make classes in it, or rather it is my software, Wizard for MacOS that does, and I test my equation without ln(PatApp/Pop)[1] in it in those various classes and I look at the values my R2 coefficient takes in each of those classes. Here are the results:

Class #1: no patent applications observed >> 979 observations yield R2 = 0,490

Class #2: less than 3,527 patent applications per million people >> 108 observations yield R2 = 0,729

Class #3: between 3,527 and 23,519 patent applications per million people >> 198 observations and R2 = 0,427

Class #4: 23,519 < PatApp/Pop < 77,675   >> 267 observations and R2 = 0,625

Class #5: 77,675 < PatApp/Pop < 160,682  >> 166 observations and R2 = 0,697

Class #6: 160,682 < PatApp/Pop < 290,87  >> 204 observations and R2 = 0,508

Class #7: 290,87 < PatApp/Pop < 3 276,584 >> 146 observations and R2 = 0,965

Now, I can see there are two sub-samples in my sample – countries with really low rate of invention and those with an extremely high one – where the equation really works much stronger than anywhere else (much higher an R2 than in other classes). This is the job a control variable can do: it can serve to define special cases and to refine my hypotheses. Now, I can say, for example, that when the local rate of patentable invention in a society is really high, I can make a very plausible model of them going 100% green in their electricity output.

[1] So it is ln(%RenEl) = a1*ln(GDP per capita) + a2*ln(Pop) + a3*ln(Labsh) + a4*ln(Capital stock per capita) + a5*ln(%Ren) + a6*ln(LPA/GDP) + residual

Côté pouvoir explicatif du modèle

Mon éditorial

Me revoilà dans l’univers des parts d’énergie. Pendant les deux derniers jours, j’étudiais les données de la Banque Mondiale à propos de la part d’énergie renouvelable dans la consommation finale d’énergie. Si je fais donc un panier de toutes les formes d’énergie que j’utilise dans la vie quotidienne – l’électricité, du fuel pour ma voiture, le gaz que je brûle dans ma cuisinière et dans ma chaudière etc. – j’obtiens un total de consommation finale d’énergie. Maintenant, je prends toute l’énergie renouvelable que j’ai utilisé dans le cadre de mon entière consommation et je la divise par ladite entière consommation. Le quotient que j’obtiens c’est l’indicateur de la part relative d’énergie renouvelable dans la consommation totale et vous pouvez l’étudier à l’adresse : https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS. Cependant, la Banque Mondiale publie un autre indicateur, à signification très voisine du précédent : la part d’énergie renouvelable dans la production primaire d’électricité, accessible sous https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS . Ce deuxième indicateur est dans un certain sens en amont du précédent ; il reflète la structure énergétique à l’une des sources d’énergie, c’est-à-dire l’électricité.

Je prends donc ma base des données habituelle – Penn Tables 9.0 (Feenstra et al. 2015[1]) assaisonnée avec les données de la Banque Mondiale, au choix – j’y ajoute ce deuxième indicateur concernant la structure primaire d’électricité produite et je répète la même procédure d’exploration quantitative que j’avais effectuée hier, dans “Those new SUVs are visibly purchased with some capital rent” . Je spécule donc à propos d’une variable socio-économique, probablement une proportion, qui pourrait bien expliquer la part d’énergie verte dans la production primaire d’électricité, ou ‘%RenEl’ dans les équations qui vont suivre. Hier, avec ce premier indicateur (renouvelables comme % de la consommation finale), j’avais opté pour le PIB par tête d’habitant, donc pour l’indicateur de base de niveau de vie, auquel j’avais ajouté la population comme facteur d’échelle. Essayons voir. Je réduis tout ça aux logarithmes naturels pour niveler, au moins en partie, la non-stationnarité de mes séries temporelles, et je pose formellement :

ln(%RenEl) = a1*ln(PIB par tête) + a2*ln(Pop) + valeur résiduelle

Je teste donc cette première équation dans un ensemble de n = 3511 observations valides dans ma base de données et je vais vous dire, ce n’est pas vraiment un tir chanceux. J’obtiens un coefficient de détermination égal à R2 = 0,116. Franchement, pas de quoi informer le gouvernement. A titre de comparaison, hier, lorsque j’avais testé cette première équation avec la part des renouvelables dans la consommation finale d’énergie, j’avais obtenu R2 = 0,326, donc trois fois plus de pouvoir explicatif. D’un autre côté, les corrélations ainsi obtenues sont solides, ce que vous pouvez constater en jetant un coup d’œil au tableau des coefficients, ci-dessous (Table 1) :

Table 1

Variable coefficient Erreur standard Statistique t p-valeur
ln(PIB par tête) -0,476 0,022 -21,767 0,000
ln(Pop) -0,061 0,013 -4,665 0,000
Valeur résiduelle 0,721 0,128 5,624 0,000

   Quoi que dotée de peu de valeur explicative, cette première équation montre une régularité intéressante : la variable « PIB par tête d’habitant » a le même signe et une magnitude très similaire à ce que j’avais obtenu hier à propos de la structure de consommation finale d’énergie. Peu importe donc si on parle de la consommation finale d’énergie ou bien de la production primaire d’électricité, plus la nation est riche, en termes de PIB par tête d’habitant, moins elle a d’énergie renouvelable dans son panier énergétique. Bon, fini de s’extasier, faut bosser. Je répète donc la même procédure un peu Bayésienne que j’avais appliquée hier : je projette les valeurs résiduelles de cette équation dans ma base de données (donc chaque observation pays-année acquiert un résiduel de la variable ‘ln(%RenEl)’qui n’est pas expliqué par le PIB par tête, ni par la taille de la population) et j’observe avec quelles autres variables ce résiduel est-il corrélé. D’une manière assez surprenante, la seule corrélation de Pearson significative est celle avec, précisément, la part des renouvelables dans la consommation finale d’énergie, ou ‘%Ren’ pour les amis. La ‘%Ren’ est corrélée avec la valeur résiduelle de cette première équation avec un coefficient de Pearson égal à r = 0,534.

D’une part, c’était à prévoir. Il y a évidemment un lien entre la structure de la consommation finale d’énergie et celle de la production primaire d’électricité. Ce qui est un peu surprenant, dans cette phase de mon exploration, c’est le manque d’autres corrélations significatives. De toute façon, maintenant, c’est pratiquement de la routine : je teste la nouvelle équation ln(%RenEl) = a1*ln(PIB par tête) + a2*ln(Pop) + a3*ln(%Ren) + valeur résiduelle, je projette les valeur résiduelles à nouveau dans la base des données, je cherche des nouvelles corrélations et ainsi de suite, aussi longtemps que ça marche. Je teste donc, et avec n = 3 496 observations valables j’obtiens un pouvoir explicatif de R2 = 0,481. Eh ben voilà un joli progrès ! Allons voir le tableau des coefficients de cette régression linéaire. Le voilà en-dessous :

Table 2

variable coefficient Erreur standard Statistique t p-valeur
ln(PIB par tête) 0,09 0,018 4,896 0,000
ln(Pop) -0,018 0,01 -1,779 0,075
ln(%Ren) 0,816 0,019 43,312 0,000
Valeur résiduelle 1,082 0,088 12,292 0,000

Voilà donc que j’ai obtenu une sorte de jonction entre la structure de la consommation finale d’énergie et celle de la production primaire d’électricité. Elles sont mutuellement corrélées, au point de pousser de côté et déboussoler ma variable explicative initiale, le PIB par tête d’habitant, qui, en présence de cette corrélation, change de signe et de magnitude dans la régression. Désolé, PIB par tête d’habitant, la science est cruelle par moments, mais il faut que je fasse cette projection des résiduelles. Je procède, donc, et je heurte un mur : cette fois, la valeur résiduelle de cette seconde équation n’est corrélée avec aucune autre variable dans ma base des données, même pas avec les variables que j’avais pu inclure hier dans la modélisation de la structure de consommation finale. Mon singe interne (oui, j’en ai un !) essaie d’expérimenter en jetant dans cette équation des variables qui ont ‘marché’ dans me recherche précédente – la densité de population, le déficit alimentaire, la part des salaires dans le PIB, le stock de capital fixe par tête d’habitant et ainsi de suite – mais rien n’apporte un pas vraiment significatif en avant en termes de pouvoir explicatif estimé avec le coefficient de détermination R2. Ce R2 c’est en fait le pourcentage de la variance observée dans la variable sur le côté gauche de l’équation, expliqué, de façon linéaire, par les variables sur le côté droit. Un R2 égal à 0,481, par exemple, veut dire que mes variables à droite, toutes prises ensemble, expliquent 48,1% de la variance observée à gauche.

Dans ce cas précis, rien ne semble marcher. Quel cocktail de variables que je mette sur le côté gauche, ce R2 tourne autour du même niveau, à peu près 0,5. Avec toutes les inter-corrélations possibles entre les variables explicatives sur le côté gauche, un changement de mon R2 de ce 0,48& initial en R2 = 0,511 – obtenu avec trois variables de plus, donc la densité de population, le déficit alimentaire et la part d’amortissement dans le PIB – n’a rien de bien excitant. En ajoutant trois variables explicatives, j’ai gagné trois points de pourcentage côté pouvoir explicatif du modèle. Pas vraiment une aubaine.

Je résume et je retourne à mon idée de départ : une communauté locale basée à 100% sur les énergies renouvelables. Cette recherche que j’ai effectuée hier et aujourd’hui m’apporte quelques indications. Mon idée concerne la génération d’électricité dans ces communautés locales et je peux constater que la structure de production primaire d’électricité est étroitement liée à la structure de la consommation finale. Si je veux donc une communauté locale basée sur l’énergie renouvelable, le changement social qui devrait accompagner est un changement de style de vie : échanger les voitures à combustion interne contre des électriques, remplacer le gaz par l’électricité dans la cuisson et le chauffage etc. C’est logique : un business centré sur la génération d’électricité des sources renouvelables a plus de chances de marcher si je réussis à agrandir le marché local d’électricité en tant que tel.

[1] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

Those new SUVs are visibly purchased with some capital rent

My editorial

I am collecting empirical data regarding my idea of local power systems, 100% based on renewable energies. I took a metric published by the World Bank, namely the renewable energy consumption as a percentage of total final energy consumption (see https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS ). I combined it with the database I already have, built on the frame of Penn Tables 9.0 (Feenstra et al. 2015[1]). I did some preliminary rummaging in that data, notably computing the mean, national value of that indicator over years  putting it against the global, weighted average provided directly by the World Bank. Another piece of rummaging consisted in using the already existing content of my database to compute the mean national consumption of renewable energies, as an aggregate, and comparing it, as a fixed-base index, with the average national stock of fixed capital, which you can see under this link. Before I present any more applications of this ‘% of renewable energy’ metric, a little methodological explanation is due. We are talking, in the case of this precise indicator, about the final consumption of energy, not about its primary output. We are talking about the energy we use in everyday life, not about electricity produced in power plants. About 1/3rd in the global consumption of energy corresponds to transportation, which, in turn, represents mostly the fossil fuels burnt in vehicles. As you explore that dataset as provided by the World Bank, you will notice many countries, especially the developing ones and some emerging economies, who display a strongly descending share of renewables in the final consumption of energy. This is not a conspiracy from the part of oil companies: this is simply me, my neighbour, and his son-in-law buying (and driving around) a second car, or replacing a Ford Fiesta with a fancy SUV, in our respective households. This is very much what I could observe in China.

Anyway, now that I have this metric, my internal happy bulldog starts serious sniffing and digging through that data. I hypothesise that the share of renewable energies in the final consumption, or ‘%Ren’, depends essentially on the GDP per capita, in the presence of population size ‘Pop’, as a scale factor, and with a possible residual freedom in the explained variable. I take it all down to natural logarithms (much safer, tends to calm down those moody swings in my variables), and thus, mathematically, it looks like that:

ln(%Ren) = a1*ln(GDP per capita) + a2*ln(Pop) + residual

Good, and so I am waltzing. My internal happy bulldog dug out n = 4 151 valid observations in my database, and still this is not really the height of explanatory power: my coefficient of determination is just R2 = 0,326. Nothing to write home about. Anyway, the table of coefficients looks as presented below (Table 1):

Table 1

variable coefficient std. error t-statistic p-value
ln(Pop) 0,061 0,011 5,551 0,000
ln(GDP per capita) -0,795 0,018 -44,88 0,000
constant -1,399 0,103 -13,591 0,000

So far, it unfolds more or less logically. My share of renewable energy in the final consumption is negatively correlated with GDP per capita. See? What did I tell you? More bucks per head means more cars per village, and more cars per village means more fossil fuels burnt. The scale factor does not really kill: significant, but modest in its impact. Now, it is my internal curious ape who grabs the bulldog by the head and directs its nose on the constant residual: ‘Good dog, search for correlations in that residual’. The bulldog barks just by one variable: the share of labour compensation in the Gross National Income, or ‘Labsh’ in the nomenclature of Penn Tables 9.0. The residual of my first model is correlated with that variable at r = 0,3. Once again, nothing to put on Instagram, and still interesting. That would mean that labour-intensive economies tend to develop a relatively larger share of renewables in their energy consumption. Logical: as they are busy working, they don’t drive to much around. Anyway, I rephrase my model and I hypothesise that:

           ln(%Ren) = a1*ln(GDP per capita) + a2*ln(Pop) + a3*ln(Labsh) + residual

The bulldog, when called, fetches n = 3 111 observations, which, in turn, yield an R2 = 0,359. Weeeeell, maybe not a quantum leap I have here, but some modest advancement is to notice. The table of coefficients (Table 2) shows interesting outcomes of this little experimentation. The inclusion of labour-intensity in my model essentially drove crazy the residual – there is a more than 40% probability that it is different from that (– 0,096) shown – and put the scale factor of population slightly below the level of respectability in its p-value. Less than p = 0,05 is generally bad taste. The labour-intensity in itself seems to be a potent explanatory factor, with the highest coefficient of regression in the model, and rock-solid in its p-value.

Table 2

variable coefficient std. error t-statistic p-value
ln(Pop) 0,024 0,014 1,79 0,074
ln(GDP per capita) -0,773 0,019 -40,417 0,000
ln(Labsh) 1,517 0,129 11,767 0,000
constant -0,096 0,117 -0,821 0,412

My internal curious ape tries to repeat the same trick with the bulldog: ‘Fetch me some correlations in the residual’. It doesn’t work this time, though. This particular residual is small, random and, on the top of that, it is lonely. The ape does not give up, mind you. It sends the bulldog to rummage in the probability of being struck by an asteroid whilst driving around without your seat belts on, and it calls my internal austere monk: that guy who walks around with the Ockham’s razor in his pocket. Woosh! The monk swings that razor and carves two more variables out of the dataset: the stock of fixed capital available per capita, and the depth of food deficit. The more capital is there per person, the more it is likely being invested in the generation of renewable energies, and the more likely it is to make people less in need of new cars. On the other hand, the food deficit has already proven to be an interesting variable in my earlier research, and it is a measure of poverty, potentially correlated with the unfulfilled need for transportation. Still, the monk reminds gently: food deficit is reported as a non-null value only in cases when it is really present. When I include food deficit in my model, I automatically shift towards developing and emerging countries. At this point, it is prudent to split my model into two versions:

Version A, general:

  ln(%Ren) = a1*ln(GDP per capita) + a2*ln(Pop) + a3*ln(Labsh) + a4*ln(Capital stock per capita) + residual

and Version B, with food deficit, oriented on developing countries and emerging markets:

           ln(%Ren) = a1*ln(GDP per capita) + a2*ln(Pop) + a3*ln(Labsh) + a4*ln(Capital stock per capita) + a5*ln(Food deficit) + residual

The results, this time, are ambiguous. The general model brings nearly nothing in terms of general explanatory power. With n = 3 111 observations, the coefficient of determination changes at the third digit after the decimal point, and makes R2 = 0,360 now. Not really an earthquake. The capital stock per capita, or the capital-intensity of the economy, essentially gets in the way of labour intensity and wastes some of that labour. The more capital is there per capita, the lower the share of renewables in the final basket of energy consumption. Those new SUVs are visibly purchased with some capital rent. My internal monk was right to pick up that variable – it is significant – but he was dead wrong as for how it works. What do you want, austere monasticism is not a job devoid of risk. Still, the position of labour intensity in the model seems rock-solid.

Table 3

variable coefficient std. error t-statistic p-value
ln(Pop) 0,025 0,014 1,854 0,064
ln(GDP per capita) -0,618 0,061 -10,206 0,000
ln(Labsh) 1,521 0,129 11,796 0,000
ln(Capital stock per capita) -0,135 0,049 -2,772 0,006
constant 0,133 0,148 0,896 0,370

Now, I switch to the specific model, with food deficit inside, applied to the developing countries and partly to emerging markets (like early South Korea, for example). With n = 1 680 valid observations, I get R2 = 0,424 in terms of determination. Here, that Ockham’s razor has brought some change. Razors tend to, when used properly. Table 4 below shows the coefficients of regression thus obtained. The depth of food deficit works interestingly but predictably: the greater it is, the greater the share of renewables. Poor people burn less fossil fuels and can do just with some wind, water, and sun, harnessed properly. I can notice, as well, that in those relatively poor populations, their size stops mattering. With the p-value at 0.146, its impact tends towards random.

Table 4

variable coefficient std. error t-statistic p-value
ln(Pop) -0,021 0,014 -1,455 0,146
ln(Depth of the food deficit) 0,252 0,036 7,08 0,000
ln(GDP per capita) -0,395 0,068 -5,809 0,000
ln(Labsh) 1,397 0,149 9,364 0,000
ln(Capital stock per capita) -0,257 0,046 -5,539 0,000
constant -0,203 0,215 -0,942 0,346

I can feel my brain sizzling. Enough science for now.

[1] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

C’est compliqué, mais gardons notre calme

Mon éditorial

J’hypothèse. Ça veut dire que je crée des classeurs pour ranger la réalité dedans. Après la revue de littérature que j’ai faite avant-hier (consultez “It warms my heart to know I am not totally insane” ), je pose l’hypothèse suivante : la création de systèmes énergétiques locaux avec 100% d’énergie renouvelable est significativement influencée par les coûts de transaction qui accompagnent la transition du capital vers de tels projets. Je sais, ça a l’air plutôt simpliste, mais il faut bien que je commence avec quelque chose. En fait, j’essaie de généraliser sur les faits présentés par Karen Wendt[1]. En termes de rangement de réalité, cette hypothèse a l’air spacieuse, comme ces sacs de marin : juste un gros sac, sans pochettes de rangement à l’intérieur, mais avec un espace respectable pour fourrer des trucs dedans et en plus, ça se porte bien sur l’épaule. Comment puis-je savoir que ça se porte bien ? Ben voilà, je peux la transporter rapidement presque n’importe où à travers les sciences sociales et je trouverai toujours un endroit pour l’accrocher. Dans le cadre des sciences économiques c’est facile comme tout, puisque les coûts de transaction sont une notion admise et même dotée d’un prix Nobel pour Oliver Williamson. En sociologie, je l’accroche pratiquement à tout ce qui concerne les structures sociales. Si je décide de naviguer la psychologie, je peux prendre ce gros sac sur un voyage à travers la psychologie évolutive et son truc de hiérarchisation.

Bon, maintenant je survole rapidement les faits. Tout d’abord, je vérifie les faits de base en ce qui concerne la consommation d’énergies renouvelables. Je prends les données de la Banque Mondiale en ce qui concerne la part d’énergie renouvelable dans la consommation totale (https://data.worldbank.org/indicator/EG.FEC.RNEW.ZS ) et je les mixe avec ma base de données que j’ai bâti sur l’ossature de Penn Tables 9.0 (Feenstra et al. 2015[2]). Ce que je calcule en premier lieu c’est comment cette part d’énergie verte a changé dans le temps. Sur mon site https://discoversocialsciences.com j’ai placé un fichier Excel correspondant, en anglais . La première chose qui frappe, c’est que ce pourcentage d’énergie en provenance de sources renouvelables avait à peine changé sur les 30 dernières années, si on le calcule comme valeur agrégée globale (donc si nous tenons compte des parts respectives de chaque pays dans le bilan énergétique global) : c’est juste monté de 17,9% en 1990 jusqu’à 18,9% en 2014. Pas vraiment un tremblement de terre. En revanche, si je calcule ce pourcentage comme moyenne arithmétique entre pays, ça fait plus et ça plonge, de 36,04% en 1990 vers 32,3% en 2014. La variance autour cette moyenne, donc la variabilité de notre indicateur, a l’air plutôt stable, si on la mesure comme le quotient de la variance par la moyenne. La médiane – donc le niveau en-dessous duquel on trouve exactement 50% des pays observés chaque année – suit une trajectoire encore différente, un peu fluctuante entre 21 et 30%.

Les changements globaux en termes de participation d’énergies vertes dans le cocktail énergétique de notre société suggèrent quelques régularités. Il y a une sorte de schéma spatial, ou les économies nationales les plus volumineuses en termes de consommation totale d’énergie – donc surtout les pays développés ainsi que ceux du BRIC – se déplacent systématiquement vers une base énergétique de plus en plus verte, pendant qu’un nombre relativement grand de pays en voie de développement ainsi que certaines économies émergentes montrent des signes d’accroître la participation d’énergie non-renouvelable dans le total. Là, une clarification s’impose. Nous parlons du pourcentage d’énergie renouvelable dans la consommation finale d’énergie et non pas dans sa génération primaire. Ce serait donc un malentendu d’interpréter ce pourcentage comme la part relative de centrales électriques vertes dans la production totale. C’est la consommation, pas la génération, et en ce qui concerne la consommation finale d’énergie il y a un facteur à ne pas négliger : la bagnole. La graaande majorité des voitures sont des bons vieux classiques à combustion interne. Plus de voitures par une centaine d’habitants veut dire plus de carburant fossile brûlé. L’une des composantes de base d’avancement social dans les pays en voie de développement et dans les économies émergentes est l’achat de plus de voitures par ménage. C’est surtout ça le secret des pays qui – suivant cet indicateur de pourcentage de renouvelables dans le total – semblent aller à rebours de ce que nous percevons comme « révolution verte ».

Si je retourne donc à mon hypothèse, je peux dire qu’à l’échelle globale, la finance, elle se decarbonise à un rythme de tout ce qu’il y a de plus respectable. Sans à-coups, mollo. Ce sont plutôt les idiosyncrasies nationales et régionales et termes de decarbonisation qui sont intéressantes. Quel rapport avec mon hypothèse de départ ? A première vue, ces coûts de transaction dont je parle, ils suivent des régularités globales plutôt qu’un schéma universel. Je la reformule, mon hypothèse :  la création de systèmes énergétiques locaux avec 100% d’énergie renouvelable est significativement influencée par les coûts de transaction qui accompagnent la transition du capital vers de tels projets et qui sont spécifiques aux économies nationales.

Bon, je continue avec cet aspect embarrassant de la science, donc avec les faits. Je transforme mon pourcentage d’énergie renouvelable en quantité absolue, en le multipliant par la consommation moyenne d’énergie par tête d’habitant, en kilogrammes d’équivalent-pétrole (consultez https://data.worldbank.org/indicator/EG.USE.PCAP.KG.OE  ). Un kilo d’équivalent-pétrole équivaut, en fait, à 11,63 kilowattheures, en fait. J’obtiens donc, pour chaque pays et chaque année dans ma base de données, la consommation totale d’énergie renouvelable en milliers de tonnes d’équivalent-pétrole. Ensuite, j’ai calculé la moyenne nationale de consommation d’énergie renouvelables pour chaque année et je l’ai mis côte à côte avec le stock moyen national de capital fixe, en millions de dollars constants 2011, aux parités courantes de pouvoir d’achat. Voilà une autre portion de faits que vous pouvez trouver dans un autre fichier Excel en anglais, sur mon site https://discoversocialsciences.com. J’ai facilité la digestion de ces faits en transformant les deux valeurs absolues en indexes, basées sur la valeur observée, dans chaque cas, en année 2000. Cette méthode, appelée indexation à base fixe, est utile lorsqu’on veut tracer, graphiquement, les tendances suivies par des variables qui ont des quantités très différentes l’une de l’autre. Si une variable dénote des valeurs absolues 10 fois plus grandes que l’autre, par exemple, le graphe peut être difficile à lire. J’indexe avec base fixe et mes deux courbes suivent le même ordre de grandeur.

Alors, comme je compare l’index de consommation nationale moyenne d’énergies renouvelables avec celui du capital fixe accumulé à l’échelle nationale, les deux montent, mais le capital monte plus vite. Cela veut dire que le stock de capital accumule plus vite que la consommation d’énergie renouvelable. A ce point-là, je peux illustrer mon train de raisonnement de façon suivante : si je pose l’hypothèse qu’il ait un lien quelconque entre la consommation d’énergie renouvelable et le stock de capital, j’imagine chaque tonne d’énergie renouvelable comme accompagnée, en quelque sorte, par une certaine quantité de capital. En absence de coûts de transaction, cette quantité de capital par tonne d’énergie verte devrait être plus ou moins constante, ou tout du moins oscillante légèrement autour d’une constante. Seulement voilà, ce ratio de capital par tonne d’équivalent-pétrole, il a une tendance clairement croissante : en 2014, il était deux fois plus grand qu’en 1990. Si un sou a le choix entre s’attacher à une tonne d’équivalent-pétrole d’énergie renouvelable ou bien s’attacher à quoi que ce soit d’autre, il choisira plutôt ce quoi que ce soit d’autre. Il y a quelque chose qui empêche ce sou d’aller de son libre gré vers les énergies renouvelables. Dans les sciences économiques, ce quelque chose qui gêne le mouvement des sous – hormis bien sûr le manque des sous – ce sont précisément les coûts de transaction.

Vous pouvez remarquer que je viens d’utiliser la logique Bayésienne : j’ai imaginé un monde parfait (à quoi tout le monde à droit) et une courbe correspondante. J’ai donc jeté ma première balle « W », en des termes originels de Thomas Bayes (Bayes, Price 1763[3]). Ensuite, je vérifie à quel point la réalité correspond à ma vision – je jette la seconde balle « O » et je regarde sa distance de la ligne établie par la balle « W ». En fait, si je regarde bien ces deux lignes que vous pouvez trouver dans ce fichier Excel , mon index de consommation d’énergies renouvelables s’éloigne de l’index de capital. Avec chaque année, les chances Bayésiennes de les voir à égalité diminuent : il y a de moins en moins de façons d’avoir un sou de capital fixe attaché avec une probabilité de 50% à une tonne d’équivalent-pétrole d’énergie renouvelable.

Bon, je sais que c’est compliqué, mais gardez votre calme. On va avancer mollo, jour après jour, jusqu’au but. A bientôt.

[1] Wendt, K., 2016, Decarbonizing Finance – Recent Developments and the Challenge Ahead, Available at SSRN: https://ssrn.com/abstract=2965677

[2] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

[3] Mr. Bayes, and Mr Price. “An essay towards solving a problem in the doctrine of chances. by the late rev. mr. bayes, frs communicated by mr. price, in a letter to john canton, amfrs.” Philosophical Transactions (1683-1775) (1763): 370-418