États transcendants par rapport à cette réalité

Je continue de réfléchir sur les fondements théoriques de ma méthode de simulation d’intelligence collective dans les sociétés humaines. Je sens le besoin de résumer les points les plus importants, d’une part, ainsi que d’explorer le lien théorique entre la structure logique d’un réseau neuronal et la façon dont l’intelligence collective se joue dans des sociétés en chair et en os.

L’essence de ma méthode de recherche consiste à utiliser les réseaux neuronaux artificiels pour simuler le fonctionnement d’intelligence collective des sociétés humaines. Je me concentre le plus sur le phénomène de changement technologique et dans ce cadre, je me concentre même plus sur le marché de l’énergie. Je veux utiliser ma méthode à deux fins pratiques : simuler l’absorption d’une nouvelle technologie dans l’environnement socio-économique et l’émergence des phénomènes soudains et transformatifs du type Cygne Noir.

J’assume que les variables socio-économiques que je peux utiliser de façon quantitative sont des représentations imparfaites – car simplifiées – des phénomènes sociaux autrement plus complexes. Ces variables sont des phénomènes sociaux en elles-mêmes, car elles représentent un enchevêtrement cognitif entre l’action collective et les résultats obtenus de celle-ci. Nous mesurons collectivement les trucs qui sont importants parce qu’ils représentent des récompenses existentielles pour notre société. Si je vois donc une base de données comme celle de la Banque Mondiale ou bien celle d’EUROSTAT, je vois une multitude des variables quantitatives qui, à leur tour, représentent autant d’orientations d’action collective des sociétés humaines.

Ma méthode consiste à déconstruire partiellement l’enchevêtrement de ces variables, à travers une simulation mathématique où je construis autant de réalités alternatives artificielles qu’il y a de variables à prendre en compte. Ensuite, j’étudie la similarité mathématique entre ces réalités alternatives d’une part et la réalité empirique telle que représentée par les données empiriques. La construction de ces réalités artificielles suit la logique essentielle d’un réseau neuronal artificiel qui optimise une variable de parmi toutes celles étudiées – comme variable de sortie – tout en utilisant les autres variables comme matériel d’entrée à optimiser. Chacune de ces réalités artificielles est donc une représentation mathématique d’une orientation spécifique de la (des) société(s) étudiées : l’orientation sur le type donné de récompense.

Ma méthode assume donc que la société telle quelle est observable de façon empirique est une superposition d’orientations différentes. Plus de variables j’utilise dans ma recherche, plus d’orientations alternatives je peux découvrir ainsi. D’un autre point de vue, plus diverse est le panier des variables, donc plus je mélange les données en provenance des sources différentes, y compris mes propres coefficients ou me propres observations, plus d’orientations différentes je peux déconstruire à partir de la réalité empirique.

Ça, c’est la théorie de base. Pour l’appliquer en pratique, donc pour étudier l’émergence ou bien l’absorption possible des nouvelles technologies dans l’environnement socio-économique, il me faut introduire dans mon observation empirique des variables pertinentes à ces technologies. Pertinence peut être directe aussi bien qu’indirecte. Si j’inclue dans ma soupe primaire des nombres une variable telle que le pourcentage d’électricité en provenance des sources renouvelables, je décris la probabilité qu’une kilowatt heure prise au hasard, comme ça, dans la rue, provienne de ces technologies de génération. Si je prends une variable telle que l’efficience énergétique de l’économie nationale, donc la quantité de produit par unité d’énergie consommée, c’est plus indirect : je mesure l’incidence des technologies relativement plus efficientes en énergie par comparaison à celles relativement moins efficientes.

En pratique, l’observation directe de l’émergence et l’absorption des technologies a des limites qui se sentent très vite. Je peux mesurer, par exemple, le pourcentage de génération éolienne dans le panier d’énergie consommée. En revanche, lorsqu’il s’agit de mesurer la prévalence relative des solutions spécifiques dans les turbines, la transmission d’énergie, l’équilibrage du réseau etc., alors là, il n’y a pas vraiment foule comme données empiriques. Alors, je fais ce que les scientifiques font tout le temps en l’absence des données empiriques pertinentes : je triche. J’introduis dans mon ensemble des données des probabilités théoriques. J’ai donc une base de données bien catholique, avec des trucs comme PIB ou inflation dedans et j’ajoute un pourcentage théorique qui correspond à la probabilité qu’une technologie spécifique soit adoptée par un utilisateur pris au hasard. Enfin, j’hésite entre « adoptée » et « appliquée ». Lorsque j’adopte, je prends responsabilité. Lorsque j’applique, ‘y a moins de poids éthique.

Cette probabilité théorique, je peux la piloter à mon gré. Elle peut être complétement discrète – donc je lui donne des valeurs déterminées à priori – ou bien je peux la faire danser à un rythme plus ou moins aléatoire. Dans ce dernier cas, je simule une situation ou la société comme structure collectivement intelligente n’est jamais sûre de quel trou cette nouvelle technologie va surgir. Je peux simuler des réalités alternatives orientées sur des variables bien respectables, comme sur le nombre de demandes de brevet par 1 million d’habitants, et alors ces probabilités théoriques attachées aux technologies nouvelles sont un facteur de distorsion comme variable d’entrée. Je peux aussi construire des réalités alternatives qui sont bel et bien orientées sur ces variables probabilistes théoriques, l’histoire de voir la similarité mathématique entre elles et la réalité empirique telle que je l’ai devant mes yeux dans ma base des données.

Dans mon expérience jusqu’alors, les réalités alternatives orientées sur les variables « technologiques », empiriques ou théoriques, tombent mathématiquement plus loin de la réalité empirique que celles orientées sur des variables typiquement économiques, comme le nombre d’heures travaillées par personne par an. Ça arrive tout le temps, en fait, avec des configurations de données différentes. C’est comme si le changement technologique – soit l’orientation collective sur des variables « technologiques » – était une orientation instrumentale aux celles axées sur des effets purement sociétaux, comme le marché de travail. 

Mes réalités alternatives, je les construis à travers un processus d’apprentissage numérique, donc avec un réseau neuronal. Voilà donc que vient le moment vraiment délicat dans mon autoréflexion, celui de démontrer le lien entre la structure du réseau neuronal – et de même la structure d’apprentissage numérique – et le phénomène d’adaptation intelligente dans les sociétés humaines réelles. Je prends mes variables d’entrée et je les transforme en un seul nombre qui représente le signal d’apprentissage pour la fonction d’activation neuronale. Cette transformation par agrégation a deux composantes. Le truc général que je prends de la structure typique d’un perceptron consiste à multiplier chaque variable d’entrée par un facteur aléatoire compris entre 0 et 1, donc par le bon vieux RANDOM. Le truc spécifique que j’ai développé par moi-même est d’ajouter un facteur non-aléatoire de distance Euclidienne moyenne entre la variable en question et toutes les autres variables de l’ensemble, dans le pas expérimental précèdent. Évidemment, ce facteur non-aléatoire est absent du premier pas expérimental, puisqu’il n’a pas de pas précèdent. Selon mon intuition, cette distance Euclidienne représente le fait d’apprendre tout en prenant en compte la cohérence interne de la réalité représentée par des nombres. Selon mes observations empiriques, un réseau neuronal équipé de cette fonction de cohérence apprend de façon différente, par rapport au réseau qui s’en fiche. Avec facteur de cohérence, la courbe de l’erreur résiduelle est plus saccadée mais en fin de compte elle converge plus vite vers erreur minimale.

Je fais donc ce signal d’apprentissage « h », à partir de « n » variables d’entrée, comme h = R*E(tj-1)*x1(tj) + R*E(tj-1)*x2(tj) + … + R*E(tj-1)*xn(tj), où R est le facteur purement aléatoire et E est le facteur non-aléatoire de cohérence. Une fois le « h » calculé, je le mets dans ma fonction d’activation neuronale et là, il faut que je réfléchisse. Les fonctions d’activation que j’utilise le plus c’est soit le sigmoïde soit la tangente hyperbolique, avec un penchant pour la seconde. Je commence par déconstruire la tangente hyperbolique. Sa formule générale est tanh = (e2h – 1) / (e2h + 1), où « h » est bien le « h » comme spécifié plus haut, pendant que « e » est la constante d’Euler.              

Je commence par étudier les propriétés mathématiques de la tangente hyperbolique pour comprendre ce qu’elle fait à mes variables d’entrée. Les fonctions hyperboliques sont analogiques aux fonctions trigonométriques de base, seulement elles sont décrites sur une hyperbole et non pas sur un cercle. Une hyperbole est discontinue. Chaque portion d’une hyperbole représente un gradient différent. La tangente hyperbolique est donc une fonction périodique qui superpose plusieurs rythmes d’oscillation. La valeur de tangente hyperbolique n’est donc jamais en corrélation avec la variable d’entrée. La tangente hyperbolique est plus autonome par rapport à ces variables d’entrée que la tangente régulière (circulaire). Cette autonomie est exprimée par l’inclusion de la tangente hyperbolique dans la catégorie des nombres transcendants.   

La tangente hyperbolique transforme donc mes variables d’entrée en quelque chose qui n’a pas de corrélation fonctionnelle avec elles. C’est comme si les variables d’entrée créaient un plan différent de réalité. Pas si bête que ça, en fait. La perception (des variables d’entrée) forme un plan cognitif qui est différent de la réalité elle-même. Lorsque la société s’adapte à un signal d’apprentissage complexe, l’adaptation prend une forme spéciale. Le premier exemple qui me vient à l’esprit est notre adaptation collective au changement climatique. Le climat change et nous transformons ce changement en des symboles complexes : « il faut défendre la Terre », « il faut inventer quelque chose de nouveau », « il faut abandonner ces carburants fossiles ignobles » etc. Ce n’est qu’après s’être pompé culturellement avec ces symboles qu’on fait quoi que ce soit d’utile.

La tangente hyperbolique a une autre propriété intéressante. Dans tanh = (e2h – 1) / (e2h + 1), il y a le « h » qui change, accompagné de la constante : (e2 – 1) / (e2 + 1) = 6,389056099 / 8,389056099 = 0,761594156. J’ai remarqué qu’avec le calcul h = R*E(tj-1)*x1(tj) + R*E(tj-1)*x2(tj) + … + R*E(tj-1)*xn(tj), plus j’ai de variables différentes dans mon ensemble, donc dans ma réalité empirique de base, plus grande est l’amplitude d’oscillation dans « ». Plus complexe est donc ma représentation de réalité, plus d’états différents d’activation neuronale, transcendants par rapport à cette réalité, sont créés avec la tangente hyperbolique.  

Cœur de réflexion

Je me concentre sur un aspect particulier de la révision finale de mon article pour « International Journal of Energy Sector Management » – sous le titre « Climbing the right hill – an evolutionary approach to the European market of electricity » – notamment sur le rapport entre ma méthodologie et celle de MuSIASEM, soit « Multi-scale Integrated Analysis of Societal and Ecosystem Metabolism ».

Je me réfère plus particulièrement à trois articles que je juge représentatifs pour ce créneau de recherche :

>> Al-Tamimi and Al-Ghamdi (2020), ‘Multiscale integrated analysis of societal and ecosystem metabolism of Qatar’ Energy Reports, 6, 521-527, https://doi.org/10.1016/j.egyr.2019.09.019 

>> Andreoni, V. (2020). The energy metabolism of countries: Energy efficiency and use in the period that followed the global financial crisis. Energy Policy, 139, 111304. https://doi.org/10.1016/j.enpol.2020.111304

>> Velasco-Fernández, R., Pérez-Sánchez, L., Chen, L., & Giampietro, M. (2020), A becoming China and the assisted maturity of the EU: Assessing the factors determining their energy metabolic patterns. Energy Strategy Reviews, 32, 100562.  https://doi.org/10.1016/j.esr.2020.100562

De parmi ces trois, je choisis subjectivement le travail de prof. Andreoni (2020[1]) comme le plus solide en termes de théorie. L’idée de base de MuSIASEM est d’étudier l’efficience énergétique des sociétés humaines comme un métabolisme, donc comme un système complexe qui se soutient et se développe à travers la transformation d’énergie et de ressources matérielles.  

J’essaie de comprendre et présenter la logique de base de MuSIASEM en explorant les avantages que professeur Andreoni attribue à cette méthode. Je me permets de traduire fidèlement un passage de l’article (2020[2]) : « […] l’approche MuSIASEM présente des avantages par rapport aux autres méthodologies utilisées pour étudier le métabolisme des sociétés, telles que ‘emergy’, empreinte écologique et l’analyse entrée-sortie […]. En fournissant des descriptions intégrées à travers des niveaux d’analyse différents, l’approche MuSIASEM ne réduit pas l’information en un index quantitatif unique et analyse l’énergie utilisée par rapport aux structures socio-économiques concrètes. Qui plus est, l’inclusion de dimensions multiples (telles que le PIB, temps humain et consommation d’énergie) en combinaison avec des échelles différentes d’analyse (telles que le niveau sectoriel et le niveau national) rend possible de fournir l’information pertinente aux processus à l’intérieur du système ainsi que d’analyser la façon dont les variables externes (telles que la crise économique et la pénurie des ressources) peuvent affecter l’allocation et l’utilisation des ressources ».      

Je me dis que si quelqu’un se vante d’avoir des avantages par rapport à quoi que ce soit d’autre, ces avantages reflètent les aspects les plus importants des phénomènes en question, selon le même quelqu’un. Ainsi donc, prof. Andreoni assume que MuSIASEM permet d’étudier quelque chose d’important – l’efficience énergétique des sociétés comme un métabolisme – toute en ayant l’avantage de déconstruction des variables agrégées en des variables composantes ainsi que celui de multi-dimensionnalité d’analyse. 

Les variables étudiées semblent donc être la base de la méthode. Parlons donc des variables. Professeur Andreoni présente dans son article trois variables essentielles :

>> L’activité humaine totale, calculée comme le produit de : [la population] x [24 heures] x [365 jours]

>> Transformation totale d’énergie, calculée comme la somme de : [consommation finale d’énergie] + [Consommation interne d’énergie dans le secteur d’énergie] + [Pertes d’énergie dans sa transformation]

>> Produit Intérieur Brut  

Ces trois variables fondamentales sont étudiées à trois niveaux différents d’agrégation. Le niveau de base est celui d’économie(s) nationale(s), à partir d’où on décompose, tout d’abord, entre les secteurs macroéconomiques de : ménages par opposition à celui d’activité payée (entreprises plus secteur public). Ensuite, ces secteurs macroéconomiques sont tous les deux désagrégés en l’agriculture, l’industrie et les services.

A chaque niveau d’agrégation, les trois variables fondamentales sont mises en relation entre elles pour calculer deux coefficients : intensité énergétique et métabolisme d’énergie. Celui d’intensité énergétique est calculé comme quantité d’énergie utilisée pour produire un euro de Produit Intérieur Brut et c’est donc l’inverse de l’efficience énergétique (cette dernière est calculée comme quantité de PIB produite à partir d’une unité d’énergie). Le coefficient métabolique, en revanche, est calculé comme la quantité d’énergie par heure d’activité humaine.

J’ai quelques remarques critiques par rapport à ces variables, mais avant de développer là-dessus je contraste rapidement avec ma méthode. Les variables de professeur Andreoni sont des transformations des variables utilisées dans des bases de données publiquement accessibles. Professeur Andreoni prend donc une méthode générale d’observation empirique – donc par exemple la méthode de calculer la consommation finale d’énergie – et transforme cette méthode générale de façon à obtenir une vue différente de la même réalité empirique. Cette transformation tend à agréger des variables « communes ». Moi, de mon côté, j’utilise un éventail large des variables communément formalisées et présentées dans des bases de données publiquement accessibles plus un petit zest des coefficients que je calcule moi-même. En fait, dans la recherche sur l’énergie, j’utilise juste deux coefficients originaux, soit le nombre moyen de demandes de brevet nationales par 1 million d’habitants, d’une part, et la quantité moyenne de capital fixe d’entreprise par une demande nationale de brevet. Quant au reste, j’utilise des variables communes. Dans cet article que je suis en train de finir pour « International Journal of Energy Sector Management » j’utilise les quarante et quelques variables de Penn Tables 9.1. (Feenstra et al. 2015[3]) plus des variables de la Banque Mondiale au sujet d’énergie (consommation finale, participation des sources renouvelables, participation d’électricité) plus des données Eurostat sur les prix d’électricité, plus ces deux coefficients relatifs aux demandes nationales de brevets.

La différence entre ma méthode et celle de MuSIASEM est donc visible déjà au niveau phénoménologique. Moi, je prends la phénoménologie généralement acceptée – donc par exemple la phénoménologie de consommation d’énergie ou celle d’activité économique – et ensuite j’étudie le rapport entre les variables correspondantes pour en extraire un tableau plus complexe. Je sais déjà que dans ma méthode, la quantité et la diversité des variables est un facteur clé. Mes résultats deviennent vraiment robustes – donc cohérents à travers des échantillons empiriques différents – lorsque j’utilise une panoplie riche de variables. Chez MuSIASEM, en revanche, ils commencent par construire leur propre phénoménologie au tout début en ensuite ils raisonnent avec.

Il semble y avoir un terrain commun entre ma méthode et celle de MuSIASEM : on semble être d’accord que les variables macroéconomiques telles qu’elles sont accessibles publiquement donnent l’image imparfaite d’une réalité autrement plus complexe. A partir de là, toutefois, il y différence. Moi, j’assume que si je prends beaucoup d’observations imparfaites distinctes – donc beaucoup de variables différentes, chacune un peu à côté de la réalité – je peux reconstruire quelque chose à propos de ladite réalité en transformant ces observations imparfaites avec un réseau neuronal. J’assume donc que je ne sais pas d’avance de quelle manière exacte ces variables sont imparfaites et je m’en fiche par ailleurs. C’est comme si reconstruisais un crime (j’adore les romans policiers) à partir d’un grand nombre des dépositions faites par des témoins qui, au moment et en présence du crime en question étaient soit ivres, soit drogués soit ils regardaient un match de foot sur leur portable. J’assume qu’aussi peu fiables soient tous ces témoins, je peux interposer et recombiner leurs dépositions de façon à cerner le mécréant qui a tué la vieille dame. J’expérimente avec des combinaisons différentes et j’essaie de voir laquelle est la plus cohérente. Chez MuSIASEM, en revanche, ils établissent d’avance une méthode de mettre en concours des dépositions imparfaites des témoins en état d’ébriété et ensuite ils l’appliquent de façon cohérente à travers tous les cas de tels témoignages.

Jusqu’à ce point-là, ma méthode est garnie d’assomptions moins fortes que celle de MuSIASEM. De manière générale je préfère des méthodes avec des assomptions faibles. Lorsque je mets en question des idées reçues, tout simplement en les suspendant et en vérifiant si elles tiennent le coup (de suspension), j’ai la chance de trouver plus de trucs nouveaux et intéressants.  Maintenant, je m’offre le plaisir pervers de passer au peigne fin les assomptions fortes de MuSIASEM, juste pour voir où bien puis-je leur enfoncer une épingle. Je commence par l’activité humaine totale, calculée comme le produit de : [la population] x [24 heures] x [365 jours]. Première remarque : le produit 24 heures fois 365 jours = 8760 heures est une constante. Si je compare deux pays aux populations différentes, leur activités humaines totales respectives seront différentes uniquement à travers leurs démographies différentes. Le produit [24 heures] x [365 jours] est donc une décoration redondante du point de vue mathématique. Toutefois, c’est une redondance astucieuse. Le produit 24 heures fois 365 jours = 8760 c’est le facteur de multiplication communément utilisé pour transformer la capacité énergétique en énergie effectivement accessible. On prend la puissance d’une bombe atomique, en joules, on la recalcule en kilowatts, on la multiplie par 24 heures fois 365 jours et boum : on obtient la quantité d’énergie accessible à la population générale si cette bombe explosait continuellement tout le long de l’année. On ajoute toutefois 24 heures supplémentaires d’explosion pour les années bissextiles.

Bombe atomique ou pas, le produit 24 heures fois 365 jours = 8760 est donc utile lorsqu’on veut faire une connexion élégante entre la démographie et la transformation d’énergie, ce qui semble judicieux dans une méthode de recherche qui se concentre précisément sur l’énergie. La multiplication « population x 8760 heures dans l’année » est-elle donc pertinente comme mesure d’activité humaine ? Hmmouiais… peut-être, à la rigueur… Je veux dire, si nous avons des populations très similaires en termes de style de vie et de technologie, elles peuvent démontrer des niveaux d’activité similaires par heure et donc des niveaux d’activité humaine totales distincts uniquement sur la base de leurs démographies différentes. Néanmoins, il nous faut des populations vraiment très similaires. Si nous prenons une portion essentielle de l’activité humaine – la production agricole par tête d’habitant – et nous la comparons entre la Belgique, l’Argentine et Botswana, nous obtenons des coefficients d’activité tout à fait différents.

Je pense donc que les assomptions qui maintiennent l’identité phénoménologique l’activité humaine totale = [la population] x [24 heures] x [365 jours] sont des assomptions tellement fortes qu’elles en deviennent dysfonctionnelles. J’assume donc que la méthode MuSIASEM utilise en fait la taille de la population comme une variable fondamentale, point à la ligne. Moi je fais de même, par ailleurs. Je trouve la démographie jouer un rôle injustement secondaire dans la recherche économique. Je vois que beaucoup de chercheurs utilisent des variables démographiques comme « calibrage » ou « facteurs d’ajustement ».  Tout ce que je sais sur la théorie générale des systèmes complexes, par exemple le créneau de recherche sur la théorie d’automates cellulaires (Bandini, Mauri & Serra 2001[4] ; Yu et al. 2021[5]) ou bien la théorie d’essaims (Gupta & Srivastava (2020[6]), suggère que la taille des populations ainsi que leur intensité d’interactions sociales sont des attributs fondamentaux de chaque civilisation.                    

Je trouve donc que l’identité phénoménologique l’activité humaine totale = [la population] x [24 heures] x [365 jours] dans la méthode MuSIASEM est donc une sorte de ruse, un peu superflue, pour introduire la démographie au cœur de la réflexion sur l’efficience énergétique. Par conséquent, le coefficient métabolique de MuSIASEM, calculé comme la quantité d’énergie par heure d’activité humaine, est équivalent à la consommation d’énergie par tête d’habitant. Le métabolisme énergétique d’une société humaine est donc défini par la consommation d’énergie par tête d’habitant (https://data.worldbank.org/indicator/EG.USE.PCAP.KG.OE ) ainsi que le coût énergétique de PIB (https://data.worldbank.org/indicator/EG.USE.COMM.GD.PP.KD ). Les liens hypertexte entre parenthèses renvoient à des bases de données correspondantes de la Banque Mondiale. Lorsque je regarde ces deux coefficients à travers le monde et je fais un truc absolument simpliste – je discrimine les pays et les régions en une liste hiérarchique – deux histoires différentes émergent. Le coefficient de consommation d’énergie par tête d’habitant raconte une histoire de hiérarchie pure et simple de bien-être économique et social. Plus ce coefficient est élevé, plus le pays donné est développé en termes non seulement de revenu par tête d’habitant mais aussi en termes de complexité institutionnelle, droits de l’homme, complexité technologique etc.

Lorsque j’écoute l’histoire dite par le coût énergétique de PIB (https://data.worldbank.org/indicator/EG.USE.COMM.GD.PP.KD ), c’est compliqué comme une enquête policière. Devinez donc les points communs entre Panama, Sri Lanka, la Suisse, l’Irlande, Malte et la République Dominicaine. Fascinant, non ? Eh bien, ces 6 pays sont en tête de la course planétaire à l’efficience énergétique, puisqu’ils sont tous les six capables de produire 1000 dollars de PIB avec moins de 50 kilogrammes d’équivalent pétrole en énergie consommée. Pour placer leur exploit dans un contexte géographique plus large, les États-Unis et la Serbie sont plus de deux fois plus bas dans cette hiérarchie, tout près l’un de l’autre, à 122 kilogrammes d’équivalent pétrole par 1000 dollars de PIB. Par ailleurs, ça les place tous les deux près de la moyenne planétaire ainsi que celle des pays dans la catégorie « revenu moyen inférieur ».

Si je récapitule mes observations sur la géographie de ces deux coefficients, les sociétés humaines différentes semblent avoir une capacité très idiosyncratique d’optimiser le coût énergétique de PIB à des niveaux différents de la consommation d’énergie par tête d’habitant. C’est comme s’il y avait une façon différente d’optimiser l’efficience énergétique en étant pauvre, par rapport à celle d’optimiser la même efficience lorsqu’on est riche et développé.

Nous, les homo sapiens, on peut faire des trucs vraiment bêtes dans le quotidien mais dans le long terme nous sommes plutôt pratiques, ce qui pourrait notre capacité actuelle de transformer quelque 30% de l’énergie totale à la surface de la planète. Si hiérarchie il y a, cette hiérarchie a probablement un rôle à jouer. Difficile à dire quel rôle exactement mais ça semble important d’avoir cette structure hiérarchique d’efficience énergétique. C’est un autre point où je diverge de la méthode MuSIASEM. Les chercheurs actifs dans le créneau MuSIASEM assument que l’efficience énergétique maximale est un impératif évolutif de notre civilisation et que tous les pays devraient aspirer à l’optimiser. Hiérarchies d’efficiences énergétique sont donc perçues comme un accident historique dysfonctionnel, probablement effet d’oppression des pauvres par les riches. Bien sûr, on peut demander si les habitants de la République Dominicaine sont tellement plus riches que ceux des États-Unis, pour avoir une efficience énergétique presque trois fois supérieure.


[1] Andreoni, V. (2020). The energy metabolism of countries: Energy efficiency and use in the period that followed the global financial crisis. Energy Policy, 139, 111304. https://doi.org/10.1016/j.enpol.2020.111304

[2] Andreoni, V. (2020). The energy metabolism of countries: Energy efficiency and use in the period that followed the global financial crisis. Energy Policy, 139, 111304. https://doi.org/10.1016/j.enpol.2020.111304

[3] Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), “The Next Generation of the Penn World Table” American Economic Review, 105(10), 3150-3182, available for download at http://www.ggdc.net/pwt 

[4] Bandini, S., Mauri, G., & Serra, R. (2001). Cellular automata: From a theoretical parallel computational model to its application to complex systems. Parallel Computing, 27(5), 539-553. https://doi.org/10.1016/S0167-8191(00)00076-4

[5] Yu, J., Hagen-Zanker, A., Santitissadeekorn, N., & Hughes, S. (2021). Calibration of cellular automata urban growth models from urban genesis onwards-a novel application of Markov chain Monte Carlo approximate Bayesian computation. Computers, environment and urban systems, 90, 101689. https://doi.org/10.1016/j.compenvurbsys.2021.101689

[6] Gupta, A., & Srivastava, S. (2020). Comparative analysis of ant colony and particle swarm optimization algorithms for distance optimization. Procedia Computer Science, 173, 245-253. https://doi.org/10.1016/j.procs.2020.06.029

L’automate cellulaire respectable

J’essaie de développer une jonction entre deux créneaux de ma recherche : l’étude de faisabilité pour mon « Projet Aqueduc » d’une part et ma recherche plus théorique sur le phénomène d’intelligence collective d’autre part. Question : comment prédire et prévoir l’absorption d’une technologie nouvelle dans une structure sociale ? En des termes plus concrets, comment puis-je prévoir l’absorption de « Projet Aqueduc » dans l’environnement socio-économique ? Pour me rendre la vie plus difficile – ce qui est toujours intéressant – je vais essayer de construire le modèle de cette absorption à partir d’une base théorique relativement nouvelle pour moi, notamment la théorie d’automates cellulaires. En termes de littérature, pour le moment, je me réfère à deux articles espacés de 20 ans l’un de l’autre : Bandini, Mauri & Serra (2001[1]) ainsi que Yu et al. (2021[2]).

Pourquoi cette théorie précise ? Pourquoi pas, en fait ? Sérieusement, la théorie d’automates cellulaires essaie d’expliquer des phénomènes très complexes – qui surviennent dans des structures qui ont l’air d’être vraiment intelligentes – à partir d’assomptions très faibles à propos du comportement individuel d’entités simples à l’intérieur de ces structures. En plus, cette théorie est déjà bien traduite en termes d’intelligence artificielle et se marie donc bien avec mon but général de développer une méthode de simuler des changements socio-économiques avec des réseaux neuronaux.

Il y a donc un groupe des gens qui s’organisent d’une façon ou d’une autre autour d’une technologie nouvelle. Les ressources économiques et la structure institutionnelle de ce groupe peuvent varier : ça peut être une société de droit, un projet public-privé, une organisation non-gouvernementale etc. Peu importe : ça commence comme une microstructure sociale. Remarquez : une technologie existe seulement lorsque et dans la mesure qu’une telle structure existe, sinon une structure plus grande et plus complexe. Une technologie existe seulement lorsqu’il y a des gens qui s’occupent d’elle.

Il y a donc ce groupe organisé autour d’une technologie naissante. Tout ce que nous savons sur l’histoire économique et l’histoire des technologies nous dit que si l’idée s’avère porteuse, d’autres groupes plus ou moins similaires vont se former. Je répète : d’autres groupes. Lorsque la technologie des voitures électriques avait finalement bien mordu dans le marché, ceci n’a pas entraîné l’expansion monopolistique de Tesla. Au contraire : d’autres entités ont commencé à bâtir de façon indépendante sur l’expérience de Tesla. Aujourd’hui, chacun des grands constructeurs automobiles vit une aventure plus ou moins poussée avec les bagnoles électriques et il y a toute une vague des startups crées dans le même créneau. En fait, la technologie du véhicule électrique a donné une deuxième jeunesse au modèle de petite entreprise automobile, un truc qui semblait avoir été renvoyé à la poubelle de l’histoire.

L’absorption d’une technologie nouvelle peut donc être représentée comme la prolifération des cellules bâties autour de cette technologie. A quoi bon, pouvez-vous demander. Pourquoi inventer un modèle théorique de plus pour le développement des technologies nouvelles ? Après tout, il y en a déjà pas mal, de tels modèles. Le défi théorique consiste à simuler le changement technologique de façon à cerner des Cygnes Noirs possibles. La différence entre un cygne noir tout simple et un Cygne Noir écrit avec des majuscules est que ce dernier se réfère au livre de Nassim Nicolas Taleb « The Black Swan. The impact of the highly improbable », Penguin, 2010. Oui, je sais, il y a plus que ça. Un Cygne Noir en majuscules peut bien être le Cygne Noir de Tchaïkovski, donc une femme (Odile) autant attirante que dangereuse par son habileté d’introduire du chaos dans la vie d’un homme. Je sais aussi que si j’arrangerai une conversation entre Tchaïkovski et Carl Gustav Jung, les deux messieurs seraient probablement d’accord qu’Odile alias Cygne Noir symbolise le chaos, en opposition à l’ordre fragile dans la vie de Siegfried, donc à Odette. Enfin, j’fais pas du ballet, moi, ici. Je blogue. Ceci implique une tenue différente, ainsi qu’un genre différent de flexibilité. Je suis plus âgé que Siegfried, aussi, comme par une génération.  

De tout en tout, mon Cygne Noir à moi est celui emprunté à Nassim Nicolas Taleb et c’est donc un phénomène qui, tout en étant hors d’ordinaire et surprenant pour les gens concernés, est néanmoins fonctionnellement et logiquement dérivé d’une séquence des phénomènes passés. Un Cygne Noir se forme autour des phénomènes qui pendant un certain temps surviennent aux extrémités de la courbe Gaussienne, donc à la frange de probabilité. Les Cygnes Noirs véhiculent du danger et des opportunités nouvelles, à des doses aussi variées que le sont les Cygnes Noirs eux-mêmes. L’intérêt pratique de cerner des Cygnes Noirs qui peuvent surgir à partir de la situation présente est donc celui de prévenir des risques du type catastrophique d’une part et de capter très tôt des opportunités exceptionnelles d’autre part.

Voilà donc que, mine de rien, je viens d’enrichir la description fonctionnelle de ma méthode de simuler l’intelligence collective des sociétés humaines avec les réseaux neuronaux artificiels. Cette méthode peut servir à identifier à l’avance des développements possibles du type de Cygne Noir : significatifs, subjectivement inattendus et néanmoins fonctionnellement enracinées dans la réalité présente.

Il y a donc cette technologie nouvelle et il y a des cellules socio-économiques qui se forment autour d’elle. Il y a des espèces distinctes des cellules et chaque espèce correspond à une technologie différente. Chaque cellule peut être représentée comme un automate cellulaire A = (Zd, S, n, Sn+1 -> S), dont l’explication commence avec Zd, donc l’espace à d dimensions ou les cellules font ce qu’elles ont à faire. L’automate cellulaire ne sait rien sur cet espace, tout comme une truite n’est pas vraiment forte lorsqu’il s’agit de décrire une rivière. Un automate cellulaire prend S états différents et ces états sont composés des mouvements du type un-pas-à-la-fois, dans n emplacements cellulaires adjacents. L’automate sélectionne ces S états différents dans un catalogue plus large Sn+1 de tous les états possibles et la fonction Sn+1 -> S alias la règle locale de l’automate A décrit de façon générale le quotient de cette sélection, donc la capacité de l’automate cellulaire d’explorer toutes les possibilités de bouger son cul (cellulaire) juste d’un cran à partir de la position actuelle.

Pourquoi distinguer ces quatre variables structurelles dans l’automate cellulaire ? Pourquoi n’assumons-nous pas que le nombre possible des mouvements « n » est une fonction constante des dimensions offertes par l’espace Zd ? Pourquoi ne pas assumer que le nombre réel d’états S est égal au total possible de Sn+1 ? Eh bien parce que la théorie d’automates cellulaires a des ambitions de servir à quelque chose d’utile et elle s’efforce de simuler la réalité. Il y a donc une technologie nouvelle encapsulée dans une cellule sociale A. L’espace social autour d’A est vaste, mais il peut y avoir des portes verrouillées. Des marchés oligopoles, des compétiteurs plus rapides et plus entreprenants, des obstacles légaux et mêmes des obstacles purement sociaux. Si une société à qui vous proposez de coopérer dans votre projet innovant craint d’être exposée à 10 000 tweets enragés de la part des gens qui n’aiment pas votre technologie, cette porte-là est fermée, quoi que la dimension où elle se trouve est théoriquement accessible.

Si je suis un automate cellulaire tout à fait ordinaire et j’ai la possibilité de bouger dans n emplacements sociaux adjacents à celui où je suis maintenant, je commence par choisir juste un mouvement et voir ce qui se passe. Lorsque tout se passe de façon satisfaisante, j’observe mon environnement immédiat nouveau – j’observe donc le « n » nouveau visible à partir de la cellule où je viens de bouger – je fais un autre mouvement dans un emplacement sélectionné dans ce nouveau « n » et ainsi de suite. Dans un environnement immédiat « n » moi, l’automate cellulaire moyen, j’explore plus qu’un emplacement possible de parmi n seulement lorsque je viens d’essuyer un échec dans l’emplacement précédemment choisi et j’avais décidé que la meilleure stratégie est de retourner à la case départ tout en reconsidérant les options possibles.         

La cellule sociale bâtie autour d’une technologie va donc se frayer un chemin à travers l’espace social Zd, en essayant de faire des mouvement réussis, donc en sélectionnant une option de parmi les « n » possibles. Oui, les échecs ça arrive et donc parfois la cellule sociale va expérimenter avec k > 1 mouvements immédiats. Néanmoins, la situation où k = n c’est quand les gens qui travaillent sur une technologie nouvelle ont essayé, en vain, toutes les options possibles sauf une dernière et se jettent la tête en avant dans celle-ci, qui s’avère une réussite. De telles situations arrivent, je le sais. Je crois bien que Canal+ était une aventure de ce type à ces débuts. Néanmoins, lorsqu’un truc marche, dans le lancement d’une technologie nouvelle, on juste continue dans la foulée sans regarder par-dessus l’épaule.

Le nombre réel S d’états que prend un automate cellulaire est donc largement sujet à l’hystérèse. Chaque mouvement réussi est un environnement immédiat de moins à exploiter, donc celui laissé derrière nous.  En même temps, c’est un défi nouveau de faire l’autre mouvement réussi au premier essai sans s’attarder dans des emplacements alternatifs. L’automate cellulaire est donc un voyageur plus qu’un explorateur. Bref, la formulation A = (Zd, S, n, Sn+1 -> S) d’un automate cellulaire exprime donc des opportunités et des contraintes à la fois.

Ma cellule sociale bâtie autour de « Projet Aqueduc » coexiste avec des cellules sociales bâties autour d’autres technologies. Comme tout automate cellulaire respectable, je regarde autour de moi et je vois des mouvements évidents en termes d’investissement. Je peux bouger ma cellule sociale en termes de capital accumulé ainsi que de l’échelle physique des installations. Je suppose que les autres cellules sociales centrées sur d’autres technologies vont faire de même : chercher du capital et des opportunités de croître physiquement. Excellent ! Voilà donc que je vois deux dimensions de Zd : l’échelle financière et l’échelle physique. Je me demande comment faire pour y bouger et je découvre d’autres dimensions, plus comportementales et cognitives celles-là : le retour interne (profit) espéré sur l’investissement ainsi que le retour externe (croissance de valeur d’entreprise), la croissance générale du marché de capital d’investissement etc.

Trouver des dimensions nouvelles, c’est fastoche, par ailleurs. Beaucoup plus facile que c’est montré dans les films de science-fiction. Il suffit de se demander ce qui peut bien gêner nos mouvements, regarder bien autour, avoir quelques conversations et voilà ! Je peux découvrir des dimensions nouvelles même sans accès à un téléporteur inter-dimensionnel à haute énergie. Je me souviens d’avoir vu sur You Tube une série de vidéos dont les créateurs prétendaient savoir à coup sûr que le grand collisionneur de hadrons (oui, celui à Genève) a ouvert un tunnel vers l’enfer. Je passe sur des questions simplissimes du genre : « Comment savez-vous que c’est un tunnel, donc un tube avec une entrée et une sortie ? Comment savez-vous qu’il mène en enfer ? Quelqu’un est-il allé de l’autre côté et demandé les locaux où ça où ils habitent ? ». Le truc vraiment épatant est qu’il y a toujours des gens qui croient dur comme fer que vous avez besoin des centaines de milliers de dollars d’investissement et des années de recherche scientifique pour découvrir un chemin vers l’enfer. Ce chemin, chacun de nous l’a à portée de la main. Suffit d’arrêter de découvrir des dimensions nouvelles dans notre existence.

Bon, je suis donc un automate cellulaire respectable qui développe le « Projet Aqueduc » à partir d’une cellule d’enthousiastes et en présence d’autres automates cellulaires. On bouge, nous, les automates cellulaires, le long de deux dimensions bien claires d’échelle – capital accumulé et taille physique des installations – et on sait que bouger dans ces dimensions-ci exige un effort dans d’autres dimensions moins évidentes qui s’entrelacent autour d’intérêt général pour notre idée de la part des gens extra – cellulaires. Notre Zd est en fait un Zd eh ben alors !. Le fait d’avoir deux dimensions bien visibles et un nombre discutable de dimensions plus floues fait que le nombre « n » des mouvements possibles est tout aussi discutable et on évite d’en explorer toutes les nuances. On saute sur le premier emplacement possible de parmi « n », ce qui nous transporte dans un autre « n », puis encore et encore.

Lorsque tous les automates cellulaires démontrent des règles locales Sn+1 -> S à peu près cohérentes, il est possible d’en faire une description instantanée Zd -> S, connue aussi comme configuration de A ou bien son état global. Le nombre d’états possibles que mon « Projet Aqueduc » peut prendre dans un espace rempli d’automates cellulaires va dépendre du nombre d’états possibles d’autres automates cellulaires. Ces descriptions instantanées Zd -> S sont, comme le nom l’indique, instantanées, donc temporaires et locales. Elles peuvent changer. En particulier, le nombre S d’états possibles de mon « Projet Aqueduc » change en fonction de l’environnement immédiat « n » accessible à partir de la position courante t. Une séquence de positions correspond donc à une séquence des configurations ct = Zd -> S (t) et cette séquence est désignée comme comportement de l’automate cellulaire A ou bien son évolution.        


[1] Bandini, S., Mauri, G., & Serra, R. (2001). Cellular automata: From a theoretical parallel computational model to its application to complex systems. Parallel Computing, 27(5), 539-553. https://doi.org/10.1016/S0167-8191(00)00076-4

[2] Yu, J., Hagen-Zanker, A., Santitissadeekorn, N., & Hughes, S. (2021). Calibration of cellular automata urban growth models from urban genesis onwards-a novel application of Markov chain Monte Carlo approximate Bayesian computation. Computers, environment and urban systems, 90, 101689. https://doi.org/10.1016/j.compenvurbsys.2021.101689

L’impression de respirer

J’avance avec la révision de ma recherche sur le phénomène d’intelligence collective, que je viens de documenter dans « The collective of individual humans being any good at being smart ». Je m’efforce à faire jonction entre mes idées à moi, d’une part, et deux autres créneaux de recherche : la théorie des systèmes complexes et l’approche psychologique à l’intelligence collective. La première, je la travaille sur la base du livre ‘What Is a Complex System?’ écrit par James Landyman et Karoline Wiesner, publié en 2020 chez Yale University Press (ISBN 978-0-300-25110-4, Kindle Edition). Quant à l’approche psychologique, ma lecture de référence est, pour le moment, le livre ‘The Knowledge Illusion. Why we never think alone’ écrit par Steven Sloman et Philip Fernbach, publié en 2017 chez RIVERHEAD BOOKS (originellement chez Penguin Random House LLC, Ebook ISBN: 9780399184345, Kindle Edition).

Je viens de cerner l’idée centrale de mon approche au phénomène d’intelligence collective, et c’est l’utilisation des réseaux neuronaux artificiels – donc de l’Intelligence Artificielle – comme simulateurs des phénomènes sociaux complexes. La touche originale bien à moi que je veux ajouter à ce sujet, vaste par ailleurs, est la façon d’utiliser des réseaux neuronaux très simples, possibles à programmer dans une feuille de calcul Excel. Ma méthode va donc un peu à l’encontre du stéréotype des super-nuages numériques portés par des super-ordinateurs joints eux-mêmes en réseau, tout ça pour prédire la prochaine mode vestimentaire ou la prochaine super-affaire en Bourse.

Lorsque je pense à la structure d’un livre que je pourrais écrire à ce sujet, le squelette conceptuel qui me vient à l’esprit est du scientifique classique. Ça commence avec une « Introduction » générale et peu formelle, genre montrer pourquoi faire tout ce bruit à propos de l’idée en question. Une section de « Matériel empirique et méthode » ensuit, ou je discute le type de données empiriques à travailler avec ainsi que la méthode de leur traitement. Le pas suivant est de présenter « La théorie et revue de littérature du sujet » en un chapitre séparé et enfin des « Exemples d’application », soit des calculs faits sur des données réelles avec la méthode en question.     

Le noyau conceptuel formel de mon approche est – pour le moment – la fonction d’adaptation. Lorsque j’ai un ensemble de variables socio-économiques quantitatives, je peux faire des assomptions plus ou moins fortes à propos de leur signification et pertinence empirique, mais je peux assumer de manière tout à fait solide que chacune de ces variables peut représenter un résultat fonctionnel important, dont l’achèvement nous poursuivons comme société. En présence de « n » variables que peux poser « n » hypothèses du type : ces gens-là poursuivent l’optimisation de la variable « i » comme orientation collective. Une telle hypothèse veut dire que toutes les variables dans l’ensemble X = (x1, x2, …, x­n), observées dans une séquence de « m » occurrences locales (t1, t2,…, tm), forment une chaîne d’états fonctionnels locaux f{x1(t), x2(t), …, x­n(t)}.  La société étudiée compare chaque état fonctionnel local à une valeur espérée de résultat xi(t) et la fonction d’adaptation produit l’erreur locale d’adaptation e(t) = xi(t)f{x1(t), x2(t), …, x­n(t)}.  La variable « xi » fait partie de l’ensemble X = (x1, x2, …, x­n). La chaîne d’états fonctionnels f{x1(t), x2(t), …, x­n(t)} est donc produite aussi bien avec la variable optimisée « xi » elle-même qu’avec les autres variables. La logique de ceci est simple : la plupart de phénomènes sociaux que nous décrivons avec des variables quantitatives, tel le Produit National Brut (mon exemple préféré), démontrent une hystérèse significative. Le PNB d’aujourd’hui sert à produire le PNB de l’après-demain, tout comme le nombre des demandes de brevet d’aujourd’hui contribue à créer le même PNB de l’après-demain.

J’essaie de faire un rapprochement entre la théorie des systèmes complexes et ma méthode à moi. Je me réfère en particulier à ‘What Is a Complex System?’ (Landyman, Wiesner 2020). Le passage que je trouve particulièrement intéressant vu ma propre méthode est celui de la page 16, que je me permets de traduire sur le champ : « Comportement coordonné ne requiert pas de contrôleur suprême […] Il est surprenant que le mouvement collectif d’une volée d’oiseaux, d’un banc de poissons ou d’un essaim d’insectes peut être reproduit par un ensemble de robots programmés à obéir juste quelques règles simples. Chaque individu doit rester près d’une poignée des voisins et ne peut pas heurter d’autres individus. Comme l’individu avance, il contrôle régulièrement sa distance par rapport aux autres pour l’ajuster de façon correspondante. En conséquence, un mouvement de groupe se forme spontanément. Le comportement adaptatif du collectif surgit d’interactions répétées, dont chacune est relativement simple en elle-même […] ».

Le truc intéressant, là, c’est que je fais exactement la même opération logique dans les réseaux neuronaux que je fais et utilise dans ma recherche sur l’intelligence collective. A l’intérieur de chaque occurrence empirique dans mon ensemble de données (donc, de façon pratique, dans chaque vers de ma base de données), je calcule en ensuite je propage un méta-paramètre de distance Euclidienne entre chaque variable et toutes les autres. Le Produit Intérieur Brut en Suède en 2007 vérifie donc sa distance Euclidienne par rapport à l’inflation, au taux d’emploi etc., tout ça en Suède en 2007. Le PIB dans mon réseau neuronal se comporte donc comme un oiseau : ça vole de façon à contrôler sa distance par rapport aux autres phénomènes sociaux.

Chaque vers de la base de données est donc accompagné d’un vecteur-fantôme des distances Euclidiennes, qui est ensuite utilisé par le réseau comme information pertinente à la tentative d’adaptation dans l’occurrence empirique suivante, donc dans le vers suivant de la base des données. Initialement, lorsque je programmais ce truc, je ne savais pas ce que ça va donner. Je ne savais presque rien de cet aspect particulier de la théorie de complexité. Je venais juste de lire quelques articles sur la théorie d’essaim dans la programmation des robots et je voulais voir comment ça marche chez moi (Wood & Thompson 2021[1]; Li et al. 2021[2]).  Je m’adaptais juste de façon (probablement) intelligente au flot de mes propres pensées. Il se fait que la propagation de ces distances Euclidiennes locales entres les variables impacte le réseau et son apprentissage de façon profonde.

Voilà donc un point certain de rapprochement entre ma méthode d’utiliser les réseaux neuronaux artificiels pour simuler l’intelligence collective et la théorie des systèmes complexes. Lorsque je crée, pour un ensemble des variables quantitatives socio-économiques, un ensemble fantôme accompagnant des distances mathématiques locales entre ces variables et je propage ces distances à travers le réseau, les nombres apprennent de façon accélérée.          

Une petite explication est de rigueur, à propos de la notion de distance mathématique. Moi, j’utilise la distance Euclidienne entre les nombres simples. Dans le domaine du Data Science c’est l’équivalent de la pierre taillée. Il y a des mesures beaucoup plus sophistiquées, ou une distance Euclidienne est calculée entre des matrices entières des nombres. Moi, j’aime bien utiliser le type d’intelligence artificielle que je comprends.

Je peux donc résumer un point important de ma méthode, tout en l’enracinant dans la théorie des systèmes complexes. Nous pouvons imaginer les sociétés humaines comme des essaims des phénomènes que nous observons de façon imparfaite à travers des variables quantitatives. L’essaim des phénomènes s’auto-organise à travers les actions d’êtres humains qui contrôlent, de façon imparfaite et néanmoins cohérente, quelle est la distance (cohérence mutuelle) entre les phénomènes distincts. Le fait que chaque culture humaine s’efforce de créer et maintenir une cohérence interne est donc le mécanisme de contrôle qui facilite l’émergence des systèmes complexes.

Mon intuition à moi, lorsque j’introduisais ces mesures-fantômes de distance Euclidienne entre les variables était un peu contraire, en fait. Mon truc, depuis ma thèse de doctorat, c’est l’innovation et le changement technologique. Après avoir lu ces articles sur la théorie d’essaim je me suis dit que l’innovation survient lorsqu’une société se dit (collectivement) « Merde ! Ras le bol avec la monotonie ! Faut secouer tout ça un peu ! Eh, les gars ! Oui, vous ! On veut dire : oui, nous ! On relâche la cohérence interne ! Oui, juste pour quelques années, pas de souci ! Oui, merde, on vous (nous) promet de ne pas inventer Facebook, enfin on espère… ».  

La société que je représente avec un réseau neuronal est donc capable d’innovation parce qu’elle peut relâcher sa cohérence culturelle interne juste ce qu’il faut pour laisser entrer des phénomènes nouveaux. Ce que j’observe mathématiquement dans mes simulations avec des données socio-économiques réelles : lorsque je propage la distance Euclidienne entre les variables à travers le réseau, celui-ci donne l’impression de respirer. Ça se gonfle et ça se dégonfle, en cadence rythmique.  


[1] Wood, M. A., & Thompson, C. (2021). Crime prevention, swarm intelligence and stigmergy: Understanding the mechanisms of social media-facilitated community crime prevention. The British Journal of Criminology, 61(2), 414-433.  https://doi.org/10.1093/bjc/azaa065

[2] Li, M., Porter, A. L., Suominen, A., Burmaoglu, S., & Carley, S. (2021). An exploratory perspective to measure the emergence degree for a specific technology based on the philosophy of swarm intelligence. Technological Forecasting and Social Change, 166, 120621. https://doi.org/10.1016/j.techfore.2021.120621

Le biais décisionnel

Mon éditorial sur You Tube

Je suis en train, comme presque toujours, de travailler sur plusieurs trucs à la fois. En gros, je fais de la théorie bien respectable, accompagnée par quelque chose de pratique. La théorie que j’essaie de mettre en la forme d’une monographie scientifique tourne autour du phénomène général de l’intelligence collective et des changements technologiques en même temps, avec un focus spécial sur l’intelligence artificielle. Je résume les deux dernières années de recherche et ça donne l’esquisse d’un livre que je pourrais rédiger à partir de mes notes de recherche publiées sur « Discover Social Sciences ». J’ai deux hypothèses de base. La première assume que l’intelligence collective des sociétés humaines se manifeste à travers le fonctionnement des institutions spécifiquement dédiées à expérimenter avec des nouvelles solutions technologiques. Je pense que l’intelligence artificielle en particulier et les technologies digitales en général représentent une accélération dans la création et le fonctionnement de telles institutions. En d’autres monts, je pose la thèse que les changements technologiques et institutionnels de la civilisation humaine convergent vers une capacité plus grande de ladite société d’expérimenter avec elle-même. En 2017, j’avais fait un peu de recherche sur l’énergie en utilisant la méthode évolutionniste. Maintenant j’ai l’impression que l’approche évolutionniste est comme une introduction à l’application d’intelligence artificielle dans les sciences sociales. Là-dedans il y a un truc qui fout un peu de désordre dans la théorie établie des sciences sociales. Cette dernière assume que les institutions de nos sociétés – donc des lois, des coutumes, des systèmes politiques etc. – représentent surtout et avant tout un acquis du passé, comme une sédimentation des stratégies de comportement qui avant la création de ces institutions étaient beaucoup plus floues et changeantes. Le droit constitutionnel représenterait donc une formalisation des stratégies politiques utilisées dans le passé, le droit civil ferait de même en ce qui concerne les contrats entre privés etc. Ça, c’est l’édifice de la théorie dominante et moi, je veux y ajouter quelques briques de plus. Je suis convaincu que certaines institutions – surtout les marchés financiers au sens large et certaines institutions politiques dans les systèmes démocratiques – sont en fait des méta-institutions, quelque chose comme des organismes femelles qui ont la capacité de recombiner l’ADN institutionnel de provenance diverse et donner ainsi naissance à des institutions nouvelles.

Ma deuxième hypothèse est celle que j’avais déjà discuté quelque peu dans un article publié en 2017 : les changements technologiques de la civilisation humaine ont pour fonction biologique essentielle de maximiser l’absorption d’énergie de l’environnement. Pourquoi est-ce important ? C’est une grande fascination intellectuelle que j’ai progressivement développée, très largement sous l’influence de Fernand Braudel et son œuvre remarquable intitulée « Civilisation et Capitalisme ». Comme je lisais et relisais plusieurs fois ce livre, je m’étais rendu compte que toute forme de civilisation humaine est essentiellement composée des technologies d’utilisation d’énergie accessible dans l’environnement – tout comme des technologies d’acquisition de nourriture – et que nos structures sociales manifestent la façon dont ces technologies marchent. En plus, le vent et l’eau – qu’aujourd’hui nous appelons « énergies renouvelables » et considérons comme une innovation – avaient formé la base de ce que nous connaissons aujourd’hui comme civilisation européenne.

J’ai donc deux hypothèses qui donnent une convergence intéressante : comme civilisation, développons-nous des institutions qui nous servent à expérimenter avec des solutions nouvelles pour maximiser notre absorption collective d’énergie ? Et voilà, boum, il y a ce troisième truc, le projet que je conceptualise, pour le moment, sous le nom d’Étangs Énergétiques. Vous pouvez consulter « La marge opérationnelle de $1 539,60 par an par 1 kilowatt » à propos de mes derniers progrès sur le sujet. Je travaille sur ce concept de deux points de vue différents : pratique et scientifique. D’une part, je m’applique à mettre au point un projet de développement d’énergies renouvelables à travers le Navigateur des Projets, accessible à travers la page de « International Renewable Energy Agency ». Les énergies renouvelables en question c’est bien sur l’électricité produite par les turbines hydroélectriques installées dans l’infrastructure d’Étangs Énergétiques. Le Navigateur des Projets est fortement orienté sur la faisabilité économique, financière et politique de l’idée en question : pour qu’un projet soit exécutable, il faut une argumentation solide et claire à l’attention d’acteurs sociaux impliqués. Cette argumentation doit aller de pair avec une idée claire de l’appropriation du projet : un groupe social bien cerné, avec des décideurs bien définis, doit être capable d’approprier aussi bien les ressources nécessaires au projet que les résultats obtenus. Le principe de base est que des projets non appropriés, avec contrôle flou sur les ressources et les résultats, sont les premiers à échouer.

Pour le moment, j’ai deux arguments principaux en faveur de mon idée. Premièrement, même ce qui se passe cet été – des vagues de chaleur, sécheresse agricole, inondations locales – nous montre que le changement climatique nous force à repenser et rebâtir nos infrastructures hydrologiques. Nous ferions bien d’apprendre des trucs nouveaux en ce qui concerne la rétention de l’eau de pluie et son utilisation ultérieure. Le danger le plus grave – côté hydrologie – est une perturbation de plus en plus profonde du marché agricole en Europe. Deuxièmement, la quantité d’eau de pluie qui tombe sur l’Europe, si utilisée de façon adéquate, c’est-à-dire si on la fait passer à travers de turbines hydroélectriques, représente une quantité énorme d’énergie. Nous avons donc un danger sérieux d’une part et des gains possibles d’autre part.

Bon, donc ça, c’est un bref résumé des sujets que je travaille dessus en ce moment. Maintenant, je veux utiliser mon journal de recherche, tel que je le présente sur mon blog, pour passer en revue ce que j’ai lu et appris sur les deux trucs, donc le gros bouquin théorique et le projet pratique. Une fois de plus je me sers de mon blog comme outil de mise en ordre. Je commence avec la théorie de changement technologique, l’intelligence collective et l’intelligence artificielle. J’ai fait un petit saut du côté des sciences humaines : psychologie, neurophysiologie etc. J’ai pu constater que – probablement sous l’impulsion des développements récents de l’intelligence artificielle – une nouvelle discipline syncrétique est née : la théorie générale de l’intelligence et de la connaissance. Le soi-disant modèle de Bignetti en est un bon exemple (consultez, par exemple, Bignetti 2014[1]; Bignetti et al. 2017[2]; Bignetti 2018[3]). Ce modèle met un peu de désordre créatif dans la distinction entre l’action et la connaissance. Cette dernière est définie comme une expression consciente de l’expérience, pendant que le terme « action » est étendu sur tout ce qui est, précisément, l’expérience d’une entité intelligente. Le modèle de Bignetti est un véhicule théorique très général qui sert à expliquer le paradoxe de l’action apparemment inconsciente. Nous, les individus, aussi bien que nous, les collectivités, nous accomplissons tout un tas d’action que nous ne sommes pas capables d’expliquer rationnellement. Enrico Bignetti, professeur émérite de biochimique et de biologie moléculaire de l’université de Parme, pose la thèse que l’expérience consciente de soi ainsi que celle de volonté individuelle et de libre arbitre sont des illusions que notre cerveau crée dans les premiers mois de notre enfance pour faire l’action plus efficiente. Ces illusions servent à mettre de l’ordre dans la masse d’informations que notre cerveau reçoit et traite.

Moi, de mon côté, je pars d’une assomption simple, apparentée à la ligne de raisonnement de professeur Bignetti : une société humaine est une collectivité des systèmes nerveux individuels, une collectivité des cerveaux, pour ainsi dire. Il est donc logique que la façon dont la société fonctionne est en partie déterminée par le fonctionnement de ces cerveaux individuels. Il y a cette observation classique, à la limite de la science et du simple bon sens, qu’une partie substantielle de notre système nerveux sert presque exclusivement à faire fonctionner les relations sociales et ça marche dans la direction opposée aussi : les relations sociales sont ce qui fait marcher la même partie substantielle de notre système nerveux. C’est une intuition que Charles Darwin avait déjà exprimée dans son livre « The Expression of The Emotions In Man And Animals »[4] et que Émile Durkheim avait traité sous un angle sociologique dans « Les règles de la méthode sociologique ». Il y a donc une connexion fonctionnelle entre ce que font nos neurones et ce que fait un ministère. Question : si les neurones d’un cerveau individuel sont capables d’intelligence individuelle, quel genre d’intelligence pouvons-nous espérer de la part des neurones assemblés dans la multitude des cerveaux individuels d’une société humaine ?

J’ai trouvé une ligne de raisonnement intéressante chez Hassabis et al. (2017[5]).Intelligence artificielle permet de créer un nombre indéfiniment grand de solutions possibles, mais l’utilisation de la neurophysiologie peut être utile dans la sélection des solutions qui ont soit la valeur de similitude par rapport au système nerveux humain soit celle de nouveauté complète par rapport à la structure neurale humaine. Dans ce contexte, il est intéressant de se poser la question ontologique : comment est-ce que l’intelligence artificielle existe ? Lorsqu’un réseau neuronal marche, donc lorsque son algorithme prouve son utilité fonctionnelle, la structure logique de ce réseau neuronal existe-t-elle de la même façon que les idées existent ?

Je suis allé un peu plus loin dans l’étude d’algorithmes d’intelligence artificielle en tant que telle. Je me suis concentré sur trois types d’algorithmes qui sont en quelque sorte les piliers d’apprentissage profond : le mélange Gaussien, la forêt aléatoire et les algorithmes d’accélération d’apprentissage, donc Adam et DQN. Je vais brièvement discuter leur logique de base. Le mélange Gaussien d’abord. Tout comme les deux autres, j’ai copié celui-là de GitHub. Plus exactement, j’ai pris comme exemple le mélange Gaussien formalisé comme https://github.com/rushter/MLAlgorithms/blob/master/examples/gaussian_mixture.py .

Notre culture, à commencer par notre langage, est basée sur la catégorisation. Nous avons besoin de nommer les choses et pour les nommer, nous avons besoin d’établir le lien logique entre des ensembles des phénomènes observables et des catégories pour les grouper. C’est ainsi que des arbres deviennent « les arbres » et des chaises deviennent « les chaises ». Nous avons même une partie distincte de notre cerveau responsable de cette fonction de nominalisation : le soi-disant sentier synaptique ventral (Mishkin et al. 1983[6] ; Grossberg 2017[7]) qui est le seul à faire ça et ne fait que ça. Si nous voulons penser quoi que ce soit de complexe, genre « quoi faire ? », c’est toujours « quoi faire avec le truc tel et tel ? » ou « quoi faire à propos de X ? ». Notre cerveau sépare la partie « faire » de la partie « truc tel et tel, X pour les amis ». Cette dernière est toujours traitée par le sentier synaptique ventral et tout ce qui reste – donc la partie « faire à propos… » – c’est le boulot d’autres parties du cerveau.  

Le mélange Gaussien produit des catégories de façon probabiliste à partir des données empiriques données au réseau neuronal doté dudit mélange. La méthode générale est basée sur le concept de similarité entre phénomènes, seulement il est approché sous un angle rigoureusement mathématique. Intuitivement, lorsque nous parlons de similarité entre plusieurs phénomènes, nous pouvons penser à les comparer deux par deux. Seulement, ce n’est pas nécessairement la meilleure idée point de vue efficacité et en plus, il est possible que cette approche intuitive ne représente pas la façon dont notre propre cerveau marche.  Nous pouvons représenter les décisions collectives d’une société humaine comme un ensemble des choix simples, comparable au choix qu’un chimpanzé fait entre deux boîtes, en fonction de la présence espérée d’un fruit dans l’une d’elles. La théorie des jeux va dans cette direction. Néanmoins l’application de l’intelligence artificielle apporte ici une contribution originale. Dans l’article par Garnelo et Shanahan (2019[8]) nous pouvons voir les résultats des tests d’intelligence effectués par un réseau neuronal dans deux structures logiques alternatives : relationnelle, donc similaire au choix du chimpanzé d’une part et auto-attentive d’autre part. La structure auto-attentive marche comme un individu introspectif : le réseau neuronal observe ses propres décisions et prend cette observation en compte lorsqu’il expérimente avec des nouvelles décisions. Le réseau neuronal résout donc le test d’intelligence selon deux logiques différentes : comme une séquence des choix simples ou bien comme un processus complexe de raisonnement. Apparemment, selon Garnelo et Shanahan (2019) la méthode complexe marche mieux et le réseau neuronal score plus de points au test.

Essayons de formaliser une méthode de catégorisation des phénomènes qui utilise cette notion d’auto-attention. Je retourne vers les maths. J’ai donc un ensemble des données empiriques brutes qui servent comme matériel d’apprentissage à un réseau neuronal. Je veux grouper ces données en des catégories aussi fonctionnelles que possible vu l’objectif que je me pose. Bon, faudrait donc le poser vraiment, cet objectif. Comme je l’avais écrit plusieurs fois sur ce blog, l’objectif d’un réseau neuronal consiste à minimiser l’écart entre une valeur qu’il calcule lui-même à travers la fonction d’activation neurale et une valeur arbitraire fixée par l’utilisateur. Si je veux programmer un robot intelligent pour disposer des paquets dans un entrepôt et je veux que ledit robot apprenne à utiliser l’espace de stockage de façon la plus efficiente possible, je lui fais minimiser l’écart entre le volume total des paquets stockés et le volume géométrique de l’entrepôt.

Je formalise donc l’objectif à atteindre comme un vecteur composé d’une ou plusieurs valeurs numériques. J’assume que pour atteindre cet objectif, mon réseau neuronal doit grouper les données de départ en des catégories. Je me tiens à l’exemple du robot d’entreposage et j’assume qu’il doit grouper 10 000 paquets à entreposer dans des catégories qui correspondent à des piles de stockage. Une pile de stockage est un ensemble des paquets superposés l’un sur l’autre, accessible au charriot robotisé de chaque côté. Je veux que le réseau neuronal trouve une telle disposition des paquets en des piles de stockage qui satisfasse l’objectif de gestion optimale d’espace de stockage. Chacun des 10 000 paquets aura donc finalement un vecteur de coordonnées qui va décrire son attribution à une pile de stockage donnée. Seulement voilà, les piles de stockage elles-mêmes ne sont pas encore définies et positionnées. Apparemment, on fait face à un problème en boucle : chaque paquet doit trouver sa place dans une pile de stockage donnée mais les piles de stockage doivent être définies en termes des paquets précis qu’ils vont contenir. En plus, ‘y a ces questions stupides qui viennent à l’esprit. Toutes les piles de stockage doivent-elles être de la même taille et même masse ou bien vaudrait-il mieux les différencier à cet égard ?

Nous pouvons généraliser le problème de stockage. Tenons une population de 500 000 personnes dans une ville de taille moyenne et simulons la transition de leur base énergétique vers un réseau dispersé des nœuds locaux composés de petites turbines éoliennes et hydrauliques accompagnées par des stations des panneaux photovoltaïques. Je sais qu’à la longue, les nœuds locaux d’approvisionnement en énergie vont s’adapter aux populations locales et vice versa. Je veux prévoir les « vice versa » possibles et je veux trouver le plus efficient de parmi eux. Je sais que cela veut dire simuler des sentiers différents d’adaptation mutuelle. La distribution des installations énergétiques à travers la structure spatiale de la ville est un problème similaire à la disposition spatiale d’un nombre fini des paquets dans l’espace fini d’un entrepôt. Côté maths, le problème peut être exprimé comme une relation entre deux ensembles des valeurs numériques : un ensemble des vecteurs décrivant les sources locales d’énergies renouvelables et un autre ensemble des vecteurs qui décrivent les groupements locaux d’habitants de la ville.

Je retourne à la dualité signalée chez Garnelo et Shanahan (2019). Je peux approcher le problème de groupement spatial de deux façons différentes. La plus simpliste est la comparaison en paires. Pour chaque paquet je compare son entreposage dans des endroits alternatifs à l’intérieur de l’entrepôt, ce qui me conduit à comparer l’efficience des groupements alternatifs des paquets en des piles de stockage etc. Ça fait un tas des comparaisons et le problème c’est que si je trouve quelque chose qui marche définitivement mal, il faut que je recule dans de plusieurs pas dans la chaîne des comparaisons et que je recommence. Le mélange Gaussien permet de raccourcir le chemin et de le simplifier.

Avant de discuter la méthode de mélange Gaussien plus en détail, je vais rappeler brièvement l’approche Gaussienne en général. Nous vivons dans une réalité où les trucs qui semblent intuitivement vraisemblables surviennent plus fréquemment que du quasi-fantastique. Si je joue au LOTTO, toucher deux nombres corrects dans trois tirages en trois mois est plus vraisemblable et plus probable que toucher la grosse cagnotte de 6 nombres dans chaque tirage sur la même période. C’est une réalité binomiale et elle se comporte de façon conforme au   théorème de de Moivre – Laplace donc comme une vigne : les phénomènes de cette réalité convergent pour forment des grappes distinctes. Au centre de chaque grappe nous retrouvons les phénomènes relativement les plus fréquents et vraisemblables pendant que les occurrences plus extrêmes sont à trouver dans les couches externes et superficielles de chaque grappe. La neurophysiologie, en particulier la théorie de résonance adaptative nous suggère que notre cerveau expérimente avec plusieurs partitions possibles, en des grappes distinctes, de la réalité observée (Grossberg 2017, par exemple). À la suite de cette expérimentation, notre cerveau choisit la partition dont la structure prouve d’être la plus fonctionnelle eu égard aux objectifs fixés. Mathématiquement, cela veut dire que le réseau neuronal dôté de mélange Gaussien génère une série des valeurs qui sont considérées provisoirement comme les valeurs moyennes espérées d’autant des distributions normales locales, donc d’autant de grappes des phénomènes, donc autant des géographies possibles des turbines éoliennes dans une ville, donc d’autant des piles de stockage dans cet entrepôt d’il y a quelques paragraphes. Est-ce la disposition spatiale ainsi obtenue à l’intérieur de l’entrepôt celle qui donne la meilleure utilisation de l’espace ? Allons voir : répétons l’expérience avec plusieurs séries possibles des moyennes locales, donc avec plusieurs partitions possibles de la réalité en des distributions normales locales.

La catégorisation des phénomènes de réalité est un pas sur le sentier d’adaptation intelligente, un peu comme je l’avais décrit, il y a deux ans, dans « Deux lions de montagne, un bison mort et moi ». Les algorithmes d’intelligence artificielle rendent possible l’observation non seulement de la façon dont une structure intelligente groupe les phénomènes observées en catégories, mais aussi de la manière d’expérimenter avec plusieurs sentiers alternatifs de décision. La forêt aléatoire est le type d’algorithme qui utilise le même principe – générer plusieurs ensembles des valeurs aléatoires et les utiliser comme autant des visions alternatives de réalité afin de choisir la plus efficiente des toutes – pour simuler des différents sentiers décisionnels. Comme exemple pratique d’algorithme j’ai pris celui accessible à https://github.com/rushter/MLAlgorithms/blob/master/examples/random_forest.py. Je suis un officier de sécurité dans un grand aéroport. Je vois défiler devant moi des milliers des passagers. Je viens de recevoir un tuyau qu’une personne parmi ces milliers est un terroriste. J’ai besoin de penser vite comment la pêcher dans toute cette foule et très probablement, j’aurai la possibilité de tester mes intuitions juste une fois. Si j’échoue, le gars va soit attaquer soit s’évanouir dans le paysage.

Ici, la différence entre l’intelligence humaine et les réseaux neuronaux est très visible. Ces derniers peuvent simuler une décision à haute incertitude – comme celle comment trouver un terroriste – comme compétition entre plusieurs sentiers décisionnels possibles. Mathématiquement, une décision complexe est un arbre décisionnel : si A, alors B et ensuite F s’impose plutôt que G etc. Lorsque j’ai un ensemble des phénomènes décrits comme données numériques digestes pour un réseau neuronal, je peux créer un nombre indéfini d’arbres décisionnels pour connecter ces phénomènes dans des implications logiques. Je peux tester chaque arbre point de vue exactitude, vitesse de décision etc. C’est comme ça que marche l’algorithme de forêt aléatoire. Question : comment savoir quel arbre décisionnel marche le mieux ? Je sais par expérience que même un réseau neuronal relativement simple peut achever une exactitude poussée dans l’estimation de la variable de résultat tout en se balançant dans des valeurs tout à fait faramineuses en ce qui concerne les variables d’entrée. Une fois de plus, on semble être dans une boucle, puisque l’évaluation de la valeur pratique d’un arbre décisionnel est un arbre décisionnel en soi. La forêt aléatoire résout ce problème en incluant un ensemble de données de contrôle, où l’optimisation avait déjà été faite et nous savons ce qu’un arbre décisionnel vraiment efficace peut faire avec. Les arbres décisionnels aléatoires sont priés de traiter ces données de contrôle et nous observons lequel de parmi ces arbres tombe le plus près du résultat déjà pré-calculé.

Je me demande quelle peut bien être l’utilité de ces algorithmes que je viens d’esquisser, donc le mélange Gaussien et la forêt aléatoire, dans l’étude de l’intelligence collective des sociétés humaines. Intuitivement, je perçois ces algorithmes comme très objectifs et rationnels en comparaison aux décisions collectives humaines. Dans la vie réelle, nous venons très vite au point quand nous voulons tellement passer aux actes – sous l’impulsion d’une urgence subjectivement perçue – que nous limitions l’éventail d’options possibles dans nos décisions. Lorsque les décisions collectives deviennent des décisions politiques et alors il devient très délicat de suggérer qu’un arbre décisionnel donné n’est pas vraiment le sommet de la logique. Les décisions collectives réelles semblent nettement plus biaisées que celles prises avec l’utilisation du mélange Gaussien ou de la forêt aléatoire. Ces algorithmes peuvent donc servir à évaluer le biais décisionnel.

Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund (aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ? Vous pouvez me contacter à travers la boîte électronique de ce blog : goodscience@discoversocialsciences.com .


[1] Bignetti, E. (2014). The functional role of free-will illusion in cognition:“The Bignetti Model”. Cognitive Systems Research, 31, 45-60.

[2] Bignetti, E., Martuzzi, F., & Tartabini, A. (2017). A Psychophysical Approach to Test:“The Bignetti Model”. Psychol Cogn Sci Open J, 3(1), 24-35.

[3] Bignetti, E. (2018). New Insights into “The Bignetti Model” from Classic and Quantum Mechanics Perspectives. Perspective, 4(1), 24.

[4] Darwin, C., & Prodger, P. (1998). The expression of the emotions in man and animals. Oxford University Press, USA.

[5] Hassabis, D., Kumaran, D., Summerfield, C., & Botvinick, M. (2017). Neuroscience-inspired artificial intelligence. Neuron, 95(2), 245-258.

[6] Mishkin, M., Ungerleider, L. G., & Macko, K. A. (1983). Object vision and spatial vision: two cortical pathways. Trends in neurosciences, 6, 414-417.

[7] Grossberg, S. (2017). Towards solving the hard problem of consciousness: The varieties of brain resonances and the conscious experiences that they support. Neural Networks, 87, 38-95.

[8] Garnelo, M., & Shanahan, M. (2019). Reconciling deep learning with symbolic artificial intelligence: representing objects and relations. Current Opinion in Behavioral Sciences, 29, 17-23.

Mémoires du cycliste reconverti

Mon éditorial sur You Tube

Je réfléchis sur les tendances que j’observe dans le secteur d’énergie. Je reformule ce que je viens de signaler dans « Lean, climbing trends » : le côté consommation d’énergie change selon un schéma très différent du côté production d’énergie. Côté consommation, nous pouvons observer des tendances relativement stables et croissantes, centrées autour deux indicateurs : de la consommation d’énergie par tête d’habitant et du pourcentage de la population avec accès à l’électricité. Côté production, c’est structurellement différent. Les carburants fossiles, le nucléaire, l’hydraulique, l’éolien, le solaire : notre activité agrégée avec toutes ces sources d’énergie semble être un assemblage un peu aléatoire d’expérimentations plus ou moins indépendantes l’une de l’autre.

Lorsque je me pose des questions sur l’intelligence collective, je retourne vers l’intelligence individuelle et celle qui est la plus proche est la mienne. Je viens de me rendre compte que pendant les deux dernières années, j’ai radicalement changé mon mode de vie, pour un mode nettement plus éco qu’auparavant, seulement le truc marrant c’est que je n’avais pas du tout l’intention de devenir plus éco. Ça avait tout commencé avec le vélo. J’avais commencé à circuler à travers la ville à vélo. Très vite, j’ai découvert ce sens spécial de liberté que le vélo donne dans l’environnement urbain. Mon cerveau a commencé à associer la voiture avec une claustration forcée plutôt qu’avec la liberté de déplacement. Bientôt, j’avais commencé à me rendre à vélo à mon lieu de travail – l’université – quelques 10 km de mon domicile. Ma bagnole, elle passait de plus en plus de temps garée à côté de la maison.

L’hiver dernier était ce que les hivers sont devenus, donc une sorte d’automne un peu froid. Voilà que j’ai découvert que rouler à vélo par un temps comme ça, lorsque la température est à peine au-dessus de zéro, donne une injection folle d’endorphines. C’était carrément enivrant et je peux vous dire qu’à la cinquantaine, faire 20 km aller-retour à vélo et se sentir bien après, c’est une découverte en soi. Comme je prenais de plus en plus l’habitude du vélo, je m’étais rendu compte que mon style de vie change. Lorsque je faisais mes courses, sur le chemin de retour de la fac, j’achetais ce que je pouvais transporter dans les sacoches de derrière de mon vélo plus ce que je pouvais fourrer dans mon sac à dos, où je transporte ma tenue de travail : veste, chemise, pantalons de ville. Le vélo m’avait obligé à économiser sur le volume de mes course quotidiennes et le truc intéressant est que ce volume réduit était tout à fait suffisant. Je me suis rendu compte qu’une partie substantielle de ce que j’achète en me déplaçant en voiture, eh bien, je l’achète juste parce que je peux (j’ai de l’espace cargo disponible) et non parce que j’en ai vraiment besoin.

J’ai fait mes calculs. J’ai utilisé la page https://www.carbonfootprint.com pour calculer les émissions de CO2 de ma voiture et voilà : une journée de déplacement à vélo, avec mon Honda Civic m’attendant gentiment à la maison, se traduit en des économies de 4,5 kilogrammes de dioxyde de carbone. Selon les données de la Banque Mondiale[1], en 2014, chez moi, en Pologne, les émissions de CO2 par tête d’habitant étaient de 7,5 tonnes par an, contre une moyenne mondiale de 4,97 tonnes par an. Le transport correspond à environ 20%[2] de ces émissions, donc à 1,5 tonnes par an, soit 4,1 kilogrammes par jour en moyenne. Ces 4,5 kilo de CO2 par jour, ça a donc l’air cohérent avec le style de vie d’un Polonais moyen.

Mes économies sur les courses journalières, lorsque je pédale, ça fait à peu de choses près €30 par semaine. En utilisant encore une fois la page https://www.carbonfootprint.com je l’ai recalculé en 4,5 kilogrammes de CO2 économisés par jour. Ça alors ! De tout en tout, une journée à vélo, dans mon contexte social précis, semble correspondre à quelques 9 kilogrammes de CO2 de moins, par rapport à la même journée en bagnole. Les moins ont des plus, remarquez. Lorsque je pédale, j’amortis physiquement ma bicyclette. Chaque kilomètre me rapproche du moment de la révision annuelle aussi bien que du moment où il sera nécessaire de changer de vélo ou bien de rénover radicalement celui que j’ai maintenant (Gazelle Chamonix C-7). J’ai utilisé les calculs présentés à la page https://momentummag.com/how-green-is-your-bicycle-manufacturing/ plus la calculatrice de conversion des kilojoules d’énergie en du CO2 émis et ça a donné 150 grammes de CO2 par jour en équivalent d’amortissement physique de ma bicyclette.

De tout en tout, une journée ouvrable passée en mode vélo correspond, dans mon style de vie individuel, à une réduction nette d’émissions d’environ 9 – 0,15 = 8,85 kg de CO2. J’ai récréé mon agenda de l’année 2018 et ça a donné quelques 130 jours ouvrables lorsque je remplaçais la voiture avec le vélo. Remarquez, lorsque le temps devient suffisamment hivernal pour qu’il y ait une couche de vieille neige ou du verglas sur les sentiers cyclistes, je me rends. Je me suis déjà cassé la gueule quelques fois dans des conditions comme ça et j’ai appris que le vélo a ses limites. Quoi qu’il en soit, les 130 jours en 2018 correspondent à une réduction individuelle d’émissions de CO2 équivalente à environ 1,15 tonnes, soit de 15,3% par rapport aux émissions annuelles moyennes par tête d’habitant en Pologne.

Voilà donc que j’ai changé de mode de transport et ceci m’a poussé à modifier mon style de consommation. De plus en plus éco à chaque pas. Seulement, ce n’était pas mon but. Ça avait tout commencé parce que je voulais me déplacer d’une façon plus confortable et j’en avais marre de passer du temps dans les embouteillages. Très honnêtement, je ne pensais pas beaucoup à l’environnement. J’étais très loin du type Capitaine Planète. Bien sûr, je savais qu’en laissant ma voiture roupiller paisiblement chez moi, j’économise du carburant, mais c’étaient des pensées vagues. Ça s’était passé tout seul. Chaque petit changement en entraînait un autre, comme je recevais des récompenses momentanées. Aucune privation consciente. C’était une revisite du côté de chez Adam Smith : en suivant des fins égoïstes j’avais accompli un changement favorable à l’environnement.

Mon environnement m’a offert des stimuli pour changer mon style de vie. Imaginons des milliers de personnes comme moi. Des petites découvertes quotidiennes, des petits changements personnels suivis par des récompenses immédiates : l’environnement urbain donné offre un ensemble fini de telles récompenses. Eh bien, oui, c’est fini en volume, ces récompenses. Si dès maintenant 50 000 personnes dans ma ville (Krakow, Pologne) font le même changement que moi j’avais fait, les sentiers cyclistes seront complètement bouchés et les récompenses, ça va devenir beaucoup plus problématique. Au moment donné, la ville relâche un nuage diffus et néanmoins fini en volume des récompenses comportementales qu’un certain nombre de cyclistes peut absorber et ça provoque un changement de style de vie.

J’essaie d’être plus précis. La population officielle de la ville de Krakow c’est environ 800 000 personnes. Avec les immigrés non-registrés comme résidents permanents ainsi qu’avec les migrants journaliers qui viennent des localités satellites, comme moi je le fais, j’estime la population totale réelle de ma ville bien aimée à quelques 1 200 000 personnes. Cette population coexiste avec environ 230 km des sentiers cyclistes ainsi qu’avec une flotte automobile (toutes catégories prises ensemble) de 570 000 à peu près. Chaque addition à la flotte automobile crée un renforcement négatif en ce qui concerne l’utilisation individuelle de la voiture et en même temps un renforcement positif indirect pour penser à quelque chose d’autre. Chaque addition à la longueur totale des sentiers cyclistes produit du renforcement positif en faveur de circulation à vélo. En termes de production de ces stimuli, la ville de Krakow avait produit, durant la période de 2011 à 2018, 122 kilomètres additionnels des sentiers cyclistes et une flotte additionnelle d’environ 115 000 automobiles. Cette combinaison des renforcements négatifs vis-à-vis de la voiture et positifs vis-à-vis de la bicyclette. Résultat : en 2016, selon les données du Conseil Municipal, environ 90 000 personnes utilisaient le vélo comme moyen de transport plus ou moins régulier et l’année dernière, en 2018, le chiffre pouvait même atteindre 200 000 personnes.

Plusieurs fois dans ma vie, j’ai eu cette impression étrange que les grandes villes sont comme des organismes vivants. Ce sentiment devient particulièrement vivace lorsque j’ai l’occasion d’observer une grande ville la nuit, ou même mieux, à l’aube, à partir d’un point d’observation élevé. En 2013, j’ai eu l’occasion de contempler de cette façon le panorama de Madrid, lorsque la ville se réveillait. L’impression que je vois une énorme bête qui s’étire et dont le sang (le flux de trafic routier) commence à couler plus vite dans les veines était si poignante que j’avais presque envie de tendre la main et de caresser la crinière du géant, faite d’un alignement des hauts immeubles. Une ville relâche donc un flux des stimulants : plus d’automobiles dans les rues et donc plus de densité de trafic accompagnés de plus des sentiers cyclistes et donc plus de confort de déplacement à vélo. Remarquez : une géographie concrète de trafic routier et des sentiers cyclistes, en vue d’oiseau et aussi en une vue mathématique probabiliste, c’est comme un nuage d’infrastructure qui se superpose à un nuage des personnes en mouvement.

Les habitants répondent sélectivement à ce flux des stimulants en accomplissant un changement progressif dans leurs styles de vie. Voilà donc qu’une fois de plus je réfléchis sur le concept d’intelligence collective et je suis de plus en plus enclin à la définir selon les grandes lignes de la théorie d’essaim. Consultez « Ensuite, mon perceptron réfléchit » ou bien « Joseph et le perceptron » pour en savoir plus sur cette théorie. Je définis donc l’intelligence collective comme l’action collective coordonnée par la production et dissémination d’un agent systémique similaire à une hormone, qui transmet l’information d’une façon semi-visée, où le destinataire de l’information est défini par la compatibilité de ses facultés perceptives avec les propriétés de l’agent systémique-même. Tout membre de la société qui possède les caractéristiques requises peut « lire » l’information transmise par l’agent systémique. Les marchés financiers me viennent à l’esprit comme l’exemple les plus illustratif d’un tel mécanisme, mais nous pouvons chercher cette composante « hormonale » dans tout comportement social. Tenez, le mariage. Dans notre comportement conjugal il peut y avoir des composantes – des petites séquences comportementales récurrentes – dont la fonction est de communiquer quelque chose à notre environnement social au sens large et ainsi provoquer certains comportements chez des personnes dont nous ne savons rien.

Je reviens vers de sujets un peu moins compliqués que le mariage, donc vers le marché de l’énergie. Je me dis que si je veux étudier ce marché comme un cas d’intelligence collective, il faut que j’identifie un ou plusieurs agents systémiques. L’argent et les instruments financiers sont, une fois de plus, des candidats évidents. Il peut y en avoir d’autres. Voilà que je peux esquisser l’utilité pratique de ma recherche sur l’application de l’intelligence artificielle pour simuler l’intelligence collective. Le truc le plus évident qui me vient à l’esprit c’est la simulation des politiques climatiques. Tenez, par exemple l’idée de ces chercheurs des États-Unis, surtout du côté de Stanford University, en ce qui concerne une capture profitable du carbone (Sanchez et al. 2018[3] ; Jackson et al. 2019[4]). Jackson et al prennent un angle original. Ils assument que l’humanité produit du dioxyde de carbone et du méthane, qui sont tous les deux des gaz à effet de serre, seulement le méthane, ça serre 84 fois plus que le dioxyde de carbone. Si on convertit le méthane en dioxyde de carbone, on change un agent nocif plus puissant en un agent beaucoup plus faible. Toujours ça de gagné et en plus, Jackson et al déclarent d’avoir mis au point une méthode profitable de capter le méthane produit dans l’élevage des bovins et le transformer en dioxyde de carbone, à travers l’utilisation de la zéolithe. La zéolithe est une structure cristalline rigide d’aluminosilicate, avec des cations et des molécules d’eau dans les espaces libres. Le méthane généré dans l’élevage est pompé, à travers un système des ventilateurs et des grandes plaques poreuses de zéolithe. La zéolithe agit comme un filtre, qui « casse » les molécules de méthane des molécules de dioxyde de carbone.

Jackson et al suggèrent que leur méthode peut être exploitée à profit. Il y a un petit « mais » : à profit veut dire « à condition » est la condition c’est un marché des compensations carbone où le prix d’une tonne serait d’au moins $500. Je jette un coup d’œil sur le marché des compensations carbone tel qu’il est maintenant, selon le rapport publié par la Banque Mondiale : « State and Trends of Carbon Pricing 2018 ». Le marché se développe assez vite. En 2005, toutes les initiatives des compensations carbone dans le monde correspondaient à environ 4% de l’émission totale des gaz de serre. En 2018, ça faisait déjà quelques 14%, avec près de 20% à espérer en 2020. Seulement côté prix, le max des max, soit l’impôt Suédois sur les émissions, ça faisait $139 par tonne. La médiane des prix semble être entre $20 et $25. Très loin des $500 par tonne dont la méthode de Jackson et al a besoin pour être profitable.

Sanchez et al (2018) prennent une approche différente. Ils se concentrent sur des technologies – ou plutôt des ensembles complexes des technologies dans des industries mutuellement intégrées – qui rendent possible la vente du CO2 produit dans l’une de ces industries à l’autre. Le marché industriel du dioxyde de carbone – par exemple dans la production de la bière – est estimé à quelques 80 tonnes par an de CO2 liquide. Pas vraiment énorme – une centaine des cyclistes reconvertis comme moi font l’affaire – mais c’est toujours quelque chose de gagné.           

Ces idées que je viens de mentionner peuvent un jour se composer en des politiques publiques et alors il sera question de leur efficacité tout comme à présent nous nous posons des questions sur l’efficacité des soi-disant « politiques climatiques ». Vue mathématiquement, toute politique est un ensemble des variables, structurées en des résultats espérés d’une part et les outils ainsi que des déterminantes externes d’autre part. Cette perspective rend possible l’expression des politiques comme algorithmes d’intelligence artificielle. Les résultats c’est ce que nous voulons avoir. Disons que ce que nous voulons est une efficience énergétique « EE » – donc le coefficient du PIB divisé par la quantité d’énergie consommée – plus grande de 20% du niveau présent. Nous savons qu’EE dépend d’un ensemble de « » facteurs, dont nous contrôlons certains pendant qu’il est raisonnable d’en considérer d’autres comme exogènes.

J’ai donc une équation dans le style : EE = f(x1, x2, …, xn). Dans ce que nous pouvons appeler calcul stochastique classique il est question de chercher une expression linéaire la plus précise possible de la fonction f(x1, x2, …, xn), soit quelque chose comme EE = a1*x1 + a2*x2 + … + an*xn. Cette approche sert à déterminer quelle serait la valeur la plus probable d’EE avec un vecteur donné des conditions (x1, x2, …, xn). Cette tendance centrale est basée sur la loi de Vue sous un autre angle, la même politique peut s’exprimer comme un ensemble de plusieurs états hypothétiques et équiprobables de nature, donc plusieurs configurations probables de (x1, x2, …, xn) qui pourraient accompagner cette efficience énergétique désirée d’EE(t1) = 1,2*EE(t0). C’est alors que l’intelligence artificielle peut servir (consultez, par exemple « Existence intelligente et pas tout à fait rationnelle »)

Je me demande comment interpréter ces phénomènes et mon esprit s’aventure dans une région adjacente : la bouffe. Pardon, je voulais dire : l’agriculture. Il y a une différence nette entre l’Europe Septentrionale et l’Europe Méridionale, en ce qui concerne l’agriculture. Par l’Europe Méridionale je comprends surtout les grandes péninsules méditerranéennes : l’Ibérique, l’Apennine et le Péloponnèse. L’Europe du Nord, c’est tout ce qui se trouve plus loin de la Méditerranée. Dans le Sud, il y a beaucoup moins de production animale et la production végétale est centrée sur les fruits, avec relativement peu de plantes céréalières et peu des légumes-racines (pommes de terre, betteraves etc.). Dans le Nord de l’Europe, c’est presque exactement l’inverse : l’agriculture est dominée par les céréales, les légumes-racine et la production animale.

Les céréales et les légumes-racines, ça pousse vite. Je peux décider pratiquement d’année en année de l’utilisation exacte d’un champ donné. Les betteraves ou le blé, je peux les déplacer d’un champ à l’autre, d’année en année, presque sans encombre. Qui plus est, dans l’agriculture européenne traditionnelle du Nord, c’est ce qu’on était supposé de faire : de la rotation des cultures, appelée aussi « système d’assolement ». En revanche, les arbres fruitiers, ça pousse lentement. Il faut attendre des années avant qu’une plantation nouvelle soit mûre pour la production. Il est hors de question de déplacer des plantations fruitières d’une saison agriculturale à l’autre. Le modèle du Nord donne donc plus de flexibilité en termes d’aménagement du sol arable. Cette flexibilité va plus loin. La récolte des céréales, ça peut se diviser d’une façon élastique entre plusieurs applications : tant pour la consommation courante humaine, tant pour consommation humaine future, tant pour le fourrage et tant pour le semis l’année prochaine. Pour les légumes-racines, c’est un peu plus compliqué. Pour les patates, la meilleure solution c’est de replanter une pomme de terre déjà récoltée : elle sera plus prévisible.

Pour les carottes, il faut récolter les graines séparément et les replanter après. En tout, les cultures végétales du Nord, ça se conserve bien et ça se rend à des utilisations multiples.

En revanche, dans le Sud et ses cultures fruitières dominantes, c’est différent. Les fruits, avec l’exception des très succulents – comme les citrouilles ou les courges – ça se conserve mal hors d’une chambre froide et c’est l’une des raisons pourquoi il est problématique de nourrir des animaux de ferme avec. Voilà le point suivant : le Nord de l’Europe, ça abonde en élevage animal et donc en protéines et graisses animales. Tous les deux sont très nutritifs et en plus, la graisse animale, ça conserve bien les protéines animales. Eh oui, c’est la raison d’être du saucisson : les acides gras saturés, puisqu’ils sont saturés et donc dépourvus des liens chimiques libres, fonctionnent comme un ralentisseur des réactions chimiques. Un saucisson c’est de la viande (protéines) enveloppée dans de la graisse animale, qui empêche lesdites protéines de s’engager dans des liaisons douteuses avec l’oxygène.

En plus des protéines et de la graisse, les animaux de ferme, ils chient partout et donc ils engraissent. Les bactéries intestinales de la vache, ainsi que ses enzymes digestifs, travaillent pour le bien commun de la vache, de l’agriculteur et des cultures végétales. Une betterave moyenne, ça a tout intérêt à vivre à proximité d’une vache plutôt que de choisir une carrière solo. Voilà donc une chaîne intéressante : l’agriculture végétale dominée par les céréales et les légumes-racines favorise l’agriculture animale poussée qui, à son tour, favorise des cultures végétales à croissance rapide et à hautes exigences nutritives en termes de sol, donc des céréales et des légumes-racines etc. L’agriculture végétale du Sud, dominée par les arbres fruitiers, reste largement indépendante de l’agriculture animale. Cette dernière, dans le Sud, se concentre sur les chèvres et les moutons, qui ont besoin surtout des pâturages naturels.

En termes de productivité nutritive, le modèle du Nord bat celui du Sud par plusieurs longueurs. Ces deux modèles différents sont liés à deux géographies différentes. Le Nord de l’Europe est plus plat, plus froid, plus humide et doté des sols plus riches que le Sud. Plus de bouffe veut dire plus de monde par kilomètre carré, plus d’industrie, plus de trafic routier et tout ça, pris ensemble avec l’élevage intensif, veut dire plus de pollution par nitrogène. Cette dernière a une propriété intéressante : elle agit comme de l’engraissage permanent. Comme la pollution par nitrogène n’est pas vraiment contrôlée, cet engraissage involontaire va surtout aux espèces végétales qui ont le plus de potentiel de captage : les arbres. Récemment, j’ai eu une discussion avec un chercheur de l’Université Agriculturale de Krakow, Pologne, qui m’a carrément assommé avec le fait suivant : dû à la pollution par nitrogène, en Pologne, on a chaque année un surplus d’environ 30 millions de mètres cubes d’arbres vivants et on ne sait pas vraiment quoi en faire. Comme nous avons des sécheresses épisodiques de plus en plus fréquentes, ce surplus d’arbres a un effet pervers : les arbres sont aussi les plus efficaces à capter l’eau et durant une sécheresse ils battent toutes les autres plantes à cette discipline.  

Le système agricultural du Nord, à travers une chaîne causale étrange, contribue à reconstruire ce que le Nord a toujours eu tendance à surexploiter : les forêts. Une hypothèse folle germe dans mon esprit. Durant le XVIIIème et la première moitié du XIXème siècle, nos ancêtres Européens avaient gravement épuisé la substance forestière du continent. À partir de la seconde moitié du XIXème siècle, ils avaient commencé à exploiter de plus en plus les carburants fossiles et donc à produire de plus en plus de pollution locale en dioxyde de nitrogène. Par conséquent, ils avaient entamé un processus qui, des décennies plus tard, contribue à reconstruire la masse forestière du continent. Est-il concevable que notre aventure avec les carburants fossiles est une action collectivement intelligente visant à reconstruire les forêts ? Fou, n’est-ce pas ? Oui, bien sûr, par la même occasion, nous avons pompé des tonnes de carbone dans l’atmosphère de la planète, mais que puis-je vous dire : être intelligent ne veut pas nécessairement dire être vraiment prévoyant.

Quelles analogies entre ces modèles d’agriculture et les systèmes énergétiques, tels que je les ai passés en revue dans « Lean, climbing trends » ? Dans les deux cas, il y a une composante de croissance plus ou moins stable – plus de kilocalories par jour par personne, ainsi que plus de personnes qui mangent à leur faim dans le cas de l’agriculture, plus de kilogrammes d’équivalent pétrole par année par personne et plus de personnes avec accès à l’électricité dans le cas de l’énergie – accompagnée par des ensembles hétérogènes d’essais et erreurs côté production. Ces essais et erreurs semblent partager une caractéristique commune : ils forment des bases productives complexes. Un système énergétique concentré exclusivement sur une seule source d’énergie, par exemple que du photovoltaïque, semble tout aussi déséquilibré qu’un système agricultural qui ne cultive qu’une seule espèce végétale ou animale, comme que du mouton ou que du maïs. 

Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund (aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ? Vous pouvez me contacter à travers la boîte électronique de ce blog : goodscience@discoversocialsciences.com .


[1] https://data.worldbank.org/indicator/en.atm.co2e.pc dernier accès 26 Mars 2019

[2] https://ourworldindata.org/co2-and-other-greenhouse-gas-emissions dernier accès 26 Mars 2019

[3] Sanchez, D. L., Johnson, N., McCoy, S. T., Turner, P. A., & Mach, K. J. (2018). Near-term deployment of carbon capture and sequestration from biorefineries in the United States. Proceedings of the National Academy of Sciences, 115(19), 4875-4880.

[4] R. B. Jackson et al. Methane removal and atmospheric restoration, Nature Sustainability (2019). DOI: 10.1038/s41893-019-0299-x

Existence intelligente et pas tout à fait rationnelle

Mon éditorial sur You Tube

Je continue avec le sujet de l’intelligence artificielle. Je développe sur le contenu de ma dernière mise à jour en anglais : « Thinking Poisson, or ‘WTF are the other folks doing?’ ». Je veux bâtir un raisonnement cohérent en ce qui concerne le bien-fondé et la méthode d’utiliser un réseau neuronal comme outil de prédiction dans les sciences sociales. Je sens que pour le faire j’ai besoin de prendre du recul et d’articuler clairement les sources de ma fascination avec les réseaux neuronaux. Je me souviens la première fois que j’avais utilisé, d’une façon encore très maladroite, un algorithme très simple de réseau neuronal (regardez « Ce petit train-train des petits signaux locaux d’inquiétude »). Ce qui m’avait fasciné, à l’époque, c’était la possibilité de regarder, de l’extérieur, une chose – une chose logique – apprendre. C’était comme si j’observais quelqu’un qui trouve son chemin à tâtons avec les yeux bandés, seulement ce quelqu’un était une séquence de 6 équations.

Il y a deux ans, j’ai présenté, dans une conférence, quelques preuves empiriques que la civilisation humaine a pour trait essentiel de maximiser l’absorption d’énergie de l’environnement. En fait, les changements technologiques de notre civilisation depuis 1960 ont pour effet d’accroître ladite absorption d’énergie. C’est l’un des sentiers intellectuels qui me passionnent. Lorsque je réfléchis sur les différentes manifestations de vie biologique, toute espèce maximise son absorption d’énergie. Nous, les humains, ne faisons pas exception à cette règle. Dans un autre article, j’ai présenté une application créative de la bonne vieille fonction de production – telle que vous pouvez la trouver dans l’article de Charles Cobb et Paul Douglas – au phénomène d’adaptation des sociétés humaines à leur environnements locaux, vu la quantité d’énergie et d’alimentation disponible. La conclusion générale que je tire de la recherche présentée dans ces deux articles est que l’existence des sociétés humaines est une histoire d’apprentissage intelligent, quoi qu’imparfaitement rationnel, à plusieurs niveaux. Pas vraiment original, vous direz. Oui, pas très original, mais ça donne de l’inspiration et ça excite ma curiosité.

Les histoires, ça se déroule. Je suis curieux où est-ce que cette existence intelligente et pas tout à fait rationnelle peut bien nous mener. C’est logique. Je suis chercheur dans les sciences de société et j’essaie de prédire, encore et encore, comme je reçois de l’information nouvelle, quelle forme va prendre la société dans l’avenir. Comment allons-nous adapter aux changements climatiques ? Comment pouvons-nous arrêter ou inverser ces changements ? Comment nous comporterons-nous, en Europe, si une pénurie alimentaire à l’échelle continentale survient ? Quelle va être la loi de demain ? Va-t-elle punir toute offense verbale à la sensibilité de quiconque ? La loi va-t-elle règlementer l’accès à l’eau potable ? Comment voterons-nous dans les élections parlementaires, dans 100 ans ? Y-aura-t-il des élections parlementaires ?

Autant des questions qui provoquent deux types d’attitude. « Qui sait ? Il y a tellement de variables en jeu qu’il est impossible de dire quoi que ce soit de ne serait-ce que moyennement raisonnable » est la première. « Qui sait ? Essayons de formuler des hypothèses, pour commencer. Les hypothèses, ça donne un point de départ. Ensuite, nous pouvons évaluer l’information nouvelle, que nous gagnerons dans l’avenir, en vue de ces hypothèses et comprendre un peu plus de ce qui se passe ». Ça, c’est la deuxième approche possible et moi, j’y souscris. Je suis chercheur, la science est ma passion, je suis curieux et je préfère savoir plutôt qu’ignorer.

Ça fait pratiquement un an que je m’efforce de mettre au point un concept d’entreprise financière que j’ai baptisé EneFin. En général, il s’agit de stimuler le développement des nouvelles sources d’énergie – surtout des petites installations locales basés sur les renouvelables – à travers un mécanisme financier qui combine une structure coopérative avec des solutions typiquement capitalistes, un peu comme dans le financement participatif type « crowdfunding ». Il y a quelque chose d’étrange dans cette idée, ou plutôt dans mes tentatives de la développer. À première vue, ça semble attrayant dans sa simplicité. Lorsque je m’y prends à décrire et développer cette idée, soit comme un business plan soit comme un article scientifique, je bute contre… Voilà, je ne sais pas exactement contre quoi. Il y a comme un blocage dans mon cerveau. Comme j’essaie de comprendre la nature de ce blocage, ça semble être quelque chose comme de la complexité résiduelle. C’est comme si une partie de mon intellect me disait, encore et encore : « Ce truc est plus complexe que tu crois. Tu n’as pas découvert toutes les cartes de ce jeu. Il est trop tôt pour présenter ça comme idée toute faite. Il faut que tu continues à chercher et découvrir, avant de présenter ».

EneFin est un concept essentiellement financier. La finance, ça tend à marcher en boucle de rétroaction : les phénomènes qui, juste un instant avant, étaient la cause et la force motrice de quelque chose, deviennent l’effet du même quelque chose. C’est l’une des raisons pourquoi les méthodes stochastiques classiques, comme la régression linéaire, donnent des résultats très insatisfaisants en ce qui concerne la prédiction des marchés financiers. La méthode stochastique a pour but de trouver une fonction mathématique qui donne une représentation mathématiquement cohérente des données empiriques – une fonction – avec aussi petite erreur type que possible. La prédiction strictement dite consiste à projeter cette fonction dans un futur possible et incertain. La qualité de prédiction se juge, en fait, après coup, donc lorsque le futur de jadis est devenu le passé, ne serait-ce qu’immédiat, du présent. Il y a une assomption profondément cachée dans cette méthode : c’est l’assomption que nous savons tout ce qu’il y a à savoir.

La méthode stochastique requiert de dire ouvertement que l’échantillon des données empiriques que j’utilise pour tracer une fonction est un échantillon représentatif. Suivant la logique de de Moivre – Laplace, mon échantillon a de la valeur stochastique seulement lorsque sa moyenne arithmétique est identique à celle de la moyenne à observer dans la réalité en général ou bien elle est suffisamment proche de cette moyenne réelle pour que la différence soit insignifiante. Dire que mon observation de la réalité est représentative de cette réalité, ça crée une perspective cognitive spéciale, ou je prétends de savoir tout ce qu’il est nécessaire de savoir sur le monde qui m’entoure.

Si vous travaillez sur un projet et quelqu’un vous dit « Va dans la direction A, je sais parfaitement que j’ai raison », vous répondrez, probablement, « Avec tout mon respect, non, tu ne peux pas savoir à coup sûr si tu as raison. La réalité, ça change et ça surprend ». Voilà le talon d’Achille de la méthode stochastique. Bien qu’officiellement différente du bon vieux déterminisme, elle en garde certaines caractéristiques. Avec tous ses avantages indéniables, elle est très exposée à l’erreur d’observation incomplète.

Il y a cette blague à propos des sciences économiques, qu’elles sont l’art de formuler des pronostics qui ne tiennent pas. Cruelle et exagérée, la blague, néanmoins fréquemment vraie. C’est probablement pour ça qu’un créneau légèrement différent s’est développé dans les sciences sociales, celui qui puise des sciences physiques et qui utilise des modèles théoriques comme le mouvement Brownien ou bien le mouvement d’Itô . Dans cette approche, la fonction des données empiriques inclue explicitement une composante de changement aléatoire.

Un réseau neuronal va dans une direction encore un peu différente. Au lieu d’assembler toutes les observations empiriques et en tirer une fonction commune, un réseau neuronal expérimente avec des petits sous-ensembles de l’échantillon complet. Après chaque expérience, le réseau teste sa capacité d’obtenir le résultat égal à une valeur de référence. Le résultat de ce test est ensuite utilisé comme information additionnelle dans des expériences ultérieures. L’intelligence artificielle connaît le succès qu’elle connaît parce que savons que certaines séquences des fonctions mathématiques ont la capacité d’optimiser des fonctions réelles, par exemple le fonctionnement d’un robot de nettoyage des planchers.

Si une séquence d’actions possède la capacité de s’optimiser elle-même, elle se comporte comme l’intelligence d’un organisme vivant : elle apprend. Voilà la méthode dont j’ai besoin pour travailler à fond mon idée de solution financière pour les énergies renouvelables. Le financier, ça contient des multiples boucles de rétroaction entre les variables en jeu, qui sont un gros problème pour les modèles stochastiques. Pour un réseau neuronal, les boucles de rétroaction, c’est précisément ce que l’intelligence artificielle du réseau est faite pour.

Par ailleurs, voilà que j’ai trouvé un article intéressant sur la méthodologie d’utilisation des réseaux neuronaux comme outils de prédiction alternatifs ou complémentaires vis-à-vis les modèles stochastiques. Olawoyin et Chen (2018[1]) discutent la valeur prédictive des plusieurs architectures possibles d’un perceptron à couches multiples. La valeur prédictive est évaluée en appliquant les perceptrons, d’une part, et un modèle ARIMA d’autre part à la prédiction des mêmes variables dans le même échantillon des données empiriques. Le perceptron à couches multiples se débrouille mieux que le modèle stochastique, quelles que soient les conditions exactes de l’expérience. Olawoyin et Chen trouvent deux trucs intéressants à propos de l’architecture du réseau neuronal. Premièrement, le perceptron basé sur la tangente hyperbolique comme fonction d’activation neuronale est généralement plus précis dans sa prédiction que celui basé sur la fonction sigmoïde. Deuxièmement, la multiplication des couches de neurones dans le perceptron ne se traduit pas directement en sa valeur prédictive. Chez Olawoyin et Chen, le réseau à 3 couches semble se débrouiller généralement mieux que celui à 4 couches.

Il est peut-être bon que j’explique cette histoire des couches. Dans un réseau neuronal artificiel, un neurone est une fonction mathématique avec une tâche précise à effectuer. Attribuer des coefficients aléatoires de pondération aux variables d’entrée est une fonction distincte du calcul de la variable de résultat à travers une fonction d’activation neuronale. J’ai donc deux neurones distincts : un qui attribue les coefficients aléatoires et un autre qui calcule la fonction d’activation. Logiquement, ce dernier a besoin des valeurs crées par le premier, donc l’attribution des coefficients aléatoires est la couche neuronale précédente par rapport au calcul de la fonction d’activation, qui est donc situé dans la couche suivante. De manière générale, si l’équation A requiert le résultat de l’équation B, l’équation B sera dans la couche précédente et l’équation A trouvera son expression dans la couche suivante. C’est comme dans un cerveau : pour contempler la beauté d’un tableau de Cézanne j’ai besoin de le voir, donc les neurones engagés directement dans la vision sont dans une couche supérieure et les neurones responsables des gloussements d’admiration font la couche suivante.

Pourquoi parler des couches plutôt que des neurones singuliers ? C’est une découverte que même moi, un néophyte à peine initié aux fondements des réseaux neuronaux, je comprends déjà : lorsque je place des neurones multiples dans la même couche fonctionnelle du réseau, je peux les mettre en compétition, c’est-à-dire les neurones de la couche suivante peuvent choisir entre les résultats différents apportés par les neurones distincts de la couche précédente. J’ai commencé à tester ce truc dans « Surpopulation sauvage ou compétition aux États-Unis ». Par ailleurs, j’avais alors découvert à peu près la même chose qu’Olawoyin et Chen (2018) présentent dans leur article : plus de complexité dans l’architecture d’un réseau neuronal crée plutôt plus de possibilités que plus de précision prédictive. Quand il s’agit de prédiction strictement dite, plus simple le réseau plus de précision il donne. En revanche, lorsqu’il est question de formuler des hypothèses alternatives précises, plus de complexité élargit le répertoire des comportements possibles du perceptron et donne plus d’envergure dans la description des états alternatifs de la même situation.  

Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund (aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ? Vous pouvez me contacter à travers la boîte électronique de ce blog : goodscience@discoversocialsciences.com .


[1] Olawoyin, A., & Chen, Y. (2018). Predicting the Future with Artificial Neural Network. Procedia Computer Science, 140, 383-392.

Deux intelligences alternatives

Mon éditorial sur You Tube

Me voilà à nouveau avec de l’énergie. Mon énergie à moi, bien sûr, mais aussi le sujet de l’énergie. Je donne satisfaction à mes trois obsessions scientifiques. Une, les solutions financières pour encourager la transition vers les énergies renouvelables. Deux, le lien entre les marchés financiers et le changement technologique. Trois, application de l’intelligence artificielle à l’étude de l’intelligence collective.

Dans ma dernière mise à jour en anglais – « We, the average national economy. Research and case study in finance » – j’ai commencé à esquisser la direction de ma recherche. J’ai plus ou moins repris le chemin analytique déjà signalé dans « Surpopulation sauvage ou compétition aux États-Unis » et je l’ai élargi à un échantillon plus grand de 56 pays. Apparemment, la croissance de l’efficience énergétique dans l’économie mondiale, de $8,08 par kilogramme d’équivalent pétrole en 1990 jusqu’à $10,76 en 2014, était accompagnée d’une accumulation presque équivalente en magnitude de capital, aussi bien d’actifs fixes que des soldes monétaires. Le truc intéressant c’est que ces deux composantes d’actifs du bilan de l’économie mondiale semblent garder une proportion plus ou moins constante l’une vis-à-vis de l’autre. En d’autres mots, un système complexe qui, dans ma base de données utilisée pour cette recherche, se compose de 56 pays, garde une liquidité plus ou moins constante tout en accumulant du capital et en accroissant son efficience énergétique.

Ça a tout l’air d’une intelligence collective : un système qui n’a aucune chance d’avoir un cerveau central et qui néanmoins se comporte comme un organisme. Il y a d’autre recherche qui en quelque sorte corrobore cette approche. Il y a ce modèle appelé MUSIASEM (Andreoni 2017[1] ; Velasco-Fernández et al 2018[2]) qui fournit une preuve empirique convaincante qu’en ce qui concerne l’énergie et l’efficience de son utilisation, l’économie mondiale se comporte comme un métabolisme adaptatif, dont l’adaptation se manifeste, entre autres, par un réarrangement géographique des moyens de production.

Je retourne donc, avec la persévérance d’un ivrogne qui essaie d’ouvrir la mauvaise porte d’entrée avec la bonne clé, au sujet de l’intelligence artificielle.  Je viens d’expérimenter un peu avec le réseau neuronal que j’utilise dans ce créneau spécifique de recherche et voilà qu’une fois de plus, cette chose m’a surpris. Je vous donne ici un compte rendu sélectif de ces surprises. Pour une description détaillée de la façon dont marche ce réseau neuronal précis, vous pouvez vous référer à « Surpopulation sauvage ou compétition aux États-Unis ». En passant du cas des États-Unis à l’échantillon général de plusieurs pays, j’ai juste ajouté une variable de plus, que j’avais déjà utilisé dans le passé (consultez, par exemple « Deux lions de montagne, un bison mort et moi ») : le déficit alimentaire par personne. C’est une variable des plus structurelles : elle est très idiosyncratique pays par pays, tout en restant très stable dans le temps. Immatriculation idéale d’un pays. D’autre part, moi, je suis ce chemin de découverte où j’assume que la nourriture, le pétrole et l’électricité se joignent, à un certain niveau, comme des manifestations différentes de la capacité de notre espèce de transformer l’énergie accessible dans notre environnement.

Alors, les surprises. Jusqu’alors, lorsque je travaillais avec ce réseau neuronal, il marchait à chaque fois. Je veux dire qu’il produisait un résultat dans chaque cas de figure, quoi que je lui impose comme conditions d’apprentissage. D’accord, ces résultats étaient parfois absurdes, mais il y en avait, des résultats. Dans ce cas précis, le réseau neuronal marche juste sous certaines conditions. Il coince souvent, c’est-à-dire il rend une erreur générale du type « NOMBRE ! », lorsque la magnitude des variables atteint des valeurs comme 40 ou – 40, donc lorsque les fonctions d’activation neurale s’affolent, puisqu’elles sont essentiellement faites à procéder avec des valeurs standardisées entre 0 et 1 (entre -1 et 1 pour la hyper-tangentielle). C’est du nouveau et moi, j’aime bien du nouveau. J’aime bien comprendre.

Alors, j’essaie de comprendre. Qu’est-ce qui a changé dans les conditions de départ, par rapport aux applications précédentes de ce même réseau neuronal ? Ce qui a changé très certainement c’est la quantité et la complexité des données empiriques originelles, donc de ce qui constitue le matériel primaire d’apprentissage. Dans ce cas précis, je donne à mon réseau neuronal N = 1228 cas « pays réel – année donnée ». Auparavant, je lui donnais entre 20 et 25 de telles incidences. J’ai envie de rire. De moi-même, je veux dire. C’est tellement évident ! Lorsque j’apprends quelque chose, la façon de le faire dépend de la complexité des informations d’entrée. Plus ces informations sont riches et complexes, plus de finesse je dois démontrer dans mon apprentissage. Apprendre à changer un tuyau sous mon levier de cuisine est simple. Apprendre la plomberie en général, y compris la méthode de changer une valve à gaz, est une tâche plus difficile, qui requiert une approche différente.

J’utilise un réseau neuronal pour simuler le comportement de l’intelligence collective d’une société. J’assume que les valeurs des variables empiriques représentent autant d’états différents et temporaires des processus distincts de changement social. La simulation d’intelligence collective, telle que la fait mon réseau neuronal, commence avec une assomption importante : toutes les variables pris en compte sont divisées en deux catégories, où une variable est considérée comme celle de résultat et toutes les autres comme celles d’entrée. J’assume que l’entité intelligente est orientée sur l’optimisation de la variable de résultat et les variables d’entrée sont instrumentales à cet effet. J’implique une fonction vitale dans mon entité intelligente. Je sais que les réseaux neuronaux beaucoup plus avancés que le mien sont capables de définir cette fonction par eux-mêmes et j’ai même quelques idées comment inclure cette composante dans mon propre réseau. Quoi qu’il en soit, une fonction vitale est quelque chose à avoir dans un réseau neuronal. Sans elle, à quoi bon ? Je veux dire, s’il n’y a rien à achever, la vie perd son sens et l’intelligence se réduit à la capacité de commander un autre verre et à consulter Twitter pour la millionième fois.

Lorsque je considère l’intelligence collective d’une société réelle et je définis sa fonction vitale de la façon décrite ci-dessus, c’est une simplification grossière. Comme j’approche cette fonction vitale sous un angle purement mathématique, ça a plus de sens. La variable de résultat est celle à laquelle mon réseau neuronal touche relativement le moins : il la modifie beaucoup moins que les variables d’entrée. La distinction entre la variable de résultat et les variables d’entrée signifie qu’une variable dans le lot – celle de résultat – ancre la simulation d’intelligence collective dans un contexte similaire à celui, connu à tous les économistes, de caeteris paribus, ou « autres facteurs constants ». Je peux donc orienter ma simulation de façon à montrer les états possibles de réalité sociales sous des différentes ancres de résultat. Qu’est-ce qui se passe si j’ancre mon système social à un certain niveau d’efficience énergétique ? Comment l’état hypothétique de cette société, produit par le réseau neuronal, va changer avec une autre ancre de résultat ? Quelles différences de comportement produis-je sous des fonctions vitales différentes ?

Maintenant, question de langage. Le réseau neuronal parle nombres. Il comprend les données numériques et il communique des résultats numériques. En principe, le langage numérique des fonctions d’activation de base, celui du sigmoïde et la hyper-tangentielle, se limite aux valeurs numériques standardisées entre 0 et 1. En fait, la hyper-tangentielle est un peu plus polyglotte et comprend aussi du patois entre -1 et 0. Dans ma communication avec le réseau neuronal j’encontre donc deux défis linguistiques : celui de parler à cette chose en des nombres standardisés qui correspondent aussi étroitement que possible à la réalité, et celui de comprendre correctement les résultats numériques rendus par le réseau.

J’ai donc cette base de données, N = 1228 occurrences « pays < > année », et je traduis les valeurs empiriques dedans en des valeurs standardisées. La procédure de base, la plus simple, consiste à calculer le maximum observé pour chaque variable séparément et ensuite diviser chaque valeur empirique de cette variable par ledit maximum. Si je ne me trompe, ça s’appelle « dénomination ». Dans une approche plus élaborée, je peux standardiser sous la courbe de distribution normale. C’est ce que vous avez comme standardisation dans des logiciels statistiques. Il y a un petit problème avec les valeurs empiriques qui, après standardisation, sont égales rigoureusement à 0 ou 1. En théorie, il faudrait les transformer en des machins comme 0,001 ou 0,999. En fait, s’il n’y en a pas beaucoup, de ces « 0 » et ces « 1 » dans l’échantillon offert à mon réseau neuronal comme matériel d’apprentissage, je peux les ignorer.

La question de langage sur laquelle je me concentre maintenant est celle de compréhension de ce que le réseau neuronal rend comme résultat. Mathématiquement, ce résultat est égal à xf = xi + ∑e , où xf est la valeur finale crachée par le réseau, xi est la valeur initiale, et ∑e est la somme d’erreurs locales ajoutée à la valeur initiale après n rondes d’expérimentation. Supposons que je fais n = 3000 rondes d’expérimentation. Qu’est-ce qu’exactement ma valeur finale xf ? Est-ce la valeur obtenue dans la ronde no. 3000 ? C’est ce que j’assume souvent, mais il y a des « mais » contre cette approche. Premièrement, si les erreurs locales « e » accumulées par le réseau sont généralement positives, les valeurs xf obtenues dans cette dernière ronde sont d’habitude plus élevées que les initiales. Quelles contorsions que je fasse avec la standardisation, xf = max(xi ; xf) et inévitablement xf > xi.

Encore, ce n’est pas le plus dur des cas. Il y a des situations où les erreurs locales sont plutôt négatives que positives et après leur accumulation j’ai ∑e < 0 et xf = xi + ∑e < 0 également. Vachement embarrassant. Puis-je avoir une offre négative d’argent ou une efficience énergétique négative ?

Je peux faire une esquive élégante à travers le théorème de de Moivre – Laplace et assumer que dans un grand nombre des valeurs expérimentales rendues par le réseau neuronal la valeur espérée est leur moyenne arithmétique, soit xf = [∑(xi + ei)] / n. Élégant, certes, mais est-ce une interprétation valide du langage dont le réseau neuronal me parle ? L’intelligence artificielle est une forme d’intelligence. Ça peut créer de la signification et pas seulement adopter la signification que je lui impose. Est-ce que ça parle de Moivre – Laplace ? Allez savoir…

Bon, ça c’est de la philosophie. Temps de passer à l’expérimentation en tant que telle. Je reprends plus ou moins le perceptron décrit dans « Surpopulation sauvage ou compétition aux États-Unis » : une couche neuronale d’entrée et observation, une couche de combine (attribution des coefficients de pondération, ainsi que de fonctions d’adaptation locale aux données observées), une couche d’activation (deux fonctions parallèles : sigmoïde et hyper-tangentielle) et finalement une couche de sélection. Dans cette dernière, j’introduis deux mécanismes complexes et alternatifs de décision. Tous les deux assument qu’une intelligence collective humaine démontre deux tendances contradictoires. D’une part, nous sommes collectivement capables de nous ouvrir à du nouveau, donc de relâcher la cohérence mutuelle entre les variables qui nous représentent. D’autre part, nous avons une tolérance limitée à la dissonance cognitive. Au-delà de ce seuil de tolérance nous percevons le surplus du nouveau comme du mauvais et nous nous protégeons contre. Le premier mécanisme de sélection prend la moindre erreur des deux. Les deux neurones dans la couche d’activation produisent des activations concurrentes et le neurone de sélection, dans ce schéma-ci, choisit l’activation qui produit la moindre valeur absolue d’erreur. Pourquoi valeur absolue et non pas l’erreur en tant que telle ? Eh bien, l’erreur d’activation peut très bien être négative. Ça arrive tout le temps. Si j’ai une erreur négative et une positive, la moindre valeur des deux sera, arithmétiquement, l’erreur négative, même si son écart de la valeur d’activation est plus grand que celui de l’erreur positive. Moi, je veux minimiser l’écart et je le minimise dans l’instant. Je prends l’expérience qui me donne moins de dissonance cognitive dans l’instant.

 

Le deuxième mécanisme de sélection consiste à tirer la moyenne arithmétique des deux erreurs et de la diviser ensuite par un coefficient proportionnel au nombre ordinal de la ronde d’expérimentation. Cette division se fait uniquement dans les rondes d’expérimentation strictement dite, pas dans la phase d’apprentissage sur les données réelles. J’explique cette distinction dans un instant. Ce mécanisme de sélection correspond à une situation où nous, l’intelligence collective, sommes rationnels dans l’apprentissage à partir de l’expérience directe de réalité empirique – donc nous pondérons toute la réalité de façon uniforme – mais dès que ça vient à expérimentation pure, nous réduisons la dissonance cognitive dans le temps. Nous percevons l’expérience antérieure comme plus importante que l’expérience subséquente.

Le réseau neuronal travaille en deux étapes. D’abord, il observe les données empiriques, donc les N = 1228 occurrences « pays < > année » dans la base de données de départ. Il les observe activement : à partir de l’observation empirique n = 2 il ajoute l’erreur sélectionnée dans la ronde précédente aux valeurs standardisées des variables d’entrée et il touche pas à la variable de résultat. Après les 1228 rondes d’apprentissage le réseau passe à 3700 rondes d’expérimentation. Je ne sais pas pourquoi, mais j’aime arrondir le boulot total de mon perceptron à 5000 rondes au total. En tout cas, dans les 3700 rondes d’expérimentation, le réseau ajoute l’erreur de la ronde précédente aux variables d’entrée calculées dans la même ronde précédente.

En ce qui concerne le travail avec les variables d’entrée, le perceptron accumule l’expérience en forme d’une moyenne mouvante. Dans la première ronde d’expérimentation, le neurone d’observation dans la première couche du réseau tire la moyenne arithmétique des 1228 valeurs de la phase d’apprentissage et il y ajoute l’erreur sélectionnée pour propagation dans la dernière, 1228ième ronde d’apprentissage. Dans la deuxième ronde d’expérimentation, le perceptron tire la moyenne arithmétique des 1227 rondes d’apprentissage et de la première ronde d’expérimentation et il y ajoute l’erreur sélectionnée dans la première ronde d’expérimentation et ainsi de suite. La couche d’entrée du réseau est donc un peu conservative et perçoit les résultats d’expériences nouvelles à travers la valeur espérée, qui, à son tour, est construite sur la base du passé. Ça a l’air familier, n’est-ce pas ? En revanche, en ce qui concerne la variable de résultat, le perceptron est plus conservatif. Il tire la moyenne arithmétique des 1228 valeurs empiriques, comme valeur espérée, et il s’y tient. Encore une fois, je veux simuler une tendance à réduire la dissonance cognitive.

Côté langage, je teste deux manières d’écouter à ce que me dit mon perceptron. La première consiste à prendre, classiquement si j’ose dire, les valeurs standardisées produites par la dernière, 3700ième ronde expérimentale et les de-standardiser en les multipliant par les maximums enregistrés empiriquement dans la base de données de départ. Dans la deuxième méthode, je tire la moyenne arithmétique de toute la distribution de la variable donnée, donc valeurs empiriques et valeurs expérimentales prises ensemble. Je raisonne en termes du théorème de de Moivre – Laplace et j’assume que la signification d’un grand ensemble des nombres est la valeur espérée, soit la moyenne arithmétique.

En ce qui concerne mes variables, leur catalogue général est donné dans le tableau ci-dessous. Après le tableau, je continue avec la description.

Tableau 1

Code de la variable Description de la variable
Q/E PIB par kg d’équivalent pétrole d’énergie consommé (prix constants, 2011 PPP $) – VARIABLE DE RÉSULTAT
CK/PA Capital immobilisé moyen par une demande nationale de brevet (millions de 2011 PPP $, prix constants)
A/Q Amortissement agrégé d’actifs fixes comme % du PIB
PA/N Demandes nationales de brevet par 1 million d’habitants
M/Q Offre agrégée d’argent comme % du PIB
E/N Consommation finale d’énergie en kilogrammes d’équivalent pétrole par tête d’habitant
RE/E Consommation d’énergie renouvelable comme % de la consommation totale d’énergie
U/N Population urbaine comme % de la population totale
Q Produit Intérieur Brut (millions de 2011 PPP $, prix constants)
Q/N PIB par tête d’habitant (2011 PPP $, prix constants)
N Population
DA/N Déficit alimentaire par tête d’habitant (kcal par jour)

Je fais travailler mon réseau neuronal avec ces variables avec 4 fonctions vitales différentes, donc en mettant 4 variables différentes dans la catégorie de résultat à optimiser : le déficit alimentaire par personne, population urbaine comme % de la population totale, efficience énergétique de l’économie, et finalement les actifs fixes par une demande de brevet. En ce qui concerne l’importance que j’attache à cette dernière variable, vous pouvez consulter « My most fundamental piece of theory ». J’ai choisi les variables que je considère intuitivement comme structurelles. Intuitivement, j’ai dit.

Au départ, les moyennes arithmétiques de mes variables – donc leur valeurs statistiquement espérées – sont les suivantes :

Q/E = $8,72 par kg d’équivalent pétrole ;

CK/PA = $3 534,8 par demande de brevet ;

A/Q = 14,2% du PIB ;

PA/N = 158,9 demandes de brevet par 1 million d’habitants ;

M/Q = 74,6% du PIB en masse monétaire ;

E/N = 3007,3 kg d’équivalent pétrole par personne par an ;

DA/N = 26,4 kcal par personne par jour ;

RE/E = 16,05% de la consommation totale d’énergie ;

U/N = 69,7% de la population ;

Q = $1 120 874,23 mln ;

Q/N = $22 285,63 par tête d’habitant  ;

N = 89 965 651 personnes ;

Ça, c’est le point empirique de départ. C’est une société relativement opulente, quoi qu’avec des petits problèmes alimentaires, plutôt grande, moyennement avide d’énergie, et généralement moyenne, comme c’était à espérer. Deux variables font exception à cette tendance : le pourcentage de population urbaine et l’offre d’argent. L’urbanisation moyenne mondiale est à présent aux environs de 55%, pendant que notre échantillon se balance vers 70%. L’offre d’argent dans l’économie mondiale est couramment de presque 125% du PIB et notre échantillon fait gentiment 74,6%. Maintenant, allons voir ce que le réseau neuronal peut apprendre si sa fonction vitale est orientée sur un déficit alimentaire stable par personne par jour, donc DA/N est la variable de résultat. Tableaux no. 2 et 3, ci-dessous, présentent les résultats d’apprentissage, pendant que les Graphes 1 – 4, plus loin, donnent un aperçu de la manière dont le réseau apprend sous des conditions différentes.

Je commence par discuter la méta-variable de base : l’erreur locale du réseau. Graphes 1 et 2 donnent une idée de différence entre les deux stratégies d’apprentissage sous considération. L’apprentissage par la moindre erreur est paradoxal. Durant les 1228 rondes empiriques, il conduit effectivement à la réduction de l’erreur, comme tout gentil perceptron devrait le faire. Néanmoins, dès que le réseau passe à expérimenter avec lui-même, l’erreur croît à chaque ronde consécutive. Le réseau se balance de plus en plus entre des états alternatifs. Intéressant : lorsque le réseau est programmé pour choisir la moindre erreur, il génère de plus en plus d’erreur. En revanche, l’apprentissage par erreur moyenne décroissante – donc la stratégie qui reflète une tendance croissante à réduire la dissonance cognitive – ça marche de façon modèle. L’erreur dans la phase empirique est réduite à un niveau très bas et ensuite, dans la phase d’expérimentation pure, elle tend vers zéro.

Lorsque je passe à la fonction d’adaptation, donc à la distance Euclidienne moyenne entre les variables du réseau (Graphes 3 et 4) la différence entre les deux stratégies d’apprentissage est un peu moins prononcée, quoi que visible. Dans les deux cas, la cohésion interne du réseau change en deux phases bien distinctes. Aussi longtemps que le perceptron travaille avec les 1228 observations empiriques, sa cohésion oscille très fortement. Dès que ça passe à expérimenter avec soi-même, les oscillations s’éteignent, mais de deux façons différentes. Le perceptron qui choisit la moindre erreur et apprend uniformément dans le temps (Graphe 3) fixe sa cohésion interne à un niveau relativement bas et ensuite il accroît à nouveau l’amplitude d’oscillation. En revanche, le perceptron qui tire la moyenne de ses erreurs locales et démontre une résistance croissante aux informations nouvelles (Graphe 4) se tient très fermement au niveau de cohésion atteint vers la fin de la phase d’apprentissage sur les données empiriques.

Je vois ici deux intelligences différentes, qui représentent deux façons de représenter un phénomène bien connu, celui de résistance à la dissonance cognitive. Le perceptron qui apprend par la moindre erreur réduit sa dissonance sur le champ et localement, sans le faire à long terme. Celui qui apprend par l’erreur moyenne et la divise par le nombre ordinal de la ronde consécutive d’expérimentation agit différemment : il tolère plus d’erreur localement mais se ferme progressivement sur le long terme.

Dans la mesure où je les considère comme représentations d’une intelligence collective, j’y vois des analogies intéressantes à notre ordre social. Le perceptron qui apprend par la moindre erreur semble plus intelligent que celui qui tire l’erreur moyenne et se raidit à mesure d’apprendre. C’est comme si des controverses locales à propos des changements climatiques étaient plus fertiles en apprentissage qu’un système de savoir très codifié et rigide.

En ce qui concerne les résultats, les deux intelligences alternatives se comportent aussi de manière très différente. En général, l’intelligence qui choisit la moindre erreur locale mais s’en fout du passage de temps (Tableau 2) produit des valeurs plus élevées que celle qui tire l’erreur moyenne et développe le sentiment d’avoir appris tout ce qu’il y avait à apprendre (Tableau 3). En fait, la première ajoute à toutes les variables du perceptron, pendant que la deuxième les réduit toutes.

Je veux me pencher sur l’interprétation de ces nombres, donc sur la façon de comprendre ce que le réseau neuronal veut me dire. Les nombres du tableau 2 semblent vouloir dire que si nous – la civilisation – voulons accroître notre efficience énergétique, il nous faut accroître significativement la cadence de l’innovation. Je le vois surtout dans le pourcentage du PIB pris par l’amortissement d’actifs fixes : la variable A/Q. Plus ce pourcentage est élevé, plus rapide est la cadence de rotation des technologies. Pour avoir une efficience énergétique moyenne, comme civilisation, à un niveau à peine 50% plus élevé que maintenant, il nous faudrait accélérer la rotation des technologies d’à peu près 25%.

Il y a une variable collatérale à l’innovation, dans ma base de données : CK/PA ou le coefficient d’actifs fixes par une demande de brevet. C’est en quelque sorte le montant de capital qu’une invention moyenne peut se nourrir avec. Dans cette simulation avec le réseau neuronal vous pouvez voir que les différences de magnitude de CK/PA sont tellement grandes qu’elles en deviennent intéressantes. Le perceptron qui apprend avec la résistance croissante à l’information nouvelle donne des valeurs négatives de CK/PA, ce qui semble absurde. Absurde, peut-être, mais pourquoi ? C’est l’une de ces situations lorsque je me pose des questions de fond sur ce qu’est intelligence collective.

Tableau 2

Apprentissage par la moindre erreur, uniforme dans le temps
Valeurs de la 3700ième ronde expérimentale  

Valeurs des moyennes espérées

 

Q/E = $15,80 par kg d’équivalent pétrole ;

 

CK/PA = $78 989,68 par demande de brevet ;

 

A/Q = 25% du PIB ;

 

PA/N = 1 426,24 demandes de brevet par 1 million d’habitants;

 

M/Q = 167,49% du PIB en masse monétaire ;

 

E/N = 7 209,06 kg d’équivalent pétrole par personne par an ;

 

RE/E = 37,45% de consommation totale d’énergie en renouvelables ;

 

U/N = 115,88% ( ! ) de la population en villes ;

 

Q = $7 368 088,87 mln ;

 

Q/N = $63 437,19 par tête d’habitant ;

 

N = 553 540 602 personnes ;

 

Variable de résultat >> DA/N = 26,40 kcal par personne par jour

Q/E = $12,16 par kg d’équivalent pétrole ;

 

CK/PA = $42 171,01 par demande de brevet ;

 

A/Q = 19% du PIB ;

 

PA/N = 770,85 demandes de brevet par 1 million d’habitants ;

 

M/Q = 120,56% du PIB en masse monétaire ;

 

E/N = 5 039,16 kg d’équivalent pétrole par personne par an ;

 

RE/E = 25,34% de consommation totale d’énergie en renouvelables ;

 

U/N = 77,21% de la population totale en villes;

 

Q = $3 855 530,27 mln ;

 

Q/N = $41 288,52 par tête d’habitant ;

 

N = 295 288 302 personnes ;

 

Variable de résultat >> DA/N = 26,40 kcal par personne par jour

Tableau 3

Apprentissage par erreur moyenne décroissante à mesure des rondes d’expérimentation
Valeurs de la 3700ième ronde expérimentale  

Valeurs des moyennes espérées

 

Q/E = $7,41 par kg d’équivalent pétrole ;

 

CK/PA = ($2 228,03) par demande de brevet ;

 

A/Q = 11% du PIB ;

 

PA/N = 101,89 demandes de brevet par 1 mln d’habitants ;

 

M/Q = 71,93% du PIB en masse monétaire ;

 

E/N = 3 237,24 kg d’équivalent pétrole par personne par an ;

RE/E = 10,21% de la consommation totale d’énergie en renouvelables ;

 

U/N  = 65% de la population totale en villes ;

 

Q = $730 310,21 mln ;

 

Q/N = $25 095,49 par tête d’habitant ;

 

N = 15 716 495 personnes ;

 

Variable de résultat >> DA/N = 26,40 kcal par personne par jour ;

Q/E = $8,25 par kg d’équivalent pétrole ;

 

CK/PA = ($3 903,81) par demande de brevet ;

 

A/Q = 14% du PIB ;

 

PA/N = 101,78 demandes de brevet par 1 mln d’habitants ;

 

M/Q = 71,52% du PIB en masse monétaire ;

 

E/N = 3 397,75 kg d’équivalent pétrole par personne par an ;

 

RE/E = 12,64%  de la consommation totale d’énergie en renouvelables ;

 

U/N = 75,46% de la population totale en villes ;

 

Q = $615 711,51 mln  ;

 

Q/N = $24 965,23 par tête d’habitant ;

 

N = 2 784 733,90 personnes ;

 

Variable de résultat >> DA/N = 26,40 kcal par personne par jour ;

Graphe 1

Graphe 2

Graphe 3

Graphe 4

Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund (aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ?

[1] Andreoni, V. (2017). Energy Metabolism of 28 World Countries: A Multi-scale Integrated Analysis. Ecological Economics, 142, 56-69

[2] Velasco-Fernández, R., Giampietro, M., & Bukkens, S. G. (2018). Analyzing the energy performance of manufacturing across levels using the end-use matrix. Energy, 161, 559-572

Surpopulation sauvage ou compétition aux États-Unis

 

Mon éditorial sur You Tube

 

Me revoilà à vous casser les pieds avec les réseaux neuronaux et leur application dans les sciences sociales. Je reste essentiellement dans l’univers de l’efficience énergétique. J’enchaîne donc sur « Tenez-vous bien, chers Autrichiens ». Cette fois, je m’y prends à la plus grande économie du monde, celle des États-Unis, et leur efficience énergétique. Les Américains aiment la compétition et c’est bien que j’inclue dans le réseau neuronal : la compétition entre neurones.

Comme d’habitude, c’est un peu de chaos, dans mon cheminement intellectuel. Hier, j’ai eu cette idée : suivant la structure logique de mon perceptron, j’obtiens des schémas de comportement différents de sa part. Et si je mettais ces comportements en compétition de quelque sorte ? Et si je construisais un perceptron qui organise cette compétition ?

Je veux donc mettre mes neurones en compétition entre eux. Je veux dire, pas mes neurones à moi, strictement parlé, juste les neurones de mon perceptron. J’avais commencé à mapper cette idée dans un fichier Excel, un peu à tâtons. Tout d’abord, les acteurs. Qui est en compétition contre qui ? Jusqu’alors, j’ai identifié deux grandes distinctions fonctionnelles parmi les comportements possibles de mon perceptron. Premièrement, c’est la distinction entre deux fonctions d’activation de base : la fonction sigmoïde d’une part et la tangente hyperbolique d’autre part. Deuxièmement, j’ai observé une différence prononcée lorsque j’introduis dans mon perceptron l’auto observation (rétropropagation) de la cohésion, comprise comme la distance Euclidienne entre les variables. Je construis donc quatre neurones d’activation, comme des combinaisons de ces possibilités :

 

Le neurone de sortie no.1 : le sigmoïde de base

Le neurone de sortie no.2 : la tangente hyperbolique de base

Le neurone de sortie no.3 : sigmoïde avec observation de la cohésion

Le neurone de sortie no.4 : la tangente hyperbolique avec observation de la cohésion

 

Les neurones de sortie 1 et 2 sont connectés au sentier synaptique suivant : absorption des variables d’entrée dans la première couche (neurone d’observation), suivie par l’attribution des coefficients aléatoires de pondération à chaque variable et la sommation des variables d’entrée ainsi pondérées (neurone de pondération) dans la couche cachée. Le neurone de pondération crache la moyenne pondérée des variables d’entrée, et on la met comme argument dans la fonction d’activation neurale (neurone de traitement) et celle-ci crache un résultat. Le neurone d’observation compare ce résultat à la valeur espérée de la variable de résultat, une mesure d’erreur locale est prise et le perceptron ajoute cette erreur aux valeurs des variables d’entrée dans la ronde suivante d’expérimentation.

 

Les neurones de sortie 3 et 4 impliquent un sentier synaptique un peu plus complexe. Tout d’abord, dans la couche d’entrée du perceptron, j’ajoute un neurone parallèle à celui qui génère les coefficients aléatoires. Ce deuxième neurone s’active après la première ronde d’expérimentation. Lorsque celle-ci à pris lieu, ce neurone calcule les distances Euclidiennes entre les variables, il rend une distance moyenne pour chaque variable séparément, ainsi que la distance moyenne entre toutes les variables. En fait, c’est un job pour tout une séquence synaptique à part, mais pour simplifier je décris ça comme un neurone. Je vois sa place dans la couche d’entrée puisque sa fonction essentielle est celle d’observation. Observation complexe, certes, observation quand même. J’appelle ce neurone « neurone de cohésion perçue » et j’assume qu’il a besoin d’un partenaire dans la couche cachée, donc d’un neurone qui combine la perception de cohésion avec le signal nerveux qui vient de la perception des variables d’entrée en tant que telles. Je baptise ce deuxième neurone caché « neurone de pondération par cohésion ».

 

Bon, j’en étais à la compétition. Compétition veut dire sélection. Lorsque j’entre en compétition contre entité A, cela implique l’existence d’au moins une entité B qui va choisir entre moi et A.

Le choix peut être digital ou analogue. Le choix digital c’est 0 ou 1, avec rien au milieu. B va choisir moi ou bien A et le vainqueur prend toute la cagnotte. Le choix analogue laisse B faire un panier des participations respectives de moi et de A. B peut prendre comme 60% de moi et 40% de A, par exemple. Comme je veux introduire dans mon perceptron la composante de compétition, j’ajoute une couche neuronale supplémentaire, avec un seul neurone pour commencer, le neurone de sélection. Ce neurone reçoit les signaux de la part des 4 neurones de sortie et fait son choix.

 

Important : c’est un jeu lourd en conséquences. La sélection faite dans une ronde d’expérimentation détermine la valeur d’erreur qui est propagée dans la ronde suivante dans tous les quatre neurones de sortie. Le résultat de compétition à un moment donné détermine les conditions de compétition aux moments ultérieurs.

 

Le signal nerveux envoyé par les neurones de sortie c’est l’erreur locale d’estimation. Le neurone de sélection fait son choix entre quatre erreurs. Plus loin, je discute les résultats des différentes stratégies de ce choix. Pour le moment, je veux montrer le contexte empirique de ces stratégies.  Ci-dessous, j’introduis deux graphes qui montrent l’erreur générée par les quatre neurones de sortie au tout début du processus d’apprentissage, respectivement dans les 20 premières rondes d’expérimentation et dans les 100 premières rondes. Vous pouvez voir que la ligne noire sur les deux graphes, qui représente l’erreur crachée par le neurone de sortie no. 4, donc par la tangente hyperbolique avec observation de la cohésion, est de loin la plus grande et la plus variable. Celle générée par le sigmoïde avec observation de la cohésion est substantiellement moindre, mais elle reste bien au-dessus des erreurs qui viennent des neurones de sortie no. 1 et 2, donc ceux qui s’en foutent de la cohésion interne du perceptron.

Je me demande qu’est-ce que l’apprentissage, au juste ? Les deux graphes montrent trois façons d’apprendre radicalement différentes l’une de l’autre. Laquelle est la meilleure ? Quelle est la fonction éducative de ces erreurs ? Lorsque je fais des essais où je me goure juste un tout petit peu, donc lorsque j’opère comme les neurones de sortie 1 et 2, je suis exact et précis, mais je m’aventure très près de mon point d’origine. J’accumule peu d’expérience nouvelle, en fait. En revanche, si mes erreurs se balancent dans les valeurs comme celles montrées par la ligne noire, donc par la tangente hyperbolique avec observation de la cohésion, j’ai peu de précision mais j’accumule beaucoup plus de mémoire expérimentale.

 

Quatre stratégies de sélection se dessinent, équivalentes à trois types de compétition entre les neurones de sortie. Sélection façon 1 : le neurone de sélection choisit le neurone de sortie qui génère la moindre erreur des quatre. D’habitude, c’est le neurone qui produit la tangente hyperbolique sans observation de la cohésion. C’est une compétition où le plus précis et le plus prévisible gagne à chaque fois. Sélection façon 2 : c’est le neurone qui génère l’erreur la plus grande qui a l’honneur de propager son erreur dans les générations suivantes du perceptron. Normalement c’est le neurone de sortie no.4 : la tangente hyperbolique avec observation de la cohésion. Sélection no. 3 : Le neurone de sélection tire la moyenne arithmétique des quatre erreurs fournies par les quatre neurones de sortie. Logiquement, le neurone de sortie qui génère l’erreur la plus grande va dominer. Cette sélection est donc une représentation mathématique de hiérarchie entre les neurones de sortie.

 

Finalement, la compétition conditionnelle à une condition prédéfinie. Je prends le mode de sélection no. 2, donc je choisis l’erreur la plus grande des quatre et je la compare à un critère. Disons me j’espère que le perceptron génère une erreur plus grande que la croissance moyenne annuelle standardisée de l’efficience énergétique du pays en question. Dans le cas des États-Unis cette valeur-jauge est de 0,014113509. Si un neurone quelconque de sortie (soyons honnêtes, ce sera la tangente hyperbolique qui observe sa propre cohésion) génère une erreur supérieure à 0,014113509, cette erreur est propagée dans la prochaine ronde d’expérimentation. Sinon, l’erreur à propager est 0. C’est donc une condition où je dis à mon perceptron : soit tu apprends vite et bien, soit tu n’apprends pas du tout.

 

Bon, passons aux actes. Voilà, ci-dessous, la liste de mes variables.

 

Code de la variable Description de la variable
Q/E PIB par kg d’équivalent pétrole d’énergie consommé (prix constants, 2011 PPP $) – VARIABLE DE RÉSULTAT

 

CK/PA Capital immobilisé moyen par une demande nationale de brevet (millions de 2011 PPP $, prix constants)

 

A/Q Amortissement agrégé d’actifs fixes comme % du PIB

 

PA/N Demandes nationales de brevet par 1 million d’habitants

 

M/Q Offre agrégée d’argent comme % du PIB

 

E/N Consommation finale d’énergie en kilogrammes d’équivalent pétrole par tête d’habitant

 

RE/E Consommation d’énergie renouvelable comme % de la consommation totale d’énergie

 

U/N Population urbaine comme % de la population totale

 

Q Produit Intérieur Brut (millions de 2011 PPP $, prix constants)

 

Q/N PIB par tête d’habitant (2011 PPP $, prix constants)

 

N Population

 

 

Je prends ces variables et je les mets dans mon perceptron enrichi avec ce neurone de sélection. Je simule quatre cas alternatifs de sélection, comme discutés plus haut. Voilà, dans le prochain tableau ci-dessous, les résultats de travail de mon perceptron après 5000 rondes d’apprentissage. Remarquez, pour la stratégie de sélection avec condition prédéfinie, les 5000 rondes tournent en à peine 72 rondes, puisque toutes les autres rendent erreur 0.

 

Valeur 1990 Valeur 2014 Sélection de la moindre erreur Sélection de l’erreur la plus grande Moyenne des erreurs – hiérarchie Compétition conditionnelle au seuil prédéfini
Q/E $                   4,83 $                         7,46 $                         9,39 $                       38,18 $                       34,51 $                       34,16
CK/PA 291,84 185,38 263,29 1 428,92 1 280,59 1 266,39
A/Q 14,5% 15,0% 19,0% 79,1% 71,4% 70,7%
PA/N 358,49 892,46 1 126,42 4 626,32 4 180,92 4 138,29
M/Q 71,0% 90,1% 113,6% 464,7% 420,0% 415,8%
E/N 7 671,77 6 917,43 8 994,27 40 063,47 36 109,61 35 731,13
RE/E 4,2% 8,9% 11,2% 45,6% 41,3% 40,8%
U/N 75,3% 81,4% 102,4% 416,5% 376,6% 372,7%
Q 9 203 227,00 16 704 698,00 21 010 718,45 85 428 045,72 77 230 318,76 76 445 587,64
Q/N $ 36 398,29 $ 52 292,28 $  65 771,82 $ 267 423,42 $ 241 761,31 $ 239 304,79
N 252 847 810 319 448 634 401 793 873 1 633 664 524 1 476 897 088 1 461 890 454

 

Oui, juste la sélection no. 1 semble être raisonnable. Les autres stratégies de compétition rendent des valeurs absurdement élevées. Quoi que là, il faut se souvenir du truc essentiel à propos d’un réseau neuronal artificiel : c’est une structure logique, pas organique. Structure logique veut dire un ensemble de proportions. Je transforme donc ces valeurs absolues rendues par mon perceptron en des proportions par rapport à la valeur de la variable de résultat. La variable de résultat Q/E est donc égale à 1 et les valeurs des variables d’entrée {CK/PA ; A/Q ; PA/N ; M/Q ; E/N ; RE/E ; U/N ; Q ; Q/N ; N} sont exprimées comme des multiples de 1. Je montre les résultats d’une telle dénomination dans le tableau suivant, ci-dessous. Comment les lire ? Eh bien, si vous lisez A/Q = 0,02024, cela veut dire que l’amortissement agrégé d’actifs fixes pris comme pourcentage du PIB est égal à la fraction 0,02024 du coefficient Q/E etc. Chaque colonne de ce tableau de valeurs indexées représente une structure définie par des proportions par rapport à Q/E. Vous pouvez remarquer que pris sous cet angle, ces résultats de simulation du réseau neuronal ne sont plus aussi absurdes. Comme ensembles de proportions, ce sont des structures tout à fait répétitives. La différence c’est la valeur-ancre, donc efficience énergétique. Intuitivement, j’y vois des scénarios différents d’efficience énergétique des États-Unis en cas ou la société américaine doit s’adapter à des niveaux différents de surpopulation et cette surpopulation est soit gentille (sélection de la moindre erreur) soit sauvage (toutes les autres sélections).

 

 

  Valeurs indexées sur la variable de résulat
Valeur 1990 Valeur 2014 Sélection de la moindre erreur Sélection de l’erreur la plus grande Moyenne des erreurs – hiérarchie Compétition conditionnelle au seuil prédéfini
Q/E 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000
CK/PA 60,41009 24,83314 28,13989 37,41720 37,12584 37,08887
A/Q 0,03005 0,02007 0,02024 0,02071 0,02070 0,02070
PA/N 74,20624 119,55525 119,98332 121,18428 121,14657 121,14178
M/Q 0,14703 0,12070 0,12097 0,12173 0,12171 0,12171
E/N 1 588,03883 926,66575 958,89830 1 049,32878 1 046,48878 1 046,12839
RE/E 0,00864 0,01194 0,01194 0,01196 0,01196 0,01196
U/N 0,15587 0,10911 0,10911 0,10911 0,10911 0,10911
Q 1 905 046,16228 2 237 779,02450 2 237 779,02450 2 237 779,02450 2 237 779,02450 2 237 779,02450
Q/N 7 534,35896 7 005,12942 7 005,12942 7 005,12942 7 005,12942 7 005,12942
N 52 338 897,00657 42 793 677,11833 42 793 677,11833 42 793 677,11833 42 793 677,11833 42 793 677,11833

 

Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund (aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ?

Tenez-vous bien, chers Autrichiens

 

Mon éditorial sur You Tube

 

Je réfléchis sur ce qu’est intelligence et j’y réfléchis comme je gagne de l’expérience avec une forme très simple d’intelligence artificielle, un perceptron à couches multiples. Vous direz : « Encore ? Tu ne t’es pas ennuyé à mort avec ce truc ? » Eh bien, non. Pas du tout. Je sens intuitivement que je ne fais que commencer ce voyage intellectuel.

Alors, qu’est-ce que je fais ? Je commence par prendre un ensemble de données empiriques.  Chaque variable empirique est un phénomène stimulant distinct. Je leur assigne des coefficients aléatoires de pondération et je sur la base de ces valeurs pondérées je calcule, à travers une fonction d’activation neurale, la valeur d’une variable de résultat. Je compare, par soustraction, cette valeur avec une valeur espérée de référence. Je multiplie la différence par la dérivée locale de la fonction neurale d’activation et je considère le résultat comme une erreur locale. Je produis donc une variation momentanée d’une certaine structure logique et je compare cette variation à un état de référence. La spécificité de chaque variation locale réside dans le mélange unique des coefficients de pondération des phénomènes stimulants.

A ce stade-là, j’expérimente avec la perception proprement dite. C’est ça, la perception. Je suis confronté à un certain nombre des phénomènes de réalité. Le trait important d’un perceptron est que c’est moi, son utilisateur, donc une Intelligence Externe, qui détermine la nature de ces phénomènes. C’est moi qui donne la distinction entre la variable A et la variable B etc.  Dans la perception réelle, la définition des phénomènes se fait par expérimentation. Je marche à travers ce gros truc hétérogène et j’essaie voir quelle est la meilleure façon de ne pas buter constamment contre ces trucs plus petits. En fin de compte, il semble approprié de distinguer le gros truc comme « forêt » et les petits trucs comme « arbres », mettre en place des règles précises de distinguer un arbre d’un autre ainsi que pour distinguer les espaces libres entre eux.

Le perceptron que j’utilise est donc une structure phénoménologique prédéterminée. Je viens de dire que c’est moi, son utilisateur, qui la prédétermine, mais ce n’est pas tout à fait vrai. Mes variables d’entrée correspondent aux données quantitatives que je peux assembler. Dans la structure logique de mon perceptron, je reproduis celle des bases des données publiquement accessibles, comme celle de la Banque Mondiale.

Ce que j’expérimente avec, à travers le perceptron, est donc une structure phénoménologique prédéterminée par ces bases des données. Si la structure phénoménologique est donnée comme exogène, que reste-t-il à expérimenter avec ? Allons pas à pas. Ces coefficients aléatoires de pondération que mon perceptron attribue aux variables d’entrée reflètent l’importance relative et temporaires des phénomènes que ces variables représentent. Le tout – le perceptron – est censé faire quelque chose, produire un changement. L’importance des phénomènes reflète donc ce qu’ils font dans ce tout. Le phénomène donné joue-t-il un rôle important ou pas tout à fait ? Allons donc voir. Attribuons à ce phénomène des rôles d’importance variable et observons le résultat final, donc la variable de résultat.

Ici, il est bon de rappeler un truc à la frontière des maths et de la vie réelle. Les valeurs de variables d’entrée représentent l’état temporaire des processus qui produisent ces variables. Ma taille en centimètres reflète le processus de la croissance de mon corps, précédé par le processus de mélange de mon matériel génétique, dans les générations de mes ancêtres. La consommation d’énergie par tête d’habitant reflète le résultat temporaire de tout ce qui s’est passé jusqu’alors et qui avait une influence quelconque sur ladite consommation d’énergie. Lorsque le perceptron expérimente avec l’importance des rôles respectifs des variables d’entrée, il expérimente avec l’influence possible des différentes séquences d’évènements.

L’apprentissage d’un perceptron devrait conduire à un état de minimisation d’erreur locale, lorsque la combinaison d’influences respectives de la part des variables d’entrée rend possible une approche asymptotique de la fonction d’activation neuronale vers la valeur espérée de la variable de résultat. Ce résultat d’apprentissage est une sorte de perception optimale par rapport à ce que je veux. Monsieur désire une efficience énergétique de l’économie nationale proche de $10 constants 2011 par 1 kilogramme d’équivalent pétrole consommé ? Rien de plus facile, répond le perceptron. Monsieur prend une population plus grande de 3 millions d’habitants, donc plus de 8%, avec un zest de plus en termes de consommation d’énergie par tête d’habitant, quoi que ladite tête d’habitant va consommer un peu moins de Produit Intérieur Brut par an et voilà ! Monsieur a bien les (presque) 10 dollars par kilogramme d’équivalent pétrole. Monsieur désire autre chose ?

Le perceptron simule donc la perception mais en fait il fait autre chose : il optimise la connexion fonctionnelle entre les variables. Ce type de réseau neuronal devrait plutôt s’appeler « expéritron » ou quelque chose de pareil, car l’essence de son fonctionnement c’est l’expérimentation qui tend vers une erreur minimale. Comment l’optimise-t-il ? C’est le mécanisme de rétropropagation. Le perceptron calcule l’erreur locale d’estimation et ensuite – c’est-à-dire dans la prochaine ronde d’expérimentation – il ajoute cette erreur à la valeur des variables d’entrée. Dans la prochaine ronde d’expérimentation, la valeur de chaque variable d’entrée sujette à la pondération aléatoire va être la valeur initiale plus l’erreur enregistrée dans la ronde précédente.

Une seule et même erreur est ajoutée à l’estimation quantitative de chaque phénomène distinct de réalité. Le fait d’ajouter l’erreur est vaguement équivalent à la mémoire d’une entité intelligente. L’erreur est une pièce d’information et je veux l’emmagasiner pour qu’elle serve mon apprentissage. Dans la version de base de mon perceptron, chaque phénomène de réalité – chaque variable d’entrée – absorbe cette information d’exactement de la même façon. C’est une mémoire concentrée sur les échecs et voilà la grosse différence par rapport à l’intelligence humaine. Cette dernière aime apprendre sur des succès. Une tentative réussie immédiatement donne une gratification à notre système nerveux et ça marche nettement mieux que l’apprentissage à travers des échecs.

Question : comment construire un réseau neuronal qui apprend sur des succès plutôt que sur des échecs ? Un échec est relativement facile à représenter mathématiquement : c’est une erreur d’estimation. Un succès veut dire que j’ai essayé d’avancer dans une direction et ça a marché. Disons que j’ai une variable chère à mon cœur, comme l’efficience énergétique d’économie nationale, donc ces dollars de Produit Intérieur Brut obtenus avec 1 kilogramme d’équivalent pétrole. J’espère d’avancer par X dollars, mais grâce à mon génie indéniable tout comme avec l’aide de la Providence divine, j’ai avancé par Y dollars et Y > X. Alors la différence Y – X est la mesure de mon succès. Jusqu’à ce point, ça à l’air identique à ce que fait le perceptron classique : ça soustrait.

Question : comment utiliser la différence d’une soustraction comme quelque chose à amplifier comme succès au lieu de la minimiser en tant que la mesure d’un échec ? Réponse : il faut utiliser une fonction d’activation neurale qui amplifie un certain type de déviation, la positive. La première idée qui me vient à l’esprit est de mettre dans le perceptron une formule logique du type « si Y – X > 0, alors fais A, mais en revanche si Y – X ≤ 0, alors fais B ». Ça a l’air enfantin à première vue. Seulement si ça doit se répéter 5000 fois, comme je le fais d’habitude avec ce perceptron, çççaa raaalentiîîit terriblement. Je pense à quelque chose de plus simple : et si je calculais immédiatement la valeur exponentielle de l’erreur locale ? Si Y – X > 0, alors la valeur exponentielle va être nettement supérieure à celle de Y – X ≤ 0. Je teste avec l’Autriche et les données sur son efficience énergétique. Non, ça marche pas : j’obtiens une variable de résultat rigoureusement égale à la valeur espérée déjà après 30 rondes d’expérimentation – ce qui est pratiquement la vitesse de la lumière dans l’apprentissage d’un perceptron  – mais les variables d’entrée prennent des valeurs ridiculement élevées. Tenez : il leur faudrait être 42 millions au lieu de 8 millions, à ces Autrichiens. Impensable.

Bon. Bon gré mal gré, faudra que j’aille dans cette formule « si A, alors B, sinon va te faire … ». Tenez-vous bien, chers Autrichiens. J’observe et je raisonne. Ce que vous avez accompli vraiment, entre 1990 et 2014, c’est passer de 9,67 dollars de PIB par kilogramme d’équivalent pétrole à 11,78 dollars, donc une différence de 1,22 dollars. Si mon perceptron rend une erreur positive supérieure à cet accomplissement, je le laisse la rétropropager sans encombre. En revanche, tout ce qui n’est pas un succès est un échec, donc toute erreur en-dessous de ce seuil de référence, y compris une erreur négative, je la divise par deux avant de la rétropropager. J’amplifie des succès et je réduis l’impact mémorisé des échecs. Résultat ? Tout devient plus petit. L’efficience énergétique après les 5000 rondes expérimentales est à peine plus grande qu’en 1990 – 9,93 dollars – la population se rétrécit à moins de 3 millions, la consommation d’énergie et le PIB par tête d’habitant sont coupés par 4.

Ça alors ! Lorsque je parlais d’apprentissage à travers les succès, je m’attendais à quelque chose de différent. Bon. Je mets une muselière sur mon perceptron : tout en laissant l’apprendre sur les succès, comme dans le cas cité, j’ajoute la composante d’apprentissage sur la cohésion mutuelle entre les variables. Consultez « Ensuite, mon perceptron réfléchit » ou bien « Joseph et le perceptron » pour en savoir plus sur ce trait particulier. Ça se réfère à l’intelligence collective des fourmis. Peu ambitieux mais ça peut marcher. Résultat ? Très similaire à celui obtenu avec cette fonction particulière (apprentissage sur cohésion) et avec la rétroprogation de base, donc vers l’échec minimal. Faut que j’y réfléchisse.

Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund (aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ?