Je suis en train, comme presque toujours, de travailler sur plusieurs trucs à la fois. En gros, je fais de la théorie bien respectable, accompagnée par quelque chose de pratique. La théorie que j’essaie de mettre en la forme d’une monographie scientifique tourne autour du phénomène général de l’intelligence collective et des changements technologiques en même temps, avec un focus spécial sur l’intelligence artificielle. Je résume les deux dernières années de recherche et ça donne l’esquisse d’un livre que je pourrais rédiger à partir de mes notes de recherche publiées sur « Discover Social Sciences ». J’ai deux hypothèses de base. La première assume que l’intelligence collective des sociétés humaines se manifeste à travers le fonctionnement des institutions spécifiquement dédiées à expérimenter avec des nouvelles solutions technologiques. Je pense que l’intelligence artificielle en particulier et les technologies digitales en général représentent une accélération dans la création et le fonctionnement de telles institutions. En d’autres monts, je pose la thèse que les changements technologiques et institutionnels de la civilisation humaine convergent vers une capacité plus grande de ladite société d’expérimenter avec elle-même. En 2017, j’avais fait un peu de recherche sur l’énergie en utilisant la méthode évolutionniste. Maintenant j’ai l’impression que l’approche évolutionniste est comme une introduction à l’application d’intelligence artificielle dans les sciences sociales. Là-dedans il y a un truc qui fout un peu de désordre dans la théorie établie des sciences sociales. Cette dernière assume que les institutions de nos sociétés – donc des lois, des coutumes, des systèmes politiques etc. – représentent surtout et avant tout un acquis du passé, comme une sédimentation des stratégies de comportement qui avant la création de ces institutions étaient beaucoup plus floues et changeantes. Le droit constitutionnel représenterait donc une formalisation des stratégies politiques utilisées dans le passé, le droit civil ferait de même en ce qui concerne les contrats entre privés etc. Ça, c’est l’édifice de la théorie dominante et moi, je veux y ajouter quelques briques de plus. Je suis convaincu que certaines institutions – surtout les marchés financiers au sens large et certaines institutions politiques dans les systèmes démocratiques – sont en fait des méta-institutions, quelque chose comme des organismes femelles qui ont la capacité de recombiner l’ADN institutionnel de provenance diverse et donner ainsi naissance à des institutions nouvelles.
Ma deuxième hypothèse est celle que j’avais déjà discuté quelque peu dans un article publié en 2017 : les changements technologiques de la civilisation humaine ont pour fonction biologique essentielle de maximiser l’absorption d’énergie de l’environnement. Pourquoi est-ce important ? C’est une grande fascination intellectuelle que j’ai progressivement développée, très largement sous l’influence de Fernand Braudel et son œuvre remarquable intitulée « Civilisation et Capitalisme ». Comme je lisais et relisais plusieurs fois ce livre, je m’étais rendu compte que toute forme de civilisation humaine est essentiellement composée des technologies d’utilisation d’énergie accessible dans l’environnement – tout comme des technologies d’acquisition de nourriture – et que nos structures sociales manifestent la façon dont ces technologies marchent. En plus, le vent et l’eau – qu’aujourd’hui nous appelons « énergies renouvelables » et considérons comme une innovation – avaient formé la base de ce que nous connaissons aujourd’hui comme civilisation européenne.
J’ai donc deux hypothèses qui donnent une convergence intéressante : comme civilisation, développons-nous des institutions qui nous servent à expérimenter avec des solutions nouvelles pour maximiser notre absorption collective d’énergie ? Et voilà, boum, il y a ce troisième truc, le projet que je conceptualise, pour le moment, sous le nom d’Étangs Énergétiques. Vous pouvez consulter « La marge opérationnelle de $1 539,60 par an par 1 kilowatt » à propos de mes derniers progrès sur le sujet. Je travaille sur ce concept de deux points de vue différents : pratique et scientifique. D’une part, je m’applique à mettre au point un projet de développement d’énergies renouvelables à travers le Navigateur des Projets, accessible à travers la page de « International Renewable Energy Agency ». Les énergies renouvelables en question c’est bien sur l’électricité produite par les turbines hydroélectriques installées dans l’infrastructure d’Étangs Énergétiques. Le Navigateur des Projets est fortement orienté sur la faisabilité économique, financière et politique de l’idée en question : pour qu’un projet soit exécutable, il faut une argumentation solide et claire à l’attention d’acteurs sociaux impliqués. Cette argumentation doit aller de pair avec une idée claire de l’appropriation du projet : un groupe social bien cerné, avec des décideurs bien définis, doit être capable d’approprier aussi bien les ressources nécessaires au projet que les résultats obtenus. Le principe de base est que des projets non appropriés, avec contrôle flou sur les ressources et les résultats, sont les premiers à échouer.
Pour le moment, j’ai deux arguments principaux en faveur de mon idée. Premièrement, même ce qui se passe cet été – des vagues de chaleur, sécheresse agricole, inondations locales – nous montre que le changement climatique nous force à repenser et rebâtir nos infrastructures hydrologiques. Nous ferions bien d’apprendre des trucs nouveaux en ce qui concerne la rétention de l’eau de pluie et son utilisation ultérieure. Le danger le plus grave – côté hydrologie – est une perturbation de plus en plus profonde du marché agricole en Europe. Deuxièmement, la quantité d’eau de pluie qui tombe sur l’Europe, si utilisée de façon adéquate, c’est-à-dire si on la fait passer à travers de turbines hydroélectriques, représente une quantité énorme d’énergie. Nous avons donc un danger sérieux d’une part et des gains possibles d’autre part.
Bon, donc ça, c’est un bref résumé des sujets que je travaille dessus en ce moment. Maintenant, je veux utiliser mon journal de recherche, tel que je le présente sur mon blog, pour passer en revue ce que j’ai lu et appris sur les deux trucs, donc le gros bouquin théorique et le projet pratique. Une fois de plus je me sers de mon blog comme outil de mise en ordre. Je commence avec la théorie de changement technologique, l’intelligence collective et l’intelligence artificielle. J’ai fait un petit saut du côté des sciences humaines : psychologie, neurophysiologie etc. J’ai pu constater que – probablement sous l’impulsion des développements récents de l’intelligence artificielle – une nouvelle discipline syncrétique est née : la théorie générale de l’intelligence et de la connaissance. Le soi-disant modèle de Bignetti en est un bon exemple (consultez, par exemple, Bignetti 2014[1]; Bignetti et al. 2017[2]; Bignetti 2018[3]). Ce modèle met un peu de désordre créatif dans la distinction entre l’action et la connaissance. Cette dernière est définie comme une expression consciente de l’expérience, pendant que le terme « action » est étendu sur tout ce qui est, précisément, l’expérience d’une entité intelligente. Le modèle de Bignetti est un véhicule théorique très général qui sert à expliquer le paradoxe de l’action apparemment inconsciente. Nous, les individus, aussi bien que nous, les collectivités, nous accomplissons tout un tas d’action que nous ne sommes pas capables d’expliquer rationnellement. Enrico Bignetti, professeur émérite de biochimique et de biologie moléculaire de l’université de Parme, pose la thèse que l’expérience consciente de soi ainsi que celle de volonté individuelle et de libre arbitre sont des illusions que notre cerveau crée dans les premiers mois de notre enfance pour faire l’action plus efficiente. Ces illusions servent à mettre de l’ordre dans la masse d’informations que notre cerveau reçoit et traite.
Moi, de mon côté, je pars d’une assomption simple, apparentée à la ligne de raisonnement de professeur Bignetti : une société humaine est une collectivité des systèmes nerveux individuels, une collectivité des cerveaux, pour ainsi dire. Il est donc logique que la façon dont la société fonctionne est en partie déterminée par le fonctionnement de ces cerveaux individuels. Il y a cette observation classique, à la limite de la science et du simple bon sens, qu’une partie substantielle de notre système nerveux sert presque exclusivement à faire fonctionner les relations sociales et ça marche dans la direction opposée aussi : les relations sociales sont ce qui fait marcher la même partie substantielle de notre système nerveux. C’est une intuition que Charles Darwin avait déjà exprimée dans son livre « The Expression of The Emotions In Man And Animals »[4] et que Émile Durkheim avait traité sous un angle sociologique dans « Les règles de la méthode sociologique ». Il y a donc une connexion fonctionnelle entre ce que font nos neurones et ce que fait un ministère. Question : si les neurones d’un cerveau individuel sont capables d’intelligence individuelle, quel genre d’intelligence pouvons-nous espérer de la part des neurones assemblés dans la multitude des cerveaux individuels d’une société humaine ?
J’ai trouvé une ligne de raisonnement intéressante chez Hassabis et al. (2017[5]).Intelligence artificielle permet de créer un nombre indéfiniment grand de solutions possibles, mais l’utilisation de la neurophysiologie peut être utile dans la sélection des solutions qui ont soit la valeur de similitude par rapport au système nerveux humain soit celle de nouveauté complète par rapport à la structure neurale humaine. Dans ce contexte, il est intéressant de se poser la question ontologique : comment est-ce que l’intelligence artificielle existe ? Lorsqu’un réseau neuronal marche, donc lorsque son algorithme prouve son utilité fonctionnelle, la structure logique de ce réseau neuronal existe-t-elle de la même façon que les idées existent ?
Je suis allé un peu plus loin dans l’étude d’algorithmes d’intelligence artificielle en tant que telle. Je me suis concentré sur trois types d’algorithmes qui sont en quelque sorte les piliers d’apprentissage profond : le mélange Gaussien, la forêt aléatoire et les algorithmes d’accélération d’apprentissage, donc Adam et DQN. Je vais brièvement discuter leur logique de base. Le mélange Gaussien d’abord. Tout comme les deux autres, j’ai copié celui-là de GitHub. Plus exactement, j’ai pris comme exemple le mélange Gaussien formalisé comme https://github.com/rushter/MLAlgorithms/blob/master/examples/gaussian_mixture.py .
Notre culture, à commencer par notre langage, est basée sur la catégorisation. Nous avons besoin de nommer les choses et pour les nommer, nous avons besoin d’établir le lien logique entre des ensembles des phénomènes observables et des catégories pour les grouper. C’est ainsi que des arbres deviennent « les arbres » et des chaises deviennent « les chaises ». Nous avons même une partie distincte de notre cerveau responsable de cette fonction de nominalisation : le soi-disant sentier synaptique ventral (Mishkin et al. 1983[6] ; Grossberg 2017[7]) qui est le seul à faire ça et ne fait que ça. Si nous voulons penser quoi que ce soit de complexe, genre « quoi faire ? », c’est toujours « quoi faire avec le truc tel et tel ? » ou « quoi faire à propos de X ? ». Notre cerveau sépare la partie « faire » de la partie « truc tel et tel, X pour les amis ». Cette dernière est toujours traitée par le sentier synaptique ventral et tout ce qui reste – donc la partie « faire à propos… » – c’est le boulot d’autres parties du cerveau.
Le mélange Gaussien produit des catégories de façon probabiliste à partir des données empiriques données au réseau neuronal doté dudit mélange. La méthode générale est basée sur le concept de similarité entre phénomènes, seulement il est approché sous un angle rigoureusement mathématique. Intuitivement, lorsque nous parlons de similarité entre plusieurs phénomènes, nous pouvons penser à les comparer deux par deux. Seulement, ce n’est pas nécessairement la meilleure idée point de vue efficacité et en plus, il est possible que cette approche intuitive ne représente pas la façon dont notre propre cerveau marche. Nous pouvons représenter les décisions collectives d’une société humaine comme un ensemble des choix simples, comparable au choix qu’un chimpanzé fait entre deux boîtes, en fonction de la présence espérée d’un fruit dans l’une d’elles. La théorie des jeux va dans cette direction. Néanmoins l’application de l’intelligence artificielle apporte ici une contribution originale. Dans l’article par Garnelo et Shanahan (2019[8]) nous pouvons voir les résultats des tests d’intelligence effectués par un réseau neuronal dans deux structures logiques alternatives : relationnelle, donc similaire au choix du chimpanzé d’une part et auto-attentive d’autre part. La structure auto-attentive marche comme un individu introspectif : le réseau neuronal observe ses propres décisions et prend cette observation en compte lorsqu’il expérimente avec des nouvelles décisions. Le réseau neuronal résout donc le test d’intelligence selon deux logiques différentes : comme une séquence des choix simples ou bien comme un processus complexe de raisonnement. Apparemment, selon Garnelo et Shanahan (2019) la méthode complexe marche mieux et le réseau neuronal score plus de points au test.
Essayons de formaliser une méthode de catégorisation des phénomènes qui utilise cette notion d’auto-attention. Je retourne vers les maths. J’ai donc un ensemble des données empiriques brutes qui servent comme matériel d’apprentissage à un réseau neuronal. Je veux grouper ces données en des catégories aussi fonctionnelles que possible vu l’objectif que je me pose. Bon, faudrait donc le poser vraiment, cet objectif. Comme je l’avais écrit plusieurs fois sur ce blog, l’objectif d’un réseau neuronal consiste à minimiser l’écart entre une valeur qu’il calcule lui-même à travers la fonction d’activation neurale et une valeur arbitraire fixée par l’utilisateur. Si je veux programmer un robot intelligent pour disposer des paquets dans un entrepôt et je veux que ledit robot apprenne à utiliser l’espace de stockage de façon la plus efficiente possible, je lui fais minimiser l’écart entre le volume total des paquets stockés et le volume géométrique de l’entrepôt.
Je formalise donc l’objectif à atteindre comme un vecteur composé d’une ou plusieurs valeurs numériques. J’assume que pour atteindre cet objectif, mon réseau neuronal doit grouper les données de départ en des catégories. Je me tiens à l’exemple du robot d’entreposage et j’assume qu’il doit grouper 10 000 paquets à entreposer dans des catégories qui correspondent à des piles de stockage. Une pile de stockage est un ensemble des paquets superposés l’un sur l’autre, accessible au charriot robotisé de chaque côté. Je veux que le réseau neuronal trouve une telle disposition des paquets en des piles de stockage qui satisfasse l’objectif de gestion optimale d’espace de stockage. Chacun des 10 000 paquets aura donc finalement un vecteur de coordonnées qui va décrire son attribution à une pile de stockage donnée. Seulement voilà, les piles de stockage elles-mêmes ne sont pas encore définies et positionnées. Apparemment, on fait face à un problème en boucle : chaque paquet doit trouver sa place dans une pile de stockage donnée mais les piles de stockage doivent être définies en termes des paquets précis qu’ils vont contenir. En plus, ‘y a ces questions stupides qui viennent à l’esprit. Toutes les piles de stockage doivent-elles être de la même taille et même masse ou bien vaudrait-il mieux les différencier à cet égard ?
Nous pouvons généraliser le problème de stockage. Tenons une population de 500 000 personnes dans une ville de taille moyenne et simulons la transition de leur base énergétique vers un réseau dispersé des nœuds locaux composés de petites turbines éoliennes et hydrauliques accompagnées par des stations des panneaux photovoltaïques. Je sais qu’à la longue, les nœuds locaux d’approvisionnement en énergie vont s’adapter aux populations locales et vice versa. Je veux prévoir les « vice versa » possibles et je veux trouver le plus efficient de parmi eux. Je sais que cela veut dire simuler des sentiers différents d’adaptation mutuelle. La distribution des installations énergétiques à travers la structure spatiale de la ville est un problème similaire à la disposition spatiale d’un nombre fini des paquets dans l’espace fini d’un entrepôt. Côté maths, le problème peut être exprimé comme une relation entre deux ensembles des valeurs numériques : un ensemble des vecteurs décrivant les sources locales d’énergies renouvelables et un autre ensemble des vecteurs qui décrivent les groupements locaux d’habitants de la ville.
Je retourne à la dualité signalée chez Garnelo et Shanahan (2019). Je peux approcher le problème de groupement spatial de deux façons différentes. La plus simpliste est la comparaison en paires. Pour chaque paquet je compare son entreposage dans des endroits alternatifs à l’intérieur de l’entrepôt, ce qui me conduit à comparer l’efficience des groupements alternatifs des paquets en des piles de stockage etc. Ça fait un tas des comparaisons et le problème c’est que si je trouve quelque chose qui marche définitivement mal, il faut que je recule dans de plusieurs pas dans la chaîne des comparaisons et que je recommence. Le mélange Gaussien permet de raccourcir le chemin et de le simplifier.
Avant de discuter la méthode de mélange Gaussien plus en détail, je vais rappeler brièvement l’approche Gaussienne en général. Nous vivons dans une réalité où les trucs qui semblent intuitivement vraisemblables surviennent plus fréquemment que du quasi-fantastique. Si je joue au LOTTO, toucher deux nombres corrects dans trois tirages en trois mois est plus vraisemblable et plus probable que toucher la grosse cagnotte de 6 nombres dans chaque tirage sur la même période. C’est une réalité binomiale et elle se comporte de façon conforme au théorème de de Moivre – Laplace donc comme une vigne : les phénomènes de cette réalité convergent pour forment des grappes distinctes. Au centre de chaque grappe nous retrouvons les phénomènes relativement les plus fréquents et vraisemblables pendant que les occurrences plus extrêmes sont à trouver dans les couches externes et superficielles de chaque grappe. La neurophysiologie, en particulier la théorie de résonance adaptative nous suggère que notre cerveau expérimente avec plusieurs partitions possibles, en des grappes distinctes, de la réalité observée (Grossberg 2017, par exemple). À la suite de cette expérimentation, notre cerveau choisit la partition dont la structure prouve d’être la plus fonctionnelle eu égard aux objectifs fixés. Mathématiquement, cela veut dire que le réseau neuronal dôté de mélange Gaussien génère une série des valeurs qui sont considérées provisoirement comme les valeurs moyennes espérées d’autant des distributions normales locales, donc d’autant de grappes des phénomènes, donc autant des géographies possibles des turbines éoliennes dans une ville, donc d’autant des piles de stockage dans cet entrepôt d’il y a quelques paragraphes. Est-ce la disposition spatiale ainsi obtenue à l’intérieur de l’entrepôt celle qui donne la meilleure utilisation de l’espace ? Allons voir : répétons l’expérience avec plusieurs séries possibles des moyennes locales, donc avec plusieurs partitions possibles de la réalité en des distributions normales locales.
La catégorisation des phénomènes de réalité est un pas sur le sentier d’adaptation intelligente, un peu comme je l’avais décrit, il y a deux ans, dans « Deux lions de montagne, un bison mort et moi ». Les algorithmes d’intelligence artificielle rendent possible l’observation non seulement de la façon dont une structure intelligente groupe les phénomènes observées en catégories, mais aussi de la manière d’expérimenter avec plusieurs sentiers alternatifs de décision. La forêt aléatoire est le type d’algorithme qui utilise le même principe – générer plusieurs ensembles des valeurs aléatoires et les utiliser comme autant des visions alternatives de réalité afin de choisir la plus efficiente des toutes – pour simuler des différents sentiers décisionnels. Comme exemple pratique d’algorithme j’ai pris celui accessible à https://github.com/rushter/MLAlgorithms/blob/master/examples/random_forest.py. Je suis un officier de sécurité dans un grand aéroport. Je vois défiler devant moi des milliers des passagers. Je viens de recevoir un tuyau qu’une personne parmi ces milliers est un terroriste. J’ai besoin de penser vite comment la pêcher dans toute cette foule et très probablement, j’aurai la possibilité de tester mes intuitions juste une fois. Si j’échoue, le gars va soit attaquer soit s’évanouir dans le paysage.
Ici, la différence entre l’intelligence humaine et les réseaux neuronaux est très visible. Ces derniers peuvent simuler une décision à haute incertitude – comme celle comment trouver un terroriste – comme compétition entre plusieurs sentiers décisionnels possibles. Mathématiquement, une décision complexe est un arbre décisionnel : si A, alors B et ensuite F s’impose plutôt que G etc. Lorsque j’ai un ensemble des phénomènes décrits comme données numériques digestes pour un réseau neuronal, je peux créer un nombre indéfini d’arbres décisionnels pour connecter ces phénomènes dans des implications logiques. Je peux tester chaque arbre point de vue exactitude, vitesse de décision etc. C’est comme ça que marche l’algorithme de forêt aléatoire. Question : comment savoir quel arbre décisionnel marche le mieux ? Je sais par expérience que même un réseau neuronal relativement simple peut achever une exactitude poussée dans l’estimation de la variable de résultat tout en se balançant dans des valeurs tout à fait faramineuses en ce qui concerne les variables d’entrée. Une fois de plus, on semble être dans une boucle, puisque l’évaluation de la valeur pratique d’un arbre décisionnel est un arbre décisionnel en soi. La forêt aléatoire résout ce problème en incluant un ensemble de données de contrôle, où l’optimisation avait déjà été faite et nous savons ce qu’un arbre décisionnel vraiment efficace peut faire avec. Les arbres décisionnels aléatoires sont priés de traiter ces données de contrôle et nous observons lequel de parmi ces arbres tombe le plus près du résultat déjà pré-calculé.
Je me demande quelle peut bien être l’utilité de ces algorithmes que je viens d’esquisser, donc le mélange Gaussien et la forêt aléatoire, dans l’étude de l’intelligence collective des sociétés humaines. Intuitivement, je perçois ces algorithmes comme très objectifs et rationnels en comparaison aux décisions collectives humaines. Dans la vie réelle, nous venons très vite au point quand nous voulons tellement passer aux actes – sous l’impulsion d’une urgence subjectivement perçue – que nous limitions l’éventail d’options possibles dans nos décisions. Lorsque les décisions collectives deviennent des décisions politiques et alors il devient très délicat de suggérer qu’un arbre décisionnel donné n’est pas vraiment le sommet de la logique. Les décisions collectives réelles semblent nettement plus biaisées que celles prises avec l’utilisation du mélange Gaussien ou de la forêt aléatoire. Ces algorithmes peuvent donc servir à évaluer le biais décisionnel.
Je
continue à vous fournir de la bonne science, presque neuve, juste un peu
cabossée dans le processus de conception. Je vous rappelle que vous pouvez
télécharger le business plan du projet BeFund
(aussi accessible en version anglaise).
Vous pouvez aussi télécharger mon livre intitulé “Capitalism
and Political Power”. Je veux utiliser le financement participatif pour me
donner une assise financière dans cet effort. Vous pouvez soutenir
financièrement ma recherche, selon votre meilleur jugement, à travers mon
compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon . Si vous en faites ainsi, je vous serai reconnaissant
pour m’indiquer deux trucs importants : quel genre de récompense
attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans
mon travail ? Vous pouvez me contacter à travers la boîte électronique de
ce blog : goodscience@discoversocialsciences.com .
[1] Bignetti, E. (2014). The functional role of free-will illusion in cognition:“The Bignetti Model”. Cognitive Systems Research, 31, 45-60.
[2] Bignetti, E., Martuzzi, F., & Tartabini, A. (2017). A Psychophysical Approach to Test:“The Bignetti Model”. Psychol Cogn Sci Open J, 3(1), 24-35.
[3] Bignetti, E. (2018). New Insights into “The Bignetti Model” from Classic and Quantum Mechanics Perspectives. Perspective, 4(1), 24.
[4] Darwin, C., & Prodger, P. (1998). The expression of the emotions in man and animals. Oxford University Press, USA.
[5] Hassabis, D., Kumaran, D., Summerfield, C., & Botvinick, M. (2017). Neuroscience-inspired artificial intelligence. Neuron, 95(2), 245-258.
[6] Mishkin, M., Ungerleider, L. G., & Macko, K. A. (1983). Object vision and spatial vision: two cortical pathways. Trends in neurosciences, 6, 414-417.
[7] Grossberg, S. (2017). Towards solving the hard problem of consciousness: The varieties of brain resonances and the conscious experiences that they support. Neural Networks, 87, 38-95.
[8] Garnelo, M., & Shanahan, M. (2019). Reconciling deep learning with symbolic artificial intelligence: representing objects and relations. Current Opinion in Behavioral Sciences, 29, 17-23.