L’invention mâle de modèles

Mon éditorial d’aujourd’hui

Ainsi donc, j’ai formulé, hier, une fonction de sélection dans mon modèle évolutionniste de changements technologiques ( consultez “Primitive, male satisfaction with bigger a size” ). Le nombre de demandes de brevet dans un endroit et en un moment donné dépend, d’une façon significative, de quatre facteurs : de la quantité de capital physique investi dans cet endroit et en ce moment précis, du taux d’amortissement d’actifs fixes (donc du rythme de replacement des technologies), de la part de rémunération de la main d’œuvre dans le PIB, et finalement de la consommation moyenne d’énergie par tête d’habitant. Tout ça, ça explique 70% de la variance totale du nombre de demandes de brevet. En termes économétriques, c’est une fonction logarithmique linéaire, ou ln(Nombre de demandes de brevet) = a1*ln(Capital physique) + a2*ln(Taux d’amortissement) + a3*ln(Part des salaires dans le PIB) + a4*ln(Consommation d’énergie par tête d’habitant) + constante résiduelle. Le test économétrique de cette équation dans ma base de données (Penn Tables 9.0 plus données de la Banque Mondiale) a rendu n = 2 338 observation valables et un coefficient de détermination R2 = 0,701, ainsi que les coefficients rapportés dans le tableau ci-dessous :

variable coefficient Erreur standard Statistique t p-valeur
ln(Capital physique) 0,847 0,017 49,012 0,000
ln(Taux d’amortissement) 2,256 0,16 14,089 0,000
ln(Part des salaires dans le PIB) 2,782 0,157 17,693 0,000
ln(Consommation d’énergie par tête d’habitant 0,643 0,036 17,901 0,000
constante résiduelle -0,854 0,561 -1,522 0,128

  J’ai testé la constante résiduelle de ce modèle pour sa corrélation avec d’autres variables de ma base de données et aucune corrélation significative n’est apparue. Je peux donc assumer que la valeur de cette composante résiduelle est un pur accident statistique, probablement dû à des co-intégrations entre les variables explicatives du modèle.

Bon, si je veux rendre intelligible la signification de cette fonction, il est bon de résumer un peu le chemin qui m’a mené à la définir. Le lien fonctionnel entre le nombre des demandes de brevet et la quantité de capital physique était une hypothèse de base de ma part. La théorie évolutionniste que j’ai commencé à développer propose que le processus de changement technologique soit une interaction entre des organismes mâles, qui communiquent de l’information sur les innovations possibles à faire, et les organismes femelles – les investisseurs – capables de recombiner cette information et de reproduire la substance de capital. Si j’avais posé une telle hypothèse, il était logique que je cherche une corrélation entre le nombre d’idées distinctes sur les changements à faire (demandes de brevet) et la quantité de capital physique présente dans un endroit et en un moment donné. J’ai étudié cette corrélation en testant une fonction linéaire logarithmique, quant à son pouvoir explicatif général, mesuré à travers le coefficient de détermination R2, ainsi qu’à travers la signification de la corrélation, testée avec la statistique « p ». Cette dernière exprime la probabilité d’hypothèse nulle, donc la probabilité qu’en fait, il n’y a pas de corrélation.

Après ce premier test, j’ai obtenu une équation dont le coefficient de détermination était de R2 = 0,478 et dont la statistique p était en-dessous de 0,001, donc du béton. Seulement, c’était du béton amorphe de point de vue théorique. Il n’y a rien de particulièrement évolutionniste dans l’assertion qu’il y a un lien significatif entre le nombre des demandes de brevet et la quantité de capital physique en place. C’est du cours élémentaire en microéconomie ou en gestion : plus de capital rend possible plus de recherche et développement et vice versa, plus de recherche et développement donne plus de chances de multiplier le capital investi. A ce point-là, j’avais juste prouvé que des données empiriques solides forment une base, sur laquelle il est possible de bâtir une approche évolutionniste, mais pas seulement évolutionniste. Les théories scientifiques sont un peu comme des bâtiments. Le plus stable, c’est une pyramide, avec une base large et les étages consécutifs bâtis chaque fois plus petits en superficie que ce qui se trouve en-dessous. Oui, je sais qu’une pyramide c’est le plus souvent une tombe. J’espère bien que je n’ai aucun cadavre caché sous la mienne.

J’avais donc une base, sur laquelle je pouvais bâtir. J’ai utilisé le fait que mon équation initiale, quoi que solide, laissait une marge d’indétermination assez large. Un coefficient de détermination de R2 = 0,478 veut dire qu’on a 47,8% de variance bien expliqué, seulement ça laisse 52,2% à expliquer. En plus, mon équation initiale laissait une résiduelle tout à fait substantielle. J’ai donc essayé de formuler une autre hypothèse, qui me rapprocherait du contexte évolutionniste strictement parlé. J’ai assumé que dans un cadre de reproduction sexuée, la fréquence des contacts sexuels a de l’importance pour la vitesse de reproduction. Cette dernière est imposée en grande partie par la durée moyenne de vie. Plus vite on meurt, plus fréquemment on a besoin de reproduire, donc de faire l’amour. La durée de vie d’une technologie est l’inverse de son taux d’amortissement. Un taux de 20% par an fixe la durée de vie de la technologie en question à plus ou moins 5 ans ; un taux de 10% étendrait cette durée à 10 ans etc.

Je sais, j’ai été opportuniste à ce point-là. Je savais que la base Penn Tables 9.0 contient les données sur le taux d’amortissement moyen, pays par pays et année par année. Il faut faire avec ce qu’on a, quoi. J’avais donc introduit le taux d’amortissement dans mon équation et j’ai testé. Le test, ça ne s’est pas passé trop mal. Mon coefficient de détermination a gagné en ambition un tout petit peu et il est monté jusqu’à R2 = 0,492. Les résultats de la régression se présentent comme ci-dessous :

variable Coefficient Erreur standard Statistique t p-valeur
ln(Capital physique) 0,843 0,019 43,587 0,000
ln(Taux d’amortissement) 1,371 0,172 7,986 0,000
constante résiduelle -0,203 0,561 -0,362 0,718

Ces résultats m’ont suggéré que j’avance dans la bonne direction. L’ajout du taux d’amortissement dans l’équation a donné du pouvoir explicatif et la direction de la corrélation obtenue est conforme à mon hypothèse : plus élevé est le taux d’amortissement, donc plus courte est la durée moyenne de vie d’une technologie, plus de demandes de brevets est déposé dans un pays donné en un moment donné. Là, je suis comme à mi-chemin dans l’évolutionnisme. Encore qu’il pourrait bien y avoir des sceptiques qui diraient quelque chose comme :  « Bon, c’est bien joli, ça, mais ce n’est pas nécessairement de l’évolutionnisme, tout ça. Plus vite nos technologies vieillissent, plus vite il faut les remplacer. C’est du bon sens commercial, ça ». Seulement voilà, il est aussi possible que le rythme accéléré d’amortissement décourage les investisseurs et qu’ils montrent une préférence systématique pour les technologies à durée de vie plutôt longue, auquel cas cette corrélation positive entre le nombre des demandes de brevet et taux d’amortissement n’est plus évidente du tout. Si je vois un coefficient de régression qui est positif et plutôt élevé pour une équation logarithmique, cela veut dire que les investisseurs montrent une préférence systématique pour des technologies qui périssent vite. Les organismes femelles de mon espèce capitaliste et débrouillarde font un effort pour se reproduire à une cadence accélérée, comme si l’espèce tout entière cherchait à s’adapter à quelque chose. Voilà, j’ai lui ai montré, à ce sceptique imaginaire dans ma tête.

Sur la base large que j’avais posé précédemment, je viens de poser un deuxième étage. Ou peut-être c’est le premier étage si on assume qu’une pyramide a un rez-de-chaussée. De toute façon, c’est un pas de plus. Après l’avoir fait, ce pas, hier, j’étais un peu à court d’idées. Je revoyais les variables dans ma base de données et j’essayais d’en trouver une pertinemment évolutionniste et je vais vous dire, ça n’avait pas l’air facile. J’avais donc décidé de faire confiance aux données elles-mêmes, sans idées préconçues. Dans mon équation telle que je l’avais à ce moment-là, j’avais toujours plus de 50% de la variance totale du nombre des demandes de brevet inexpliquée et en plus j’avais cette composante résiduelle avec p-valeur égale à 0,718. Cela voulait dire qu’une fois que j’ai expliqué 49,2% de la variance avec le capital physique et le taux d’amortissement, il reste 50,8% de variance résiduelle et cette variance résiduelle à 71,8% de chances d’être absolument aléatoire. C’est comme si j’étais un inspecteur de police et comme si des témoins différents me disaient que mon suspect (double meurtre, pas de plaisanterie) était bien grand, mais à part ça il pouvait être homme ou femme, blanc, noir ou asiatique, moustache ou pas etc. Irritant. J’ai vu un polar chinois où ça se déroulait exactement de cette façon.

J’avais donc décidé de faire confiance aux données. Techniquement, ça consistait à calculer cette résiduelle de régression pour chaque observation « pays – année » séparément et ensuite vérifier si la distribution des valeurs résiduelles ainsi obtenues était significativement corrélée avec d’autres variables de ma base de données. Par analogie à l’enquête policière, c’est comme si j’acceptais cette disparité folle dans les dépositions des témoins et comme si j’essayais d’établir si mon suspect avait plus de chances d’être un asiatique barbu ou bien une femme blanche à cheveux aile de corbeau, avec un foulard noir. J’ai trouvé deux corrélations significatives de cette résiduelle : l’une avec la part de rémunération du travail dans le PIB (corrélation Pearson r = 0,491), l’autre avec la consommation d’énergie par tête d’habitant (corrélation r = 0,509). Cette résiduelle de régression, qui semblait tellement aléatoire, semblait néanmoins avoir des préférences claires. J’ai donc ajouté ces deux variables à la version précédente de mon équation et c’est ainsi que je suis arrivé au modèle présenté au tout début de cette mise à jour d’aujourd’hui.

Bon, ça c’est l’histoire de mes crimes, maintenant le temps est venu d’interpréter. Dans trois versions différentes de mon modèle, le coefficient de régression assigné au capital physique restait bien tranquille, entre 0,82 et 0,85, en fonction du contexte. Je pense que j’ai donc ici un équilibre économique : celui entre le capital physique et le nombre de demandes de brevet. Trois préférences dans ma fonction de sélection se superposent ensuite à ce point d’équilibre : préférence pour une rotation rapide des technologies, préférence pour des technologies à forte rémunération de main d’œuvre, ainsi que la préférence, relativement moins forte, pour les technologies à consommation élevée d’énergie. La préférence pour des technologies à forte rémunération de main d’œuvre semble être particulièrement intéressante. Plus de rémunération pour la main d’œuvre veut dire plus de personnes employées ou bien des salaires plus élevés, avec peut-être une préférence pour de la main d’œuvre hautement qualifiée. Cela pourrait expliquer le phénomène de productivité décroissante dans l’économie mondiale (plus de travail fourni donc productivité décroissante du travail) ainsi que la disparité croissante entre les salaires d’employés hautement qualifiés et ceux avec juste des qualifications élémentaires.

Le coefficient positif assigné à la consommation d’énergie par tête d’habitant est aussi intéressant. Elle pourrait même fournir une réponse anthropologique à une question fondamentale : pourquoi, avec tout le talent que nous avons, comme civilisation, à inventer des trucs toujours nouveaux, on montre une tendance obstinée à consommer de plus en plus d’énergie par personne. Du point de vue d’un ingénieur, ce coefficient assigné à la consommation d’énergie est contre-intuitif. Tour ingénieur tend à développer des technologies aussi économes en énergie que possible. Néanmoins, il se peut qu’à un niveau vraiment très, très biologique, comme espèce vivante, nous avons une préférence viscérale pour approprier autant d’énergie que possible de notre environnement.

Par ailleurs, si vous sautez au début de cette mise à jour, vous verrez dans la forme la plus élaborée de mon modèle un coefficient de détermination égal à R2 = 0,701. Ça me laisse toujours avec plus de 29% de variance sans explication. Ce n’est pas bien grave : trop de détermination n’est pas nécessairement ce qu’on souhaite. Encore, ça m’a donné un prétexte pour réitérer la même procédure analytique : mapper les résiduelles et chercher des corrélations. Seulement cette fois, ça n’a rien donné. Cette résiduelle-là semble bien aliénée. Je la laisse pour le moment. Ce qui m’intéresse en ce moment précis, c’est la structure. Je pose et je vérifie l’hypothèse suivante : des structures sociales différentes produisent des fonctions de sélection différentes et des équilibres différents entre la quantité de capital physique et le nombre de demandes de brevet.

Dans ma base de données, j’ai deux variables différentes : la densité de population et le déficit alimentaire. Le nombre de personnes par kilomètre carré est un facteur essentiel de relations sociales, aussi bien coopératives que conflictuelles. Le déficit alimentaire semble avoir de l’importance pour le ratio de capital physique par une demande de brevet. J’ai déjà exploré ce sujet précis, un tout petit peu, dans la mise à jour intitulée “Evolutionary games”. J’inclus donc les logarithmes naturels de ces deux variables dans mon modèle, ce qui me donne l’équation suivante : ln(Nombre de demandes de brevet) = a1*ln(Capital physique) + a2*ln(Taux d’amortissement) + a3*ln(Part des salaires dans le PIB) + a4*ln(Consommation d’énergie par tête d’habitant) + a5*ln(Densité de population) + a6*ln(Déficit alimentaire) + constante résiduelle. Je teste cette équation dans un ensemble d’observations réduit, faute de données complètes. J’ai n = 469 observations valides, qui rendent, néanmoins, un joli pouvoir explicatif avec R2 = 0,729. Quant aux paramètres détaillés du modèle, vous pouvez les trouver dans le tableau ci-dessous :

variable Coefficient Erreur standard Statistique t p-valeur
ln(Capital physique) 0,799 0,043 18,49 0,000
ln(Taux d’amortissement) 1,496 0,365 4,096 0,000
ln(Part des salaires dans le PIB) 2,338 0,269 8,676 0,000
ln(Consommation d’énergie par tête d’habitant 1,233 0,102 12,035 0,000
ln(Densité de population) 0,646 0,063 10,219 0,000
ln(Déficit alimentaire) -0,106 0,069 -1,541 0,124
constante résiduelle -9,522 1,618 -5,885 0,000

La densité de population semble avoir deux mots à dire quant à l’équilibre « capital – demandes de brevet » et c’est du solide en termes de corrélation : plus on a du monde par kilomètre carré, plus on génère d’inventions brevetables. Dans le cas du déficit alimentaire, celui-ci semble avoir quelque chose à dire, seulement il est dur de définir qu’est-ce que c’est exactement qu’il veut dire. La p – valeur de cette corrélation particulière est plutôt élevée. Il semble que le déficit alimentaire marche mieux comme variable de contrôle, à l’extérieur du modèle plutôt qu’à l’intérieur.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s