The kind of puzzle that Karl Friedrich was after

My editorial on You Tube

Over the last few updates, I have been indulging in the mathematical logic of Gaussian process, eating it with the spoon of mean-reversion. My so-far experience with using the logic of Gaussian process is that of my personal strategy as regards investment in the stock market, and especially as regards those short, periodical episodes of reshuffling in my investment portfolio, when I am exposed to, and I frequently yield to the gambling-like temptation of short trade (see Acceptably dumb proof. The method of mean-reversion , Fast + slower = compound rhythm, the rhythm of life, and We really don’t see small change ). Gambling-like is the key concept here. I engage into quick trade, and I feel that special flow, peculiar to gambling behaviour, and yet I want that flow to weave around a rational strategy, very much in the spirit of Abraham de Moivre’s ‘The doctrine of chances: or, A method of calculating the probabilities of events in play’, published in 1756. A bit of gambling, yes, but informed gambling.  

I am trying to understand why a neural network based on mean-reversed prices as input consistently underestimates the real price, and why the whole method of mean-reversion fails with super-stable prices, such as those of cobalt or uranium (see We really don’t see small change).

I like understanding things. I like understanding the deep logic of the things I do and the methods I use. Here comes the object of my deep intellectual dive, the normal distribution. In the two pictures below, you can see the initial outline of the problem.

How does a function, namely that of normal distribution, assist my process of decision making? Of course, the first-order answer is simple: ‘it gives you numbers, bro’, and when you see those numbers you essentially know what to do’. Good, great, but I want to understand HOW EXACTLY those numbers, thus the function I use, match with my thinking and my action.

Good. I have a function, i.e. that of normal distribution, and for some reason that function works. It works geometrically. The whole mathematical expression serves to create a fraction. If you look carefully at the equation, you will understand that with given mean value μ and standard deviation σ, there is no way this function can go above 1. It is always a fraction. A fraction can be seen from different angles. Firstly, it is a portion of something, like a / b, where a < b. There is a bigger something, the denominator of the fraction, σ[(2π)0,5] = σ* 2,506628275. (elevation to power 0,5 replaces the sign of square root, which I cannot reproduce exactly from the keyboard, as a font).  Secondly, as we talk about denominators, a fraction is a change in units of measurement. Instead of measuring reality in units of 1 – the smallest prime number – we measure reality in units of whatever we put in the denominator of the fraction. Thirdly, a fraction is a proportion between two sides of a rectangle, namely the proportion between the shorter side and the longer side.

Good, so what this function of normal distribution represents is a portion cut of a bigger something equal to σ[(2π)0,5], and that something is my unit of measurement, and, in the same time, it is the longer side of a rectangle. The expression σ[(2π)0,5] is something like one dimension of my world, whilst the whole equation of normal distribution, i.e. the value of that function, makes the other dimension. Is the Gaussian world a rectangular world? I need to know. I start talking to dead people. Usually helps. This time, my interlocutor is Karl Friedrich Gauss, in his General Investigations of Curved Surfaces, presented to the Royal Society, October 8th, 1827.

What many people ignore today is that what we call a Gaussian curve is the outcome of a mathematical problem, which, initially, had virtually nothing to do with probability. What Karl Friedrich Gauss (almost) solved was the problem of geodetic measurements, i.e. the distinction between the bird’s flight distance, and the actual length of the same distance on the rugged and uneven surface of the Earth. I know, when we go through mountains, it is sometimes uphill, sometimes downhill, and, on average, it is flat. Still, when you have to build a railroad through the same mountains, the actual length (spell: cost) of rails to put on the ground is much greater than what would be needed for building the same railroad in the plain. That’s the type of puzzle that Karl Friedrich was after.

Someone could say there is no puzzle. You want to know how long a rail do you need to go over a mountain, you send surveyors and they measure it. Splendid. Yet, civil engineering involves some kind of interference with the landscape. I can come up with the idea of putting my railroad alongside like the half-height of the mountain (instead of going right over its top), or maybe we could sort of shave off the top, couldn’t we, civilised people whom we are? Yes, those ideas are all valid, and I can have a lot of them. Sending surveyors each time I come up with a new concept can become terribly time- and money-consuming. What I could do with is a method of approximating each of those alternative distances on a curved surface, a method which finds good compromise between exactitude and simplicity.

Gauss assumed that when we convert the observation of anything curved – rugged land, or the orbit of a planet – into linear equations, we lose information. The challenge is to lose as little an amount thereof as possible. And here the story starts. Below, you will find a short quote from Gauss: the first paragraph of the introduction.   

1.

Investigations, in which the directions of various straight lines in space are to be considered, attain a high degree of clearness and simplicity if we employ, as an auxiliary, a sphere of unit radius described about an arbitrary centre, and suppose the different points of the sphere to represent the directions of straight lines parallel to the radii ending at these points. As the position of every point in space is determined by three coordinates, that is to say, the distances of the point from three mutually perpendicular fixed planes, it is necessary to consider, first of all, the directions of the axes perpendicular to these planes. The points on the sphere, which represent these directions, we shall denote by (1), (2), (3). The distance of any one of these points from either of the other two will be a quadrant; and we shall suppose that the directions of the axes are those in which the corresponding coordinates increase.’

Before I go further, a disclaimer is due. What follows is my own development on Karl Friedrich Gauss’s ideas, not an exact summary on his thoughts. If you want to go to the source, go to the source, i.e. to Gauss’s original writings.

In this introductory paragraph, reality is a sphere. Question: what geometrical shape does my perception of reality have? Do I perceive reality as a flat surface, as a sphere (as it is the case with Karl Friedrich Gauss), or maybe is it a cone, or a cube? How can I know what is the geometrical shape of my perception? Good. I feel my synapses firing a bit faster. There is nothing like an apparently absurd, mindf**king question to kick my brain into higher gear. If I want to know what shape of reality I am perceiving, it is essentially about distance.

I approach the thing scientifically, and I start by positing hypotheses. My perceived reality is just a point, i.e. everything could be happening together, without any perceived dimension to it. Sort of a super small and stationary life. I could stretch into a segment, and thus giving my existence at least one dimension to move along, and yet within some limits. If I allow the unknown and the unpredictable into my reality, I can perceive it in the form of a continuous, endless, straight line. Sometimes, my existence can be like a bundle of separate paths, each endowed with its own indefiniteness and its own expanse: this is reality made of a few straight lines in front of me, crossing or parallel to each other. Of course, I can stop messing around with discontinuities and I can generalise those few straight lines into a continuous plane. This could make me ambitious, and I could I come to the conclusion that flat is boring. Then I bend the plane into a sphere, and, finally things get really interesting and I assume that what I initially thought is a sphere is actually a space, i.e. a Russian doll made of a lot of spheres with different radiuses, packed one into the other.

I am pretty sure that anything else can be made out of those seven cases. If, for example, my perceived reality is a tetrahedron (i.e. any of the Egyptian pyramids after having taken flight, as any spaceship should, from time to time; just kidding), it is a reality made of semi-planes delimited by segments, thus the offspring of a really tumultuous relationship between a segment and a plane etc.

Let’s take any two points in my universe. Why two and not just one? ‘Cause it’s more fun, in the first place, and then, because of an old, almost forgotten technique called triangulation. I did it in the boy scout times, long before Internet and commercial use of Global Positioning System. You are in the middle of nowhere, and you have just a very faint idea of where exactly that nowhere is, and yet you have a map of it. On the map of nowhere, you find points which you are sort of spotting in the vicinity. That mountain on your 11:00 o’clock looks almost exactly like the mountain (i.e. the dense congregation of concentric contour lines) on the map. That radio tower on your 01:00 o’clock looks like the one marked on the map etc. Having just two points, i.e. the mountain and the radio tower, you can already find your position. You need a flat surface to put your map on, a compass (or elementary orientation by the position of the sun), a pencil and a ruler (or anything with a straight, smooth, hard edge). You position your map conformingly to the geographical directions, i.e. the top edge of the map should be perpendicular to the East-West axis (or, in other words, the top edge of the map should be facing North). You position the ruler on the map so as it marks an imaginary line from the mountain in the real landscape to the mountain on the map. You draw that straight line with the pencil. I do the same for the radio tower, i.e. I draw, on the map, a line connecting the real radio tower I can see to the radio tower on the map. Those lines cross on the map, and the crossing point is my most likely position.

Most likely is different from exact. By my own experience of having applied triangulation in real outdoors (back in the day, before Google Maps, and almost right after Gutenberg printed his first Bible), I know that triangulating with two points is sort of tricky. If my map is really precise (low scale, like military grade), and if it is my lucky day, two points yield a reliable positioning. Still, what used to happen more frequently, were doubtful situations. Is the mountain I can see on the horizon the mountain I think it is on the map? Sometimes it is, sometimes not quite. The more points I triangulate my position on, the closer I come to my exact location. If I have like 5 points or more, triangulating on them can even compensate slight inexactitude in the North-positioning of my map.   

The partial moral of the fairy tale is that representing my reality as a sphere around me comes with some advantages: I can find my place in that reality (the landscape) by using just an imperfect representation thereof (the map), and some thinking (the pencil, the ruler, and the compass).  I perceive my reality as a sphere, and I assume, following the intuitions of William James, expressed in his ‘Essays in Radical Empiricism’ that “there is only one primal stuff or material in the world, a stuff of which everything is composed, and if we call that stuff ‘pure experience,’ then knowing can easily be explained as a particular sort of relation towards one another into which portions of pure experience may enter. The relation itself is a part of pure experience; one of its ‘terms’ becomes the subject or bearer of the knowledge, the knower,[…] the other becomes the object known.” (Excerpt From: William James. “Essays in Radical Empiricism”. Apple Books).

Good. I’m lost. I can have two alternative shapes of my perceptual world: it can be a flat rectangle, or a sphere, and I keep in mind that both shapes are essentially my representations, i.e. my relations with the primal stuff of what’s really going on. The rectangle serves me to measure the likelihood of something happening, and the unit of likelihood is σ[(2π)0,5]. The sphere, on the other hand, has an interesting property: being in the centre of the sphere is radically different from being anywhere else. When I am in the centre, all points on the sphere are equidistant from me. Whatever happens is always at the same distance from my position: everything is equiprobable. On the other hand, when my current position is somewhere else than the centre of the sphere, points on the sphere are at different distances from me.

Now, things become a bit complicated geometrically, yet they remain logical. Imagine that your world is essentially spherical, and that you have two complementary, perceptual representations thereof, thus two types of maps, and they are both spherical as well. One of those maps locates you in its centre: it is a map of all the phenomena which you perceive as equidistant from you, thus equiprobable as for their possible occurrence. C’mon, you know, we all have that thing: anything can happen, and we don’t even bother which exact thing happens in the first place. This is a state of mind which can be a bit disquieting – it is essentially chaos acknowledged – yet, once you get the hang of it, it becomes interesting. The second spherical map locates you away from its centre, and automatically makes real phenomena different in their distance from you, i.e. in their likelihood of happening. That second map is more structured than the first one. Whilst the first is chaos, the second is order.

The next step is to assume that I can have many imperfectly overlapping chaoses in an otherwise ordered reality. I can squeeze, into an overarching, ordered representation of reality, many local, chaotic representations thereof. Then, I can just slice through the big and ordered representation of reality, following one of its secant planes. I can obtain something that I try to represent graphically in the picture below. Each point under the curve of normal distribution can correspond to the centre of a local sphere, with points on that sphere being equidistant from the centre. This is a local chaos. I can fit indefinitely many local chaoses of different size under the curve of normal distribution. The sphere in the middle, the one that touches the very belly of the Gaussian curve, roughly corresponds to what is called ‘standard normal distribution’, with mean μ = 0, and standard deviation σ =1. This is my central chaos, if you want, and it can have indefinitely many siblings, i.e. other local chaoses, located further towards the tails of the Gaussian curve.

An interesting proportion emerges between the sphere in the middle (my central chaos), and all the other spheres I can squeeze under the curve of normal distribution. That central chaos groups all the phenomena, which are one standard deviation away from me; remember: σ =1. All the points on the curve correspond to indefinitely many intersections between indefinitely many smaller spheres (smaller local chaoses), and the likelihood of each of those intersections happening is always a fraction of σ[(2π)0,5] = σ* 2,506628275. The normal curve, with its inherent proportions, represents the combination of all the possible local chaoses in my complex representation of reality.    

Good, so when I use the logic of mean-reversion to study stock prices and elaborating a strategy of investment, thus when I denominate the differences between those prices and their moving averages in units of standard deviation, it is as if I assumed that standard deviation makes σ =1. In other words, I am in the sphere of central chaos, and I discriminate stock prices into three categories, depending on the mean-reversed price. Those in the interval -1 ≤ mean-reversed price ≤ 1 are in my central chaos, which is essentially the ‘hold stock’ chaos. Those, which bear a mean-reversed price < -1, are in the peripheral chaos of the ‘buy’ strategy. Conversely, those with mean-reversed price > 1 are in another peripheral chaos, that of ‘sell’ strategy.

Now, I am trying to understand why a neural network based on mean-reversed prices as input consistently underestimates the real price, and why the whole method of mean-reversion fails with super-stable prices, such as those of cobalt or uranium (see We really don’t see small change). When prices are super-stable, thus when the moving standard deviation is σ = 0, mean-reversion, with its denomination in standard deviations, yields the ‘Division by zero!’ error, which is the mathematical equivalent of ‘WTF?’. When σ = 0, my central chaos (the central sphere under the curve) shrinks a point, devoid of any radius. Interesting. Things that change below the level of my perception deprive me of my central sphere of chaos. I am left just with the possible outliers (peripheral chaoses) without a ruler to measure them.

As regards the estimated output of my neural network (I mean, not the one in my head, the one I programmed) being consistently below real prices, I understand it as a proclivity of said network to overestimate the relative importance of peripheral chaoses in the [x < -1] [buy] zone, and, on the other hand, to underestimate peripheral chaoses existing in the [x > 1] [sell] zone. My neural network is sort of myopic to peripheral chaoses located far above (or to the right of, if you prefer) the center of my central chaos. If, as I deeply believe, the logic of mean-reversion represents an important cognitive structure in my mind, said mind tends to sort of leave one gate unguarded. In the case of price estimation, it is the gate of ‘sell’ opportunities, which, in turn, leads me to buy and hold whatever I invest in, rather than exchanging it back into money (which is the exact economic content of what we call ‘selling’).         

Interesting. When I use the normal distribution to study stock prices, one tail of the distribution – the one with abnormally high values – is sort of neglected to the benefit of the other tail, that with low values. It looks like the normal distribution is not really normal, but biased.

Czasami coś odrasta

 

Zastanawiam się – dalej się zastanawiam – nad tym, jak wydobyć maksymalną wartość dodaną z nauczania, jakie serwuję moim studentom. W języku polskim nauczam przede wszystkim podstaw zarządzania, mikroekonomii oraz budowania biznes planu, także w kontekście wdrażania nowych technologii. Mam taką małą obsesję na temat nauczania nauk społecznych: postrzegam je trochę w taki sposób, w jaki stulecia temu postrzegano astronomię, czyli jako dyscyplinę nauki służącą do określenia swojej pozycji na jakimś terytorium i do nakreślenia mapy tego terytorium. To trochę jak te programy w stylu „Szkoła przetrwania”: zrzucają Cię, czasami nawet na spadochronie (czasami bez) w środku czegoś, co tylko przez grzeczność określasz jako „dziką przyrodę” raczej niż „zadupie” i masz znaleźć drogę do wyznaczonego punktu ponownego kontaktu z tym, co zwykłeś uważać za cywilizację.

Nawiązuję w ten sposób do mojego poprzedniego wpisu, pod tytułem „Gra w tożsamość”. Szukam takich twierdzeń i teorii w naukach społecznych, które są solidnie potwierdzone badaniami empirycznymi – a więc zasługują na miano prawd naukowych – a jednocześnie są przydatne w codziennym życiu. W „Grze w tożsamość” rozwinąłem krótkie rozumowanie na temat jednej z takich podstawowych prawd naukowych: faktu, że jesteśmy istotami społecznymi. Teraz chcę się skupić na czymś innym i jednocześnie pokrewnym: prawie wszystko co robimy, robimy w sposób powtarzalny, według powtarzalnych wzorców, a każdy taki wzorzec można rozpisać jako sekwencję.

Na początek trochę praktycznych przykładów, tak tylko żeby szybko nakreślić o co mi chodzi. Powiedzmy, że zaczynamy nowy biznes, np. internetowy sklep z odzieżą. Staramy się sprofilować potencjalnych klientów. Kiedy po raz pierwszy zadajemy sobie pytanie: „Jak może podejmować decyzję nasz klient?”, odruchowa odpowiedź brzmi często „Nie mam pojęcia, oni są tacy różnorodni”. Otóż nie. Jedna z solidnych, teoretycznych zdobyczy nauk społecznych to stanowcze stwierdzenie, że nasi klienci będą się zachowywać według przewidywalnych wzorców. Marketing opiera się na identyfikacji tych wzorców.

Powiedzmy, że jesteśmy kimś ważnym w państwie ( np. doradcą asystenta wiceprzewodniczącego komitetu politycznego przy kimś, kto na skutek niezręcznego zbiegu okoliczności tylko firmuje nas swoim nazwiskiem ) i uczestniczymy – naprawdę uczestniczymy – w negocjacjach na temat jakiegoś ważnego traktatu międzynarodowego. Sytuacja bywa napięta i mamy skłonność do traktowania innych stron negocjacji jako nieodgadnionych pokerzystów, którzy mogą w każdej chwili nas czymś zaskoczyć. Otóż znowu: nie. Państwa, tak samo jak ludzie, działają według powtarzalnych wzorców. Rzeczywisty margines manewru Waszych partnerów negocjacyjnych naprawdę nie jest znacząco odmienny od Waszego.

Pora na poważniejszą teorię. Zacznę od matematyki, a dokładnie od rachunku prawdopodobieństwa. Wiem, jak zaczynam od matmy, to wielu z Was może spontanicznie zamknąć tą stronę. Wiem, wielu z Was czuje instynktowną niemal odrazę do matematyki. Ja też ją kiedyś czułem. Wobec chyba wszystkich z nas, kiedy byliśmy dziećmi, zastosowano zabieg intelektualnego okaleczenia polegający na rozpoczęciu nauki matematyki od wkuwania na pamięć tabliczki mnożenia.

Mogę Was pocieszyć: czasami, nawet po okaleczeniu, coś odrasta. Mnie odrosła ciekawość matematyczna, tzn. intuicyjne przeświadczenie, że matematyka odzwierciedla strukturę rzeczywistości. Wam też może odrosnąć. Odwagi. Jedną z rzeczy, które wkuwamy na matmie w szkole jest pojęcie średniej arytmetycznej. Dlaczego?

Siedemnasty i osiemnasty wiek w Europie były okresem fascynacji matematyką i z czasem ta fascynacja przerodziła się w praktyczne zastosowanie. Pytanie „Co może się wydarzyć ?” było jednym z podstawowych, na które matematyka próbowała znaleźć odpowiedź. Na przełomie XVII i XVIII wieku, Isaac Newton oraz Gottfried Wilhelm Leibniz wytyczyli pierwszą ścieżkę odpowiedzi na to pytanie, kładąc podwaliny pod dziedzinę matematyki, którą znamy dzisiaj jako analizę matematyczną. Ich głównym odkryciem było stwierdzenie, że kiedy rzeczy się zmieniają, to zmieniają się w kierunku określonym przez zależności z innymi rzeczami, czyli według określonej funkcji.

Jednym z badaczy, którzy podjęli ten temat był o jedno pokolenie starszy od Newtona Abraham de Moivre. W swoim dziele pt. „The Doctrine of Chances”, w 1738 roku (następnie w 1756) wyłożył następującą teorię, potwierdzoną zresztą żmudnymi badaniami empirycznymi: jeżeli mamy jakieś zjawisko, które można zmierzyć, to przy dużej liczbie możliwych zdarzeń tego zjawiska najczęściej będzie się powtarzać wartość równa średniej arytmetycznej, czyli sumie wszystkich zaobserwowanych wartości podzielonej przez liczbę obserwacji.

Zastanówmy się nad tym chwilę. Jeżeli mam ten sklep internetowy z odzieżą i zastanawiam się, jaki typowy budżet moi klienci wydadzą na zakupy, to zgodnie z teorią de Moivre’a mam prawo oczekiwać, że będzie to średnia arytmetyczna, czyli suma wszystkich indywidualnych budżetów podzielona przez liczbę klientów. Mniej więcej w tym kierunku poszły badania i odkrycia Adama Smitha, jednego z ojców założycieli ekonomii. Odkrył, że ceny wielu dóbr, zwłaszcza tych o podstawowym znaczeniu dla społeczeństwa (np. ceny zboża albo cena pieniądza czyli stopa procentowa), zmieniają się według możliwych do przewidzenia trajektorii oraz że w danym miejscu i czasie przyjmują najczęściej wartości bliskie średniej arytmetycznej.

Teoria de Moivre’a dała początek założeniu, które z kolei wkuwamy na zajęciach ze statystyki, ze tzw. wartością oczekiwaną w zbiorze obserwacji jest średnia arytmetyczna. Z jednej strony zachęciło to późniejszych badaczy, po de Moivrze, do eksploracji okolic tej średniej arytmetycznej i do opisu całej struktury rzeczywistości dookoła. W tym kierunku poszedł Carl Friedrich Gauss, którego odkrycia pozwalają nam dzisiaj stosować tzw. rozkład normalny, zwany pieszczotliwie krzywą Gaussa.

Z drugiej jednak strony pojawiły się pytania o to, co robić, kiedy nie mamy warunków do wykonania np. 2000 prób i do określenia średniej arytmetycznej. Trudno może być znaleźć chociażby samą tylko metodę dla wyliczenia średniej np. z czasu, jakiego potrzebuje do namysłu gracz po drugiej stronie pokerowego stołu. Czasami w życiu bywa tak, że mamy niewiele prób. Warto mieć jednak metodę oswojenia niepewności i na taką okoliczność. Jednym z pierwszych teoretyków, którzy poszli tą ścieżką był wielebny Thomas Bayes, którego tajemniczy skądinąd esej, opublikowany post mortem oraz intepretowany czasami jako poszukiwanie dowodu na istnienie Boga, stworzył fundamenty dla tego, co dzisiaj określamy jako statystykę Bayesowską. W ślady Bayesa poszli inni i w ten sposób (prawdopodobnie) narodziła się teoria gier.

Gauss i Bayes to dwie różne metody określenia powtarzalnych wzorców w zachowaniu ludzi. Zgodnie z moim podejściem do dydaktyki nauk społecznych są to dwie różne metody znajdowania własnej drogi w złożonej rzeczywistości społecznej. Idąc w ślady Gaussa, staramy się odtworzyć strukturę rzeczywistości ujętą w liczbach. Podążając z kolei śladami Thomasa Bayesa, racjonalnie eksperymentujemy i stopniowo redukujemy niepewność poprzez interpretację wyników kolejnych eksperymentów.

Przyjrzyjmy się bliżej tym dwóm ścieżkom rozumowania oraz ich praktycznemu zastosowaniu. Mówiąc najprościej, każda z nich pasuje do innego typu sytuacji. Rozumowanie de Moivre’a i Gaussa pasuje do okoliczności, kiedy w zasięgu ręki mamy dużo informacji, czasami tak dużo iż mamy wrażenie nadmiaru. Powtarzalne wzorce w zachowaniu ludzi odtwarzamy, znajdując porządek ukryty w natłoku informacji. Bywa jednak i tak, że informacja jest skąpa, a przynajmniej takie mamy wrażenie. Potrzebujemy wtedy metody, która działałaby w pewnym sensie odwrotnie do „ilościówki” de Moivre’a. Potrzebujemy czegoś, co wyciśnie informacje i pozwoli nam wyrobić sobie zdanie na temat powtarzalnych zachowań ludzi tam, gdzie pozornie takich informacji nie ma.

Zanim przejdę do uczonego wykładu, mała dygresja. Po jaką ciężką cholerę zajmować się tym, co napisał jakiś gość dwieście z górą lat temu ? Co, nie mamy świeższej bibliografii ? Jasne, że mamy. Zachęcam, aby się z nią zapoznawać na bieżąco. Mam jednakowoż takie osobiste przekonanie, zbieżne z filozofią hermeneutyczną: jakiejkolwiek historii bym nie opowiadał, koniec końców opowiadam historię mojej własnej egzystencji. Opowiadam kontekst, w takim moja historia powstała. Teoretycy z osiemnastego wieku opowiadali historię społeczeństwa, które mniej więcej od połowy siedemnastego wieku stopniowo odkrywało zastosowania matematyki. To były czasy, kiedy akuratne obliczenia miały strategiczne znaczenie: w kartografii, w ekonomii (która jeszcze wtedy nie miała pojęcia, że nazywa się „ekonomia”), w architekturze, w wojskowości itd. Europa odkrywała wtedy całą potęgę informacji ujętych w liczby. Brzmi znajomo ? Ludzie tamtych czasów starali się znaleźć powtarzalne wzorce w sytuacjach, kiedy nagle mieli do dyspozycji nowe narzędzia ich zbierania, tak jak my dzisiaj. Książka de Moivre’a czy też esej Bayesa, pod powierzchnią rozważań teoretycznych, opowiadają taką właśnie historię. No i przy okazji można zrozumieć nieco lepiej, o czym ględzę ja albo inny wykładowca kiedy staramy się przekazać, na przykład, na czym polega rozkład normalny.

Na i jeszcze jedna dygresja: w zasadzie każde równanie matematyczne wywodzące się z tych osiemnasto- i dziewiętnastowiecznych teorii miało swój początek w geometrii. Wszystko, co się może wydarzyć wyobrażamy sobie jako dwuwymiarową płaszczyznę. No wiem, Gauss poszedł dalej i zrobił to w trzech wymiarach, ale staram się nie spłoszyć czytelnika. Nie wiem, skąd dokładnie wywodziła się ówczesna fascynacja geometrią. Być może z faktu, że szybki rozwój astronomii umożliwił wtedy o wiele bardziej precyzyjny pomiar odległości i tworzenie o wiele dokładniejszych niż wcześniej map. To jednak tylko domysły, a ja chcę się skupić na podstawowej regule geometrycznej, która będzie nam tu towarzyszyć: jeżeli dzieją się dwa zjawiska, oddzielone od siebie czasem lub przestrzenią, to różnicę między tymi zjawiskami możemy wyrazić jako odległość, czy też jako drogę z punktu A do punktu B. Kiedy zastosować tą regułę do ludzkiego postępowania, zachowania bardzo odmienne dzielić będzie stosunkowo duża odległość, podczas gdy zachowania stosunkowo podobne są bliskie jedne drugiego.

To jednak nie wszystko. Jeszcze trochę tej geometrii. Znacie twierdzenie Pitagorasa ? No wiecie: w trójkącie prostokątnym kwadrat długości przeciwprostokątnej jest równy sumie kwadratów długości przeciwprostokątnych. No właśnie: każdy odcinek, czyli każdą odległość od zjawiska A do zjawiska B można wyobrazić sobie jako przeciwprostokątną (no, ten skośny bok) trójkąta prostokątnego. Ta odległość jest więc pierwiastkiem z sumy kwadratów dwóch współrzędnych: X (kategoria zdarzeń) oraz Y(natężenie zdarzeń). Poniżej przedstawiam to graficznie.

Odległość Euklidesowa_Pitagorejska

Teoria jest uogólnieniem doświadczenia. Odległość Euklidesowa jest tego doskonałym przykładem. Kiedy staramy się czaić bazę na temat zachowań ludzi dookoła nas, robimy tak: dzielimy te zachowania na ogólne kategorie, a następnie dokonujemy bardziej finezyjnej oceny natężenia, z jaką każda kategoria występuje. Pierwszy tydzień w pracy: wszyscy w tym biurze to młoty albo pijawki, chociaż jest paru fajnych (grupowanie według kategorii, współrzędna X). Drugi tydzień w pracy: jeden z kategorii „młoty” ma w sobie sporo młota, ale także jest trochę fajny, a jedna „fajna” ma jakby lekki odcień pijawki (ocena natężenia cech, czyli współrzędna Y).

No dobra, czyli biorę się za krzywą Gaussa i za ukryte pod nią założenia na temat rzeczywistości oraz ludzkich zachowań. Jesteśmy więc w świecie obfitej informacji, którą trzeba uporządkować. Mamy ten sklep internetowy z odzieżą, nasi klienci wypełniają ankiety na temat swojego stylu życia, obserwujemy ich decyzje w naszym sklepie, być może jeszcze zamawiamy badanie zachowań użytkowników Internetu przy pomocy silnika behawioralnego. Mamy sporo mierzalnych (liczbowych) danych na temat naszych klientów.

Kiedy zadajemy sobie pytanie „Jak mogą się zachowywać nasi klienci ?” i kiedy świta nam intuicyjna odpowiedź „Jak tylko chcą ?”, teoria de de Moivre’a i Gaussa mówi nam „Niezupełnie. Ludzkie zachowania, tak samo jak wiele innych zjawisk, mają skłonność do skupiania się. Najwięcej przypadków będzie skupionych wokół średniej, czyli wokół wartości oczekiwanej. To skupienie ma swoje reguły. Poniżej przedstawiam ogólny wzór na rozkład normalny oraz jego interpretację, która pozwala lepiej zrozumieć te reguły.

Rozkład normalny 1

Rozkład normalny 2

 

Teraz łączymy założenia odległości Euklidesowej z założeniami rozkładu normalnego. Cokolwiek ludzie robią, to co robią zaliczamy do jakiejś kategorii ‘x’. Każdy zbiór zachowań ma swoją średnią, czyli wartość oczekiwaną, czyli najbardziej prawdopodobną kategorię zachowań określaną jako ‘µ’. Każda kategoria zachowań ‘x’ występuje z prawdopodobieństwem – natężeniem ‘y’ – wyznaczanym przede wszystkim przez to, jak daleko jest od najbardziej prawdopodobnej kategorii ‘µ’. To, jak daleko kategoria zachowań ‘x’ znajduje się od najbardziej prawdopodobnej kategorii ‘µ’ jest mierzone w jednostkach odchylenia standardowego, czyli w sigmach. No i dalej to już z górki: dokładne prawdopodobieństwo występowania kategorii zachowań ‘x’ – czyli jej natężenie ‘y’ – jest określane wzorem omówionym powyżej. Najpierw wycinamy z całej rzeczywistości kawałek określany jako „stała Gaussa” czyli jeden dzielone przez pierwiastek z dwukrotności liczby pi, a potem ścinamy dalej według wzoru.

No i byłoby zupełnie fajnie, gdyby nie to, że nasze doświadczenie mówi nam często co innego: nie widzimy jasno określonych kategorii w zachowaniach ludzi dookoła nas. Nie widzimy jednego, dominującego typu zachowań. Co robić ? Jak działać ? Tu wracamy do filozofii matematycznej Thomasa Bayesa. Postaram się o niej szerzej opowiedzieć w kolejnych wpisach na moim blogu, a na razie zadowolę się ogólnym zarysem: w warunkach ogólnej niepewności co do zachowań innych ludzi zaczynamy eksperymentować i określamy w ten sposób, co jest dla nas korzystne, a co nie. Definiujemy, co jest dla nas sukcesem, a co porażką. Następnie, w drodze kolejnych eksperymentów, stopniowo zawężamy prawdopodobieństwo sukcesu albo porażki, a w jeszcze bardziej wyrafinowanej formie, określamy prawdopodobieństwo osiągnięcia ‘p’ sukcesów i ‘q’ porażek w serii ‘n’ prób.

Jak to może wyglądać w praktyce ? Powiedzmy, że mamy pomysł na biznes i staramy się znaleźć inwestorów. Spotykamy się z pierwszym możliwym z nich. Jeszcze nic z tego spotkania nie wynikło, ale mentalnie kreślimy mapę możliwych zachowań: każdy kolejny rozmówca może być tak jakby bardziej w tą stronę od tego pierwszego, albo jakby bardziej w przeciwną stronę. Spotykamy się z kolejnymi potencjalnymi inwestorami i za każdym razem staramy się wyciągać wnioski w podobny sposób: każdego kolejnego rozmówcę traktujemy jako typ, czyli jako reprezentatywny przykład jakiejś szerszej kategorii. W ten sposób tworzymy katalog możliwych typów zachowań u naszych potencjalnych inwestorów. Mniej lub bardziej świadomie tworzymy asocjacje: każdy typ zachowań kojarzymy z jakimś jednostkowym prawdopodobieństwem sukcesu albo porażki i jednocześnie dokonujemy skojarzenia z jakimiś czynnikami zewnętrznymi. „Jeżeli trafię na prezesa funduszu inwestycyjnego na początku kwartału, to mam większe prawdopodobieństwo zaangażowania go w negocjacje na temat finansowania mojego biznes planu, niż gdybym rozmawiał jedynie z analitykiem tego funduszu pod koniec okresu rozliczeniowego” – coś w tym rodzaju.

Jeżeli się temu bliżej przyjrzeć, mamy tu raz jeszcze do czynienia z fundamentalnym mechanizmem naszej psychiki, podobnie jak w przypadku odległości Euklidesowej. Kolejne doświadczenia są dla nas podstawą do budowania mentalnych kategorii oraz do kojarzenia ich wzajemnie między sobą. W ten sposób tworzy się język, którym się porozumiewamy.

Tyle na dzisiaj. Do zobaczenia w kolejnych wpisach na tym blogu.

Contagion étonnement cohérente

 

Je me suis un peu dispersé, dans mon discours de la méthode, en ce qui concerne le marketing de mon projet EneFin. Je voulais simplement comprendre comment est-ce que la plateforme EneFin attirerait ses clients, de parmi tous les clients potentiels sur le marché et paf ! : ça s’est échappé à tout contrôle. Par « ça » je veux dire mes processus cognitifs. Je le sens bien, là, mon bouledogue joyeux interne. Il prend plaisir à mordre dans le problème en tant que tel, même sans solutions concrètes en vue.

Eh ben moi, je vais en avoir besoin, des solutions concrètes. Il faut donc que je mette un peu d’ordre dans tout ça, je veux dire dans le même « ça » que dans le paragraphe précèdent. J’ai formulé trois méthodes de base pour prévoir le nombre des clients de la plateforme EneFin. Premièrement, c’est le modèle classique d’absorption d’innovation où le nombre de mes clients est calculé comme une fraction de la population totale de ménages. La fraction, je la calcule avec la courbe de distribution normale où le temps moyen d’absorption de l’innovation par le ménage moyen est de 7 ans et j’expérimente avec des hypothèses diverses quant au coefficient de variabilité de la population. A ce sujet, dans « Le modèle d’un marché relativement conformiste » ainsi que dans « Safely narrow down the apparent chaos » vous pouvez voir des prédictions que j’avais déjà faites à titre d’échauffement.

Deuxièmement, j’ai ce modèle épidémique, à voir en détail dans « La valeur espérée » où les services de la plateforme EneFinse propagent dans la population des clients comme une contagion. Chaque client acquis en attire deux de plus, donc c’est essentiellement une progression géométrique du type n(t) = 2*n(t-1) + 1, qui s’approche très près d’une courbe exponentielle à la formule n(t) = e0,69*t. Le « t » c’est le temps.

Troisièmement et sous un angle d’approche tout à fait différent, j’avais identifié quelque chose comme un cycle de développement du portefeuille clients dans une entreprise EneFin. Le cycle, il semble être de 3 à 4 ans, il vient de l’observation du cas de la société américaine Square Inc.et vous pouvez lire les détails dans « The expected amount of what can happen ».

Trois methodes de prevoir les ventes

Je pense que je vais appliquer toutes les trois méthodes en concours, puisque chacune d’elles m’offre une perspective différente. Je commence par trouver des repères de base pour la courbe d’absorption de l’innovation. Dans ce cas, le repère de base c’est la taille du marché potentiel. Je conduis ce créneau particulier de recherche sur l’échantillon des 13 pays européens que j’avais déjà mentionné plusieurs fois (regardez, par exemple, « Good hypotheses are simple »). J’utilise les données de la Banque Mondiale en ce qui concerne la populationainsi que celles des Nations Unies à propos de la taille moyenne des ménages. Vous avez les résultats du calcul dans Tableau 1.

Tableau 1

Pays Population 2016 Taille moyenne des ménages (personnes par ménage) Nombre de ménages
Autriche 8 747 358 2,30 3 803 199
Suisse 8 372 098 2,20 3 805 499
République Tchèque 10 561 633 2,30 4 592 014
Allemagne 82 667 685 2,10 39 365 564
Espagne 46 443 959 2,60 17 863 061
Estonie 1 316 481 2,30 572 383
Finlande 5 495 096 2,10 2 616 712
France 66 896 109 2,30 29 085 265
Royaume Uni 65 637 239 2,30 28 537 930
Hollande 17 018 408 2,30 7 399 308
Norvège 5 232 929 2,20 2 378 604
Pologne 37 948 016 2,80 13 552 863
Portugal 10 324 611 2,60 3 971 004
Total 366 661 622 2,35 (moyenne pondérée) 156 265 895

Alors, juste pour me faire une idée, je prends les taux d’absorption calculés dans « Safely narrow down the apparent chaos » et je les applique à ces populations, pour calculer le nombre des ménages qui pourraient, hypothétiquement, être les clients de la plateforme EneFin. Les résultat de ce calcul particulier, vous pouvez le trouver dans un fichier Excel que j’ai placé dans les archives de mon blog. La disparité des nombres que je trouve ainsi est énorme. Dans le cas du Royaume Uni, par exemple, ça va de 0,22 client dans une population extrêmement homogène, variabilité v = Ω/µ = 0,1, jusqu’à 3 790 302,83 clients dans la population qui semble, en général, la plus accueillante, celle dotée de la variabilité v = Ω/µ = 0,8.

Maintenant, quoi ? Tout d’abord, la compréhension de ces nombres. Ils représentent le nombre hypothétique des clients que la plateforme EneFinpourrait attirer en l’espace des 36 mois à travers le mécanisme d’absorption d’innovation, un classique de la littérature du sujet (encore une fois, regardez du côté de chez Robertson). C’est un mécanisme où on adopte l’approche strictement structurelle. On en sait que dalle sur la façon exacte dont le nouveau business attire ses clients, on s’en fiche des compétiteurs, et on se concentre sur la courbe normale marquée par un temps d’absorption moyen µ et une déviation standard Ω, cette dernière étant calculée sur la base d’hypothèses à propos de la homogénéité / hétérogénéité relative de la population en question. Vous connaissez ces machines à sous (pièges à cons ?) où vous pouvez manipuler une pince pour tirer un jouet en peluche de parmi tout un tas des jouets similaires ? Eh bien, cette approche strictement structurelle c’est un peu ça. On imagine une pince socio-économique qui sélectionne des entités précises pour qu’elles joignent le portefeuille des clients du business donné.

Sonne un peu comme science-fiction ? Tout à fait. C’est la raison pour laquelle, tout en gardant le respect dû à une méthode solide, il vaut mieux approfondir la compréhension des clients et de leur comportement. Le comportement, ça me renvoie à la méthode épidémique. Je prends donc cette fonction exponentielle n(t) = e0,69*tavec « t » représentant une période de temps. Cet exponentiel représente, à son tour, une contagion modérément folle, où à partir du client zéro, chaque client acquis attire, durant une période de temps « t », deux autres clients. C’est du n(t) = 2*n(t-1) + 1, quoi.

Lorsque j’y pense, à cette épidémie modérément agressive, c’est pas si bête que ça. Le truc, c’est de bien définir le « t ». C’est un cycle de modification comportementale. Je suis un ménage innocent. L’un de mes voisins contracte le virus EneFin. Combien de temps vais-je résister à ce monstre ? Quelle réponse immunologique je vais développer ? Tout ça, c’est un truc passionnant en soi, cette modification des comportements. J’y avais consacré toute une série des mises à jour sur mon blog, en Janvieret en Février, surtout. Vous pouvez y regarder.

Ma question, à présent, est : « Est-ce que les nombres obtenus à travers la courbe normalereflètent un cycle cohérent de modification comportementale du type épidémique ? ». Allons voir. Je prends donc ce fichier Excelet je commence mon raisonnement en posant l’hypothèse que ce nombre précis, il pourrait refléter le « n » obtenu à travers exponentielle n(t) = e0,69*t.  Je fais le calcul suivant : je tire le logarithme naturel de chacun de ces nombres et je le divise par 0,69. De cette façon je fais cracher le « t » à ce n(t) = e0,69*t. Allez-y, si vous avez téléchargé ce fichier Excel, vous pouvez faire de même. Si le nombre local des clients est, hypothétiquement, le résultat de croissance épidémiquen(t) = e0,69*t , alors ln(n)/0,69 = t = le nombre des périodes de tempsdistinctes qui pourraient produire le résultat épidémique égal à « n » obtenu à travers la courbe normale.

Avant de discuter les résultats de ce petit calcul, une digression. Sans la colonne intitulée « variability 0,1 » de ce fichier Excelet, vous trouverez, quel calcul que vous ne fassiez, des nombres aberrants. Dans ce cas précis, le calcul du « t » à travers le logarithme naturel donne des valeurs négatives, donc, en principe, c’est du voyage temporel dans le passé. La colonne « variability 0,1 » représente un cas extrême, une population si homogène, que la déviation standard Ω ne fait que 0,1 de la moyenne µ. De telles situations n’arrivent que très rarement en réalité. Une population comme ça est tellement peu diversifiée qu’il est à peine justifié de l’analyser avec un courbe de distribution normale. Je l’avais inclue dans mes simulations juste pour montrer l’étendue des états possibles. Vous pouvez l’ignorer en toute tranquillité.

Alors, ces « t » locaux. Comme je les calcule, j’obtiens – et c’est une surprise – une rangée des valeurs beaucoup plus homogène que les « n » de départ. Entre t = 10,44au plus court et t = 24,42au plus long, le temps moyen est de µ(t) = 19,44et la déviation standard de ce temps est de Ω(t) = 2,40. En d’autres mots, si le nombre des clients acquis après 36 mois, simulé avec une courbe normale, était le résultant d’une croissance épidémique exponentielle épidémiquen(t) = e0,69*t , alors le temps nécessaire pour obtenir le même « n » à travers ladite croissance épidémique serait de 19,44 périodes distinctes « t » en moyenne, avec très peu de variabilité autour de cette moyenne.

Important : ce « t » est le nombre des périodes de temps distinctes, donc le nombre des cycles de contagionn(t) = 2*n(t-1) + 1. Ce n’est pas le nombre des mois, mais j’y passe, justement. Si mon « n », hypothétiquement obtenu à travers la contagion n(t) = e0,69*t survient après 19,44 périodes en moyenne et le même « n », obtenu à travers l’absorption suivant la courbe normale, devient ce qu’il devient après 36 mois, cela veut dire qu’une période de contagion « t » est de t = 36 / 19,44 = 1,88mois. En généralisant, t = 36 / {ln[n(t)] / 0,69} = (36 * 0,69) / ln[n(t)] = 24,84 / ln[n(t)]. Ainsi généralisé, le « t » rend, à part la moyenne µ(t) = 1,88, un maximum de 3,45 mois et un minimum de 1,47 mois, avec une déviation standard Ω(t) = 0,26.

Je sens que j’ai besoin de résumer. J’avais donc pris treize populations nationales européennes : Autriche, Suisse, République Tchèque, Allemagne, Espagne, Estonie, Finlande, France, Royaume Uni, Hollande, Norvège, Pologne, Portugal. Ça fait dans les 367 millions de personnes, soit quelques 156 millions de ménages. D’autre part, j’avais pris un cycle de changement technologique, très crument observé en ce qui concerne les nouvelles technologies éolienneset je l’ai fixé à 7 ans, ou bien 84 mois. Je me suis dit que ces 7 ans, c’est le temps moyen qu’un ménage moyen a besoin pour absorber une technologie nouvelle. Ensuite, j’ai fait à ces 156 millions des ménages absorber une technologie nouvelle, celle de la plateforme transactionnelle EneFin, avec des hypothèses variées à propos de l’homogénéité relative des ces populations. J’avais obtenu tout un univers des nombres possibles des ménages qu’EneFin aurait des chances d’attirer. Ces nombres disparates, je les ai testées comme des résultats possibles d’une croissance épidémiquen(t) = e0,69*t  où « t » est un cycle de contagion durant lequel chaque client acquis en attire deux autres. Aussi étonnant que ça puisse être, ces nombres très variés, obtenus pour des populations nationales variées avec des assomptions tout ce qu’il y a de cavalier, rendent un cycle de contagion (modification comportementale) remarquablement consistant de t ≈ 2 mois.

Lorsque j’écris « aussi étonnant que ça puisse être », c’est essentiellement de mon propre étonnement que je parle. Ces résultats, c’est l’une de ces occasions quand j’ai l’impression d’être tombé sur la théorie de quelque chose mais je suis à court d’idées en ce qui concerne quelle pourrait bien être cette chose. Je suis 100% sérieux, là. Je ne comprends pas, comment ces nombres calculés avec la courbe normalepeuvent bien rendre un cycle de croissance épidémique aussi cohérent.

Cela veut dire que mon cerveau a besoin de prendre sa distance, là. Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund(aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon. Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ?

Vous pouvez donner votre support financier à ce blog

€10.00

 

La valeur espérée

Dans ma dernière mise à jour en anglais – Safely narrow down the apparent chaos– j’avais fait un pas en avant (enfin, j’espère) dans l’estimation du nombre des clients que je pourrais faire dans mon projet EneFin. Je me suis dit que ça ne serait peut-être pas entièrement idiot d’aller un peu en profondeur et expliquer toute cette idée de prédire le nombre des clients en s’aidant de la distribution normale.

Voilà le problème de départ : comment prédire une quantité future et incertaine ? Lorsque nous voulons prédire le nombre ou la taille de quoi que ce soit, serait-ce le nombre des billets vendus pour un concert ou la quantité de matériel rocheux éjecté dans l’éruption d’un volcan, vous avons deux voies – mutuellement alternatives mais pas mutuellement exclusives – à suivre : la méthode épidémique ou bien la méthode de changement structurel.

Dans la méthode épidémique, je me concentre sur le nombre (ou la taille) de départ et je me demande comment ce numéraire initial peut possiblement croître. Lorsque j’applique cette logique au nombre des clients potentiels, je peux utiliser ce qu’on appelle la théorie de l’épidémie : l’attraction des clients consécutifs est étudiée comme la propagation d’un pathogène. Ça commence avec le patient zéro – mon premier client – qui contacte (contamine) ses potes et ses cousins et certains parmi eux deviennent mes clients. Ceux-là, à leur tour, contaminent d’autres et ainsi ça se développe, par contamination.

Si je veux modeler me développement de mon portefeuille des clients comme une contamination épidémique, j’ai besoin des assomptions initiales en ce qui concerne la contamination strictement dite. Il faut quelque sorte de contact pour rendre possible la transmission. En d’autres mots, il faut que je raconte une histoire plausible à propos des relations sociales entre mes clients potentiels et de la façon dont ils se transmettent mutuellement des schémas de comportement. Mathématiquement, j’ai deux outils de base pour modeler l’effet agrégé de cette transmission des schémas de comportement: le premier c’est la fonction factorielleou bien sa cousine, la fonction gamma, le deuxième c’est la fonction exponentielle.

Dans la méthode de changement structurel, je change d’optique et au départ je me concentre sur la population totale des toutes les entités qui peuvent potentiellement devenir mes clients. Je définis donc un marché potentiel total et ensuite je me demande comment je vais développer mon portefeuille clients à l’intérieur de cet univers. Je perçois l’ensemble de mes clients comme un sous-ensemble d’une population plus large. Comme certains membres de cette population totale graviteront vers mon offre, la proportion entre mon portefeuille clients et cette population totale changera. Dans cette approche, ma prédiction se concentre plus sur le pourcentage que mes clients vont représenter dans la population totale que sur leur nombre absolu. Côté maths, c’est le bon moment pour sortir de mon sac des outils comme la distribution normale, ou bien celle de Poisson, ou encore celle de Weibulletc.

Epidemie et changement structurel

 

Maintenant, vous pouvez légitimement demander laquelle de ces deux méthodes – épidémique et structurelle – est la meilleure des deux et si on peut possiblement les mélanger. A mon avis, la méthode structurelle est la meilleure des deux en général. Elle est à la fois plus rationnelle, plus intuitive, plus simple et mieux instrumentée mathématiquement. Encore, pour avoir une idée vraiment précise et un modèle analytique vraiment solide, il est bon d’ajouter une pincée de la méthode épidémique.

Je commence par expliquer l’aspect rationnel. Peut-être vous vous souvenez de ces épisodes d’enfance lorsque vous mesuriez votre taille en faisant des marques sur le châssis dormant d’une porte. Vous pouviez observer la progression directement – « je suis plus grand(e) qu’il y a deux mois » – et vous aviez une idée vague de la taille finale que vous pourriez probablement atteindre. Vous observiez les adultes autour de vous et vous vous disiez qu’un jour, vous serez aussi grand(e) qu’eux. Vous perceviez votre propre taille en proportion à la taille-cible des adultes. A un niveau plus général et plus profond, c’est comme ça que marche la réalité : comme des structures entremêlées. Tout ce qui existe est une structure à l’intérieur d’une structure plus vaste et en même temps contient des structures plus locales à l’intérieur de soi-même. La méthode structurelle est fondamentalement en phase avec la façon dont notre cerveau rationnalise notre expérience de la réalité.

Encore, si vous étiez un gosse bien curieux – moi j’étais une vraie peste à cet égard, je tuais les adultes avec mes questions – vous voulez comprendre comment ça se fait que la marque de votre taille, sur le châssis de la porte, et plus haut que celle d’il y a deux mois. Alors voilà que vous prenez connaissance de toute l’histoire des cellules qui se multiplient. Vous passez de l’approche structurelle à la théorie de l’épidémie. Toute croissance de matière organique peut être étudiée comme une épidémie, celle d’un certain code génétique. Voilà la bonne place pour la méthode épidémique : comprendre ces petites interactions locales dans des petites structures locales.

Dans la prédiction du nombre futurs de mes clients, dans un business plan, la méthode structurelle commence avec des assomptions bien vérifiables empiriquement. La taille de mon marché potentiel entier, je peux la mesurer – ou bien faire des assomptions solides à ce sujet – sur la base des données économiques accessibles : démographie, consommation ménagère, investissement entrepreneurial etc. Tout ça, ce sont des repères bien distincts et ce qui est même plus important, intersubjectifs. Vous allez chez INSEE, chez Eurostat, ou bien chez la Banque Mondiale, et vous avez ces données de départ. C’est comme si vous aviez la carte essentielle d’un territoire : ça rassure.

Ensuite, lorsque je passe en revue – tout à fait subjectivement, je l’admets – les outils mathématiques dont je dispose pour prédire le nombre de mes clients, les structurels sont beaucoup plus simples à utiliser que les épidémiques. En fait, je pense qu’il est utile d’étudier la différence en peu plus en profondeur. Je retourne donc à mon concept EneFin(regardez du côté de Le modèle d’un marché relativement conformistepour vous rafraichir la mémoire) et je me dis : « OK, j’ai donc le premier client : la première personne qui a acheté au moins un contrat complexe via EneFin. Qu’est-ce qui se passe ensuite ? ».

L’épidémie d’abord. Mon premier client convainc deux autres. Ça fait 1 plus la factorielle de deux, donc dans ce deuxième moment de mon histoire j’ai 1 + 2 ! = 1 + 1 * 2 = 1 + 2 = 3 clients. Ces deux autres font de même, donc chacun d’eux convainc deux suivants, ce qui fait 4 de plus. Par conséquent, dans le troisième moment de mon histoire j’ai 1 + 1 * 2 + 2 * 2 = 7 = 1 + 3 ! clients. Ainsi vient le quatrième moment de l’histoire et des suivants. A chaque fois chacun des clients convaincus jusqu’alors en attire deux autres et j’ai bien sûr mon patient zéro. Au moment « t » j’ai donc le double du nombre des clients gagnés au moment « t – 1 » plus 1. En mathématique commun ça fait n(t) = 2*n(t-1) + 1.

Est-ce que ça se marie avec les factorielles des moments consécutifs ? Pas tout à fait. A partir du moment no. 4, la discorde s’insinue. Prenez le cas du moment no. 8. La chaîne n(t) = 2*n(t-1) + 1donne n(8) = 255clients, mais la factorielle 8 ! ça fait 40 321 clients. Comme une légère différence. Eh ben oui, puisque la factorielle pure et dure ça implique une contamination de plus en plus rapide. Pour avoir 8 ! = 40 321 clients au moment 8, chacun des 7 ! = 5 041 clients déjà attirés préalablement jusqu’au moment 7 devrait attirer 40 321/5 041 = 7,998611387 amis et cousins. Pour avoir le point de départ du moment 7, donc ces 7 ! = 5 041 clients, au moment 6 j’étais obligé d’avoir 6 ! = 721 clients, dont chacun avait convaincu 6,991678225 autres.

Alors voilà que j’ai deux contaminations différentes : une avec la progression n(t) = 2*n(t-1) + 1, l’autre qui file au rythme de n(t) = t ! + 1. Tableau 1 ci-dessous donne une idée de ces deux propagations épidémiques.

Tableau 1 – Comparaison des propagations épidémiques : n(t) = 2*n(t-1) + 1et n(t) = t ! + 1.

  Épidémie n(t) = 2*n(t-1) + 1 Épidémie n(t) = t ! + 1
Moment Nombre total des clients Nombre des clients nouveaux attirés par chaque client existant Nombre total des clients Nombre des clients nouveaux attirés par chaque client existant
1 1 2 2 2
2 3 3 3 1,5
3 7 2,333333333 7 2,333333333
4 15 2,142857143 25 3,571428571
5 31 2,066666667 121 4,84
6 63 2,032258065 721 5,958677686
7 127 2,015873016 5 041 6,991678225
8 255 2,007874016 40 321 7,998611387
9 511 2,003921569 362 881 8,999801592
10 1 023 2,001956947 3 628 801 9,999975198
11 2 047 2,000977517 39 916 801 10,99999724
12 4 095 2,00048852 479 001 601 11,99999972
13 8 191 2,0002442 6 227 020 801 12,99999997
14 16 383 2,000122085 87 178 291 201 14
15 32 767 2,000061039 1 307 674 368 001 15
16 65 535 2,000030519 20 922 789 888 001 16

 

A première vue, la progression purement factorielle n(t) = t ! + 1c’est un peu fou. Ça pourrait servir à simuler, par exemple, le nombre des transactions dans une fonctionnalité FinTech, mais pas le nombre des clients. La propagation géométrique n(t) = 2*n(t-1) + 1semble un peu plus réaliste. Elle a aussi un trait mathématique intéressant. Si vous tirez le logarithme naturel du nombre total des clients à chaque moment consécutif et ensuite vous divisez ce logarithme par la valeur du moment – donc par 4 au moment no. 4 etc. – vous arrivez très vite, dès le moment no. 5, à la valeur quasi constante de ln[n(t)/t] ≈ 0,69. En d’autres mots, la propagation épidémique n(t) = 2*n(t-1) + 1est à peu de chose près équivalente à la croissance exponentielle n(t) = e0,69*t. Qu’est-ce que ça prouve ? Eh bien, dans les sciences économiques on assume que si la croissance quantitative d’un phénomène suit la logique de n(t) = e ß*t, avec ßplus ou moins constant, cela représente raisonnablement une hystérèse, donc un développement où chaque pas consécutif détermine le pas suivant d’une façon plus ou moins cohérente.

J’ai donc une hystérèse bien jolie, mais est-elle réaliste ? Puis-je assumer une progression où chaque période consécutive va me permettre de doubler la taille de mon portefeuille clients ? Comment définir cette période de changement du simple au double ? Comment puis-je simuler une situation ou quelques-uns de parmi mes clients attirent, chacun, deux nouveaux pendant que d’autres attirent cinq nouveaux ?

Voilà le moment quand la méthode épidémique, illustrée ci-dessus, devient de plus en plus encombrante avec toutes les assomptions qu’il faut y ajouter. Voilà donc le moment de tourner vers la méthode structurelle. Nous y retournons avec la version française des mêmes schémas graphiques que j’avais déjà présentés dans Safely narrow down the apparent chaos. Je les présente ci-dessous en j’enchaîne ensuite.

Distribution normale de base

 

Distribution normale interpretation

L’application pratique de la distribution normale exige un peu de flexibilité, surtout dans l’interprétation d’un paramètre-clé : la moyenne ou le « µ » dans l’équation. En théorie, la moyenne est la valeur espérée dans un ensemble des données. D’habitude, on l’interprète comme un attribut de la moyenne : dès qu’on la calcule, on peut la considérer comme valeur espérée. Maintenant, je vous propose d’inverser le raisonnement. Prenons une valeur que nous pouvons considérer comme espérée, donc comme, à la fois, ce que nous voulons avoir (espérons), et ce qui est objectivement vérifiable (pour savoir si on a obtenu ce qu’on espérait d’avoir). Dans cet outil de calcul que vous pouvez trouver sur mon blog, le « Business Planning Calculator », une telle valeur est le point mort des ventes, donc le nombre des clients qui nous garantit la couverture de nos frais fixes. On peut prendre le niveau des ventes qui garantit 20% de marge opérationnelle. On peut prendre, comme notre valeur espérée, tout ce qui est : a) désirable b) objectivement mesurable et vérifiable.

Une fois notre valeur espérée identifiée, nous assumons que c’est la moyenne d’une distribution normale. Tout autour de cet état que nous voulons atteindre, il y a des états plus ou moins voisins, qui se composent en une courbe de Gauss. Si nous vérifions la réalité autour de nous, nous découvrirons ces états voisins de la moyenne – par exemple à travers l’étude des cas des business similaires au notre – et ainsi nous pouvons estimer la déviation standard de notre courbe. Voilà, on a les deux paramètres de la distribution normale.

Bon, j’en finis avec la science, pour aujourd’hui. Je continue à vous fournir de la bonne science, presque neuve, juste un peu cabossée dans le processus de conception. Je vous rappelle que vous pouvez télécharger le business plan du projet BeFund(aussi accessible en version anglaise). Vous pouvez aussi télécharger mon livre intitulé “Capitalism and Political Power”. Je veux utiliser le financement participatif pour me donner une assise financière dans cet effort. Vous pouvez soutenir financièrement ma recherche, selon votre meilleur jugement, à travers mon compte PayPal. Vous pouvez aussi vous enregistrer comme mon patron sur mon compte Patreon. Si vous en faites ainsi, je vous serai reconnaissant pour m’indiquer deux trucs importants : quel genre de récompense attendez-vous en échange du patronage et quelles étapes souhaitiez-vous voir dans mon travail ?

Vous pouvez donner votre support financier à ce blog

€10.00

 

Safely narrow down the apparent chaos

There is that thing about me: I like understanding. I represent my internal process of understanding as the interplay of three imaginary entities: the curious ape, the happy bulldog, and the austere monk. The curious ape is the part of me who instinctively reaches for anything new and interesting. The curious ape does basic gauging of that new thing: ‘can kill or hopefully not always?’, ‘edible or unfortunately not without risk?’ etc. When it does not always kill and can be eaten, the happy bulldog is released from its leash. It takes pleasure in rummaging around things, sniffing and digging in the search of adjacent phenomena. Believe me, when my internal happy bulldog starts sniffing around and digging things out, they just pile up. Whenever I study a new topic, the folder I have assigned to it swells like a balloon, with articles, books, reports, websites etc. A moment comes when those piles of adjacent phenomena start needing some order and this is when my internal austere monk steps into the game. His basic tool is the Ockham’s razor, which cuts the obvious from the dubious, and thus, eventually, cuts bullshit off.

In my last update in French, namely in Le modèle d’un marché relativement conformiste, I returned to that business plan for the project EneFin, and the first thing my internal curious ape is gauging right now is the so-called absorption by the market. EneFin is supposed to be an innovative concept, and, as any innovation, it will need to kind of get into the market. It can do so as people in the market will opt for shifting from being just potential users to being the actual ones. In other words, the success of any business depends on a sequence of decisions taken by people who are supposed to be customers.

People are supposed to make decisions regarding my new products or technologies. Decisions have their patterns. I wrote more about this particular issue in an update on this blog, entitled ‘And so I ventured myself into the realm of what people think they can do’, for example. Now, I am interested in the more marketing-oriented, aggregate outcome of those decisions. The commonly used theoretical tool here is the normal distribution(see for example Robertson): we assume that, as customers switch to purchasing that new thing, the population of users grows as a cumulative normal fraction (i.e. fraction based on the normal distribution) of the general population.

As I said, I like understanding. What I want is to really understandthe logic behind simulating aggregate outcomes of customers’ decisions with the help of normal distribution. Right, then let’s do some understanding. Below, I am introducing two graphical presentations of the normal distribution: the first is the ‘official’ one, the second, further below, is my own, uncombed and freshly woken up interpretation.

The normal distribution

 

Normal distribution interpreted

 

So, the logic behind the equation starts biblically: in the beginning, there is chaos. Everyone can do anything. Said chaos occurs in a space, based on the constant e = 2,71828, known as the base of the natural logarithm and reputed to be really handy for studying dynamic processes. This space is ex. Any customer can take any decision in a space made by ‘e’ elevated to the power ‘x’, or the power of the moment. Yes, ‘x’ is a moment, i.e. the moment when we observe the distribution of customers’ decisions.

Chaos gets narrowed down by referring to µ, or the arithmetical average of all the moments studied. This is the expression (x – µ)2or the local variance, observable in the moment x. In order to have an arithmetical average, and have it the same in all the moments ‘x’, we need to close the frame, i.e. to define the set of x’s. Essentially, we are saying to that initial chaos: ‘Look, chaos, it is time to pull yourself together a bit, and so we peg down the set of moments you contain, we draw an average of all those moments, and that average is sort of the point where 50% of you, chaos, is being taken and recognized, and we position every moment xregarding its distance from the average moment µ’.

Thus, the initial chaos ‘e power x’ gets dressed a little, into ‘e power (x – µ)2‘. Still, a dressed chaos is still chaos. Now, there is that old intuition, progressively unfolded by Isaac Newton, Gottfried Wilhelm Leibnizand Abraham de Moivreat the verge of the 17thand 18thcenturies, then grounded by Carl Friedrich Gauss, and Thomas Bayes: chaos is a metaphysical concept born out of insufficient understanding, ‘cause your average reality, babe, has patterns and structures in it.

The way that things structure themselves is most frequently sort of a mainstream fashion, that most events stick to, accompanied by fringe phenomena who want to be remembered as the rebels of their time (right, space-time). The mainstream fashion is observable as an expected value. The big thing about maths is being able to discover by yourself that when you add up all the moments in the apparent chaos, and then you divide the so-obtained sum by the number of moments added, you get a value, which we call arithmetical average, and which actually doesn’t exist in that set of moments, but it sets the mainstream fashion for all the moments in that apparent chaos. Moments tend to stick around the average, whose habitual nickname is ‘µ’.

Once you have the expected value, you can slice your apparent chaos in two, sort of respectively on the right, and on the left of the expected value that doesn’t actually exist. In each of the two slices you can repeat the same operation: add up everything, then divide by the number of items in that everything, and get something expected that doesn’t exist. That second average can have two, alternative properties as for structuring. On the one hand, it can set another mainstream, sort of next door to that first mainstream: moments on one side of the first average tend to cluster and pile up around that second average. Then it means that we have another expected value, and we should split our initial, apparent chaos into two separate chaoses, each with its expected value inside, and study each of them separately. On the other hand, that second average can be sort of insignificant in its power of clustering moments: it is just the average (expected) distance from the first average, and we call it standard deviation, habitually represented with the Greek sigma.

We have the expected distance (i.e. standard deviation) from the expected value in our apparent chaos, and it allows us to call our chaos for further tidying up. We go and slice off some parts of that chaos, which seem not to be really relevant regarding our mainstream. Firstly, we do it by dividing our initial logarithm, being the local variance (x – µ)2, by twice the general variance, or two times sigma power two. We can be even meaner and add a minus sign in front of that divided local variance, and it means that instead of expanding our constant e = 2,71828, into a larger space, we are actually folding it into a smaller space. Thus, we get a space much smaller than the initial ‘e power (x – µ)2‘.

Now, we progressively chip some bits out of that smaller, folded space. We divide it by the standard deviation. I know, technically we multiply it by one divided by standard deviation, but if you are like older than twelve, you can easily understand the equivalence here. Next, we multiply the so-obtained quotient by that funny constant: one divided by the square root of two times π. This constant is 0,39894228 and if my memory is correct is was a big discovery from the part of Carl Friedrich Gauss: in any apparent chaos, you can safely narrow down the number of the realistically possible occurrences to like four tenths of that initial chaos.

After all that chipping we did to our initial, charmingly chaotic ‘e power x‘ space, we get the normal space, or that contained under the curve of normal distribution. This is what the whole theory of probability, and its rich pragmatic cousin, statistics, are about: narrowing down the range of uncertain, future occurrences to a space smaller than ‘anything can happen’. You can do it in many ways, i.e. we have many different statistical distributions. The normal one is like the top dog in that yard, but you can easily experiment with the steps described above and see by yourself what happens. You can kick that Gaussian constant 0,39894228 out of the equation, or you can make it stronger by taking away the square root and just keep two times π in its denominator; you can divide the local variance (x – µ)2just by one time its cousin general variance instead of twice etc. I am persuaded that this is what Carl Friedrich Gaussdid: he kept experimenting with equations until he came up with something practical.

And so am I, I mean I keep experimenting with equations so as to come up with something practical. I am applying all that elaborate philosophy of harnessed chaos to my EneFinthing and to predicting the number of my customers. As I am using normal distribution as my basic, quantitative screwdriver, I start with assuming that however many customers I got, that however many is always a fraction (percentage) of a total population. This is what statistical distributions are meant to yield: a probability, thus a fraction of reality, elegantly expressed as a percentage.

I take a planning horizon of three years, just as I do in the Business Planning Calculator, that analytical tool you can download from a subpage of https://discoversocialsciences.com. In order to make my curves smoother, I represent those three years as 36 months. This is my set of moments ‘x’, ranging from 1 to 36. The expected, average value that does not exist in that range of moments is the average time that a typical potential customer, out there, in the total population, needs to try and buy energy via EneFin. I have no clue, although I have an intuition. In the research on innovative activity in the realm of renewable energies, I have discovered something like a cycle. It is the time needed for the annual number of patent applications to double, with respect to a given technology (wind, photovoltaic etc.). See Time to come to the ad rem, for example, for more details. That cycle seems to be 7 years in Europe and in the United States, whilst it drops down to 3 years in China.

I stick to 7 years, as I am mostly interested, for the moment, in the European market. Seven years equals 7*12 = 84 months. I provisionally choose those 84 months as my average µfor using normal distribution in my forecast. Now, the standard deviation. Once again, no clue, and an intuition. The intuition’s name is ‘coefficient of variability’, which I baptise ßfor the moment. Variability is the coefficient that you get when you divide standard deviation by the mean average value. Another proportion. The greater the ß, the more dispersed is my set of customers into different subsets: lifestyles, cities, neighbourhoods etc. Conversely, the smaller the ß, the more conformist is that population, with relatively more people sailing in the mainstream. I casually assume my variability to be found somewhere in 0,1 ≤ ß ≤ 2, with a step of 0,1. With µ = 84, that makes my Ω (another symbol for sigma, or standard deviation) fall into 0,1*84 ≤ Ω ≤ 2*84 <=> 8,4 ≤ Ω ≤ 168. At ß = 0,1 => Ω = 8,4my customers are boringly similar to each other, whilst at ß = 2 => Ω = 168they are like separate tribes.

In order to make my presentation simpler, I take three checkpoints in time, namely the end of each consecutive year out of the three. Denominated in months, it gives: the 12thmonth, the 24thmonth, and the 36thmonth. I Table 1, below, you can find the results: the percentage of the market I expect to absorb into EneFin, with the average time of behavioural change in my customers pegged at µ = 84, and at various degrees of disparity between individual behavioural changes.

Table 1 Simulation of absorption in the market, with the average time of behavioural change equal to µ = 84 months

Percentage of the market absorbed
Variability of the population Standard deviation with µ = 84 12th month 24 month 36 month
0,1 8,4 8,1944E-18 6,82798E-13 7,65322E-09
0,2 16,8 1,00458E-05 0,02% 0,23%
0,3 25,2 0,18% 0,86% 2,93%
0,4 33,6 1,02% 3,18% 7,22%
0,5 42 2,09% 5,49% 10,56%
0,6 50,4 2,92% 7,01% 12,42%
0,7 58,8 3,42% 7,80% 13,18%
0,8 67,2 3,67% 8,10% 13,28%
0,9 75,6 3,74% 8,09% 13,02%
1 84 3,72% 7,93% 12,58%
1,1 92,4 3,64% 7,67% 12,05%
1,2 100,8 3,53% 7,38% 11,50%
1,3 109,2 3,41% 7,07% 10,95%
1,4 117,6 3,28% 6,76% 10,43%
1,5 126 3,14% 6,46% 9,93%
1,6 134,4 3,02% 6,18% 9,47%
1,7 142,8 2,89% 5,91% 9,03%
1,8 151,2 2,78% 5,66% 8,63%
1,9 159,6 2,67% 5,42% 8,26%
2 168 2,56% 5,20% 7,91%

I think it is enough science for today. That sunlight will not enjoy itself. It needs me to enjoy it. I am consistently delivering good, almost new science to my readers, and love doing it, and I am working on crowdfunding this activity of mine. As we talk business plans, I remind you that you can download, from the library of my blog, the business plan I prepared for my semi-scientific project Befund  (and you can access the French versionas well). You can also get a free e-copy of my book ‘Capitalism and Political Power’ You can support my research by donating directly, any amount you consider appropriate, to my PayPal account. You can also consider going to my Patreon pageand become my patron. If you decide so, I will be grateful for suggesting me two things that Patreon suggests me to suggest you. Firstly, what kind of reward would you expect in exchange of supporting me? Secondly, what kind of phases would you like to see in the development of my research, and of the corresponding educational tools?

Support this blog

€10.00