Accueil       Algorithmes contre le Coronavirus      


Coronavirus: analyse de l'évolution de la pandémie et prévisions pour les prochains jours



Evolution par continent

Nous récupérons, en temps réel, le nombre de personnes décédés pour cause de COVID-19 à travers le monde
Nos données proviennent directement de l'université Johns Hopkins, qui centralise toutes les données COVID-19 provenant des différents pays de la planète

Continent Graphique 1.gif



Evolution par pays

Nous récupérons, en temps réel, le nombre de personnes décédés pour cause de COVID-19 à travers le monde
Nos données proviennent directement de l'université Johns Hopkins, qui centralise toutes les données COVID-19 provenant des différents pays de la planète


compar1 Graphique 1.gif

Evolution par département français

Nous récupérons, en temps réel, le nombre de personnes en REANIMATION dans les hôpitaux
global Graphique 4.gif
Ces données proviennent directement des hôpitaux de France.
france.jpg

Evolution dans le monde

Nous récupérons, en temps réel, le nombre de personnes décédés pour cause de COVID-19 à travers le monde. Nos données proviennent directement de l'université Johns Hopkins, qui centralise toutes les données COVID-19 provenant des différents pays de la planète.
Ce graph est mis à jour en temps réel.

monde Graphique 1.gif

Analyse des requêtes saisies sur le moteur de recherche Google:

le 1er graphique représente le nombre de personnes en Réanimation Covid-19 dans nos hôpitaux.

Le 2ème graphique représente un indice (compris entre 0 et 100) qui nous indique le nombre de recherches sur Google, par les internautes, sur la perte de goût (données récupérées via l'outil Google Trends).

global Graphique 2.gif global Graphique 3.gif

Ces 2 graphiques coïncident fortement, avec un décalage de 20 jours.
En effet, avant même de contacter un médecin ou de faire un test, les internautes qui pensent avoir le COVID-19 font des recherches sous google et se renseignent sur les différents symptômes ou sur l'adresse du centre de dépistage le plus proche.

Le nombre de personnes qui effectuent des recherches sur google continue de baisser.
Cela signifie que le nombre de personnes en réanimation va continuer à baisser dans les prochaines semaines.

Par contre, tous les départements ne sont pas concernés de la même manière.

Analyser les mots tapés sur le moteur de recherche Google et leur fréquence, c'est donc avoir une indication sur la présence du Virus dans la population: c'est un indicateur avancé, qui permet d'estimer, avec 2 à 3 semaines à l'avance, combien de personnes seront en réanimation dans les hôpitaux.

Dans quels départements les habitants font-ils actuellement le plus de recherches sur la perte de goût et la perte de l'odorat ?
C'est dans le département de Haute-Marne que le virus circule le plus

googletrends1.png


A l'inverse, le virus circulerait très peu dans le département de la Dordogne. L'indice n'y est que de 6: le virus circulerait donc 15 fois moins en Dordogne qu'en Haute-Marne.

A côté de chaque département, une valeur. Cette valeur est un indice compris entre 0 et 100.
Plus l'indice est haut, plus le nombre de requêtes Google sur la perte de goût est importante.
Le calcul tient compte du nombre d'habitants dans le département; et même mieux: il tient compte du nombre total de requêtes Google saisies dans le département, par jour.
100 est la valeur maximale.

Haute-Marne : 100
Nièvre : 77
Hautes-Pyrénées : 72
Charente-Maritime : 53
Haut-Rhin : 52
Jura : 51
Aube : 51
Ardèche : 48
Vosges : 48
Aisne : 47
Ardennes : 46
Eure : 45
Meuse : 44
Haute-Vienne : 43
Côte-d'Or : 42
Manche : 41
Moselle : 39
Morbihan : 38
Pas-de-Calais : 37
Cher : 36
Eure-et-Loir : 35
Deux-Sèvres : 35
Isère : 35
Allier : 34
Ille-et-Vilaine : 34
Finistère : 34
Haute-Saône : 33
Saône-et-Loire : 33
Yonne : 33
Bas-Rhin : 33
Aude : 33
Orne : 32
Mayenne : 32
Vienne : 31
Haute-Garonne : 31
Meurthe-et-Moselle : 31
Seine-Maritime : 31
Var : 30
Vendée : 29
Somme : 29
Seine-et-Marne : 29
Territoire de Belfort : 29
Maine-et-Loire : 28
Doubs : 28
Corrèze : 27
Indre-et-Loire : 27
Nord : 27
Hauts-de-Seine : 27
Vaucluse : 26
Essonne : 26
Yvelines : 25
Landes : 25
Ain : 25
Tarn-et-Garonne : 25
Lot-et-Garonne : 24
Calvados : 24
Val-de-Marne : 24
Savoie : 23
Loiret : 23
Drôme : 23
Loir-et-Cher : 23
Rhône : 23
Gard : 22
Hérault : 22
Alpes-Maritimes : 22
Gironde : 22
Haute-Corse : 21
Côtes-d'Armor : 21
Puy-de-Dôme : 21
Loire : 20
Bouches-du-Rhône : 20
Paris : 20
Aveyron : 19
Pyrénées-Orientales : 19
Loire-Atlantique : 19
Oise : 18
Charente : 18
Val-d'Oise : 17
Haute-Savoie : 17
Marne : 16
Sarthe : 13
Seine-Saint-Denis : 11
Pyrénées-Atlantiques : 10
Tarn : 7
Dordogne : 6
Gers : pas assez de données
Lozère : pas assez de données
Cantal : pas assez de données
Lot : pas assez de données
Alpes-de-Haute-Provence : pas assez de données
Hautes-Alpes : pas assez de données
Ariège : pas assez de données
Creuse : pas assez de données
Corse-du-Sud : pas assez de données
Indre : pas assez de données
Haute-Loire : pas assez de données



Explication: Google Trends est un outil issu de Google Labs permettant de connaître la fréquence à laquelle un terme a été tapé dans le moteur de recherche Google.
L'analyse des recherches effectuées par les internautes permet d'observer précisément les inquiétudes et interrogations de la population.
Le service affiche une courbe représentant l'évolution du nombre de recherches du terme en fonction du temps. La courbe n'indique pas un nombre de recherches absolu mais une proportion entre 0 et 100, où 100 représente la quantité maximale d'utilisation du terme dans la période et le lieu définis.



Dans quel pays francophone le virus circule actuellement le plus ?


Avant même de contacter un médecin ou de faire un test, les internautes qui pensent avoir le COVID-19 font des recherches sous google et se renseignent sur les différents symptômes.
Analyser les mots tapés sur le moteur de recherche Google et leur fréquence, c'est donc avoir une indication sur la présence du Virus dans la population.

Dans quel pays francophone les habitants font-ils actuellement le plus de recherches sur la perte de goût et la perte de l'odorat ?
Un pays où les habitants font beaucoup de recherche sous Google sur les symptômes du COVID est un pays où le virus circule beaucoup.

francophone1.png


C'est au Congo que le virus circulerait actuellement le plus, parmi les pays francophones.

A côté de chaque pays, une valeur. Cette valeur est un indice compris entre 0 et 100.
Plus l'indice est haut, plus le nombre de requêtes Google sur la perte de goût est importante dans le pays (100 est la valeur maximale), proportionnellement au nombre d'internautes et au nombre de requêtes globales.

Congo-Kinshasa,100
Martinique,91
France,90
Maroc,76
Luxembourg,68
Algérie,60
Tunisie,60
Burkina Faso,57
Suisse,56
Sénégal,53
Belgique,49
Cameroun,37
Côte d'Ivoire,29



Dans quel pays de langue espagnol le virus circule actuellement le plus ?


Avant même de contacter un médecin ou de faire un test, les internautes qui pensent avoir le COVID-19 font des recherches sous google et se renseignent sur les différents symptômes.
Analyser les mots tapés sur le moteur de recherche Google et leur fréquence, c'est donc avoir une indication sur la présence du Virus dans la population.

Dans quel pays de langue espagnol les habitants font-ils actuellement le plus de recherches sur la perte de goût ( "pérdida del gusto") ?
Un pays où les habitants font beaucoup de recherche sous Google sur les symptômes du COVID est un pays où le virus circule beaucoup.

google_esp1.png



C'est au Paraguay, Vénézuela et en Argentine que le virus circulerait actuellement le plus, parmi les pays hispanophones.
Les pays d'Amérique du Sud sont plus touchés que l'Espagne.
L'Espagne n'arrive qu'en 6ème position, avec un indice de 40.

A côté de chaque pays, une valeur. Cette valeur est un indice compris entre 0 et 100.
Plus l'indice est haut, plus le nombre de requêtes Google sur la perte de goût est importante dans le département (100 est la valeur maximale).




Et aux USA, que donne l'analyse de GOOGLE TRENDS ?

Voici notre étude sur les Etats-Unis. Cliquez sur le drapeau américain si vous voulez connaître la situation en temps réel du virus aux USA: drap_usa.png



Publié le 12 mai 2020:

Voici l'étude épidémiologique anglaise sur la COVID19 portant sur 17 millions de dossiers médicaux. Pour la première fois, nous disposons d'une estimation solide du poids ajusté des différents facteurs de risque de décès.
L'enseignement spectaculaire de cette étude, c'est le poids ridicule des comorbidités comparé à celui de l'âge.
Un homme bien portant de 55 ans a 3 fois plus de risque de mourir qu'un diabétique de 45 ans
L’âge est de loin le principal critère. Pour simplifier, on pourrait presque dire que c’est le seule critère qui compte

Voici les données et le rapport de cette étude anglaise: https://www.atoute.org/n/IMG/pdf/fdrcoviduk.pdf?fbclid=IwAR1lqzw58m0y6nLlSkBlCDF0Niz18hok-nYSq2mCRdnyHSi-RNA9xVNV4v8

risque.png


Publié le 09 mai 2020:

La perte de goût est parfois un des premiers symptôme du COVID-19.
Il y a corrélation entre le nombre de recherches sur la perte de goût sur google et le nombre de personnes en réanimation 16 à 20 jours plus tard dans les hôpitaux

L'indice google trends sur les mots clés "perte goût" est donc un indicateur avancé de l'évolution de la maladie.

Pour la 1ère fois, ce ne sont plus la France, la Belgique et la Suisse qui sont en tête sur les mots clés "perte goût", parmi les pays francophones.
Les pays africains ont pris la tête.

Il est donc possible que l'Europe perde son statut d'épicentre de l'épidémie dans les jours et semaines qui viennent, au profil, malheureusement, des pays du sud.

Indicateur google Trends:
Les résultats vont de 0 à 100, où 100 correspond à la région ayant enregistré le plus fort pourcentage d'utilisation de ce mot clé par rapport au nombre total de recherches locales. Une valeur de 50 signifie que le mot clé a été utilisé moitié moins souvent dans la région concernée

pertegout9mai.png


De la même façon, les USA et le Royaume-Uni viennent de perdre leur 1ère place du classement des pays anglophones où il y a le plus de recherche sur la perte de goût sur google

Nous avons en effet étudier la fréquence de saisie des mots clés "loss taste" sur les derniers jours

C'est une preuve supplémentaire, malheureusement, que les pays du sud sont en train de prendre le relais de l'Europe et des Etats-Unis comme épicentre de l'épidémie.

losstaste9may.png


L'Espagne a perdu sa 1ère place comme pays où il y a le plus de recherche sur google, en espagnol, sur la perte de goût. (mots clés: "perdida gusto")

C'est le Nicaragua, le Pérou et l'Equateur qui sont maintenant aux 1ères places.
Malheureusement, la pandémie devrait donc être très actives dans ses pays dans les prochains jours et semaines.



perditagusto9mayo.png


Conclusion:
1) malheureusement, après l'Europe, les pays du sud pourraient être durement touchés par la pandémie
2) cela peut confirmer le fait que les fortes chaleurs n'ont pas d'impact sur ce satané virus (il fait actuellement 34°C au Nicaragua !)

Publié le 08 mai 2020:

Avec un décalage de 17 jours, il y a corrélation entre le nombre de personnes en réanimation dans les hôpitaux et le nombre de personnes qui ont effectuées une recherche sur Google sur la perte de goût.

En France, le pic du nombre de personnes en réanimation eu lieu le 7 avril (pour les recherches sur google sur la perte de goût ce fut le 21 mars; mots clés: "perte goût")

pertegout.png


En Italie, le pic du nombre de personnes en réanimation eu lieu le 3 avril (pour les recherches sur google sur la perte de goût ce fut le 17 mars; mots clés: "perdita gusto")

perditagusto.png


Idem aux Etats-Unis, où nous avons le même décalage de 17 à 20 jours, avec les mots clés "loss taste"

losstaste.png


Au sein d'un même pays, les régions où il y a le plus de recherches sur google sur la perte de goût sont les régions où le virus circule le plus.

Nous continuerons à suivre la fréquence de saisie de ces mots clés car cela pourrait nous permettre de prévoir avec plusieurs jours à l'avance si une 2ème vague s'annonce et, si oui, dans quelle région.

Rappel: Google Trends est un outil issu de Google Labs permettant de connaître la fréquence à laquelle un terme a été tapé dans le moteur de recherche Google, avec la possibilité de visualiser ces données par région et par langue.


N'hésitez pas à venir discuter avec nous sur notre page facebook:


ou sur notre compte Twitter "Algorithmes contre Coronavirus"



Publié le 02 mai 2020:

Les pays ne sont pas tous touchés de la même façon par le COVID-19
Certains pays sont pratiquement épargnés; d'autres pays ont déjà des dizaines de milliers de morts.
Pourquoi de telles différences entre les pays ?

Pour chacun des pays, nous avons récupéré les données suivantes:
- nombre d'habitants
- densité de population
- richesse par habitant
- espérance de vie (cela va de 52 ans pour l'Angola à 84 ans pour le Japon)
- âge moyen de la population (cela va de 16 ans pour le Tchad à 43 ans pour l'Italie et le Japon)
- qualité du système de santé
- liberté d'expression (cela va de 0 pour la Corée du Nord à 77 pour la Suède)
- Température moyenne sur le mois d'avril dans la capitale du pays (cela va de 8°C à 42°C)
- nombre de décès (déclarés !), par million d'habitants, liés au COVID-19

Etudions la matrice de corrélation, représentée sous forme d'une carte thermique.
(rappel: les coefficients de corrélation vont de -1 à 1.
1 signifie que les 2 variables sont parfaitement corrélées positivement entre elles: quand l'une augmente, l'autre augmente aussi.
0: il n'y a aucune corrélation linéaire.
-1: les 2 variables sont parfaitement corrélées négativement. Quand une variable augmente, l'autre diminue).



matrice.png

4 variables sont très corrélées entre elles: richesse par habitant, espérance de vie, âge moyen et qualité du système de santé.
En effet, dans un pays riche, les habitants vivent plus longtemps, l'âge moyen de la population est plus élevé et la qualité du système de santé est meilleure

Le nombre de décès par habitant est fortement corrélé à ces 4 variables.
Cela peut paraître contradictoire mais plus la qualité du système de santé est bon, plus il y a des gens qui meurent du COVID-19. C'est une conséquence indirecte.
Un bon système de santé a pour conséquence une espérance de vie élevée et un âge moyen de la population élevé, qui ont eux-mêmes comme conséquence un nombre de décès COVID-19 important.
De plus, dans les pays où le systéme de santé est défaillant, tous les décès liés au COVID-19 ne sont pas déclarés comme étant liés au COVID-19

La liberté d'expression et le nombre de décès sont corrélés positivement: moins il y a de liberté d'expression, moins il y a de décès.
On pourrait donc facilement en déduire que le nombre de décès est volontairement minoré dans certains pays.

Les températures sont inversement corrélées à la richesse du pays: plus un pays est pauvre, plus il fait chaud
Les températures sont également inversement corrélées au nombre de décès.
Mais attention, une conséquence est corrélée à sa cause mais deux conséquences seront aussi corrélées entre elles.
Est-ce qu'une augmentation des températures a pour conséquence de faire baisser le nombre de décès ou est-ce qu'il y a moins de décès dans les pays où il fait chaud car ce sont des pays pauvres avec une population jeune et une espérance de vie peu élevée ?
Imposible de le savoir avec la simple analyse de cette matrice des corrélations.

Nous allons aller plus loin dans l'analyse en entraînant un algorithme de maching learning.
L'algorithme gradient boosting est considéré comme étant l'algorithme de maching learning le plus fiable et donnant les meilleurs résultats: il est notamment capable de repérer n'importe quelle corrélation (même si celle-ci n'est pas linéaire).
Nous avons entraîné l'algorithme avec notre jeu de données.

L'algorithme nous a fourni les variables qu'il considérait comme importantes pour expliquer les différences du nombre de décès COVID-19 entre les pays.
gradientboosting.png
La plus importante de nos variables est l'âge moyen de la population.
La température a un impact pratiquement nul, et n'est pas retenue par l'algorithme.

Conclusion: le président Trump s'est trompé quand il affirmait que le COVID-19 allait disparaître aux USA avec l'augmentation des températures et l'arrivée du printemps puis de l'été. La température (étudiée entre 10°C et 42°C) n'a pas d'impact significatif sur l'évolution de la pandémie. Dommage !

Notre algorithme peut encore être amélioré en ajoutant d'autres variables à notre jeu de données; c'est ce que nous ferons dans les prochains jours
Nous sommes preneurs de toutes remarques

Nos sources de données:

données sur le COVID-19: https://www.jhu.edu
données sur la liberté d'expression: https://rsf.org/fr/classement
système de santé: https://fr.april-international.com/fr/sante-des-expatries/quels-sont-les-pays-avec-les-meilleurs-systemes-de-sante
espérance de vie par pays: https://fr.wikipedia.org/wiki/Liste_des_pays_par_esp%C3%A9rance_de_vie
âge médian par pays: https://fr.wikipedia.org/wiki/Liste_des_pays_par_%C3%A2ge_m%C3%A9dian
richesse par habitant, par pays: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_(PPA)_par_habitant
densité de population: https://fr.wikipedia.org/wiki/Liste_des_pays_par_densit%C3%A9_de_population
nombre d'habitants: https://fr.wikipedia.org/wiki/Liste_des_pays_par_population
Température en avril 2020: https://fr.tutiempo.net/

Publié le 28 avril 2020:

Est-ce que les fumeurs ont moins de chance d'avoir le COVID-19 que les non-fumeurs ?

"Tout est parti d’une « révélation » de France Inter : une équipe de la Pitié Salpêtrière, inspirée par le neurobiologiste Jean-Pierre Changeux, avance l’hypothèse que la nicotine serait un remède préventif et curatif contre le Covid. Une information aussitôt reprise par la plupart des grands médias. En oubliant souvent de faire preuve d’une prudence élémentaire… Et de préciser que Jean-Pierre Changeux a bénéficié, par le passé, de nombreux financements de l’industrie du tabac"

« Depuis plusieurs jours et à la suite de différentes déclarations de personnalités scientifiques, de nombreuses imprécisions ont été relayées par les médias et sur les réseaux sociaux au sujet d’un possible effet protecteur de la nicotine sur le développement de la maladie », indique l'Alliance contre le tabac qui a effectué une mise au point sur les effets de la cigarette dans le cas d'une infection à coronavirus. Ce collectif souligne que « rien ne permet d’affirmer que les fumeurs soient plus protégés que le reste de la population contre le coronavirus. Ils risquent au contraire d’être plus touchés par une forme sévère de la maladie ». Il rappelle que début mars, un article du New England Journal of Medicine, montre que le tabagisme induirait un risque accru de 133 %, par rapport à un non-fumeur, de développer une forme très sévère du Covid-19.

Qu'en est-il ?
Un échantillon de plus de 1.200 personnes ont participé à notre étude, en répondant à nos questions, en 2 vagues.
Nous avons essayé d'être le plus rigoureux possible, pour éviter les biais: les questions doivent être les plus simples possibles; la formulation ne doit pas influencer la réponse; la réponse doit être anonyme; et ceux qui répondent aux questions ne doivent pas connaître les réponses des autres.

Résultats:
5% des NON fumeurs pensent avoir eu le COVID-19
7% des fumeurs pensent avoir eu le COVID-19

Notre marge d'erreur est de 2%, avec un intervalle de confiance à 90%

Connaissez vous la théorie de la sagesse des foules ?
La moyenne des réponses des individus d'une foule (plus de 1.000 personnes) est souvent très juste et est souvent plus fiable que la réponse de n'importe quel expert. Pour la simple raison que statistiquement le nombre de personne qui vont se tromper dans un sens va être compenser par les personnes qui vont se tromper dans l'autre sens.

Conclusion: est-ce que les fumeurs ont moins de chance d'avoir le COVID-19 que les non-fumeurs ? Il y a une forte probabilité que NON

cigarette.jpg sondage3.png sondage4.png


Publié le 19 avril 2020:

Nous avons analysé l'évolution du nombre de personnes en réanimation en France.
Le pic a été atteint en France le 8 avril.
Les premiers effets du confinement ne sont apparus que 3 semaines après le début du confinement.

Depuis le 8 avril, il y a une baisse.
Nous avons étudié la vitesse de décélération. Nous pouvons donné des prévisions pour les prochaines semaines: il y a tellement d'inertie que les prévisions court terme sont assez faciles à calculer.

Cela va continuer à baisser, et ceci jusqu'à fin mai ! C'est une très bonne nouvelle
Toutefois, la baisse sera moins rapide que ne fut la hausse.

Les 1ers effets négatifs du déconfinement n'apparaitront que 3 semaines après le 11 mai: ils n'apparaîtront que début juin.
Que se passera-t-il en juin ? Il est encore trop tôt pour le savoir.

Nos sources de données: les données hospitalières quotidiennes relatives à l'épidémie du COVID-19 (https://www.data.gouv.fr/fr/datasets/donnees-relatives-a-lepidemie-de-covid-19/)

prevision1904.png

Publié le 14 avril 2020:

Combien de personnes en France ont eu le COVID-19 jusqu'à présent ?

C'est complexe à estimer puisqu'on ne connait pas le rapport nombre de personnes détectées COVID-19 / nombre de personnes touchées par le virus: 0.5 ? 0.2 ? 0.1 ? 0.01 ?

Il n'y a pour l'instant qu'un endroit où l'ensemble d'une population a été testé: c'est sur le navire de croisière Diamond Princess.
Sur le Diamond Princess, sur les 3 711 passagers et membres d'équipage, 634 personnes ont été testées positives (près de 50% d'entre elles n'avaient aucun symptôme).
Avec 7 morts, le taux de décès serait donc de 1,2%.
Problème: sur ce navire de croisière, la répartition par âge est différente de la répartition par âge d'un pays comme la France: les croisièristes sont plus âgés.
Nous avons pris en compte cette différence de répartition par tranche d'âge. Après correction, nous obtenons un taux de 0.7%.
L'intervalle de confiance est assez large puisque l'échantillon (634 personnes) est faible.
Nous pouvons estimer que le taux nombre de décès sur nombre de personnes infectées est compris entre 0.5 et 0.9, dans la population française.
Avec 15.000 décès, le nombre de personnes touchées en France seraient donc compris entre 1.6 et 3 millions.
Soit 4% à 5% de la population française.

Nous sommes malheureusement encore très loin de l'immunité de groupe

princess.png diamond.jpg


Publié le 14 avril 2020:

Voici l'évolution du nombre de personnes en Réanimation à cause du COVID-19, par million d'habitants.

Le pic a eu lieu aux alentours du 8 avril. Et ceci quelque soit la région de France: pour Paris, pour la Lorraine, pour le Nord, pour l'Ouest, ou pour le Sud.

Ces différentes régions de France n'étaient pas du tout touchées de la même façon et ne sont pas dans la même phase d'évolution. Et pourtant, le pic a eu lieu en même temps. Le seul point commun à toutes ces régions est que le confinement a commencé à la même date: 17 mars. Ce reflux paraît donc n'avoir qu'une cause: le confinement.

Dans les départements les plus touchés (comme Paris ou le Haut-Rhin), la décélération se fait à la même vitesse que dans les départements très peu touchés: nous n'y voyons aucun début "d'immunité de groupe". Au niveau français, nous sommes donc malheureusement encore très très loin du seuil d'immunité de groupe.

Nos sources de données: les données hospitalières quotidiennes relatives à l'épidémie du COVID-19 par département (https://www.data.gouv.fr/fr/datasets/donnees-relatives-a-lepidemie-de-covid-19/)

rea14avril2020.png

Publié le 9 avril 2020:

Pour chacun des 3 242 comtés des Etats-Unis nous avions récupéré les données sur la répartition de la population par origine ethnique.

Nous venons de construire la matrice de corrélation.

Pour rappel: l'indice de corrélation varie de -1 à +1.

Une corrélation positive signifie que quand un paramètre augmente, l'autre augmente aussi.
Plus on s'approche de 1, plus la corrélation est parfaite.

Une corrélation négative signifie que quand un paramètre augmente, l'autre diminue. Et plus on s'approche de -1, plus la corrélation est négativement parfaite.
Les Noirs et les Blancs ont une corrélation de -0.83: on est très proche de -1
Ils vivent dans des endroits distincts

A l'inverse les asiatiques et les métis ont une corrélation positive: ils vivent plutôt dans les mêmes endroits

Qui a le plus de chance d'attraper le COVID-19 ?
les noirs sont les plus touchés (en cas détectés et en nombre de décès), puis viennent:
les asiatiques,
les métis,
les hispaniques,
les indiens d'Amérique,
puis les blancs qui sont les moins touchés.

Il n'est pas possible de savoir si la cause est génétique ou sociale, mais elle est très vraisemblement sociale: aux Etats-Unis, les noirs sont plus pauvres et prennent plus souvent les transports en commun.

race.png

Publié le 9 avril 2020:

Nous continuons notre étude d'impact de la météo sur la vitesse de propagation du COVID-19
Nous aurions aimé voir une corrélation entre la vitesse de propagation et la température: mais il n'y en a pas !

Encore un petit graph: ici, sont représentés tous les comtés américains.
en abscisse (l'axe horizontal), la température moyenne du comté sur le mois de mars 2020
En ordonnée (l'axe vertical), l'augmentation du nombre de cas détectés, par 10.000 habitants entre le 19 mars et le 04 avril

comtes.png


Publié le 8 avril 2020:

Quel est l'impact de la météo sur la progression de la pandémie ? Est-ce que les températures plus élevées du mois de mai vont freiner l'épidémie ? De combien ?

Nous pouvons vous livrer les résultats de notre étude sur les 3 242 comtés des Etats-Unis (voir notre article d'hier).

Mauvaise nouvelle: il n'y a pas de corrélation linéaire significative entre la température et la vitesse de progression de l'épidémie.
Les Etats-Unis sont immenses et nous y avons actuellement toutes les températures comprises entre -5°C et +30°C: la température n'a aucun impact important.
Idem pour le taux d'humidité.

Nous avons construit la matrice de corrélation sous forme d'une carte thermique
correlation.png
les coefficients de corrélation entre les paramètres météo et la vitesse d'évolution de l'épidémie y sont non significatifs.

Vous pourriez nous répondre que l'absence de corrélation linéiare ne signifie pas absence de corrélation. Exact, mais il n'y a pas non plus de corrélation tout court.
Ici nous avons représenté les comtés américains selon leur température moyenne sur le mois de mars (axe des abscisses) et le taux multiplicateur de nombre de cas détectés entre le 27 mars et le 4 avril (axe des ordonnées): il n'y a aucune corrélation significative. correlation2.png


Publié le 7 avril 2020:

Quel est l'impact de la météo sur la progression de la pandémie ? Est-ce que les température plus élevées du mois de mai vont freiner l'épidémie ? De combien ? A partir de quelle température ? Est-ce que le taux d'humidité a une influence ?
Nous allons essayer de répondre à ces questions dans les prochains jours

Nous avons récupéré pour chacun des 3 242 comtés des Etats-Unis les données suivantes:
- le nombre d'habitants
- la surface du comté
- la densité de population
- la répartition en classe d'âge
- le taux de personnes diplômées
- l'indice degré de confinement grâce à google mobilité
- la température moyenne sur le mois de mars
- l'humidité moyenne sur le mois de mars
- la pression atmosphérique moyenne sur le mois de mars
- l'évolution de la pandémie (nombre de cas détectés et nombre de décès)

Nous venons de terminer la phase de récupération et de nettoyage des données.
Prochaines étapes: entrainer les algorithmes de Machine Learning sur nos jeux de données. L'objectif est de déterminer quelles sont les variables qui ont un impact sur la pandémie. Nous ferons très attention aux biais éventuels.

Pourquoi avoir choisi d'étudier les données américaines ?
Les Etats-Unis est un pays très divers; avec des comtés à la météo très différentes (dans le Montana ou le Dakota du Nord, il fait 25°C de moins qu'en Floride ou que dans le sud de la Californie, avec des taux d'humidité très différents).

De plus, aux USA, la granularité des données est plus fine qu'en France: aux USA les données sur l'évolution de la pandémie sont accessibles par comté (et il y a 3242 comtés!), alors qu'en France, les données sont uniquement accessibles par département.
En analyse de données, plus la granularité est fine, plus la donnée est détaillée et son analyse précise.

Nos différentes sources de données:
https://www.census.gov/library/publications/2011/compendia/usa-counties-2011.html?fbclid=IwAR298kYur4jeYdw4qmWgU0vfqq1AiOUCeh1t5f06kh2Gh-XJY36WsMV3nM0

https://docs.google.com/spreadsheets/d/1pxuTu10uO7MsBaKA554XSuCpnF--FTqwdnl_sUHfWro/edit?fbclid=IwAR0gfCEBDjKAQbi5ejlTU-tHsfpxdGIbnFZlFF9gTfDNvFYgUkGRmTmFUPU#gid=289496465

https://www.timeanddate.com/weather/@5075315/historic?month=3&year=2020&fbclid=IwAR2kI5HJbghOtpvafcpl9FCE430_nLc_aWQYVjNyWrIPESaFSucU8yA3UXo

https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv?fbclid=IwAR3PUqAOnSRnKOrgBgwY3cNH8yQYWP64v7SoPVWvlL_FKFVbwe10rTiEhxw



<

Publié le 5 avril 2020:

27.858 personnes sont actuellement hospitalisés dans les hôpitaux en France, à cause du COVID-19

Voici la carte de France au 05 avril.
En noir, nous avons les départements les plus touchés: plus de 5 personnes sur 10.000 y sont actuellement hospitalisées pour cause de COVID-19.

Viennent ensuite les départements en ROUGE (entre 3 et 5 personnes hospitalisées par 10.000 habitants)

Puis viennent les départements en ORANGE (entre 1.5 et 3)

Puis viennent les départements en JAUNE (entre 1 et 1.5)

Et les départements en VERT: moins de 1 personne par 10.000 habitants

Par rapport à notre carte d'il y a 2 jours: la Normandie est de plus en plus touchée. ET la Champagne est sur le point de basculer entièrement en NOIR

Nos sources de données: les données hospitalières quotidiennes relatives à l'épidémie du COVID-19 par département (https://www.data.gouv.fr/fr/datasets/donnees-relatives-a-lepidemie-de-covid-19/)

france0504.png

Publié le 4 avril 2020:

Nous récupérons des données de plusieurs sources:
1°) les données des hôpitaux mise à disposition en Open Data: données françaises et données d'autres pays (européens et américains).
2°) les données de densité de population
3°) les données météo
4°) les données sur l'indice de confinement (voir notre article précédent) calculé par Google

Nous allons entraîner nos algorithmes de maching learning (écrits en Python) sur nos jeux de données.
L'objectif est de comprendre quels sont les paramètres qui ont une influence sur l'évolution de la pandémie: la température joue-t-elle ? quel est l'impact du confinement ?

L'objectif final sera de donner des prévisions d'évolution de la pandémie.


Publié le 4 avril 2020:

Les français respectent le confinement et parmi les différentes régions de France c'est en Ile de France où il est le plus respecté

Google vient de publier les données sur la mobilité dans 131 pays face à la pandémie de coronavirus, des chiffres qui permettent de voir l’impact du confinement sur les déplacements (voir https://www.google.com/covid19/mobility/ ; et merci à Romain de Croix de nous avoir informé de cette source de données qui va nous servir par la suite).

Comme pour détecter les bouchons dans Google Maps, Google collecte des données « agrégées et anonymisées » de ceux qui ont la géolocalisation activée sur leur smartphone. Pour protéger la vie privée des personnes, aucune information personnellement identifiable, comme l’emplacement, les contacts ou les mouvements d’une personne, n’est mise à disposition. Google y ajoute du « bruit » pour brouiller les pistes tout en restant statistiquement proche de la réalité.

Quels déplacements sont analysés ?
Les déplacements vers:
-commerces et loisirs,
-alimentation et pharmacie,
-parcs,
-stations ferroviaires,
-bureaux,
-résidentiel.

Les chiffres présentés sont les variations en pourcentage entre la mi-février et la fin mars, par rapport à une moyenne établie sur cinq semaines précédemment.

La France fait partie des bons élèves, avec une baisse de 88 % des déplacements vers les parcs.
Nous avons également le détail par région....et une fois n'est pas coutume: les plus disciplinés ont été les parisiens !

geolocalisation.png


N'hésitez pas à venir discuter avec nous sur notre page facebook:


ou sur notre compte Twitter "Algorithmes contre Coronavirus"