Université Libre de Bruxelles Alter Echos, l'actualité sociale avec un décodeur

Comprendre les graphiques

Créer et diffuser des graphiques permet de les rendre visibles pour tous. Encore faudrait-il les comprendre. Visualiser un ensemble de données sous la forme de graphiques n’est pas chose aisée, en voici des exemples.

Décrypter les graphiques

Découvrez comment il est possible de faire mentir des courbes en manipulant les échelles des graphiques. Apprenez à être attentif aux détails qui font toute la différence lorsque l’on visualise des données.

La crise sanitaire que nous traversons a engendré et accéléré la mise en place de tout un tas d’outils. L’un de ces outils, le plus puissant, est la collecte et le traitement d’informations liées à la propagation du Covid-19. Partout où le virus passe, il laisse derrière lui des données pouvant être utilisées pour le combattre.

Partout où le virus passe, il laisse derrière lui des données pouvant être utilisées pour le combattre. Ces données, une fois collectées, peuvent prendre plusieurs formes : le nombre de cas détectés, le nombre d’hospitalisations, le nombre de morts ou encore le nombre de lits disponibles dans les hôpitaux. Rien n’est gaspillé et toutes ces informations sont collectées puis envoyées dans des centres statistiques afin d’être traitées. En Belgique, c’est l’institut fédéral de santé publique Sciensano qui est chargé de centraliser ces données. Il est également chargé de publier régulièrement des rapports épidémiologiques à destination des décideurs politiques, des médias et des citoyens.

C’est en se basant, en partie, sur le contenu de ces rapports épidémiologiques que nos dirigeants décident des mesures sanitaires. En partant de ce postulat, on peut dire que nous sommes tous, en tant que citoyens, impactés par la collecte de données relatives à la propagation du coronavirus ainsi que par la façon dont elles sont mises en forme.

Des mesures justifiées par les données doivent pouvoir être vérifiable par les citoyens.

Pierre Schaus, professeur en ingénierie informatique & co-fondateur de Covidata.be

La représentation la plus courante que prennent les données liées à la pandémie est une courbe. Cela s’explique assez simplement car la courbe est l’outil de visualisation de données le plus pertinent pour observer l’évolution d’un phénomène dans le temps. Et c’est bien de ça dont il est question ici : observer l’évolution de la situation sanitaire de très près afin de s’apercevoir du moindre changement pour réagir à temps et éviter les écueils. Les données du Covid-19 peuvent aussi être représentées à l’aide d’une carte. La visualisation cartographique est un outil très puissant permettant des visualisations statistiques réparties dans des zones géographiques. Il faut veiller à ne mobiliser cet outil que lorsque l’information que l’on souhaite présenter revêt déjà un caractère géographique.

Nous vivons désormais dans un monde où n’importe qui peut créer des graphiques à l’aide d’un ordinateur. Malheureusement tout le monde ne sait pas encore comment créer de bons graphiques, c'est-à-dire, des graphiques fidèles à l’information qu’ils sont censés transmettre.

Edward Tufte, décrit par le New York Times comme le Léonard de Vinci des données, propose une définition de “l’excellence graphique” dès 1990 :

"L’excellence graphique consiste à donner au lecteur la communication du plus grand nombre d’informations, dans le temps le plus court, dans l’espace le plus petit et avec le moins d’encre possible."

Dans l'exemple ci-dessous Catherine Hill, épidémiologiste à la retraite, est invitée sur le plateau de l'émission "24h Pujadas, l’info en question" de la chaîne LCI. Au bout de 3 minutes et 40 secondes de vidéo, l’experte réagit : “Mais tout le monde fait la moyenne sur sept jours. Donc il ne faut pas montrer ces trucs ou l’on voit un pic ! Et puis on compare le pic et le creux à l’intérieur d’une semaine... ce n’est pas sérieux comme façon de faire ! Il faut montrer les moyennes glissantes sur sept jours, c’est ce que font tous les professionnels”.



Comment être sûr d’avoir toutes les clés pour lire une courbe dans son contexte et bien la comprendre ? Heureusement, il existe des bonnes pratiques à respecter lors de la conception d’un graphique et vous pouvez commencer à y être attentif dès maintenant.

Un graphique est toujours composé de deux axes, l’axe des abscisses et l’axe des ordonnées (respectivement, X et Y). Et les paramètres que l’on va choisir d’appliquer à ces axes peuvent venir biaiser notre perception de l’information présentée.

Voyez l’exemple ci-dessous, le minimum et le maximum que l’on va choisir d'appliquer à l’échelle sur l’axe des ordonnées peuvent venir minimiser une tendance ou, à l’inverse, en donner une image exagérée :

Faites glisser la ligne centrale de l'image pour découvrir les différences

Lorsque l’on compare deux jeux de données, il faut les présenter à des échelles qui soit comparables. Dans l'exemple suivant, nous avons choisi deux courbes qui sont, à la base, identiques. Elles sont issues du même jeu de données mais on a choisi d’y appliquer des échelles différentes sur l'axe des ordonnées.

Dans le premier exemple, on a à faire à une échelle linéaire classique mais pour le second, on a choisi d'employer une échelle logarithmique. En utilisant des échelles différentes, il est beaucoup plus compliqué de comparer les deux graphiques car elles donnent une représentation différente de l’information présentée. Pour faire simple, retenez qu'une échelle logarithmique place les valeurs sur l'axe en croissance exponentielle où des points écartés par une même distance représentent des valeurs dans le même rapport.

Faites glisser la ligne centrale de l'image pour découvrir les différences

Décoder la pandémie

Découvrez plus en détail ce qu’est une moyenne mobile et apprenez pourquoi elle est si utile pour les épidémiologistes.

Au début de la crise, Sciensano publiait le résultat de ses bulletins épidémiologiques à onze heures précises, cinq jours sur sept. Nouvelles infections, admissions dans les hôpitaux, décès, nombre de lits disponibles en soins intensifs... toutes ces données étaient communiquées quotidiennement aux citoyens et étaient ensuite largement relayées par les médias.

Depuis le mois de juin, Sciensano a décidé de faire évoluer son format pour présenter des données axées sur l’évolution des tendances et non plus sur celle des chiffres journaliers.

Concrètement, cela signifie qu'au lieu de présenter des graphiques contenant le nombre absolu de cas détectés au cours des vingt-quatre dernières heures, Sciensano présente une courbe “lissée” des données, en se basant sur la moyenne mobile des sept derniers jours. Les données employées pour calculer ces moyennes mobiles sont plus fiables qu’avant car elles sont consolidées. C’est à dire qu’on en supprime les doublons et que les retards de chiffres y sont rétroactivement repris les jours précédant le rapport. Avant, il était parfois possible d’observer une augmentation du nombre de cas uniquement due à un retard administratif dans la réception de chiffres. C’est moins le cas aujourd’hui.

Les experts que nous avons interrogés s’accordent à dire que l’analyse des tendances par la moyenne mobile est la manière la plus pertinente d’aborder l’épidémie. Mais cette façon de faire avait d’abord été jugée trop complexe par le public et les journalistes. On peut facilement comprendre cette critique en lisant l’explication de la méthode de calcul (un peu compliquée) de la moyenne mobile proposée par l’institut fédéral de santé publique : "Cette moyenne mobile est calculée au jour J comme la moyenne arithmétique d’un indicateur sur l’intervalle de temps J-6 à J. Pour connaître le sens de l’évolution d’un indicateur, le pourcentage d’évolution par rapport à sa valeur de la semaine précédente est calculé. Ce dernier est calculé au jour J comme la différence entre les moyennes mobiles au jour J et au jour J-7 divisé par la moyenne mobile au jour J-7".

Pour faire simple, cette moyenne se calcule en comparant deux valeurs obtenues à sept jours d’intervalle. Ces valeurs sont, en fait, les moyennes journalières obtenues chaque jour. Après avoir comparé deux dates, on peut obtenir un pourcentage exprimant l’évolution de la propagation du virus d’une semaine à une autre.

L’avantage, en procédant de cette façon, est que l’on peut observer des tendances, ce qui est beaucoup plus précieux pour les épidémiologistes que le nombre absolu de cas. Yves Coppieters, médecin épidémiologiste et professeur de santé publique à l'ULB, nous en dit plus pour comprendre les fluctuations des données.

Cette méthode d'analyse permet donc d'obtenir des graphiques présentant une courbe plus lisse et, surtout, moins vulnérable aux variations journalières. Si l'on observe le premier graphique ci-dessous qui montre le nombre absolu de cas quotidiens (barres vertes) et la moyenne mobile (ligne verte), le constat est intéressant. Les deux images ne donnent pas la même impression. Le nombre de cas représentés en barres oscille beaucoup plus que la courbe de moyenne mobile. Sans la moyenne glissante, on ne donne pas de réelle information sur l'évolution de la pandémie.

Moyenne mobile
Moyenne mobile sur 24 heures. Source : Sciensano

Ce n’est pas pour autant que les chiffres absolus deviennent inutiles. Yves Coppieters, lors d’une interview accordée à la RTBF en juillet 2020, déclarait : "les deux choses sont importantes pour voir la dynamique de l’épidémie, mais les nombres absolus par jours sont aussi importants car une épidémie ça se gère au jour le jour". Il arrive, en effet, que Sciensano alerte directement les communes belges concernées lorsqu’il enregistre une forte hausse du nombre de cas. C’est justifié car les autorités doivent pouvoir détecter rapidement les foyers de contamination et réagir en conséquence. Même si, pour la plupart de gens, il paraît plus compliqué de vérifier des informations présentées dans un graphique se basant sur un calcul de moyenne mobile, cela reste, malgré tout, la manière la plus pertinente d’aborder les données liées à la propagation du virus.

Il est aussi intéressant d’observer que les données communiquées peuvent parfois contenir une information redondante.

Observez ces trois courbes du nombre de cas, des hospitalisations et des décès recensés depuis le début de l’épidémie en Belgique :

On voit que les courbes suivent à peu près la même évolution avec à chaque fois une ou deux semaines de décalage. Sébastien de Valeriola, docteur en mathématique et professeur de visualisation de données à l’Université Libre de Bruxelles nous explique ce phénomène : "Comme on sait qu’une partie des infections va devenir une admission et qu’une partie des admissions va devenir des décès, on a une espèce de courbe 'croissant/décroissant' qui se dessine entre ces indicateurs avec un effet d'autocorrélation. Ce n’est pas une vérité absolue car, au cours du temps, il peut y avoir des variations mais si rien de majeur ne se passe, ça ne bouge pas. Donc, cela revient à communiquer trois courbes qui, finalement, contiennent un peu les mêmes informations".

Les indicateurs choisis pour observer la crise (nombre de cas, nombre d’hospitalisation et nombre de décès) sont donc, en fait, des séries chronologiques corrélées. Il est important de comprendre le lien qui unit ces courbes pour pouvoir les lire et les utiliser efficacement.

"Datacratie"

Les données ouvertes jouent un rôle essentiel dans l’interprétation de la crise sanitaire par les experts et les médias. Découvrez les enjeux liés à la pratique de l’open-data.

La question de l’accessibilité aux données liées au coronavirus a tout de suite suscité des réactions très vives au sein des communautés scientifiques et médiatiques.

Les open data, ou "données ouvertes" en français, sont des données numériques dont l’accès et l’usage sont laissés libres aux usagers. L’ouverture des données s’inscrit plus largement dans une philosophie de partage, où l’information publique est considérée comme un bien commun servant l’intérêt public. L’open data constitue donc un véritable enjeu démocratique et l’accès aux documents administratifs est même un droit constitutionnel en Belgique.

L’article 32 de la constitution stipule : "Chacun a le droit de consulter chaque document administratif et de s'en faire remettre copie, sauf dans les cas et conditions fixés par la loi, le décret ou la règle visée à l'article 134".



L’intérêt de l’ouverture des données liées aux coronavirus est pluriel. En premier lieu, elles permettent, aux citoyens qui le désirent, de contrôler les décisions prises par le gouvernement en les rendant plus transparentes. Ensuite, elles permettent aux communautés de chercheurs de les exploiter à des fins scientifiques pour étudier la pandémie.

Pierre Schaus, professeur en ingénierie informatique à l’Université Catholique de Louvain et fondateur du projet Covidata.be/ témoigne : "En Belgique on a un réel problème avec les données. On a ce qu’on appelle une 'lasagne institutionnelle', c’est-à-dire que c’est la multitude des décideurs et des intervenants pour mettre les données à disposition qui freine le processus [...] Je pense qu’on ne réalise pas à quel point on peut utiliser la communauté scientifique pour expliquer certains phénomènes".

Il faut savoir qu’au début de l’épidémie, les données centralisées par Sciensano n’étaient pas systématiquement publiées. Cela signifie que les épidémiologistes et chercheurs belges ne disposaient pas toujours de matière avec laquelle travailler. C’était aussi le cas pour les journalistes, jusqu’à ce que les données ne soient ouvertes au public au mois de mars et que l’espace médiatique se remplisse de courbes, pourcentages et graphiques en tout genre.

Johanne Montay, responsable éditoriale des rubriques science, santé, innovation et environnement à la RTBF se rappelle de ce moment de la crise sanitaire : "Il y a eu toute une période où l’on n'avait pas les open data. Et c’était très gênant car on ne pouvait pas travailler nous-mêmes sur les données ni reproduire du graphisme à notre façon. Et puis il y a la question de la transparence aussi, l’open source c’est quelque chose de fondamental et pas que pour la crise sanitaire".

Même si la Belgique a pu faire figure d’exemple européen en matière d’open data pour avoir partagé ses “données Covid” dès le mois de mars, elle a encore beaucoup à apprendre. Les administrations sont encore trop peu transparentes et mal informées sur les bonnes pratiques en matière d’open data.

David Domingo, chercheur et président de la faculté de journalisme de l’Université Libre de Bruxelles nous parle des enjeux de l'open data pour le développement du journalisme de données en Belgique : "Du côté des données disponibles, la Belgique est très mal servie en ce qui concerne l’open-data. L’initiative de Sciensano avec les données du Covid est plutôt l’exception que la règle. Le journalisme de données peut ouvrir beaucoup de possibilités pour une information plus pointue, avec des journalistes qui interrogent les sources avec des capacité à construire des questions plus pertinentes. Mais ça ne dépend pas seulement des journalistes. Ils doivent faire un travail de lobby avec leurs médias pour que les administrations deviennent plus transparentes. Je pense que c’est plutôt une question de transition de culture démocratique que l’on est en train de vivre plutôt que juste une question de volonté de la part des journalistes”.

Aller plus loin...

Retour