Un graphique en boîte, également connu sous le nom de boîte à moustaches, est une représentation visuelle qui affiche la distribution d’un ensemble de données ainsi que plusieurs mesures statistiques clés. Il fournit un résumé graphique des informations importantes concernant un ensemble de données, y compris le score minimum, le premier quartile, la médiane, le troisième quartile et les valeurs maximales.
Le graphique en boîte ressemble à un rectangle, souvent appelé la boîte, qui indique la plage interquartile. Le centre de la boîte représente la médiane, et les côtés extérieurs de la boîte représentent respectivement le premier quartile (25e percentile) et le troisième quartile (75e percentile). Les “moustaches” s’étendant de la boîte montrent la plage des données, à l’exclusion des valeurs aberrantes.
Le graphique en boîte a été introduit pour la première fois par le mathématicien John Tukey en 1970.
Cet article discute de ce qu’un graphique en boîte peut vous apprendre sur un ensemble de données et les différentes parties d’un graphique en boîte. Il traite également de la manière dont les graphiques en boîte peuvent vous aider à analyser les données et à les interpréter.
Quelles informations les graphiques en boîte vous donnent-ils ?
Un graphique en boîte fournit un certain nombre de points clés de données qui peuvent aider à révéler des détails et des informations importants sur les données qu’ils décrivent.
Certains de ces points clés incluent la médiane, la plage interquartile, ainsi que les valeurs minimales et maximales excluant les valeurs aberrantes.
Les 7 éléments d’un graphique en boîte
Les sept éléments clés d’un graphique en boîte sont :
- Score minimum : Le score minimum est le point de données le plus bas qui exclut toute valeur aberrante.
- Médiane : La ligne à l’intérieur de la boîte indique la médiane d’un ensemble de données. La médiane est la valeur centrale de l’ensemble de données lorsque les valeurs sont alignées dans l’ordre. Ce nombre est important car il indique la tendance centrale de l’ensemble de données.
- Percentile inférieur : Également connu sous le nom de premier quartile ou 25e percentile, c’est la médiane de la moitié inférieure de l’ensemble de données.
- Percentile supérieur : Également connu sous le nom de troisième quartile ou 75e percentile, c’est la médiane de la moitié supérieure de l’ensemble de données.
- Score maximum : C’est le point de données le plus élevé dans l’ensemble de données une fois les valeurs aberrantes exclues.
- Moustaches : Les “moustaches” du graphique en boîte sont les lignes s’étendant de chaque côté de la boîte. Ces lignes représentent la plage des données sans les valeurs aberrantes. Cela peut être utile pour obtenir un aperçu des valeurs minimales et maximales à l’intérieur d’une certaine plage.
- La plage interquartile (IQR) : La boîte dans un graphique en boîte représente la plage interquartile de l’ensemble de données. L’IQR est la plage entre le premier quartile et le troisième quartile. Celui-ci contient le 50% central des données et est utile pour visualiser la dispersion de l’ensemble de données.
Les graphiques en boîte sont non paramétriques, ce qui signifie qu’ils ne font aucune hypothèse sur la distribution sous-jacente des données. Au lieu de cela, ils fonctionnent pour donner une représentation visuelle basée sur la médiane et les quartiles.
Cela les rend utiles pour comparer des données entre différents groupes ou conditions. Ils fournissent un résumé concis des principales caractéristiques des données en transmettant rapidement la tendance centrale et la dispersion.
Orientation du graphique en boîte
Les graphiques en boîte peuvent être présentés horizontalement ou verticalement. Ils sont souvent présentés verticalement dans des articles académiques professionnels.
Pourquoi les graphiques en boîte sont-ils utiles pour analyser les données ?
Les graphiques en boîte ont plusieurs usages et avantages importants pour transmettre et analyser des données dans la recherche en psychologie.
Ces représentations graphiques peuvent rapidement transmettre des informations importantes sur la répartition et la symétrie d’une distribution. À l’aide de ces outils, il est possible de créer des comparaisons visuelles entre différents groupes de données.
Les chercheurs suggèrent également que les graphiques en boîte peuvent aider les personnes à améliorer leur capacité à interpréter et comprendre des informations complexes. Cela permet aux gens de raisonner plus efficacement sur les informations quantitatives.
Les graphiques en boîte peuvent aussi être une bonne alternative aux histogrammes. Alors que pour un histogramme, il est généralement recommandé d’avoir une taille d’échantillon d’au moins 50 points de données, un graphique en boîte peut être efficace avec une taille d’échantillon de seulement cinq. Les graphiques en boîte peuvent également être adaptés de différentes manières pour améliorer la comparaison et l’interprétation. Par exemple, une encoche peut être ajoutée à la boîte pour montrer l’intervalle de confiance de 95% pour la médiane.
Comment interpréter un graphique en boîte
Lors de l’interprétation des données dans un graphique en boîte, les chercheurs suivent généralement un ensemble d’étapes ou de méthodes pour obtenir des informations et tirer des conclusions. Voici les étapes courantes utilisées pour interpréter les données dans un graphique en boîte :
Regardez les caractéristiques clés des données
La première étape lors de l’interprétation d’un graphique en boîte est de regarder certaines des caractéristiques les plus importantes des données :
- Identifier la médiane : La médiane est représentée par la ligne à l’intérieur de la boîte dans le graphique en boîte. Elle divise les données en deux moitiés égales, avec 50% des données en dessous et 50% au-dessus de la médiane. Elle fournit une mesure de tendance centrale.
- Déterminer les quartiles : La boîte dans le graphique en boîte représente l’intervalle interquartile (IQR). Le quartile inférieur (Q1) est la médiane de la moitié inférieure des données, et le quartile supérieur (Q3) est la médiane de la moitié supérieure. L’IQR est la plage entre Q1 et Q3 et contient le 50% central des données.
- Considérer la plage : La plage des données, indiquée par la longueur des moustaches, fournit une compréhension de la dispersion des données. Une large plage serait indiquée par des moustaches plus longues. Des moustaches courtes, en revanche, indiqueraient une plage étroite. Une large plage suggère une plus grande variabilité dans les données.
Recherchez des signes de données inhabituelles
Il peut également être utile de rechercher des signes indiquant que vos données pourraient être biaisées ou inhabituelles d’une manière ou d’une autre.
- Identifier les valeurs aberrantes : Les valeurs aberrantes sont des points de données qui se situent significativement au-dessus ou en dessous des moustaches du graphique en boîte. Elles sont indiquées par des points ou des points individuels en dehors des moustaches. Les valeurs aberrantes peuvent représenter des valeurs extrêmes ou des points de données qui s’écartent significativement de la majorité.
- Rechercher des données biaisées : Les données qui sont fortement biaisées peuvent être un signe que les données ne sont pas normales. Vous pouvez évaluer le biais en examinant l’emplacement de la boîte sur la ligne centrale et la position de la médiane par rapport à la boîte. Si la médiane est plus proche de Q1, la distribution peut être biaisée à gauche, tandis que si elle est plus proche de Q3, la distribution peut être biaisée à droite. Si vos données semblent anormalement biaisées, il est important d’enquêter sur ce qui pourrait en être la cause.
- Analyser la symétrie : La symétrie du graphique en boîte peut indiquer la symétrie de la distribution des données. Si la boîte est à peu près symétrique, cela suggère une distribution symétrique. Des boîtes asymétriques peuvent suggérer un biais ou d’autres caractéristiques de la distribution.
Faites des comparaisons
Les graphiques en boîte peuvent être utilisés pour comparer des distributions entre différents groupes ou catégories. Les chercheurs peuvent identifier des différences ou des similitudes dans les données en comparant visuellement la position, la forme et la dispersion des boîtes et des moustaches.
- Regardez les encoches : Si vous évaluez un graphique en boîte, des encoches sur les côtés de la boîte peuvent fournir une comparaison visuelle de l’incertitude entre les groupes. Si les encoches ne se chevauchent pas, les médianes peuvent être significativement différentes.
- Regardez les médianes : Si la ligne médiane d’une boîte se trouve en dehors de la boîte de l’autre groupe, cela indique de bonnes différences entre les deux groupes.
- Considérer la taille de l’échantillon : Lors de la comparaison des graphiques en boîte, il est important de tenir compte des tailles d’échantillon. Une petite taille d’échantillon peut ne pas être représentative de la population entière, donc les conclusions doivent être tirées avec prudence.
- Comparer les longueurs de la boîte et des moustaches : Comparer les longueurs des boîtes (l’intervalle interquartile) et des moustaches (la dispersion globale des données) peut également fournir des informations précieuses lors de la comparaison des groupes. Des différences significatives dans les longueurs des boîtes et des moustaches suggèrent des différences entre les groupes.
Suivre ces étapes peut vous aider à interpréter les données que représentent les graphiques en boîte et à obtenir des informations à partir des représentations visuelles des données.
Cela ne signifie pas que les graphiques en boîte sont toujours le meilleur choix pour présenter des données. Ils peuvent être utiles pour comparer des groupes, mais une représentation visuelle plus détaillée, comme un histogramme, peut être plus informative si vous regardez un ensemble de données unique.