Statistiques d'apprentissage, de la présentation aux mesures de distribution des données

La statistique est une science mathématique qui étudie la collecte, le traitement, l'analyse et la présentation des données. Les statistiques sont largement utilisées dans les compagnies d'assurance, dont l'une consiste à déterminer le montant de la prime d'une police d'assurance. Chaque assuré est tenu de payer une contribution appelée prime. La prime payée est conforme à la couverture d'assurance dont il bénéficie.

Ici, la compagnie d'assurance utilise des statistiques pour que le montant de la prime corresponde au montant de la couverture qui peut être fournie à l'assuré. De cette façon, les deux parties en bénéficient.

Comme mentionné précédemment, les statistiques ne sont pas seulement la collecte et le traitement, mais aussi la présentation des données. Les statistiques utilisent également plusieurs mesures de distribution des données dans le traitement des données. Aujourd'hui, nous discuterons des types de présentation ainsi que de l'ampleur de la diffusion des données dans les statistiques.

Types de présentation des données

Les types de présentation de données dans les statistiques comprennent les tableaux de distribution de fréquence, les histogrammes, les polygones et les ogives.

La première forme de présentation des données consiste à utiliser une table de distribution de fréquences. Comme son nom l'indique, nous utilisons des tableaux pour afficher le type et la quantité de données obtenues. Le tableau de distribution de fréquence a également plusieurs types, à savoir le tableau de distribution de fréquence pour les données uniques et les données de groupe.

(Lire aussi: Deux données de mesure dans les statistiques)

Une table de distribution de fréquence de données unique est utilisée pour présenter de petites quantités de données, au moins moins de 30 données. Un exemple de présentation de données à l'aide d'une seule table de distribution de fréquence de données est le suivant.

Les données ci-dessous sont les résultats des tests de 30 étudiants. Servir dans une seule table de distribution de fréquence de données!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Si nous y prêtons attention, le score le plus bas obtenu au test est de 3, tandis que le score le plus élevé est de 10. Ensuite, à partir de ces scores, le nombre d'élèves qui l'obtiennent est calculé. Pour une note de 3, par exemple, un seul élève. Pour la 4e année, il y a 4 élèves, et ainsi de suite. Ce chiffre est ensuite présenté dans un tableau comme le suivant.

turbines au sol du parc éolien offshore

Le type suivant de table de distribution de fréquence est le tableau de distribution de fréquence de données de groupe. Ce tableau permet de présenter un grand nombre de données, soit plus de 30 données. Regardons l'exemple ci-dessous.

Voici la hauteur des plants de piment (en millimètres) dans une plantation de piments. Présentez les données dans un tableau de distribution de données de groupe!

123131120128126124125122

121 126 124 123 122 120 125 126

123123134125125126128135

120126124133126127123126

122 125 123 132 124 132 128 124

Contrairement aux données uniques, nous devons ici calculer le nombre de classes et la longueur des classes qui seront affichées dans le tableau. En utilisant les données ci-dessus, voici les calculs.

Beaucoup de données (n) = 40

Hauteur maximale (x max ) = 135

Hauteur minimale (x min ) = 120

Plage (J) = x max  - x min = 135-120 = 15

Nombre de classes (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868… ≈ k = 6

Longueur de classe (c) = J / k = 15/6 = 2,5 ≈ c = 3

À partir de ces résultats, nous pouvons afficher la table de distribution des données de groupe comme suit.

turbines au sol du parc éolien offshore

Ensuite, nous discuterons d'autres types de présentation de données groupées, notamment sous la forme d'histogrammes, de polygones de fréquence et d'ogives. Jetez un œil au tableau des fréquences ci-dessous, qui contient des informations sur le poids de 80 membres de clubs sportifs.

turbines au sol du parc éolien offshore

Pour présenter les données à l'aide d'un histogramme, nous construisons d'abord un graphique cartésien. L'axe des x montre les limites supérieure et inférieure de chaque classe, tandis que l'axe des y montre la fréquence.

statistiques4 (1)

Contrairement à un histogramme, un graphique polygonal de fréquence prend la valeur moyenne de l'intervalle de classe et l'affiche avec des lignes en fonction de la fréquence.

statistiques5 (1)

Enfin, la présentation des données utilise une courbe de fréquence cumulative positive ou négative. Tout d'abord, marquez les valeurs de fréquence cumulées de chaque classe d'intervalle sur l'axe des y. Ensuite, marquez les coordonnées des points en fonction des paires de limite supérieure de la classe d'intervalle et de la fréquence cumulée. Reliez les points en une courbe lisse.

Taille de la diffusion des données

En statistique, il existe deux types de mesure des données, à savoir la taille de la concentration des données et la taille de la distribution des données. Quelle est l'explication et la différence?

La taille du centre de données est une valeur qui représente l'emplacement des données. Dans les mesures centrées sur les données, il existe une moyenne, un mode et une médiane.

La moyenne ou moyenne est le quotient entre la somme de toutes les données observées avec un grand nombre de données. Nous pouvons formuler la moyenne comme suit.

Moyenne = (Somme de toutes les données) / (Beaucoup de données)

Afin de mieux comprendre, travaillons sur l'exemple de problème suivant. Le nombre d'heures par semaine nécessaires à 5 personnes pour des activités sociales dans leur environnement est de 10, 7, 13, 20 et 15 heures. Déterminez le nombre moyen d'heures par semaine qu'ils consacrent aux activités sociales!

Sur la base des problèmes ci-dessus, nous pouvons entrer les nombres dans la formule comme suit.

Moyenne = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Cela signifie que le nombre moyen d'heures qu'ils consacrent aux activités sociales est de 13 heures.

Outre la moyenne ou la moyenne, il existe également des modes. Le mode est la valeur qui apparaît le plus souvent dans une donnée. Regardons un exemple du problème suivant.

Voici les données de poids (en kilogrammes) de certains élèves de 7e année. Déterminez le mode des données!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

Tout d'abord, il faut compter le nombre de fois où chaque valeur apparaît dans les données. Sur la base de ces données, nous obtenons 31 (x3), 32 (x2), 33 (x1), 34 (x2) et 35 (x4). Étant donné que 35 se produit le plus fréquemment, le mode des données ci-dessus est 35.

Le dernier type de mesure de centrage est la médiane. La médiane divise les données en deux parties égales, de sorte que la médiane est la valeur médiane des données triées.

Pour déterminer la médiane, nous devons d'abord trier toutes les données par ordre décroissant ou croissant. Deuxièmement, définissez beaucoup de données et symbolisez-les par «n». Si n est impair, la formule que nous utilisons est la suivante.

Médiane = nombre de données - ((n + 1) / 2)

En attendant, si n est pair, nous utiliserons la formule ci-dessous.

Médiane = (données avec (n / 2) + données avec (n / 2 + 1)) / 2

La deuxième mesure des données dans les statistiques est une mesure de la diffusion des données. La taille de la répartition des données est une valeur qui indique la distance entre les données et le centre de données. La taille de la distribution des données comprend l'intervalle, le quartile et l'intervalle interquartile.

La plage correspond à la différence entre la plus grande valeur de données et la plus petite valeur de données. Nous pouvons obtenir de la portée en soustrayant les plus grandes données des plus petites données. Par exemple, si dans une classe, l'élève le plus grand a une taille de 160 cm et l'élève le plus petit a une hauteur de 143 cm, nous obtiendrons une portée de 23 cm.

Pendant ce temps, le quartile est le regroupement des données statistiques en quatre parties égales. La taille du quartile est divisée en 3, à savoir le quartile inférieur (Q 1 ), le quartile intermédiaire (Q 2 ou médiane) et le quartile supérieur (Q 3 ). Pour déterminer chaque quartile, nous devons suivre plusieurs étapes.

Tout d'abord, triez les données par ordre croissant ou décroissant. Deuxièmement, déterminez la valeur moyenne ou médiane des données. Troisièmement, déterminez le quartile inférieur (Q 1 ), qui est la valeur moyenne du groupe de données sous la médiane (Q 2) . Enfin, déterminez le quartile supérieur (Q 3 ), qui est la valeur moyenne de l'ensemble de données au-dessus de la médiane (Q 2) .

Le dernier type de mesure de dispersion des données est l'intervalle interquartile. L'intervalle interquartile est la différence entre les quartiles supérieur et inférieur. La formule est la suivante.

Q d = Q 3 - Q 1