Aide-mémoire de statistique descriptive

Vocabulaire

Dans une population P, qui est un ensemble d'individus p (ou d'objets, d'items, etc.), on étudie un ou plusieurs caractères. Un caractère X peut prendre différentes valeurs xappelées modalités.
Une statistique est dite univariée si elle porte sur un seul caractère ou plurivariée si elle porte sur plusieurs caractères pour la même population.
Un caractère peut être : qualitatif (par exemple le nom d'une commune) ou quantitatif. Un caractère quantitatif peut être discret quand on peut compter les modalités du caractère, ou continu quand il peut y avoir toutes les valeurs intermédiaires entre deux modalités.

Par exemple le nombre d'habitants d'une commune, ou l'âge d'une personne, sont des caractères dénombrables et donc discrets. La taille d'une personne est un caractère continu car elle peut prendre n'importe quelle valeur entre deux valeurs données..

Tableaux de données

Le résultat d'une étude statistique constitue une série statistique qui met en relation chaque individu avec une modalité du caractère étudiée. Une série est généralement présentée sous la forme d'un tableau complet. On peut regrouper en un tableau unique plusieurs séries portant sur la même population, le tableau aura alors une colonne par caractère.Le nombre n d'individus est l'effectif de la population.

Exemple de deux séries : taille et âge d'une fratrie.
prénomtaille (cm)âge (ans)
Albert15512
Alice14812
Bérénice1248
Bastien892
 
On peut résumer une série en regroupant les modalités du caractère en classes. Chaque classe correspond à un intervalle de valeurs auquel on associe un effectif qui est le nombre d'individus dont la modalité appartient à l'intervalle. On obtient un tableau d'effectifs, appelé parfois tableau résumé ou tableau simplifié car une partie de l'information initiale est perdue.
Les classes sont en général de même amplitude. Pour un caractère discret, chaque valeur peut constituer un intervalle.
différents types de graphiques permettent de visualiser une statistique.
Exemple pour les tailles.
classe de tailleeffectif
[150;200[1
[100;150[2
[50;100[1
 
    Exemple pour les âges.
âgeeffectif
122
81
...0
21
10
00
 
Effectifs et fréquences

La fréquence fi d'une classe kiest obtenue en divisant l'effectif ni de cette classe par l'effectif total n de la population. Une classe correspondant à un intervalle [a;b[ ou ]a;b] est généralement représentée par son milieu ki=(a+b)/2 ; b−a est l'amplitude de cette classe.
La fonction de masse associe à chaque modalité xi (ou chaque classe ki) son effectif ni.
La fonction de densité f associe à chaque modalité xi (ou chaque classe ki) sa fréquence : f(xi)=fi.
La fonction de répartition F (ou de distribution) associe à chaque modalité xi (ou classe) la somme des fréquences des modalités inférieures ou égales à cette modalité : F(xi)=xj≤xi f(xj).

Paramètres statistiques

Paramètres centraux
La moyenne arithmétique m est : m= (xi×ni)/N =  xi×fi.
Le mode (resp. classe modale) est la modalité du caractère (resp. la classe) ayant le plus grand effectif.
La médiane q0,5 est la valeur du caractère séparant la population en deux sous-populations de taille identique, l'une ayant des valeurs de caractère moindres et l'autre des valeurs plus grandes.
Plus généralement, une population classée par ordre croissant de modalité peut être partagée en k sous-population de taille identique en définissant les quantiles de dimension k. : q1/k, q2/k, ..., q(k−1)/k. La médiane q0,5 correspond donc à k=2 ; les quartiles q0,25, ..., q0,75 à k=4 ; les déciles à k=10 ; les centiles q0,01, ..., q0,99 à k=100.

Paramètres de dispersion
La variance est : V= (ni(xi−m)2)/N, ou encore : V= (fi(xi−m)2). Elle peut être calculée par la formule de Koenig : V=(∑ (fixi2)−m2.
L'écart-type σ est la racine carré de la variance.
 
© 2017-07-01