Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
La variabilità {
{
L’attitudine di un carattere quantitativo X ad assumere valori differenti tra le unità componenti un insieme statistico è chiamata variabilità Essa costituisce una caratteristica degli insiemi statistici e può essere descritta mediante indicatori che godano di particolari proprietà
Le misure di variabilità Una misura di variabilità deve: {
{
annullarsi quando, e solo quando, tutte le unità del collettivo presentano il medesimo stato di grandezza del carattere assumere valori crescenti all’aumentare della variabilità
1
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Le misure di variabilità Sia x1≤ x2≤ …≤ xn l’insieme delle osservazioni del carattere X • Intervallo di variabilità o campo di variazione (range) Iv= xn – x1 •
Differenza interquartile Iq= Q3– Q1
Box - plot max
+
3° quartile
IQR
mediana
−
1° quartile
min
2
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Intervallo di variabilità per il numero di componenti e per il reddito
Differenza interquartile per il numero di componenti e per il reddito
3
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Varianza Misura la dispersione attorno alla media aritmetica E’ la media dei quadrati delle distanze dalla media aritmetica 1 n 2 xj − x 2 σ =V X = n j =1
∑(
( )
1 = n
)
n
∑ x j2 − x 2 j =1
Varianza Per una distribuzione di frequenza:
1 σ = V (X ) = n 2
1 = n
k
∑ (xi − x )2 ni i =1
k
∑ xi 2 ni − x 2 i =1
4
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Popolazione residente nella provincia di Bologna al 01-01-2005 Varianza italiani:
512,68 anni2
Varianza stranieri: 245,49 anni2
Popolazione in eta’ lavorativa residente nella provincia di Bologna al 01-01-2005 Varianza italiani:
170,79 anni2
Varianza stranieri: 102.563 anni2
Distribuzione delle famiglie per numero di componenti e sesso del capofamiglia N° Componenti
M
F
1 2 3 4 5 6
3 5 2 8 1 1 20 1.89
2 6 1 1 0 0 10 0.69
Totale varianza V (X ) =
5 11 3 9 1 1 30 1.71
V ( M x ) ⋅ nM + V ( F x ) ⋅ nF 1.89 ⋅ 20 + 0.69 ⋅ 10 = = 1.49 ≠ 1.71 30 nM + nF
Non vale la proprietà di associatività
5
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Devianza E’ il numeratore della varianza
Dev ( X ) = V ( X ) ⋅ n =
∑ (x j − x )2 n
j =1
Dev( X ) = V ( X ) ⋅ n =
k
∑ (xi − x )2 ni i =1
Scarto quadratico medio È la radice quadrata della varianza, è detto anche Deviazione Standard
1 S (X ) = V ( X ) = n
∑ (x j − x )2 n
j =1
Per una distribuzione di frequenza:
1 S (X ) = V ( X ) = n
k
∑ (xi − x )2 ⋅ ni i =1
6
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Popolazione residente nella provincia di Bologna al 01-01-2005 Deviazione standard italiani:
22,64 anni
Deviazione standard stranieri: 15,67 anni
Popolazione in eta’ lavorativa residente nella provincia di Bologna al 01-01-2005 Deviazione standard italiani:
13,07 anni
Deviazione standard stranieri: 10.13 anni
Distribuzione delle aziende agricole per classe di superficie (in migliaia di ettari) al 4° censimento generale dell’agricoltura (1990) - Fonte: Istat Classe di superficie xj-1 |-- xj
Numero di aziende (in migliaia) nj
x*j
x*jnj
(x*j - M(X))2·nj
Fino a 1
0,5
997
498,5
50569,28
1 |-- 2
1,5
591
886,5
22149,29
2 |-- 3
2,5
336
840
8814,57
3 |-- 5
4
374
1496
4906,19
5 |-- 10 10 |- 20 20 |- 50 50 e oltre Totale Media
7,5
354
2655
5,26
15
201
3015
10941,71
35
115
4025
86199,45
55
9625
1540848,58
23041
1724434,33
175
3023
7,62
570,44
7
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Distribuzione delle aziende agricole per classe di superficie (in migliaia di ettari) al 4° censimento generale dell’agricoltura (1990) - Fonte: Istat
Dev (X) = 1724434,33 σ2 = Dev (X) / n = 570,44
σ = σ 2 = 570,44 = 23,88
Misure di variabilità relativa Non è possibile avvalersi degli indicatori fin qui trattati per confrontare la variabilità di caratteri diversi, o quella di un medesimo carattere espresso in metriche differenti Per superare queste difficoltà si ricorre a misure di variabilità relativa Coefficiente di Variazione
CV ( X ) =
S(X ) M (X )
8
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
È maggiormente variabile il reddito medio annuo familiare o il numero di componenti della famiglia?
CV (ncomp) =
1.31 = 0.47 2.77
CV (reddito) =
24636 = 0.74 33364
Il reddito medio annuo è maggiormente variabile nell’insieme delle famiglie con 2 o con 4 componenti? A) famiglie con 2 componenti
M ( X ) = 24451 S ( X ) = 21218 21218 CV ( X ) = = 0.864 24451 B) famiglie con 4 componenti
M ( X ) = 49260 S ( X ) = 26050
CV ( X ) =
26050 = 0.529 49260
9
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
Popolazione residente nella provincia di Bologna al 01-01-2005 Coefficiente di variazione italiani:
0,49
Coefficiente di variazione stranieri: 0,50
Popolazione in età lavorativa residente nella provincia di Bologna al 01-01-2005 Coefficiente di variazione italiani:
0,31
Coefficiente di variazione stranieri: 0,29
La concentrazione {
{
Il concetto di concentrazione riguarda il modo in cui l’ammontare totale di un carattere quantitativo trasferibile si ripartisce tra n unità statistiche: tanto più tale ammontare è addensato in un sottoinsieme di unità, tanto più si dice che il carattere è concentrato La concentrazione è nulla se il carattere è equidistribuito, ed è massima se una sola unità possiede l’intero ammontare
10
Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione"
La concentrazione Avendo ordinato le osservazioni x1≤ x2≤ …≤ xn, si misura la concentrazione di X confrontando (per differenza) la frazione delle unità che possiedono il carattere in misura inferiore al livello xj, cioè pj=j/n, con la frazione dell’ammontare totale del carattere che ad esse compete, ovvero j
qj =
∑ xh h =1 n
∑ xh h =1
Misura della concentrazione Rapportando la somma delle differenze pj – qj al suo massimo (raggiunto nel caso di massima concentrazione) si ottiene il Rapporto di concentrazione di Gini n −1
∑(pj − qj) R=
j =1
n −1
∑ pj h =1
11