ESERCIZIO Il Mobility Manager di un’azienda ha rilevato il numero di chilometri percorsi settimanalmente da 60 impiegati. I dati sono riportati nello schema successivo.
1
67
42
93
58
66
87
52
53
86
82
72
47
56
70
54
86
48
43
60
58
52
68
48
34
52
47
67
85
62
57
78
63
44
77
44
47
57
93
46
70
50
29
76
41
78
43
63
31
72
66
85
78
141
33
80
74
74
94
178
37
1. Considerando una ripartizione dei chilometri percorsi in 4 classi (0–40; 41–60; 61–90; 90+) costruire le distribuzioni di frequenze semplici, relative e percentuali.
Per costruire le distribuzioni di frequenze richieste, si deve ricreare la tabella associando alle classi indicate le relative frequenze assolute. Poi si possono calcolare le frequenze relative fr = fi/n e le frequenze percentuali fr% = fr*100. In base ai dati proposti, quindi, la distribuzione di frequenze che si ottiene è quella presentata nella tabella successiva
fi
fr (= fi/n)
fr% (=fr*100)
0-40
5
5/60=0,0833
8,33
41-60
23
23/60=0,383
38,3
61-90
27
27/60=0,45
45
90+
5
5/60=0,0833
8,33
Totale
60
1
100
2. Secondo il Mobility Manager, le quattro classi individuano diverse tipologie di impiegati sulla base dell’intensità dell’uso delle automobili: poco intenso, intenso, elevato, molto elevato. Quale delle quattro classi mostra la frequenza più elevata?
La classe che mostra la distribuzione più elevata è quella 60-90, che corrisponde a un uso elevato dell’automobile.
2
3. Quale distribuzione di frequenza si deve costruire per stabilire la percentuale di impiegati che fa un uso almeno intenso dell’automobile?
Per stabilire quale percentuale di impiegati fa un uso almeno intenso dell’automobile bisogna utilizzare le frequenze retro cumulate. Si ricorda che le frequenze retro cumulate si ottengono calcolando le somme progressive delle frequenze della distribuzione partendo dall'osservazione più grande verso quella più piccola. Nel caso in esame, dunque, si avrà che
fi
fr (= fi/n)
fr% (=fr*100)
frc%
90+
5
5/60=0,0833
8,33
8,33
61-90
27
27/60=0,45
45
53,33
41-60
23
23/60=0,383
38,3
91,63
0-40
5
5/60=0,0833
8,33
100
Totale
60
1
100
Poiché l’utilizzo intenso dell’automobile corrisponde alla classe 41-60, la percentuale di impiegati che fanno un uso almeno intenso dell’automobile è il 91,63%.
NB. Le frequenze retro cumulate vanno utilizzate ogni volta che viene richiesto di calcolare la percentuale (o la quota) ALMENO pari a…
3
4. Determinare la media aritmetica, la mediana e la moda della distribuzione in classi.
Poiché si tratta di una distribuzione in classi, per determinare la media aritmetica utilizzo la formula ponderata
Determino, quindi, i valori centrali delle classi e li moltiplico per fi. Poiché l’ultima classe è aperta, pongo arbitrariamente il limite superiore della stessa classe a 200 (si ricorda che tutti i dati osservati devono essere compresi in una classe). I risultati dei calcoli sono riportati nella tabella seguente
fi
xi
f i xi
0-40
5
20
100
41-60
23
50,5
1161,5
61-90
27
75
2025
90-200
5
145
725
Totale
60
4011,5
Da cui deriva che
k
4
x f i 1
i
N
i
4011,5 66,85 60
Essendo in presenza della matrice dei dati originaria, si può calcolare anche la media esatta della distribuzione, che in questo caso è
k
x
i
3894 64,9 N 60 i 1
Come si nota, i risultati che derivano dai due calcoli sono diversi. Ciò deriva i)
dalla perdita di informazioni che inevitabilmente si ha riunendo i dati in classi
ii)
dalla assoluta arbitrarietà con cui si è posto il limite superiore dell’ultima classe.
Per calcolare la mediana, trattandosi di una distribuzione in classi, devo utilizzare la formula interpolante, per cui devo calcolare le frequenze relative cumulate.
fi
fr (= fi/n)
frc
0-40
5
5/60=0,0833
0,083
41-60
23
23/60=0,383
0,466
61-90
27
27/60=0,45
0,916
90+
5
5/60=0,0833
1
Totale
60
1
5
La mediana, dunque, risulta essere
Me l1
0,5 FC 1 0,5 0,466 61 30 63,26 FC FC 1 0,916 0,466
Per calcolare la moda, poiché le classi sono tutte di diversa ampiezza, devo calcolare la densità di frequenza delle classi stesse. Per farlo, divido le frequenze assolute per l’ampiezza di classe. I risultati sono riportati nella tabella seguente
fi
Ampiezza di classe
Densità
0-40
5
40
0,125
41-60
23
20
1,15
61-90
27
30
0,9
90-200
5
111
0,045
Totale
60
1
Essendo la classe modale quella cui è associata la maggior densità di frequenza, allora in questo caso la classe modale è quella 41-60. 6
La moda della distribuzione originaria, invece, è pari a 52, in quanto questa è la modalità del carattere che si presenta con maggiore frequenza
5. Costruire il box plot per rappresentare i dati
Per costruire il box plot della distribuzione presentata occorre innanzitutto calcolare i valori della mediana, del primo quartile e del terzo quartile. Il valore della mediana lo conosco già perché precedentemente calcolato. Analogamente a quanto già fatto per la mediana, e utilizzando come riferimento la stessa tabella, calcolo con la formula interpolante anche il primo e il terzo quartile.
fi
fr (= fi/n)
frc
0-40
5
5/60=0,0833
0,083
41-60
23
23/60=0,383
0,466
61-90
27
27/60=0,45
0,916
90+
5
5/60=0,0833
1
Totale
60
1
Da cui posso ricavare primo quartile e terzo quartile
Q1 l1
0,25 FC 1 0,25 0,083 41 20 49,72 FC FC 1 0,466 0,083
Q73 l1
0,75 FC 1 0,75 0,466 61 30 79,93 FC FC 1 0,916 0,466
Da cui deriva che DI = Q3 – Q1 = 79,93 – 49,72 = 30,21
Avendo questi dati, posso a questo punto calcolare anche il limite inferiore e il limite superiore del grafico. Essi saranno rispettivamente
Linf = Q1 – 15,*DI = 49,72 – 1,5 * 30,21 = 3,955 e Lsup = Q3 + 1,5*DI = 79,93 + 1,5 * 30,21 = 125,695
Poiché il limite inferiore ha un valore minore rispetto al minore dei valori osservati, come limite inferiore del grafico pongo arbitrariamente valmin = 29. il box plot della distribuzione in esame sarà allora il seguente
8
200
180 160 140 120 100 80 60 40 20
0
9
* +
7. Calcolare la varianza e lo scarto quadratico medio di entrambe le distribuzioni (quella originale e quella suddivisa in classi).
Sappiamo che la varianza può essere scritta come n
2
x n i 1
2
i
i
ma anche come 2
n 2 xi xi 2 i 1 i 1 2 Q 2 2 n n n
Per semplicità, visto il numero abbastanza consistente di osservazioni, decido di procedere utilizzando la seconda formula, che pone la varianza uguale alla differenza tra il quadrato della media quadratica e il quadrato della media aritmetica.
10
Calcolo innanzitutto la media quadratica Q2, che è uguale a n
Q2
x i 1
2 i
n
Che nel caso in esame equivale a dire
672 422 932 ... 372 Q 4814,8 60 2
Da un esercizio precedente sappiamo che la media della distribuzione originaria è pari a 64,9, per cui μ2=4212,01.
Dai dati in mio possesso posso facilmente calcolare la varianza, che in questo caso è
2 Q 2 2 4814,8 4212,01€ 602,79
A questo punto posso calcolare anche lo scarto quadratico medio, che per la distribuzione originaria è
2 602,79 24,55 11
Facendo riferimento alla distribuzione in classi, invece, utilizzo la formula ponderata n
x i 1
fi 2
i n
f i 1
2
i
In questo caso, trattandosi di pochi dati, posso agevolmente calcolare anche la somma degli scarti dalla media aritmetica. I risultati dei calcoli sono riportati nella tabella successiva. Si ricorda che la media calcolata sulla distribuzione in classi era risultata essere pari a 66,85.
fi
xi
xi-μ
(xi-μ)2
(xi-μ)2*fi
0-40
5
20
-46,85
2194,92
10974,6
41-60
23
50,5
-16,35
267,32
6148,36
61-90
27
75
8,15
66,42
1793,34
90-200
5
145
78,15
6107,42
30537,1
Totale
60
4011,5
n
x i 1
fi 2
i n
f i 1
12
i
49453,4 28,7 60
49453,4
Si ricorda che anche in questo caso le differenze osservate nei valori dello scarto quadratico medio, a seconda che si tratti della distribuzione originaria o di quella in classi, sono dovute i)
alla perdita di informazioni che inevitabilmente si ha riunendo i dati in classi
ii)
alla assoluta arbitrarietà con cui si è posto il limite superiore dell’ultima classe.
8. Per la distribuzione originaria, verificare se si è in presenza di simmetria o di asimmetria.
Conoscendo già da un esercizio precedente i valori di media aritmetica, moda e scarto quadratico medio, per valutare se si è in presenza di una distribuzione simmetrica o asimmetrica possiamo utilizzare l’indice di asimmetria di Pearson
Mo AS 1 Sappiamo che, per la distribuzione originaria Mo = 52 μ = 64,9 σ = 24,55
13
Di conseguenza, l’indice di asimmetria di Fisher sarà pari a
AS1
Mo 64,9 52 0,52 24,55
Il valore dell’indice di asimmetria di Fisher indica che siamo in presenza di una leggera asimmetria positiva.
9. Riferendosi alla distribuzione in classi, definire se la distribuzione è leptocurtica o platicurtica
Per valutare se la distribuzione è leptocurtica o platicurtica, ovvero se la sua forma è più o meno schiacciata, utilizzo l’indice di curtosi di Pearson definito come
1 ( x i ) 4 ni Ku n 4
Conosco già, da un esercizio precedente, il valore degli scarti dalla media. Ai fini del presente esercizio, quindi, devo semplicemente elevare a 4 i dati già in mio possesso. I risultati dei calcoli sono riportati nella tabella successiva. 14
fi
xi
xi-μ
(xi-μ)4
(xi-μ)2*fi
0-40
5
20
-46,85
4817684,78
24088423,91
41-60
23
50,5
-16,35
71461,31
1643610,33
61-90
27
75
8,15
4411,95
119122,65
90-200
5
145
78,15
37300609,59
186503048
Totale
60
4011,5
21235404,9
Sappiamo, da un esercizio precedente, che σ = 28,7. Ne consegue che, per la distribuzione in classi,
1 1 ( xi ) 4 ni 21235404,9 3539236,748 n 60 Ku 5,21 4 28,7 4 678465,21 Che corrisponde a un valore di Ku’, centrato rispetto allo 0 (indice di curtosi di Fisher), di
Ku' Ku 3 5,21 3 2,21
Da cui deduco che la distribuzione è leptocurtica o ipernormale 15