Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4)
La Regressione Multipla
La Regressione Multipla •
La regressione multipla estende il concetto della regressione semplice (regressione con due sole variabili) al caso in cui vi siano due o più variabili esplicative: X1, X2,..., Xk
•
Intuizioni e derivazione della regressione multipla sono molto simili a quelle della regressione semplice.
•
Enfatizzeremo solo poche differenze tra regressione semplice e multipla.
Esempio: La determinazione del prezzo delle abitazioni Dati su N=546 case vendute nel Windsor, Canada Variabile dipendente: Y = prezzo di vendita delle case
Variabili Esplicative : X1 = dimensione del lotto della proprietà (in metri quadrati) X2 = numero di stanze da letto X3 = numero di bagni X4 = numero di ripostigli (escludendo lo scantinato)
Stime OLS Modello di regressione multipla: Y = α + β X + ... + β X + e i 1 1i k ki i
Stime OLS: αˆ , βˆ , βˆ ,…βˆ , 1
2
k
Minimizziamo la somma dei quadrati dei residui: SSR = ∑ (Y − αˆ − βˆ X − ... − βˆ X )2 i 1 1i k ki
Le formule risultanti sono però complesse e non vengono qui presentate Tutti i programmi econometrici (Grtl, Stata, ecc.) incluso Excel fornisce automaticamente le stime OLS.
Aspetti Statistici della Regressioni Multipla
• •
•
Sono essenzialmente identici a quelli del caso della regressione semplice. Le formule sono solo leggermente differenti. R2 è una misura dell’adattamento e viene calcolato nello stesso modo della regressione semplice (sebbene non è semplicemente l’indice di correlazione al quadrato tra Y e X).
Aspetti Statistici della Regressioni Multipla(cont.) • Si può verificare l’ipotesi R2=0 nello stesso modo della regressione semplice. • Se troviamo che R2≠0 allora possiamo concludere che le variabili considerate nella regressione, prese congiuntamente contribuiscono a spiegare la variabile dipendente” (Nota: questo non necessariamanete significa che ogni variabile esplicativa è significativa). • Gli intervalli di confidenza possono essere calcolati per ciascun coefficiente come prima. • Si può verificare l’ipotesi che βj=0 per ogni singolo coefficiente (j=1,2,..,k) come prima.
Interpretazione delle stime OLS
Intuizione matematica
• Derivata totale vs. derivata parziale • Regressione Semplice:
dY =β dX
• Regressione Multipla:
∂Y =βj ∂X j
Interpretazione delle stime OLS (cont.) Intuizione •
βj rappresenta l’effetto marginale di Xj su Y, ceteris paribus
•
βj rappresenta l’effetto marginale della variabile esplicativa j sulla variabile dipendente, mantenendo le altre variabili costanti.
Esempio: La determinazione del prezzo delle abitazioni (cont.) Coeff.
St.Err
t-Stat
P-val.
Lower 95%
Upper 95%
Interc.
-4010
3603
-1.113
0.266
-11087
3068
Size
5.429
0.369
14.703
2.E-41
4.704
6.155
Bed.
2825
1215
2.325
0.020
438.3
5211
Bath.
17105
1734
9.862
3.E-21
13698
20512
Storeys
7635
1008
7.574
1.E-13
5655
9615
R2=.54 e il P-value per verificare l’ipotesi che R2=0 (che viene denominato in Excel “ F” ) è 1.18E-88. • La retta di regressione stimata: Yˆ
= -4010 + 5.429X1 + 2825X2 + 17105X3 + 7635X4
La determinazione del prezzo delle abitazioni (cont.) Poiché βˆ 1 = 5.43: • Un metro quadrato in più del lotto tende a far aumentare di $5.43 il prezzo di una casa, ceteris paribus. • Se consideriamo case con lo stesso numero di camera da letto, bagni e ripostigli, un metro quadrato in più di lotto tende a far aumentare di $5.43 il prezzo dell’abitazione. • Se confrontiamo case con lo stesso numero di stanze da letto, bagni e ripostigli, quelle che hanno lotti più grandi tendono a valere di più. In particolare, un metro quadrato in più di lotto è associato a un aumento del valore di una casa di $5.43.
La determinazione del prezzo delle abitazioni (cont.) Poiché βˆ 2 = 2824,61:
• Abitazioni con una stanza da letto in più tendono a valere $2824,61 in più, ceteris paribus. • Se consideriamo abitazioni confrontabili (ad esempio case con lotti di 5000 metri quadrati, due bagni e due ripostigli), quelle che hanno tre camere da letto tendono a valere $2824,61 in più di quelle che hanno solo due stanze da letto.
Problemi nell’uso di una regressione semplice in un contesto di regressione multipla • Nella regressione multipla considerata precedentemente, il coefficiente del numero di stanze da letto era di 2824,61. • In una regressione semplice di Y = prezzo di vendita della casa su X = numero di stanze da letto, otteniamo una stima del coefficiente pari a 13269,98. • Perché questi due coefficienti sulla stessa variabile esplicativa sono talmente differenti? perciò 13269,98>>>2824,61. Risposta 1: Sono ottenuti da due regressioni diverse che controllano per diverse variabili esplicative (differenti condizioni ceteris paribus).
Problemi nell’uso di una regressione semplice in un contesto di regressione multipla (cont.) Risposta 2: •
• • •
•
Si immagini di avere un amico che voglia costruire una stanza da letto in più nella sua casa e chieda a voi, in quanto economista, di quanto aumenti il valore della casa dopo la costruzione di una stanza da letto aggiuntiva. Cosa rispondete? Regressione semplice: “Case con 3 stanze da letto tendono a costare $13269,98 più di case con 2 stanze da letto” Questo però non significa necessariamente che, aggiungendo una stanza da letto alla casa, il valore della casa aumenti di $13269,98. La ragione è che esistono molti altri fattori, oltre il numero delle stanze da letto, che potenzialmente influenzano il prezzo delle case. Inoltre questi fattori potrebbero essere tra loro fortemente correlati (ossia, in pratica, case grandi tendono ad avere più stanze da letto, più bagni, più ripostigli e lotti più grandi). La regressione semplice indica che case migliori tendono a valere di più.
Problemi nell’uso di una regressione semplice in un contesto di regressione multipla (cont.) • Il numero di stanze da letto agisce come proxy di tutte le altre caratteristiche di queste “buone case” e perciò il suo coefficiente diviene molto alto (13269,98) nella regressione semplice. • La regressione multipla può stimare l’effetto separato dovuto alla dimensione del lotto, al numero di stanze da letto, di bagni e di ripostigli. • Dirai al tuo amico: “Una stanza da letto in più tenderà a far aumentare il valore della casa di $2824,61”. • La regressione multipla che include tutte (o la maggior parte) le caratteristiche della casa tenderà a dare stime più accurate rispetto alla regressione semplice.
Problemi nell’uso di una regressione semplice in un contesto di regressione multipla (cont.) Evidenza Statistica: Matrice di correlazione: Sale Price
Lot size
#bed
#bath
Sale price
1
Lot size
0.5358
1
#bed
0.3664
0.1519
1
#bath
0.5167
0.1938
0.3738
1
#storeys
0.4212
0.0837
0.4080
0.3241
#storey
1
• La correlazione positiva tra le variabili esplicative indica che case con più stanze da letto tendono anche ad avere larghi lotti, più bagni e più ripostigli.
Distorsione da variabili omesse “Distorsione da variabili omesse”è il termine statistico per le questioni discusse precedentemente. SE 1. Escludiamo variabili esplicative che dovrebbero essere presenti nella regressione, E 2. Queste variabili omesse sono correlate con le variabili esplicative incluse, ALLORA 3. Le stime OLS dei coefficienti relativi alle variabili esplicative incluse nel modello non sono esatte.
Distorsione da variabili omesse(cont.) Esempio: • Regressione semplice Y = prezzo di vendita della casa e X = numero di stanze da letto. • Molte variabili rilevanti per la determinazione del prezzo delle abitazioni sono omesse. • Queste varibili omesse sono correlate con il numero di stanze da letto. Pertanto la stima OLS ottenuta dalla regressione semplice è inaffidabile,
βˆ =13269,98 era distorto.
Suggerimenti Pratici per la selezione delle variabili esplicative da includere • Includere il maggior numero di variabili esplicative che riteniamo spieghino la variabile dipendente. In questo modo riduciamo il rischio di distorsione nelle stime dovuta all’omissione di variabili rilevanti. • Tuttavia, l’inclusione di variabili irrilevanti fa diminuire l’accuratezza delle stime di tutti i coefficienti (non solo quelli associati alle variabili irrilevanti). Perciò elaborare la verifica delle ipotesi, con la statistica t e decidere se le variabili sono statisticamente significative. Stimare una nuova regressione che non include le variabili esplicative che non sono significative.
Multicollinearità • Intuizione: Se alcune delle variabili esplicative sono molto correlate tra loro allora il modello di regressione ha difficoltà a distinguere quali siano le variabili esplicative che influenzano Y. • Sintomo: Coefficienti individuali non significativi, ma la regressione nel complesso significativa (perciò R2 è elevato, F-stat grande). • Esaminare la matrice di correlazione delle variabili esplicative può aiutare a rilevare l’esistenza e la causa del problema di collinearità.
Multicollinearità (cont.) Esempio: Y = tasso di cambio Variabili esplicative = tasso di interesse X1 = tasso primario praticato dalle banche X2 = tasso di interesse sui buoni del tesoro Se usiamo sia X1 che X2 probabilmente causeremo un problema di collinearità Soluzione: Includere o X1 o X2 ma non entrambi. In alcuni casi questa “soluzione” non è soddisfacente se comporta l’esclusione di variabili esplicative che la teoria economica o il buon senso suggerisce di includere.
Esempio: La Multicollinearità illustrata con dati simulati Modello vero: Y = .5 X + 2 X + e 1
2
Correlazione tra X1 e X2 = .98 t-Stat
P-val.
Inter.
Coeff. St. Error .1662 .1025
1.579
.1211
Lower Upper 95% 95% -.0456 .3780
X1
2.084
.9529
2.187
.0338
.1667
X2
.1478
.9658
.1530
.8790
-1.795 2.091
4.001
• R2=.76 •
P-value verificare che R2=0 è 1.87E-15.
• Vogliamo dei coefficienti stimati intorno a .5 e 2 – ma otteniamo stime differenti. Inoltre X2 non è statisticamente significativa .
Esempio: La Multicollinearità illustrata con dati simulati(cont.) Escludiamo X2 e eseguiamo nuovamente la regressione: t-Stat
P-val.
Inter.
Coeff. St. Error .1667 .1041
1.601
.1160
X1
2.227
12.454 1.E-16 1.867 2.586
.1788
Lower Upper 95% 95% -.0427 .3761
• R2=.76 • P-value per verificare l’ipotesi che R2=0 è pari a 1.2E-16. • Il coefficiente della variabile X1 è significativo ma non si trova vicino al vero valore!