SUPPORT Transparents ultérieurement améliorés et mis à jour sur le site du SMCS
Pratique de la statistique avec SPSS
LIENS UTILES Site du SMCS (Support en Méthodologie et Calcul Statistique) : http://www.stat.ucl.ac.be/SMCS/
Documentation Stat + SPSS : http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm http://www.ats.ucla.edu/stat/spss/ http://www.stat.ucl.ac.be/SMCS/
LIVRES UTILES Discovering Statistics Using Spss par Andy Field (Sage Publication) …
Formateurs : Nathalie Lefèvre et Lorise Moreau
2
: du 7 au 11 septembre 2009 FormationDate SMCS : Pratique de la statistique avec SPSS
3
4
Objectifs de la formation
SPSS – Objectifs de la formation
Résumer ce que peut offrir la statistique Découvrir l’environnement SPSS Appliquer quelques principales analyses statistiques Apprendre à interpréter les résultats des analyses Répondre à vos questions spécifiques
6
Formation SMCS : Pratique de la statistique avec SPSS
7
8
Contexte Contexte : Un entraî entraîneur souhaite mieux comprendre les faculté facultés de résistance d’ d’athlè athlètes reprenant les entraî entraînements aprè après une pé période de repos forcé forcé suite à une blessure
SPSS - Etude de cas
Il voudrait savoir si la ré résistance des athlè athlètes [mesuré [mesurée par le temps de récupé nécessaire pour atteindre x pulsations par minute) cupération aprè après un marathon (temps né et le fait que les athlè athlètes ont ou non fait des arrêts durant la course (course avec arrêt ou sans arrêt)] peut être dé déterminé terminée par la duré durée du repos, repos, le sexe de l’athlè athlète et les vitamines prises durant le mois de pré préparation. Il pense que cette étude pourra l’l’aider à amé améliorer ses entraî entraînements pour être plus adapté adaptés aux athlè athlètes. Remarque : Il s’ s’agit d’ d’une étude fictive
10
Formation SMCS : Pratique de la statistique avec SPSS
Données Donné Données: es: Pour chaque athlè athlète, nous avons les informations suivantes : Colonne
Nom SPSS
Nom de variable
Label
Values
Col1
V1
Date
Date de la mesure
Col2
V2
Identifiant
Identifiant de l’athlète
Col3
V3
Sexe
Sexe de l’athlète
1=Homme 2=Femme
Col4
V4
Vitamine
Vitamine prise par l’athlète
1=Vitamine A 2=Vitamine B 3=Vitamine C
Col5
V5
Absence
Nombre de jours de repos
Col6
V6
Recup1
Nombre de seconde pour récupérer après le marathon 1
Col7
V7
Recup2
Nombre de seconde pour récupérer après le marathon 2
Col8
V8
Recup3
Nombre de seconde pour récupérer après le marathon 3
Col9
V9
Arret1
Marathon 1 réalisé avec ou sans arrêt
1=Sans arrêt 2=Avec arrêts
Col10
V10
Arret2
Marathon 2 réalisé avec ou sans arrêt
0=Sans arrêt 1=Avec arrêts
Col11
V10
Fausse_Date
Date inventée 11
12
Face à une question Quelles réponses offre la statistique?
La statistique comme outil
Des outils descriptifs Pour résumer les donné données et les repré représenter graphiquement Des outils infé inférentiels Pour ré répondre aux questions et décider à partir des donné données Des outils de modé modélisation Pour expliquer certaines variables à partir d’ d’autres variables
14
Formation SMCS : Pratique de la statistique avec SPSS
Outils descriptifs
Outils inférentiels
Résumé numérique pour estimer des paramètres d’une distribution : moyenne, variance, médiane, quantiles, skewness, kurtosis, corrélation…
Les outils inférentiels permettent de répondre aux questions que nous nous posons sur une population à partir d’un échantillon extrait de celle-ci La résistance des athlètes est-elle affectée par le type de vitamines prises durant le mois de préparation? La résistance des athlètes est-elle liée à la durée de la période de convalescence des athlètes? Le sexe interfère-t-il dans les effets observés?
Graphiques statistiques pour montrer / analyser les structures sous-jacentes aux données : diagramme en barres, histogramme, boxplot, graphe x-y, qq-plot, densité…
… Les notions principales liées à l’inférence statistique: Estimations Intervalles de confiance tests d’hypothèses 15
16
Outils de modélisation Les outils de modélisation expliquent et prédisent une ou plusieurs variables par une fonction mathématique d’autres variables
Quelques exemples de modélisation : Régression simple, multiple, régression logistique, analyse de variance
17
18
19
20
SPSS
L’environnement SPSS
SPSS pour Statistical Package for Social Sciences
22
Formation SMCS : Pratique de la statistique avec SPSS
SPSS
Le fichier de données Deux feuilles diffé différentes
Plusieurs types de fichiers Data : Fichier de donné données Syntax : Fichier de syntaxe incluant le code de commandes SPSS Output : Fichier incluant les ré résultats des analyses Script : Fichier incluant du langage de programmation objet => Ces diffé différents fichiers peuvent être sauvé sauvés et réutilisé utilisés par la suite
23
Data View : Visualisation des donné données permet de modifier les donné données
Variable View : Visualisation des variables permet de modifier les caracté caractéristiques des variables
24
Ouvrir un fichier de données SPSS : File → Open → Data
Ouvrir un fichier de données Cocher cette case si la première ligne inclut le nom des variables
Aller à l’endroit où le fichier est enregistré
=> Il est important de visualiser les donné données au pré préalable et de vé vérifier que l’l’importation
Choisissez le type de fichier 25
26
Découvrir les données Vecteur d’observations pour un individu (cas)
Vecteur d’observations pour une Variable (champ)
Définir les variables
Types de variables : Quantitatif
Discret Continu
Qualitatif
Nominal Ordinal
Cellule
Valeurs manquantes : Variable numérique = « . » (point) variable alphanumérique = « » (blanc)
Changer le nom des variables
Définir le type : Eviter les variables « string » (chaîne de caractères) car ça limite certaines analyses
Donner un label : nom complet des variables
Indiquer la signification de chaque valeur
Indiquer le type de mesure : échelle, ordinale, nominale
⇒ A vous d’ qu’il est possible d’essayer avec les informations reç reçues (aller voir ce qu’ de faire dans chaque menu: changer l’l’affichage des dates, dé définir les missing… missing…) 27
28
Découvrir les menus
Découvrir les menus
Quelques menus inté intéressants ⇒ A vous de les dé découvrir
Quelques menus inté intéressants
Obtenir de l’aide Réaliser des analyses différentes selon les valeurs d’une variable Infos générales sur un fichier
Sélectionner certaines données Définir des paramètres
Donner un poids sur base d’une variable
Obtenir un graphe
Transformer ou créer des variables
⇒ A vous de les dé découvrir Réaliser des analyses
29
30
31
32
Ne pas se fatiguer Sauver le code chaque fois qu’ qu’on exé exécute quelque chose
SPSS : choisir le menu qui nous inté intéresse → choisir les options voulues dans la fenêtre → cliquer sur Paste au lieu de OK - Le code correspondant est collé collé dans une fenêtre de syntaxe - Dans la fenêtre de syntaxe, on peut cliquer sur Run →All et le code est exé exécuté cuté ou Run →Selection… - On peut sauver le fichier contenant le code et l’l’ouvir pour l’exé exécuter sur un autre fichier Se servir du journal pour avoir une trace de ce qui a été fait
SPSS : Edit → Options → File Locations : choisir un endroit accessible pour le fichier « Session Journal » spss.jn → réaliser toutes les analyses → ouvrir ce fichier avec un éditeur de texte → On voit tout ce qui a été fait durant l’l’ouverture de la cession
Grilles d’aide à l’analyse Analyses statistiques
Une variable d’ d’inté intérêt à analyser seule Variable à analyser - Variable dépendante (VD) Selon - Var. Indépendante
Pas d'autres variables
Outil
Variable quantitative Graphique temporel Graphe en points Diagramme en barres (si discrète) Boxplot Histogramme (si continue) qq-plot, pp-plot
Variable qualitative
Graphe
• • • • • •
• Diagrammes en barres • Diagrammes de Pareto
Tableau descriptif
• Moyenne, mode, médiane • Variance, écart-type
• Médiane, mode • Table de fréquences
Inférence
• Test t et IC sur la moyenne • Test c² et IC sur la variance • Test de Normalité
• Test de proportions • Test d’ajustement χ²
34
Formation SMCS : Pratique de la statistique avec SPSS
Grilles d’aide à l’analyse
Grilles d’aide à l’analyse
Une variable d’ d’inté intérêt en fonction d’ d’une variable quantitative
Une variable d’ d’inté intérêt en fonction d’ d’une variable qualitative Variable à analyser - Variable dépendante (VD)
Variable à analyser - Variable dépendante (VD) Selon - Var. Indépendante
En fonction d'une / de variables quantitative(s)
Outil
Variable quantitative
Graphe
• Graphe x-y • Graphe x-y matriciel
• Graphes en points • Boxplot par catégorie
Tableau descriptif
• Coefficient de corrélation de Pearson, Spearman ou autre
• Moyenne, mode, médiane par catégorie • Variance, écart-type par catégorie
Inférence
• Test et IC sur la corrélation
Modélisation
• Régression linéaire simple et régression multiple
Selon - Var. Indépendante
Variable qualitative
En fonction d'une / de variables qualitative(s)
Outil
Variable qualitative
Graphe
• Graphe en points • Boxplot par catégorie
•
Diagramme en barres par catégorie
Tableau descriptif
• Moyenne, mode, médiane par catégorie • Variance, écart-type par catégorie
•
Tableau de contingence
Inférence
• Test t de comparaison des moyennes, tests de comparaisons multiples, test de Wilcoxon • Test F de comparaison des variances, test de Levene
• Test d’indépendance: χ², test exact de Fisher • Test de McNemar
Modélisation
•
• Régression logistique • Arbre de segmentation
• Régression logistique • Analyse discriminante
35
Variable quantitative
ANOVA, ANOVA à mesures répétées, GLM
36
Données1qualiObjectifs ≥2 quali Quali quanti Quanti selon quali ≥2quanti Intro Stat Analyses stat selon SPSS 1quanti
Canevas de la formation Les différents parties de la formation sont organisées en se basant sur le type de variables disponibles et à analyser Que peut-on utiliser comme outil statistique lorsqu’on dispose de : → Une seule variable quantitative → Une seule variable qualitative → Plusieurs variables quantitatives → Une variable quantitative selon au moins une variable qualitative → Une variable qualitative selon au moins une variable quantitative → Plusieurs variables qualitatives
37
38
39
40
Visualisation graphique Le choix du graphique dépend de la taille n de l’échantillon
5000 1000
3000
5000
1000
3000
5000
3000
5000 1000
3000
5000
1000
3000
5000
• •• •• •• ••
Dot plot
1000
Dot plot (bon pour N < 15) :
3000
1000
3000
5000
1000
•• •• •• •••• •••• ••• • ••
Box plot (rarement mauvais) :
N=50
Box plot
1000
•
Histogramme (pour N > 50) :
N=30
Histogramme
N=15
•• ••• • •• •
Analyse d’une variable quantitative
3000
5000
1000
3000
42
Formation SMCS : Pratique de la statistique avec SPSS
Graphe: Histogramme
Graphe: Box plot
Ex: Visualiser la forme de la distribution du temps de convalescence
Ex: Visualiser les distributions du temps de convalescence selon le sexe
SPSS : Graphs → Legacy Dialogs → Histogram Nombre d’obs par classe ou fréquence relative
5000
SPSS : Graphs → Legacy Dialogs (→ Interactive )→ Boxplot ou Graphs → Chart Builder → Boxplot
Que représente l’histogramme? → On définit des classes (souvent de mêmes longueurs) et pour chacune on dessine un rectangle dont la hauteur représente le nombre d’obs. appartenant à la classe. → Quand N est petit, la forme peut beaucoup varier en fonction des classes choisies → à éviter pour un N petit → Par prudence, prendre environ √N comme nombre de classes.
43
44
Graphe: Boxplot
Graphe: Graphique temporel Ex: Visualiser l’évolution du temps de récupération au cours du temps
Que représente un box-plot?
→ On ordonne les données et on les coupe en 4 groupes de 25%
1000
2000
3000
4000
5000
SPSS : Data → Sort Cases → By Date or Fausse_Data Analyse → Time series → Sequence Charts Graphe 1
•• • • •••• •••• ••••••• •• •••• •• ••••• •• •••
médiane
25%
Ecart interquartile (IQR)
25ème percentile
25%
Minimum (sans outliers)
*
→ Une représentation de l’évolution d’une variable en fonction du temps (ex: nos critères de cotation peuvent se modifier au cours du temps)
1.5 * IQR
75ème percentile
25%
••• • •
0
Maximum (sans outliers) 25%
1.5 * IQR
Que représente le graphe temporel ?
V a r i a b l e
Graphe 2
→ Graphe 1: Graphe 2:
Mesure non liée à la Date Phénomène cyclique avec Fausse_Date
→ Très important à contrôler → L’histogramme ne permet pas de voir cette évolution
Outlier (observation < 25th percentile - 1.5 IQR) Temps 45
46
Graphe: QQplot
Graphe: QQplot
Ex: Vérifier si les temps de repos sont issus d’une loi Normale
Que représente plus précisément un QQplot ? → Un QQ plot consiste à comparer les données observées aux données qu’on devrait avoir si elles suivaient « parfaitement » une certaine distribution, le plus souvent la distribution Normale. → Les valeurs observées et « idéales » (les quantiles) sont comparées sur un graphe X-Y qui montre une tendance linéaire en cas de normalité. Exemple avec 4 données
SPSS : Analyze → Descriptive Statistics → Q-Q Plots
1/4
1/4 1/4
1/4 Quantiles de la distribution normale Droite de Henry
z1
z2 z3
z4
Que représente ce QQplot?
→ Les données réellement observées par rapport aux données qui auraient dû être observées dans le cas d’une distribution parfaitement Normale (ou représentation de la déviation de la distribution Normale de chacun des points observés) 47
x1
x2
x3 x4 observations 48
Graphe: QQplot
Tableaux: Statistiques descriptives
Quelques exemples de vérification de la normalité par QQplot
Ex: Résumer les temps de repos selon le sexe
SPSS : Analyze → Reports → Case Summaries (décocher «Display cases»)
Normale
Lognormale
ou
Analyze → Descriptive Statistics → Explore
ou
…
Bimodale 49
50
Indices de tendance centrale
Indices de dispersion
But : Donner une valeur centrale aux données
moyenne
1 N X = ∑ X i = 12 N i=1
8
9
10
11 12 13 14
médiane Milieu=q0.5=13
50% of observations
50% of obs
8
13
10 11
12
mode Valeur (classe) la plus fréquente= 14
9
But : Savoir comment les données varient autour du centre
14
8
9
10 11 12
45
50
55
60
65
=
13 14
- Résistant aux outliers - Moins efficace pour les données « propres » - Utile pour les distributions asymétriques
)2
i =1
s = s 2 = 7.92
X
- Centre de gravité des données - Sensible aux outliers - Efficace pour les données « propres »
Variance N → s2 = 1 ∑ ( N −1
1 N ∑ (Xi − X)2 = 62.667 N − 1 i =1
Écart-type (standard deviation) → Dans les unités d’origine s = s 2 = 7.92
- Facile à comprendre - Parfois plusieurs modes 45
50
55
60
65
Erreur type (standard error) → Précision de l’estimateur de la moyenne s X = s/ N
51
52
Indices de dispersion
Inférence : Test sur une moyenne Tester une moyenne en population normale
But : Savoir comment les données varient autour du centre
Ex: Tester si la moyenne du temps de repos est différente de 250
Étendue
Étendue = max(Xi) - min(Xi)
Espace interquartile IQR = q 0.75 - q 0.25 25% obs
50
55
SPSS : Analyze → Descriptive → Explore → Plots (cocher «Normality plots with tests») → La distribution s’écarte
IQR
Range
45
→ Vérifier si la distribution est Normale et transformer les données si nécessaire
60
45
65
25%
50
q0.25
25%
55
q0.5
significativement d’une Normale → Utiliser une transformation
25%
60
q0.75
65
SPSS : Transform → Compute Variable (essayer une transformation logarithmique) → Vérifier à nouveau la normalité
Box Plot
45
50
55
60
→ Distribution plus proche d’une Normale → Test de KS non significatif: non rejet de la normalité (P-valeur>0.05)
65
53
54
Tester une moyenne en population normale
Inférence : Test sur une moyenne Tester une moyenne en population normale
Ex: Tester si la moyenne du temps de repos est différente de 250 en utilisant la variable transformée [LN(250)≈5.52]
Test-t (1 moyenne µ par rapport à une valeur de référence µ 0) On veut tester H : µ = µ 0 0 contre H1 : µ ≠µ0 Sous condition que la variable X testée ait une distribution normale ou qu’il y ait un grand nombre d’observations
X - µ0 ~ t n −1 sous H0 s/ n X - µ0 Statistique de test: Tobs = s/ n T=
SPSS : Analyze → Compare Means → One-Sample T test
Règle de décision: on rejette H 0 si t obs< -tn-1;1-α/2 ou si t obs> tn-1;1-α/2 (souvent α=0.05) t
LogAbsence
-2,749
df
Sig. (2-tailed) 17 4
H1 Accepté
H0 Accepté
Mean Differe nce
H1 Accepté
,00 7
tobs
→ P-valeur=0.007 => P-valeur<0.05 => Moins de 5% de chance de se tromper en rejetant l’hypothèse selon laquelle la moyenne=5.52 => On rejette cette hypothèse au seuil de 5% => Nous sommes parvenu à montrer que le logarithme du temps de repos est significativement différent de 5.52 55
Degré de liberté = N-1 P-valeur=0.007 < 0.05 DONC on rejette H 0 au seuil de 5%
Valeur du T calculé
-tn-1,1-α/2
0
tn-1,1-α/2
Conclusion: La moyenne est significativement ≠ de 5.52 56
Tester une moyenne en population normale
Intervalle de Confiance à 100*(1-α)% pour la moyenne:
[X − t
n−1;1−α / 2
s / n , X + t n −1;1−α / 2 s / n
]
Rmq: IC ne contient pas 5.52!
ou
Intervalle de Confiance à 100*(1-α)% pour la différence entre le moyenne et la moyenne théorique (5.52)
[X − µ
0
− t n −1;1−α / 2 s / n , X − µ 0 + t n −1;1−α / 2 s / n
]
Sample Test Test Value = 5.52 95% Confidence Interval of the Difference Mean Differe nce
Rmq: IC ne contient pas 0!
,00 7
-,14039
Lower -,2412
Upper -,0396
57
58
59
60
Visualisation graphique Ex : Visualiser la répartition des 3 types de vitamines chez les femmes → Pour sélectionner les femmes : SPSS : Data → Select Cases → if ...
Analyse d’une variable qualitative
Diagramme en barres SPSS : Graphs → Legacy Dialogs → Bar (Simple) → Une barre par catégorie → Fréquence ou pourcentage
1000
Diagramme de Pareto 1000
SPSS : Analyze → Quality Control → Pareto Charts → Une barre par catégorie → Les barres sont ordonnées selon leur hauteur 62
Formation SMCS : Pratique de la statistique avec SPSS
Tableaux: Statistiques descriptives
Inférence : Test sur une proportion Test binomial sur une proportion
Ex: Résumer les proportions observées de la variable Arret1 → Table de fréquence : SPSS : Analyze → Descriptive Statistics → Frequencies
Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même SPSS : Analyze → Non Parametric Tests → Binomial
→ H0: proportions identiques (πA= πB=0.5) H1: proportions différentes (πA≠ πB ≠ 0.5) P-valeur=0.173 => P-valeur>0.05 => On ne rejette pas H0 => On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois durant le marathon est équivalent au nombre qui ne s’arrêtent pas
Pour caractériser une variable ordinale
→ Utiliser la médiane ou le mode : SPSS : Analyze → Descriptive Statistics → Frequencies (Statistics)
→ Ce test ne peut être appliqué que lorsque la variable d’intérêt ne peut prendre que 2 valeurs (ex:“avec” versus “sans”) 63
64
Inférence : Test sur une proportion
Inférence : Test sur une proportion
Test d’ajustement χ2 à un critère de classification
Test d’ajustement χ2 à un critère de classification
Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même SPSS : Analyze → Non Parametric Tests → Chi Square
Soit une expérience à k résultats possibles R1,..., Rk de probabilités inconnues p1, p2, …, pk Soient les résultats de N expériences indépendantes (X1, X2… Xk) où Xi est le nombre d’occurrences du résultat Ri (Σ Xi =N)
→ H0: proportions identiques (πA= πB=…) H1: non H0 P-valeur=0.151 => P-valeur>0.05 => On ne rejette pas H0 => On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois durant le marathon est équivalent au nombre qui ne s’arrêtent pas → Ce test peut être appliqué sur une variable avec plus de 2 catégories. Si le test est significatif, il indique que les données se rapartissent autrement que le hasard ou autrement que ce qui a été posé sous H0 65
Question du test d’ajustement : On se donne des valeurs théoriques pour les pi et se demande si les observations peuvent émaner de cette distribution Résultats possibles R1 R2 R3 … Rk X1 X2 X3 …
Xk
Occurrences observées
p1 p2 p3 …
pk
Probabilités théoriques
La statistique de test est basée sur la comparaison des probabilités théoriques et des proportions observées Xi/N 66
Inférence : Test sur une proportion Différence entre test binomial et test d’ajustement χ2 Test binomial lié lié à la table de fré fréquence pour une variable qualitative à deux niveaux Test d’ d’ajustement chichi-carré carré lié lié à la table de fré fréquence à une variable qualitative à plusieurs niveaux Dans les deux cas, é des proportions entre cas, on peut tester l’égalit ’égalité les niveaux de la variable ou tester des proportions déterminé terminées
67
68
Visualisation graphique Graphe X-Y
Analyse avec plusieurs variables quantitatives
Ex: Visualiser le lien entre le temps de repos et le temps de récupération SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
Plusieurs possibilités: – Scatter Plot – Scatter Plot avec une droite de régression et IC (intervalle de confiance) ou IP (intervalle de prédiction) …
70
Formation SMCS : Pratique de la statistique avec SPSS
Visualisation graphique
Stats descriptives et Inférence
Graphe X-Y
Coefficient de corrélation de Pearson
Ex: Visualiser le lien entre le temps de repos et le temps de récupération en tenant compte du sexe SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
N
ρ=
Autres possibilités: – Scatter Plot simple avec une couleur différente par groupe – Scatter Plot + une courbe plus ou moins lissée …
∑ (xi − x )( yi − y ) i =1
N
N
i =1
i =1
∑ (xi − x )2 ∑ ( yi − y )2
ρ ≈1
0 < ρ <1
ρ ≈0
Attention ! ρ >0 −1 < ρ < 0
ρ ≈ −1
71
x
ρ ≈0
x x x x x xx
xx
xx
x x x x
x x
x
72
Stats descriptives et Inférence
Stats descriptives et Inférence
Coefficient de corrélation et test d’hypothèse sur le coefficient
Coefficient de corrélation et test d’hypothèse sur le coefficient
Il existe plusieurs coefficients de corré corrélation dans SPSS : Pearson: utilisé quand on a deux variables continues Spearman (Pearson basé sur les rangs): utile pour les variables quantitatives non normales ou les variables qualitatives ordinales Kendall tau-b (basé sur le nombre de concordances et discordances des rangs) : pour des variables ordinales
Ex: Quantifier et tester la force du lien linéaire entre le logarithme du temps de repos et le logarithme du temps de récupération SPSS : Analyze → Correlate → Bivariate
Coefficient de corrélation de Pearson P-valeur du test sur la corrélation
Il existe un test d’ d’hypothè hypothèse pour tester si le coefficient est égal versus diffé différent de 0 (= versus > 0): H0: ρ=0 contre H1: ρ≠0 ρ≠0 : 73
Modélisation : Régression linéaire
Modélisation : Régression linéaire
La régression linéaire simple : Y = α + β X + ε • Le principe est de trouver a et b minimisant : C’est le critère des moindres carrés
74
Ex: Modéliser le lien linéraire entre le log du temps de repos et le
log du temps de récupération : SPSS : Analyze → Regression → Linear
n
∑ (Yi − a − bX i ) 2 i =1
8000
Résidu : ei=Yi-a-bXi
7000 6000 5000
Yi
4000 Y
Yi
3000
Yi=a+bXi
2000 1000 0 0
4
8
12
16
20
X
75
76
Modélisation : Régression linéaire
Modélisation : Régression linéaire
Comment juger si le modèle est bon ?
Comment rapporter le modèle estimé ?
→ En regardant la p-valeur et le coefficient R2
n
n
∑ (Yˆ − Y ) i =1
∑ (Y
2
i
i =1
Somme des carrés expliquée par le modèle
i
p-valeur indiquant si le modèle Y=α+βX+ε est meilleur qu’un modèle ayant seulement une constante Y=α+ε
→ Sous la forme d’une équation :
LogRecup1 = -2.994+1.316*LogAbsence
Pourcentage de variabilité de la réponse expliquée par le modèle
− Yˆi ) 2
Somme des carrés résiduelle
Estimations des paramètres α et β
Pourcentage de variabilité de la réponse expliquée par le modèle pondérée par le nombre de variables du modèle et le nombre d’observations
p-valeurs associées aux tests dont l’hypothèse H0 est la nullité du paramètre
Ecart-type des résidus 77
Modélisation : Régression linéaire
78
Modélisation : Régression linéaire
Comment juger si le modèle est valide ?
Ex: Analyse graphique des résidus du modèle estimant le lien
linéraire entre le log du temps de repos et le log du temps de récupération : SPSS : Analyze → Regression → Linear (Plots - Save)
→ En analysant les résidus et les points influents
Les hypothèses suivantes doivent toujours être vérifiées
Yi = α + βX i + ε i
α+βX
16 14 12
Y
10 8 6
Modèle linéaire
Termes d’erreur
εi ~ iN(0,σ σ²)
4 2 0 0.0
0.4
0.8
1.2
1.6
2.0
Variance ± constante
X
Indépendance Normalité de des observations la distribution
± 95% des ri entre -2 et 2
Homogénéité des variances
(Plots: X=ZPRED Y=ZRESID)
Résidus Normaux
Quelques points ont un leverage > 2*2/175=0.022
(Plots: Normal probability plot) (Save: Prédi unstand. & Leverage Scatter/Dot: X=Prédi unstd. Y=Leverage)
79
80
Modélisation : Régression linéaire
Modélisation : Régression linéaire
Différents types de résidus : Termes d’ d’erreurs du modè modèle ε i = Yi − α − β X i
avec
Recommandations pour l’analyse des résidus : • Représenter par un graphe X-Y les résidus (ou les résidus standardisés) en fonction: – Des Y prédits SPSS : Regression → Linear (Plots : ZPRED-ZRESID) – De l’ordre de collecte des données (si cela a du sens)
ε i ~ iN ( 0 , σ 2 )
Résidus observé observés
(
)
ei = Yi − Yˆi = Yi − a − b X i , ei ~ N 0 , σ 2 (1 − hii ) avec hii = leverage
Résidus standardisé standardisés ri =
Yi − Yˆi
σˆ ε (1 − hi )
SPSS : Reg. → Linear (Save : Residuals Unstand.) → Scatter/dot DATE-RES_1
→ Les graphiques doivent montrer un comportement aléatoire
Most ri should be in [-2,2]
≈ t (n − p − 1)
• Faire un QQ-plot (ou PP-plot) pour vérifier la normalité des résidus
= ZRESID
SPSS : Regression → Linear (Plots : Normal probability plot)
Résidus studentisé studentisés externes et ré résidu « Press » di =
σˆ
Yii − Yˆii ε (i )
(1 − hii )
Droite sans le point i
≈ t (n − p − 2)
Résidus press Droite avec le point i
ei
• Vérifier que les résidus standardisés sont compris dans l’intervalle [-2;2] et étudier ceux qui en sortent SPSS : Reg. → Linear (Plots : ZPRED ou DEPENDNT-SRESID)
• Comparer les ri aux di et étudier ceux qui sont très différents
Résidus standardisés calculés en enlevant le point i du modèle 81
Modélisation : Régression linéaire
82
Modélisation : Régression linéaire
Points influents et outliers :
Leverage ou « force de levier » : • Un point éloigné du « nuage » de points dans la direction des X peut potentiellement influencer l’équation de régression. Le leverage hii mesure le degré de singularité d’un point dans l’espace des X
Si l’ensemble de données disponibles contient des observations « spéciales », il est primordial de les repérer pour qu’elles n’influencent pas à elles seules les résultats de la régression
65
hii=0.1
55 45
55
35
hii=0.56
Y
65
25
45
3 points sont “différents” des autres
Y
35 25
15 5
• La somme des leverages = p p=nombre de paramètres incluant l’intercept
15
-5 1
2
3
0
1
2
3
hii=0.26 4
X
Un leverage > 2p/n sera considéré comme élevé ex: hii provenant d’un modèle construit avec 5 paramètres et sur un échantillon de 50 individus. Calculez le leverage maximal • Les leverages sont les éléments de la « hat matrix » : H = X( X' X) −1 X'
5
0
-5
4
X
83
84
Modélisation : Régression linéaire
Modélisation : Régression linéaire La régression linéaire multiple :
Influence et statistique de Cook : • Un point qui a un grand leverage et qui n’est pas aligné avec les autres points observés peut à lui seul influencer la droite de régression 65
Di=0.24
55
Modèle avec le point influent (en rouge)
Di=3.28
45 35 Y
Modèle sans le point influent (en vert)
25
Di=0.58
-5 0
1
2
3
4
X
• La statistique de Cook Di résume comment les réponses prédites sont modifiées quand le point est enlevé du modèle (Di >1 : influence anormale) Di =
ˆ −Y ˆ )' (Y ˆ −Y ˆ ) (Y (i ) (i ) ( p + 1) s 2
Y = β 0 + β1 X 1 + β 2 X 2 + ε , où ε est iN (0, σ 2 ) • Objectif: estimer β0 , β1, β2 • Équation du modèle estimé:
Yˆ = b0 + b1 X 1 + b2 X 2
15 5
Modèle linéaire multiple à 2 variables explicatives :
=
ei2 hii ≈ F ( p + 1, n − p − 1) 2 ( p + 1) s (1 − hii ) 2
• L’estimation est faite par les moindres carrés. Il s’agit de minimiser la somme des carrés des écarts des points au plan: n
min
∑e i =1
i
2
ei (X1i, X2i,Yi)
n
= ∑ (Yi − b0 − b1 X i1 − b2 X i 2 ) 2 i =1
85
86
Modélisation : Régression linéaire
Modélisation : Régression linéaire
Différents modèles linéaires multiples : Un modèle de régression
Ex: Modéliser le temps de récupération (LogRecup1) en fonction
est dit linéaire si son équation est linéaire par rapport aux paramètres Polynomial model
Plane in R3
du temps de repos (LogAbsence) et de la température du jour – Exercice nécessitant l’ouverture d’un nouveau fichier (Data_SPSS_2): SPSS : Analyze → Regression → Linear
Y
77,6% de variabilité de la réponse peut être expliquée par le modèle
X
Modèle globalement + utile qu’un modèle avec juste un intercept
Y = β 0 + β1 X 1 + β 2 X 12 + β 3 X 13 + ε
Y = β 0 + β1 X 1 + β 2 X 2 + ε
Model with qualitative variable
Model avec interaction
Y
Effets du nombre de jours d’absence et de la température du jour sur le temps de récup LogRecup1 = -2.999 + 1.251*LogAbsence + 0.019*Température
MALE FEMALE
Y = β0 + β1 X1 + β2 X 2 + β3 X1 X 2 + ε
X
Y = β 0 + β1 X 1 + β 2 S + ε 87
88
Modélisation : Régression linéaire
Modélisation : Régression linéaire
Comment juger si le modèle est valide ?
Comment détecter les problèmes de multicolinéarité ?
→ En analysant les résidus de la même manière que pour la régression
simple
→ En vérifiant le facteur d’inflation de la variance (VIF) : ok si 1 ≤ VIF ≤10
On peut aussi utiliser la tolérance qui est définie par: 1 / VIF
→ En vérifiant l’influence des points sur la régression (Leverage /
SPSS : Analyze → Regression → Linear (Statistics – Colinearity diagnostics)
Cook)
→ En regardant les valeurs propres de la matrice de corrélation des
→ En s’assurant qu’il n’y a pas de problème de « multicolinéarité »
paramètres
entre les variables explicatives (VI). On parle de multicolinéarité lorsque les variables explicatives évoluent ensembles. La multicolinéarité peut entraîner:
→ En constatant l’Instabilité du modèle quand une variable est enlevée
ou ajoutée au précédent modèle
- une imprécision des paramètres estimés - une instabilité des paramètres quand une donnée change
89
90
Modélisation : Régression linéaire Notre modèle de régression multiple est-il valide? SPSS : Analyze → Regression → Linear (Plots - Statistics - Save)
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot)
(Save: Prédi unstand. & Leverage Scatter/Dot: X=Prédi unstd. Y=Leverage)
Ex: Réaliser la même modélisation à partir des variables d’origine
(Recup1 – Absence et Température). Faire les mêmes analyses de résidus et comparer les résultats des deux analyses 91
92
Visualisation graphique Analyse d’une variable quantitative en fonction d’au moins une variable qualitative
Ex : Visualiser la durée de repos (absence) en tenant compte du sexe
Boxplot SPSS : Graphs → Chart Builder → Boxplot
1000
Scatter/Dot 1000 SPSS : Graphs → Chart Builder → Scatter/Dot
94
Formation SMCS : Pratique de la statistique avec SPSS
Tableaux: Statistiques descriptives
Inférence : Test sur 2 moyennes
Ex: Résumer la variable temps de repos (Absence) en fonction du sexe SPSS : Analyze → Descriptive Statistics → Explore ou Analyze → Reports → Case Summaries
Tests de comparaison de 2 moyennes indépendantes Ex: Tester si le log du temps de Recup1 diffère en moyenne selon le sexe Test-t pour 2 échantillons indépendants →
Utilisation : Lorsque les données à comparer sont indépendantes
→
Conditions : Normalité des distributions, égalité des variances et indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → Compare Means → Independent-Samples T Test
Tests non-paramétrique (normalité non respectée ou données ordinales) →
Utilisation : Quand les données ne se distribuent pas normalement dans au moins un des groupes ou qu’il s’agit de données ordinales
→
Tests : Test de Mann-Whitney (≈Wilcoxon Rank-Sum), test de la médiane
SPSS : Analyze → Nonparametric Tests → 2 Independent Samples (Mann-Whitney) SPSS : Analyze → Nonparametric Tests → k Independent Samples (Median) 95
96
Inférence : Test sur 2 moyennes
Inférence : Test sur 2 moyennes Tests de comparaison de 2 moyennes pairées
Ex: Tester si le log du temps de Recup1 diffère en moyenne selon le sexe →
→
Test pour échantillons indépendants → Tester la Normalité
Ex: Comparer la moyenne du temps de récupération 1 et 2
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…)
Test-t pairé
Condition de Normalité respectée → Test paramétrique SPSS : Analyze → Compare Means → Independent-Samples T Test
Test de Levene : Teste l’égalité des variances entre les 2 groupes. Détermine la ligne à lire.
→
Utilisation : Quand les données à comparer sont liées (ex: avant-après…)
→
Conditions : Normalité de la différence entre les 2 groupes et indépendance des observations au sein de chaque groupe. En cas de Non-Normalité, il est possible de transformer les données (ex: log, 1/x,…)
SPSS : Analyze → Compare Means → Paired Samples T Test
Tests pairés non-paramétriques (condition de normalité non respectée)
P-valeur du test : Indique que Recup1 ne diffère pas selon le sexe
→
Utilisation : Quand les données à comparer sont liées (ex: avant-après, pots avec 2 plantes…) et que la différence entre les groupes ne se distribue pas normalement.
→
Différents tests : Test du signe ou test de Wilcoxon (signed-Rank)
SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
97
98
Inférence : Test sur 2 moyennes
Inférence : Test sur k moyennes Tests de comparaison de k moyennes indépendantes
Ex: Comparer la moyenne du temps de récupération 1 et 2 →
Test pairé → Tester la Normalité de la différence entre les 2 groupes
Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise
SPSS : Transform → Compute Variable (DifRecup=Recup1-Recup2) Analyze → Descriptive Statistics → Explore (Plot-Normality Plots With Tests)
ANOVA pour k échantillons indépendants →
Utilisation : Lorsque les données à comparer sont indépendantes
→
Conditions : Normalité des distributions, égalité des variances et indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → Compare Means → One-Way ANOVA → Condition de Normalité non respectée → Test Non-paramétrique SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
Test non-paramétrique (normalité non respectée ou données ordinales)
P-valeur du test
→
Utilisation : Quand les données ne se distribuent pas normalement dans au moins un des groupes, qu’il s’agit de données ordinales, ou peu de données
→
Tests : Test de Kruskal-Wallis, test de la médiane
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)
→
Dans le cas d’une distribution très asymétrique → Test du Signe (Sign) 99
100
Inférence : Test sur k moyennes
Inférence : Test sur k moyennes
Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise →
Test pour échantillons indépendants → Tester la Normalité
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…)
Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise →
Test pour échantillons indépendants
→
Imaginons la Condition de Normalité respectée → Test paramétrique SPSS : Analyze → Compare Means → One-Way ANOVA P-valeur du test de Levene : Indique que les variances des groupes ne peuvent être considérées homogènes
→
Condition de Normalité non respectée → Test non paramétrique
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)
Test en cas d’égalité des variances
Test en cas d’inégalité des variances
P-valeur du test : Indique que LogRecup1 diffère selon la vitamine
=> Le temps de récupération est différent pour au moins une des vitamines
P-valeur du test : Indique que LogRecup1 diffère selon la vitamine Pour obtenir la correction de Welch : SPSS : Analyze → Compare Means → One-Way ANOVA (Options)
101
102
Inférence : Test sur k moyennes
Inférence : Test sur k moyennes
Comparaisons multiples post-hoc
Tests de comparaison de k moyennes pairées
Ex: Voir quelles vitamines diffèrent si analyse globale significative
Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
ANOVA pour k échantillons indépendants → Tests : Bonferroni, Tuckey,
ANOVA pour mesures répétées
Scheffé, … SPSS : Analyze → Compare Means → One-Way ANOVA (Post Hoc) P-valeur indiquant que toutes les vitamines diffèrent au niveau de la moyenne du LogRecup1
→
Utilisation : Lorsque les données à comparer sont liées (ex: temps 1, 2, 3)
→
Conditions : Normalité de la différence entre les groupes, indépendance des observations au sein de chaque groupe, sphéricité de la matrice var/cov
SPSS : Analyze → General Linear Models → Repeated Measures
Tests non-paramétriques (condition de normalité non respectée) →
Utilisation : Quand les données à comparer sont liées (ex: temps 1, 2, 3…), que la différence entre les groupes ne se distribue pas normalement ou que l’échantillon est petit
→
Différents tests : Test de Friedman, Kendall W, Cochran Q
Test non paramétrique (Kruskal-Wallis) → Test : Pas de comparaisons multiples dans SPSS. Comparer les moyennes 2 à 2 en adaptant la p-valeur. Principe de Bonferroni : P-valeur adaptée=0.05/Nombre de comparaisons
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman) 103
104
Inférence : Test sur k moyennes
Inférence : Test sur k moyennes
Comparaisons multiples post-hoc
Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
Ex: Voir quelles mesures (temps) diffèrent si analyse globale significative
→
ANOVA pour mesures répétées (si normalité respectée) SPSS : Analyze → General Linear Models → Repeated Measures
ANOVA pour mesures répétées → Tests : Bonferroni, Sidak
Test de Mauchly : Teste la symétrie composée – Homogénéité des variances / covariances. En cas de non-sphéricité, prendre la correction de Greenhouse-Geisser
SPSS : Analyze → General Linear Models → Repeated Measures (Options) P-valeur indiquant que les trois mesures de temps de récupération (LogRecup1 2 3) diffèrent en moyenne
P-valeur du test : Indique qu’au moins une des mesures aux différents temps a une moyenne différente des 2 autres
Test non paramétrique (Friedman) → Test : Pas de comparaisons multiples dans SPSS. Comparer les moyennes 2 à 2 en adaptant la p-valeur Principe de Bonferroni: P-valeur adaptée=0.05/Nombre de comparaisons 105
106
Inférence : Test sur k moyennes
Inférence : Test à 2 critères Tests de comparaison de moyennes selon 2 critères
Ex: Comparer la moyenne du temps de récupération 1, 2 et 3 →
Test pour mesures répétées (si non normalité ou peu de données)
Ex: Tester la moyenne LogRecup1 selon les variables sexe et Arrêt1
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman)
ANOVA à 2 critères
P-valeur du test
→
Utilisation : Lorsque les données à comparer sont indépendantes
→
Conditions : Normalité des distributions, égalité des variances et indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → General Linear Models → Univariate Levene's Test of Equality of Error Variancesa F 1,679
df1
df2 3
171
Sig. ,173
Modèle non significatif
Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept + Sexe + Arret1 + Sexe * Arret1
P-valeur du test de Levene: Indique l’égalité des variances des résidus entre les groupes. Condition nécessaire pour la validité du test 107
Effets principaux et interaction non significatifs 108
Inférence : Test à 2 critères
Inférence : Test à 2 critères
• Il y a un effet d’interaction entre les facteurs sexe et arrêt si l’effet du facteur sexe sur la réponse dépend du niveau pris par le facteur arrêt
Sans effet d’interaction
Avec effet d’interaction
Sans Arrêt
Femme
Homme Sexe
Avec Arrêts LogRecup1
LogRecup1
Avec Arrêts
Tests de comparaison de moyennes selon 2 critères - 1 répété Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps ANOVA pour mesures répétées →
Utilisation : Lorsque certaines données à comparer sont liées
→
Conditions : Normalité de la différence entre les groupes, indépendance des observations au sein de chaque groupe, sphéricité de la matrice var/cov
SPSS : Analyze → General Linear Models → Repeated Measures
Sans Arrêt
Homme
Femme Test de Mauchly : Teste la symétrie composée – Homogénéité des variances / covariances. En cas de non-sphéricité, prendre la correction de Greenhouse-Geisser
Sexe 109
Inférence : Test à 2 critères
110
Modélisation : Modèle linéaire général
Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps Utiliser préférentiellement les variables transformées (différences importantes…) Correction de Greenhouse-Geisser à considérer car non sphéricité Moyenne différente selon les temps
Pas d’effet d’interaction entre le temps et le sexe
Régression incluant simultanément des variables catégorielles et quantitatives comme variables explicatives Ex: Modéliser le temps de récupération selon le temps de convalescence et le fait que les athlètes se sont arrêtés durant le marathon →
Utilisation : Test équivalent à l’ANOVA si toutes les variables explicatives sont catégorielles
→
Conditions : Identiques aux conditions de la régression linéaire
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
Pas d’effet du sexe sur le temps de récupération 111
112
Modélisation : Modèle linéaire général Ex: Modéliser le temps de récupération selon le temps de convalescence et le fait que les athlètes se sont arrêtés durant le marathon SPSS : Analyze → Generalized Linear Models → Generalized Linear Models Test de la qualité d’approximation du modèle
logRecup1 = − 3.03 + 1.31 logAbsence, si Marathon avec Arrêts − 3.03 + 0.09 + 1.31 logAbsence, si Marathon sans Arrêt
Pas d’effet de la variable Arret1 sur Recup1 113
114
115
116
Visualisation graphique Analyse d’une variable qualitative en fonction d’une variable quantitative
Ex :Visualiser la variable Arret1 (avec versus sans arrêts) en fonction
de la durée de convalescence (absence)
Boxplot par catégorie SPSS : Graphs → Chart Builder → Boxplot
1000
Dot Plot par catégorie 1000 SPSS : Graphs → Chart Builder → Scatter/Dot
118
Formation SMCS : Pratique de la statistique avec SPSS
Tableaux: Statistiques descriptives
Modélisation : Régression logistique
Ex: Résumer la variable temps de convalescence (LogAbsence) par catégorie de la variable Arret1 et par catégorie de la variable Arret2 SPSS : Analyze → Descriptive Statistics → Explore ou Analyze → Reports → Case Summaries
• La régression logistique permet de modéliser une réponse Y dichotomique (0,1) en fonction de variables explicatives • On modélise la probabilité que l’événement survienne P(Y=1)
119
120
Modélisation : Régression logistique
Modélisation : Régression logistique
Exemples d’utilisation
Pourquoi ne pas utiliser la régression linéaire ?
• Modéliser la probabilité qu’un client rembourse son prêt selon ses caractéristiques personnelles : salaire, âge, emploi,… • Modéliser la probabilité de développer une maladie cardiaque selon l’âge, le taux de cholestérol, le poids, le fait de fumer… • Modéliser la probabilité pour une personne de posséder son propre logement selon le revenu, l’âge, le nombre d’enfants, … La régression logistique peut être utilisée pour
→ → →
Décrire la relation entre la probabilité espérée et une variable Déterminer les variables indépendantes importantes pour expliquer la probabilité d’une réponse Prédire la probabilité de la réponse à l’aide de ces variables
• La régression linéaire multiple et le modèle linéaire général permettent d’expliquer une variable quantitative continue en fonction de variables explicatives qualitatives ou quantitatives Y = β 0 + β1 X 1 + β 2 X 2 + K + β p X p + ε , où ε est iN (0, σ 2 )
• Lorsque Y est une variable catégorielle à 2 ou plusieurs niveaux, le modèle de régression classique ne peut plus s’appliquer. La condition d’homogénéité de variance des résidus n’est pas possible à obtenir avec une variable dépendante dichotomique. Le modèle de régression linéaire permettrait des valeurs estimées en dehors de l’intervalle [0,1] et ne permettrait pas de relation non-linéaire.
121
Modélisation : Régression logistique
122
Modélisation : Régression logistique
Principe de la régression logistique
Modèle logistique binaire à une variable
• La variable à expliquer (Y) est une variable dichotomique dont les valeurs possibles sont 0 (échec) et 1 (succès)
π = β 0 + β1 X + ε 1 − π
• Equation du modèle : ln
• La probabilité P(Y=1) = π, (0 ≤ π ≤ 1)
• Equation du modèle estimé : ln
• π peut dépendre de la valeur des variables explicatives (X1, X2,…, Xp). Le modèle logistique propose d’expliquer π comme une fonction de (X1, X2,…, Xp)
• Représentation graphique du modèle ( π=P(Y=1) ) :
πˆ = b0 + b1 X 1 − πˆ
1.0
• Modèle de régression logistique (logit):
0.0
π ln = β 0 + β1 X 1 + β 2 X 2 ... + β p X p + ε 1− π
exp(b0 + b1 X) 1 + exp(b0 + b1 X)
πˆ ln = −15 + 0.5 X 1 − πˆ exp ( − 15 + 0.5 X) ou πˆ = 1 + exp ( − 15 + 0.5 X)
Probabilite P(Y=1) 0.2 0.4 0.6 0.8
• Comme 0 ≤ π ≤ 1, on le transforme pour qu’il prenne ses valeurs dans [-∞, ∞].
ou πˆ =
20
123
25
30 35 Variable explicative X
40
124
Modélisation : Régression logistique
Modélisation : Régression logistique Influence des paramètres sur π=P(Y=1)
Estimation des paramètres
1.0
• On veut estimer β0 et β1 qui déterminent π
Probabilite P(Y=1) 0.2 0.4 0.6 0.8
1.0
1.0
20
) = ∏ π i yi ( 1 − π i )1− yi , i =1
b1 = 0.5 b1 = 1 b1 = 2
π ln i = β 0 + β1 X i + ε i 1 − πi
0.0
• La méthode du maximum de vraisemblance recherche les valeurs de β0 et β1 qui maximisent la vraisemblance
b1 = -0.5 b1 = -1 b1 = -2
0.0
avec
N
N
-10 0 10 Variable explicative X
Probabilite P(Y=1) 0.2 0.4 0.6 0.8
L(β 0 ,β1 ) = P(Y1 = y1 ∩ Y2 = y 2 ∩ ... ∩ Y N = y N |X 1 ,X 2 ,...,X
-20
Probabilite P(Y=1) 0.2 0.4 0.6 0.8
• La fonction de vraisemblance mesure la probabilité d’observer l’échantillon récolté :
Influence de b1
0.0
• La méthode des moindres carrés n’a pas de bonnes propriétés dans ce contexte. On applique dans ce cas la méthode du maximum de vraisemblance
Influence de b0 b0 = -5 b0 = 0 b0 = 5
-10
-5
0 5 Variable explicative X
10
-10
-5
0 5 Variable explicative X
125
Modélisation : Régression logistique
10
126
Modélisation : Régression logistique
Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête au moins une fois durant le 2ème marathon (Arret2) en fonction du temps de convalescence (LogAbsence) SPSS : Analyze → Regression → Binary Logistic Modélisation de la probabilité de Y=1 càd d’avoir au moins un arrêt lors du marathon 2
Comment juger si le modèle est bon ? → En regardant les p-valeurs
• Block 0 = Modèle n’incluant que l’intercept (autres coefficients=0) • Block 1 = Modèle suivant, incluant un ou plusieurs prédicteurs… Tests de qualité d’ajustement : Omnibus Tests
vraisembla nce sans les p variables ~ χ 2p − 2ln vraisembla nce avec les p variables
Ils testent si le modèle incluant les prédicteurs (modèle complet, dans le « Step » ou dans le « Block ») est significativement meilleur que le modèle n’incluant que l’intercept Hosmer and Lemeshow Test Il teste s’il existe une différence significative entre les valeurs observées et les valeurs prédites par le modèle
127
128
Modélisation : Régression logistique
Modélisation : Régression logistique
Comment juger si le modèle est bon ? → En regardant les pseudo
Comment teste-t-on la significativité des paramètres ?
R2
→ Test de Wald
Mesures d’ajustement Critère d’Akaike : AIC = -2 ln(L)+2*(nb de param) Critère de Schwartz : SIC = -2 ln(L)+(nb de param)*ln(nb d’obs) Rapport de vraisemblance: -2LL = -2*ln(max de vraisemblance)
b2 • But: tester H0: βi = 0 contre H1: βi ≠ 0 Wobs = 2 ~χ12 sous H0 s (bi ) • La statistique de Wald est définie par: • On rejette H0 si la p-valeur ( P(χ²1 > Wobs) ) est inférieure à un seuil fixé i
Mesures de la taille de l’effet : Pseudo R²
P − valeur
Cox & Snell R² : Difficile à interpréter (max<1) Nagelkerke R²: [0,1] = Mesure de la force d’association
W obs
129
Modélisation : Régression logistique
130
Modélisation : Régression logistique
Comment rapporter le modèle estimé ?
Que représentent le « Odds » et le « Odds ratio » ?
→ Sous la forme d’une équation - catégorie de référence : Y=1 :
→ Odds (ou cotes)
Ex: Le risque pour un athlète de s’arrêter durant le 2ème marathon (Arret2) en sachant qu’il a eu 18 mois de convalescence (Absence) πˆ ln = −4.178 + 0.703 × LogAbsence 1 − πˆ
πˆ =
π Probabilité de s' arrêter au moins 1 fois sachant le LogAbsence = 1− π Probabilité de ne pas s' arrêter sachant le LogAbsence
exp(−4.178 + 0.703 × LogAbsence) 1 + exp(−4.178 + 0.703 × LogAbsence)
πˆ =
exp(−4.178 + 0.703 × Log (18 * 30)) = 0.561 1 + exp(−4.178 + 0.703 × Log (18 * 30))
→ Pour un athlète qui a eu une convalescence de 18 mois,
la probabilité qu’il s’arrête au moins une fois durant le 2ème marathon est estimée à 56% 131
132
Modélisation : Régression logistique
Modélisation : Régression logistique
Que représentent le « Odds » et le « Odds ratio » ?
Comment se mettre dans de bonnes conditions pour obtenir un modèle qui soit valide ?
→ Odds Ratio (ou rapport de cotes) Ex: Le risque relatif pour un athlète avec un temps de convalescence de X+1 de s’arrêter durant le 2ème marathon par rapport à un athlète avec un temps de convalescence de X (LogAbsence) π1 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X + 1 (1 − π 1 ) Probabilité de ne pas s' arrêter sachant le temps de convalesce nce = X + 1 = OR = π2 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X (1 − π 2 ) Probabilit é de ne pas s' arrêter sachant le temps de convalesce nce = X
→ En repérant les outliers et points influents (via l’analyse des résidus, standardized residuals, leverage, Cook) → En incluant toutes les variables influentes dans le modèle et uniquement celles-là → En vérifiant que la relation entre VI et log odds de VD est linéaire → En vérifiant l’absence de multicolinéarité
OR=exp(β1)
→ En utilisant des échantillons de taille suffisante
→ Un athlète avec un temps de convalescence d’une unité en
plus au niveau du LogAbsence a 2,019 fois plus de chance de s’arrêter au moins une fois durant le marathon 2
→ En s’assurant que les conditions d’application des tests χ² sont respectées …
133
134
135
136
Visualisation graphique Ex : Visualiser la répartition des 3 types de vitamines selon le sexe
Analyse d’une variable qualitative en fonction d’une variable qualitative
Diagramme en barres par caté catégorie SPSS : Graphs → Legacy Dialogs → Bar (Clustered/Stacked)
1000
1000
138
Formation SMCS : Pratique de la statistique avec SPSS
Tableaux: Statistiques descriptives
Inférence : Test d’indépendance Test χ² d’indépendance de 2 variables aléatoires qualitatives
Ex: Résumer les proportions observées de la variable Arret1 selon le type de vitamines prises
Ex: Tester si le fait de prendre une vitamine donnée est lié au sexe
→ Tableau de contingence : SPSS : Analyze → Descriptive Statistics → Crosstabs
χ² de Pearson, Test du rapport de vraisemblance… vraisemblance… →
Conditions : Toutes les observations doivent être indépendantes Les valeurs attendues doivent être supérieures à 5 Si les valeurs attendues sont inférieures à 5 : • Opérer des regroupements qui ont du sens • Utiliser un test exact de Fisher (pas toujours disponible dans SPSS base)
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics:Chi-Square) P-valeur => Pas de lien entre le sexe et du test le type de vitamines prises
139
140
Inférence : Test d’indépendance
Modélisation : Régression logistique
Autres statistiques pour les tables de contingence
Cochran Mantel Haenszel: permet de tester l’association de 2 variables conditionnellement à une troisième
Kendall τ-b et τ-c: mesure le degré d’association entre 2 variables ordinales
Mc Nemar : permet de tester la significativité d’un changement pour 2 échantillons appariés nominaux
Cochran’s Q : extension du test de McNemar pour k échantillons appariés nominaux
• La régression logistique permet de modéliser une réponse Y dichotomique (0,1) en fonction de variables explicatives dont certaines peuvent être qualitatives • On modélise la probabilité que l’événement survienne P(Y=1)
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics…)
141
Modélisation : Régression logistique
142
Modélisation : Régression logistique
Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête au moins une fois durant le 2ème marathon (Arret2) en fonction du temps de convalescence (LogAbsence) et de la vitamine prise
Comment juger si le modèle est bon ? → Tests de qualité d’ajustement :
SPSS : Analyze → Regression → Binary Logistic
Modélisation de la probabilité de Y=1 càd d’avoir au moins un arrêt lors du marathon 2
→ Mesures d’ajustement et de taille de l’effet : Façon dont la variable Vitamine est recodée (dummy variables)
143
144
Modélisation : Régression logistique
Modélisation : Régression logistique
Comment teste-t-on la significativité des paramètres ?
Comment rapporter le modèle estimé ?
→ Test de Wald
→ Sous la forme d’une équation par niveau de la variable qualitative
(Imaginons que la variable Vitamine soit gardée dans le modèle) :
→ Le temps de convalescence semble important pour
→ La probabilité qu’un athlète s’arrête durant le marathon 2
prédire le fait qu’un athlète s’arrête ou non durant le 2ème marathon
VitamineA : exp(−7.261+ 0.974+ 1.179× LogAbsence) VitamineB : exp(−7.261+ 0.592+ 1.179× LogAbsence) VitamineC : exp(−7.261+ 1.179× LogAbsence)
→ La vitamine prise par l’athlète ne semble pas avoir
d’effet sur le fait que l’athlète s’arrête durant le marathon 145
Modélisation : Régression logistique Comment se mettre dans de bonnes conditions pour obtenir un modèle qui soit valide ? Mêmes conditions qu’exposé précédemment : → En repérant les outliers et points influents (via l’analyse des résidus, standardized residuals, leverage, Cook) → En incluant toutes les variables influentes dans le modèle et uniquement celles-là → En vérifiant que la relation entre VI et log odds de VD est linéaire → En vérifiant l’absence de multicolinéarité → En utilisant des échantillons de taille suffisante
→ En s’assurant que les conditions d’application des tests χ² sont respectées … 147
146