Valutazione degli apprendimenti disciplinari nella scuola secondaria di primo grado Codice IReR: 2005B018 Project leader: Guido Gay Rapporto finale
Milano, maggio 2006
La ricerca è stata affidata all’IReR nell’ambito del Piano delle Ricerche Strategiche per l’anno 2005. Responsabile di progetto: Guido Gay, IReR Gruppo di lavoro tecnico: Francesca Pasquini, Marco Zelioli, Responsabili regionali della ricerca, Direzione generale Istruzione, formazione e lavoro Gruppo di ricerca: Michela Battauz, docente a contratto, Statistica, Università di Udine; Giovanni Bennardo, docente, scuola secondaria di secondo grado; Laura Bertolotti, docente, scuola secondaria di primo grado; Nunzia Bonanno, ricercatrice, IRRE-Lombardia; Felice Crema, ricercatore confermato, Storia della Pedagogia, Università Cattolica; Carlo Fedeli, ricercatore, CRISP-Università Bicocca; Maria Grazia Fornaroli, docente, scuola secondaria di secondo grado; Enrico Gori, professore ordinario, Statistica, Università di Udine; Pietro Negri, ricercatore, CRISP-Università degli Studi Milano-Bicocca; Daniela Notarbartolo, ricercatrice, IRRE-Lombardia; Angelo Paletta, professore associato, Economia Aziendale, Università di Bologna; Paolo Pontello, docente, scuola secondaria di primo grado; Franco Petracchi, ricercatore, IRRE-Lombardia; Giorgio Plazzi, statistico, libero professionista; Cosimo Scaglioso, professore ordinario, Educazione degli Adulti, Università per stranieri di Siena; Maurizio Scagliotti, docente, scuola secondaria di secondo grado; Daniele Tarenzi, ricercatore, CRISP-Università Bicocca; Edoardo Toia, collaboratore di ricerca IReR; Franco Tornaghi, docente, scuola secondaria di secondo grado; Daniele Vidoni, ricercatore, CRELL – Centre for Research on Lifelong Learning, Europea Commission Il presente rapporto di ricerca è stato redatto dai seguenti autori: Michela Battauz (paragrafi 3.8 e 3.10) Nunzia Bonanno (paragrafo 3.6) Felice Crema (paragrafo 1.1) Carlo Fedeli (paragrafo 3.4) Guido Gay (introduzione e paragrafo 3.9) Enrico Gori (capitolo2) Pietro Negri (paragrafo 3.5) Daniela Notarbartolo (paragrafo 3.1, 3.2 e 3.3) Angelo Paletta (paragrafo 3.7) Franco Petracchi (paragrafo 3.6) Giorgio Plazzi (paragrafo 3.10 e 3.11) Cosimo Scaglioso (paragrafo 1.2) Maurizio Scagliotti (paragrafo 3.7) Daniele Vidoni (paragrafo 1.2)
Indice Introduzione Capitolo 1 Il quadro generale 1.1 Rapporto con l’istituzione scolastica: il campo didattico 1.1.1 Valutazione oggettiva, valutazione di sistema, istituzione scolastica 1.1.2 I riferimenti nei progetti di ricerca 1.1.3 Prime riflessioni conclusive 1.2 La verifica come elemento di sistema 1.2.1 Teoria del Capitale Umano e obiettivi del sistema di istruzione e formazione 1.2.2 Modello di governance e sistema di valutazione: un problema di scelta 1.2.3 Informazione e sistema 1.2.4. Informazione ed Agenti del Sistema 1.2.5 Conclusioni: verso un ripensamento del sistema-scuola Capitolo 2 Una nuova prospettiva di ricerca 2.1. Quale “Qualità”? 2.2. Quale Assetto istituzionale per l’Istruzione? 2.3. Gli aspetti critici della Valutazione 2.3.1 Contro argomentazioni e soluzioni: A) 2.3.2 Contro argomentazioni e soluzioni: B) 2.3.3 Contro argomentazioni e soluzioni: C) 2.4. I modelli multilivello nell’analisi dell’efficacia della scuola 2.4.1 La formalizzazione dello stato e della crescita attraverso un modello matematico 2.4.2 Validità delle analisi di efficacia della scuola sulla base di modelli di “stato” 2.4.3 Modelli multilivello o “curve di crescita”? 2.5. Conclusioni: una nuova prospettiva Capitolo 3 Approfondimenti e sviluppi 3.1 Aspetti metodologici relativi ai test di apprendimento 3.1.1. Oggetto delle misurazione 3.1.2. Dalla didattica alla misurazione 3.1.3. Le materie scolastica alla prova della misurazione 3.1.4. Potenziale euristico del test di italiano 3.1.5. Potenzialità dei risultati 3.1.6. Validità e attendibilità delle prove aperte 3.2 Osservazioni sui test di italiano nella scuola secondaria di primo
5
11 11 11 16 19 27 27 29 32 35 38
41 41 42 43 44 45 50 52 52 57 59 61
65 65 65 69 71 74 76 78 79
grado 3.2.1 Analisi dei costrutti nel 2004 3.2.2 Analisi dei costrutti nel 2005 3.2.3. Item malfunzionanti (misfit) 3.3 Il livello di difficoltà percepito: il caso della matematica 3.3.1 Standard e didattica 3.3.2 Misure di Rasch: Il grado di difficoltà del test 3.3.3 Il grado di difficoltà degli item 3.3.4 Osservazioni dell'estensore del test 3.3.5 Conclusioni 3.4 Prove aperte e prove chiuse 3.4.1 Aspetti salienti dello stato di salute odierno della valutazione per prove strutturate nella scuola italiana 3.4.2 In sintesi, le principali risultanze della Ricerca circa le “prove aperte” – e la loro possibile utilizzazione insieme alle “prove strutturate” 3.4.3 Ulteriori prospettive d’indagine 3.5 I questionari di contesto e di processo: acquisizioni e possibili sviluppi 3.5.1 Impatto sui docenti 3.5.2 Le variabili presenti in letteratura 3.5.3 I questionari di contesto 3.5.4. Le variabili considerate nei questionari di processo 3.5.5 Esiti e possibili sviluppi dell'utilizzazione dei questionari di processo 3.6 Il rapporto con le scuole 3.6.1 Il coinvolgimento della scuole 3.6.2 La partecipazione dei docenti 3.6.3 Diffusione dei risultati: il sito web 3.6.4 La restituzione alle scuole 3.6.5 L'impatto della ricerca 3.7 L’organizzazione dell'istituzione scolastica 3.8 Supplemento di indagine sull’effetto del livello iniziale (effetto Vygotskij) 3.8.1. Il modello 3.8.2. Gli errori di misura 3.8.3. I risultati 3.9 Rendimento scolastico e genere 3.9.1 Risultati scolastici 3.9.2 Fare preferenze 3.9.3 Giudizi di italiano e matematica 3.9.4 Un’analisi multivariata 3.9.5 Un approfondimento per matematica 3.9.6 Conclusioni 3.10 Investimenti in capitale umano al termine della scuola secondaria di primo grado
79 83 85 96 96 96 99 102 102 103 103 104
105 106 107 108 108 109 110 112 112 114 116 117 119 119 127 127 128 129 136 137 138 140 141 142 143 145
3.11 Ulteriori risultati statistici relativi alla prima e seconda annualità della ricerca 3.11.1 Introduzione 3.11.2 Dalla 4° alla 5° elementare 3.11.3 Dalla 1° alla 2° classe della scuola secondaria di primo grado 3.11.4 Dalla 1° alla 2° classe della scuola secondaria di secondo grado 3.11.5 Dalla 4° alla 5° classe della scuola secondaria di secondo grado 3.11.6. Un’ulteriore analisi del triennio delle scuole secondarie di primo grado 3.11.7 Il peso dei fattori socio-economici e della classe 3.11.8 Fattori di contesto e clima Bibliografia Allegati (volume Allegati)
149 149 151 151 153 155 157 159 160 163
Introduzione
Il presente rapporto finale dà conto di un percorso di ricerca biennale1 che ha consentito di costruire due archivi statistici longitudinali degli apprendimenti di una coorte di studenti della scuola secondaria di primo grado lombardi, seguiti per un triennio (misure 2003 per matematica ed italiano derivate dal Progetto Pilota 2 dell'Invalsi; ulteriori misure condotte nell'ambito della ricerca nel 2004 e nel 2005). La prima annualità ha permesso di testare metodologie di misurazione innovative - le scale di Rasch nell’ambito della prospettiva del valore aggiunto - e di evidenziare l’importanza dei “modelli di crescita”. Si è inoltre reso evidente il ruolo centrale della scuola secondaria di primo grado nell’indirizzare gli studenti verso sentieri di sviluppo formativo differenti. Considerato che i modelli di crescita richiedono un minimo di tre osservazioni comparabili, per tenere conto di percorsi di apprendimento possibilmente nonlineari, la presente annualità di ricerca si è posta i seguenti obiettivi: 1. effettuare una terza misura esterna sulla stessa coorte (studenti frequentanti il terzo anno della scuola secondaria di primo grado nelle istituzioni scolastiche che avevano partecipato alla precedente rilevazione) nel maggio 2005. Hanno partecipato 20 scuole, per un totale di 1870 alunni e 85 classi. 2. sottoporre agli insegnanti un questionario volto a verificare i loro stili di insegnamento e le influenze organizzative nella scuola, sempre nell’aprile 2005 3. studiare i possibili utilizzi dei dati dei misura degli apprendimenti.
1
La prima annualità corrisponde ad una ricerca cofinanziata dal FSE dal titolo “Dalla differenza, l'equità. Misurare gli apprendimenti disciplinari nella scuola dell’autonomia”. La ricerca è stata realizzata da un ATS composto da tre partner: CRISP – Università Bicocca, IRRELombardia ed IReR. La ricerca ha interessato circa 170 scuole elementari e secondarie di primo e secondo grado in Lombardia. Per una descrizione del percorso metodologico e dei risultati raggiunti nella prima annualità si veda (IReR, 2004).
L’utilizzo dei dati di misurazione degli apprendimenti da parte dei diversi stakeholder – famiglie, scuole, livelli di governo regionale e statale - è certamente un argomento delicato per i molteplici interessi in gioco. All’interno della prospettiva metodologica dei modelli di crescita, sono stati tenuti a questo fine due seminari che hanno consentito al gruppo di ricerca di confrontarsi con alcuni esperti qualificati per mettere a fuoco le implicazioni di policy dei risultati del percorso di ricerca intrapreso. Il primo seminario ha avuto come punto di maggiore attenzione le relazioni tra scuole e gli altri livelli di governo del sistema scolastico mentre il secondo si è concentrato sulle problematiche di utilizzo all’interno delle singole unità scolastiche. Il presente rapporto finale è strutturato secondo due linee parallele. La prima vuole presentare i risultati delle analisi effettuate - che necessariamente non esauriscono i possibili utilizzi della ricca documentazione raccolta ma esprimono la specifica prospettiva di analisi adottata - e del dibattito nel gruppo di lavoro relativamente alla verifica degli apprendimenti come elemento di sistema. La seconda mira a ricostruire e documentare puntualmente le attività di ricerca effettuate in questa seconda annualità di lavoro. Per non appesantire la lettura, questi materiali sono stati collocati in un volume di allegati, a cui si affianca un CD-ROM che contiene copie di tutti gli strumenti di rilevazione utilizzati e degli archivi statistici prodotti. Un sito web creato espressamente contiene poi i materiali di prova delle tre rilevazioni degli apprendimenti di italiano e matematica effettuate nella scuola secondaria di primo grado - a disposizione delle istituzioni scolastiche interessate a sviluppare autonomamente questa prospettiva di analisi - nonché due archivi longitudinali di dati elementari resi anonimi che possono essere oggetto di ulteriori analisi (www.irre.lombardia.it/valoreaggiunto/va2005). Guida alla lettura Di seguito riportiamo alcune indicazioni di lettura del volume, che rappresentano anche uno specifico punto di vista rispetto alle tematiche maggiormente foriere di sviluppi futuri. Il rapporto finale è articolato in tre capitoli. Primo capitolo Nel primo capitolo vengono presentati gli elementi di contesto generale delle tematiche di valutazione degli apprendimenti. Gli studiosi responsabili di questo primo capitolo - Felice Crema, Cosimo Scaglioso, Daniele Vidoni - hanno aggiornato i propri a priori di ricerca sulla base del dialogo interdisciplinare che si è tenuto nel gruppo di lavoro. Il risultato di questa interazione dialettica con
6
alcune delle ipotesi di partenza è un punto di vista crediamo equilibrato che recupera il dibattito della letteratura integrandolo con gli spunti derivanti dalla metodologia interdisciplinare con cui il team di ricerca ha realmente lavorato. Il primo paragrafo testimonia l'idea che la scuola dell'autonomia non possa essere un oggetto passivo di intervento esterno ma possa e debba farsi promotrice di una rinnovata cultura della valutazione degli apprendimenti. Rinnovata cultura come occasione di sviluppo professionale degli insegnanti, che nella collaborazione di ricerca si sono dimostrati 'ricercatori' ed 'esperti' in senso ampio. Citiamo per tutti l'auspicabile ruolo dei docenti nella costruzione delle prove di apprendimento e, per quanto riguarda le prove aperte, nella loro correzione; le opportunità di sviluppo delle competenze professionali derivanti da un confronto tra la percezione personale dei livelli di difficoltà dei materiali di prova/stimolo utilizzati nella didattica e le relative misure obiettive, un importante tema di riflessione (cfr. Cristante e Mannarini, 2004) oggetto di un approfondimento specifico da parte di Daniela Notarbartolo nel terzo capitolo. Nel secondo paragrafo vengono sintetizzati alcuni degli elementi degli approfondimenti seminariali sul tema dell'utilizzazione dei dati di misurazione degli apprendimenti da parte dei diversi stakeholder. Di particolare rilevanza è il rapporto tra gli elementi di differenziazione degli output cognitivi ed i fattori malleabili effettivamente disponibili al management scolastico. La ricerca, come documentato nel secondo capitolo, non ha permesso di evidenziare delle associazioni significative tra la variabilità degli apprendimenti nelle classi e caratteristiche misurabili degli insegnanti e della scuola. Nei limiti della necessaria modestia empirica, sembrerebbe pertanto porsi un problema per le varie proposte di management – siano esse i sistemi di assicurazione della qualità di derivazione ISO che altri più specificatamente adattati per le istituzioni scolastiche. Infatti, come evidenziato recentemente da Angelo Paletta (Paletta, 2005a) e adombrato nel contributo sull'organizzazione scolastica dello stesso autore e di Maurizio Scagliotti in questo volume, la mancanza di una teoria condivisa che connetta gli apprendimenti degli studenti con fattori utilizzabili dai dirigenti scolastici nelle loro politiche organizzative rende i vari modelli proposti in letteratura sostanzialmente ad hoc, con una preoccupante proliferazione di indicatori che in alcuni modelli rischiano di vanificare gli obiettivi di focalizzazione manageriale formalmente perseguiti. Secondo capitolo Il secondo capitolo, predisposto da Enrico Gori in collaborazione con Michela Battauz e Giorgio Plazzi, sintetizza le metodologie ed i risultati delle analisi longitudinali compiute su una significativa popolazione di studenti della scuola media, che rappresenta lo specifico di questo secondo anno di ricerca. Il capitolo si presta a due livelli di lettura. Chi voglia confrontarsi con la presentazione statistica dei modelli di crescita proposta potrà dialogare idealmente con gli autori relativamente agli aspetti maggiormente innovativi della loro riflessione. Non di
7
meno, il capitolo è accessibile anche al lettore che non ritenga di addentrarsi nel formalismo matematico, con una serie di proposte che mettono in discussione l'impostazione dei sistemi di valutazione degli apprendimenti attualmente maggiormente accreditati. L'adozione di un proposta modellistica che è sostanzialmente un'estensione dell'approccio del valore aggiunto tende a valorizzare l'apporto dell'organizzazione scolastica nella crescita delle competenze. Lo spostamento del fuoco del ragionamento dallo stato alla variazione possibilmente non lineare degli apprendimenti, coniugato con un pieno riconoscimento del valore in sé dell'autonomia scolastica, suggerisce poi forme di valutazione esterna centrate sui momenti iniziali e finali del ciclo scolastico, per consentire una equa considerazione di organizzazioni scolastiche che vogliano legittimamente organizzare in modo differente la crescita delle competenze dei propri alunni. Forte è poi in questo capitolo l'implicito invito ai policy maker a considerare la ricerca sulle determinanti della crescita degli apprendimenti come una risorsa da sostenere con larghezza di vedute nel medio periodo, senza subordinarla ad obiettivi immediati, apparentemente più pratici ma che in ultima istanza, come indica l'esperienza dei sistemi di accountability di prima generazione, contribuiscono solo debolmente all'auspicato mutamento culturale nelle scuole. Terzo capitolo Il terzo capitolo presenta una serie di riflessioni analitiche su aspetti specifici che emergono dal percorso di ricerca effettuato. I primi tre paragrafi, a cura di Daniela Notarbartolo, trattano della costruzione degli strumenti di rilevazione e misura, con una riflessione di particolare interesse per chi – docente o studioso - voglia sviluppare autonomamente strumenti di verifica degli apprendimenti. I seguenti due – redatti rispettivamente da Carlo Fedeli e Pietro Negri – sintetizzano gli aspetti metodologici e sostanziali relativi al ruolo delle prove aperte in un equilibrato sistema di valutazione e alcuni elementi della costruzione dei questionari di contesto e di processo. L'intenso sforzo di coinvolgimento delle scuole e dei docenti nel corso della ricerca è testimoniato nel sesto paragrafo, a cura di Nunzia Bonanno e Franco Petracchi. In quella sede vengono anche riportati i risultati di un'analisi originale sugli impatti della ricerca come percepiti da alcuni degli insegnanti che vi hanno partecipato. Il contributo è infine un punto di ingresso al pregevole lavoro di documentazione condotto da IRRE-Lombardia tramite un sito web dedicato (www.irre.lombardia.it/valoreaggiunto/va2005).
8
Del contributo che approfondisce le tematiche dell'organizzazione scolastica e del management, predisposto da Angelo Paletta e Maurizio Scagliotti, abbiamo già accennato; seguono poi tre paragrafi variamente centrati su aspetti specifici dello sviluppo del capitale umano nell'ambito delle istituzioni scolastiche. Michela Battauz affronta il problema della dipendenza della crescita degli apprendimenti disciplinari dal livello di partenza, sulla base del substrato teorico del modello di sviluppo prossimale inizialmente proposto nel secolo scorso da Vygotskij. L’effetto del livello di apprendimento iniziale sul tasso di crescita è negativo sia in italiano che in matematica, un risultato di notevole interesse scientifico e di policy ove fosse confermato in altri programmi di ricerca che sappiano fare propri gli innovativi metodi statistici proposti in questo contributo. A partire dai risultati di una ricerca dell'IReR di alcuni anni fa (IReR, 2001) in cui si era evidenziato che gli studenti delle scuole secondarie di primo grado ritengono che i professori siano parziali a favore delle ragazze, nel paragrafo si è proceduto ad una verifica del rapporto tra giudizi di profitto formulati dagli insegnanti e gli apprendimenti come verificati tramite test obiettivi in matematica ed italiano. Si conferma un effetto sistematico a favore delle studentesse, che, a parità di competenze, ricevono da parte di alcuni insegnanti un “bonus” rispetto ai loro colleghi maschi. Si verifica altresì una notevole variabilità degli standard valutativi tra scuole e classi differenti. Queste distorsioni nei giudizi rappresentano un serio problema per quelle politiche pubbliche che utilizzino i voti come segnali di “merito scolastico”. Si tratta di una problematica che sinora non è stata adeguatamente messa a fuoco dal decisore regionale, almeno in Lombardia, e che indubbiamente meriterebbe in futuro uno specifico approfondimento di ricerca esteso anche alle scuole superiori. Nel penultimo paragrafo del capitolo, a cura di Michela Battauz e Giorgio Plazzi, viene analizzata la scelta della futura scuola secondaria, un tema centrale nei sistemi fortemente canalizzati come quello italiano. La ricerca, nel confermare lo scontato ruolo dell'origine sociale, evidenzia che il livello degli apprendimenti e una variabile che può essere assimilata ad un “consiglio orientativo” svolgono una funzione essenziale nello smistare gli studenti nei diversi comparti in cui si articola la scuola secondaria di secondo grado. In buona sostanza, uno studente di condizioni sociali più basse (dal punto di vista del titolo di studio dei genitori) riceve, da un eventuale livello positivo di apprendimento ed esperienza fatta in classe, uno stimolo alla scelta del liceo, superiore a quello di chi ha i genitori laureati, ma livelli di conoscenza ed esperienze scolastiche non altrettanto positive. L'ultimo paragrafo del terzo capitolo, curato da Giorgio Plazzi, riporta infine una serie di approfondimenti modellistici relativi ad alcune delle tematiche toccate nella prima annualità di ricerca e che hanno trovato un ulteriore sviluppo quest'anno integrati da alcune ulteriori riflessioni sugli elementi conoscitivi
9
relativi ai modelli di crescita nelle scuole secondarie di primo grado coinvolte nella ricerca.
10
Capitolo 1
Il quadro generale
1.1 Rapporto con l’istituzione scolastica: il campo didattico 1.1.1 Valutazione oggettiva, valutazione di sistema, istituzione scolastica Queste pagine rappresentano una sintesi che raccoglie le esperienze di due progetti: “Dalla differenza, l’equità” e la presente ricerca, che di quella ne è la prosecuzione sul terzo anno della scuola media. Infatti la riflessione relativa alla prima ricerca, nella strettezza del tempo, non aveva permesso di analizzare con la necessaria lucidità la dimensione del problema che viene qui di seguito affrontato. Ciò spiega il perché di ripetuti espliciti riferimenti a tale prima ricerca. Il problema della valutazione nei sistemi scolastici e formativi occidentali si presenta oggi con grande urgenza. In modi e forme diverse infatti il declino delle forme di verifica e valutazione caratteristiche della scuola nei paesi occidentali ha avuto inizio da almeno due generazioni2, arrivando negli ultimi decenni del secolo XX a perdere molto spesso il carattere sistemico che legava le diverse forme che si presentano oggi piuttosto come somma di strumenti tra loro non correlati e, anche per questo, dotati di una sempre più scarsa incidenza. Prendendo in considerazione il caso Italia, possiamo osservare che, a partire dagli anni settanta, i tradizionali cardini del sistema di verifica/valutazione, fondato
2
Negli Stati Uniti ciò è accaduto soprattutto negli anni tra la grande crisi e la seconda guerra mondiale, mentre nei paesi dell’Europa continentale questo fenomeno ha avuto luogo a cavallo della metà del secolo scorso, con un movimento sostanzialmente comune anche se ritmi e tempi risentono delle specificità politiche e culturali dei diversi paesi. Tale fenomeno è strettamente legato ad un mutare dell’immagine e del ruolo che la scuola è venuta via via ad assumere nel contesto della società americana prima e di quella europea poi, soprattutto sotto l’influsso del pensatore e pedagogista J. Dewey. In Italia questo fenomeno è segnato dal passaggio della cultura pedagogica da un modello idealistico ispirato da Giovanni Gentile a un modello di natura pragmatistica elaborato dalle riflessioni di Antonio Gramsci, in realtà assai vicino, sui temi relativi scuola, allo stesso Dewey. Il forte condizionamento del pensatore americano sulla pedagogia italiana trova riscontro e conferma nelle opere di E. Codignola e L. Borghi. Del primo segnaliamo Le “scuole nuove” e i loro problemi, La Nuova Italia, Firenze 1974; del secondo J. Dewey e l’educazione americana, Firenze 1960 e L’ideale educativo di John Dewey, Firenze 1961.
sulle due coppie programmi/esami3 e controllo gerarchico/ispezione4 e produttivi anche di gratifiche/punizioni, si sono sfuocati fino a diventare di fatto sostanzialmente irrilevanti nei loro effetti concreti sui singoli e, quindi, sul sistema. Di fatto, quindi, parlando di verifica e di valutazione in relazione al sistema formativo ci troviamo di fronte ad una situazione di sostanziale anomia; le regole dichiarate crescono di numero ma sempre ricondotte ad aspetti metodologico/formali e sprovvisti di strumenti di verifica cui comunque non corrisponderebbero effetti, sanzionatori o di altra natura. Gli aspetti sostanziali della attività scolastica, in particolare quelli relativi agli apprendimenti, sono praticamente sottratti ad ogni forma di verifica e di controllo esterno alla diade insegnante-allievo e, con alcune anche significative differenze, seguono una tendenza che li porta a produrre effetti sempre meno rilevanti. Tutto questo è evidenziato, ad esempio, dalla esclusione del giudizio di merito sull’insegnante, espresso periodicamente e incidente sulla carriera e sul trattamento economico5, dalla riduzione progressiva del sistema dell'esame di stato come momento di verifica di ogni studente e quindi, indirettamente, come misura della efficienza e della efficacia del sistema scolastico/formativo (riforma dell'esame di maturità che diventa una sorta di esame interno pur tentando di riproporsi come punto sintetico riassumendo tutto il percorso di esperienza dello studente); dalla riduzione della incidenza del giudizio sull’apprendimento relativamente alla carriera scolastica6. 3
In questo cambiamento occorre rilevare, in particolare per quanto riguarda l’esame di stato, non solo la natura della prova ma anche il suo effettivo correlarsi con il percorso didattico cui si riferisce. Per una storia dell’esame di stato in Italia fino alla data della loro pubblicazione, cfr. le opere di D. Bertoni Jovine, La scuola italiana dal 1870 ai nostri giorni, Roma 1950; M. Dal Pra (a cura di), L’esame di Stato nella scuola italiana, La Nuova Italia, Firenze 1962. Sul nuovo esame di maturità istituito dalla legge n. 425 del 10 dicembre 1997, cfr. tra gli altri R. Conserva (a cura di ), Il nuovo esame di Stato, Quaderni CIDI, Loescher/Zanichelli, Torino 1999 e T. De Mauro – P. Legrenzi, Il nuovo esame di maturità, Il Mulino, Bologna 1999. 4 Sull’argomento, cfr. F. Tenore, La funzione ispettiva nell’amministrazione scolastica, La Scuola, Brescia 1980; G. Decollanz, La funzione ispettiva dalla legge Casati ad oggi, Armando, Roma 1984; MIUR, Gli ispettori tecnici: una risorsa per l’autonomia delle scuole, Edizioni dell’Orso, Alessandria 1998. Assolutamente rilevanti sono i cambiamenti introdotti sulla base della legge 477/73 e dei successivi decreti delegati. 5 L’inizio di questo fenomeno può essere individuato con i cosiddetti “decreti delegati” del 1974, in particolare col D.P.R. n. 417 (cfr. soprattutto gli artt. 58, 59 e 66). E’ opportuno ricordare qui, che in tale decreto venivano in un certo qual modo rimodellate la figura e il ruolo dell’insegnante, dei suoi compiti, dei suoi diritti e dei suoi doveri, in particolare con l’ art. 1 (“Libertà di insegnamento”) e con l’art. 2 (“Funzione docente”). 6 Ricordiamo la riforma dell’esame di maturità istituita con la legge n. 425 del 10 dicembre 1997: “Disposizioni per la riforma degli esami di Stato conclusivi dei corsi di studio di istruzione secondaria superiore”, dove all’art. 4 (“Commissione e sede d'esame”), si afferma che “La Commissione d'esame è nominata dal ministero della Pubblica istruzione ed è composta da non più di otto membri, dei quali un 50 per cento interni e il restante 50 per cento esterni all'istituto, più il presidente, esterno” e la successiva modifica di questo punto prevista dalla legge n. 448 del 28 dicembre 2001: “Disposizioni per la formazione del bilancio annuale e pluriennale dello Stato (legge finanziaria 2002)”, che all'art. 22, comma 7, introduce modifiche all'art.4 della citata legge n. 425/1997 circa la composizione delle commissioni di esame, che ora saranno composte dagli
12
L’insieme di questi fenomeni ha contribuito fortemente a incrementare le caratteristiche di autoreferenzialità già proprie del sistema scolastico-formativo italiano che appaiono esaltate ai due estremi del sistema stesso: il centro amministrativo (ministero) da un lato, e il singolo insegnante colto nella sua azione specifica di insegnamento dall’altro7. E’ interessante a questo proposito notare come la singola istituzione scolastica, pur ripetutamente e fortemente indicata dalle diverse parti come il punto centrale del processo di cambiamento che sta interessando il sistema8, si presenta in realtà fortemente defilata rispetto alla effettiva allocazione del potere decisionale; le due centralità – della amministrazione da un lato e del singolo insegnante dall’altro non appaiono tanto il risultato di uno specifico orientamento quanto piuttosto della difficoltà a incidere su alcuni aspetti del sistema formativo, che hanno come conseguenza un vuoto di iniziativa e di decisione che finisce per generare frammentazione e creare così un terreno di coltura per la corporativizzazione del sistema stesso. Ciò significa che il sistema dell’istruzione - che in questo ultimo decennio ha visto il varo di due sue riforme organiche (prima la “riforma Berlinguer”, poi sostituita dalla “Riforma Moratti”) - al di là di importanti e significative innovazioni, non è stato intaccato nel suo nucleo più caratterizzante, cosicché ancora oggi possiamo affermare che il centro rimane il perno su cui esso ruota a scapito delle urgenze che lo vorrebbero capace di entrare in presa diretta con i bisogni istruttivi e formativi propri di soggetti interessati all'azione – ad esempio gli studenti e le loro famiglie - e in sintonia con il contesto vitale, con l'ambiente in cui l'istituzione scolastica si pone. E su questo ritorneremo successivamente. Questo quadro è insieme effetto e causa anche della caduta di un effettivo sistema di verifica e valutazione9. insegnanti delle classi interessate e con il solo presidente esterno, relativamente alle scuole statali e paritarie. 7 E’ probabilmente per questo motivo che si spiega l’immensa bibliografia degli ultimi decenni intorno al tema della competenza didattica dell’insegnante come tecnico della materia, aspetto certamente enfatizzato rispetto ad altre tematiche relative alla scuola e agli insegnanti in particolare. 8 Tutta la normativa che ruota intorno al tema dell’autonomia si fonda sulla istituzione scolastica, principio solennemente sancito dalla recente riforma del titolo V della Costituzione (art. 117, s). Cfr. anche legge 59/1997, art. 21, comma 1: “L'autonomia delle istituzioni scolastiche e degli istituti educativi si inserisce nel processo di realizzazione della autonomia e della riorganizzazione dell'intero sistema formativo. Ai fini della realizzazione della autonomia delle istituzioni scolastiche le funzioni dell'Amministrazione centrale e periferica della pubblica istruzione in materia di gestione del servizio di istruzione, fermi restando i livelli unitari e nazionali di fruizione del diritto allo studio nonché gli elementi comuni all'intero sistema scolastico pubblico in materia di gestione e programmazione definiti dallo Stato, sono progressivamente attribuite alle istituzioni scolastiche, attuando a tal fine anche l'estensione ai circoli didattici, alle scuole medie, alle scuole e agli istituti di istruzione secondaria, della personalità giuridica degli istituti tecnici e professionali e degli istituti d'arte ed ampliando l'autonomia per tutte le tipologie degli istituti di istruzione, anche in deroga alle norme vigenti in materia di contabilità dello Stato”. Più in generale, cfr. tutto l’articolo 21 di questa legge. 9 Almeno dagli anni novanta del secolo scorso su questo tema è in corso un ampio dibattito. Tra i numerosi lavori, ne segnaliamo qui alcuni: Rondini R., Per un sistema nazionale di valutazione, Anicia, Roma 1995; Guasti L., Valutazione e innovazione, De Agostini, Novara 1996; Calidoni P.,
13
Certamente il vuoto che si è determinato con l’affievolirsi degli strumenti che reggevano il sistema, ha visto numerosi tentativi di interventi sostitutivi che, con una certa approssimazione, possono essere individuati in due grandi ambiti: il primo che si fonda su una specifica attenzione alle procedure; il secondo che accetta di misurarsi con i risultati. Al primo ambito si riferiscono le scelte fondate sulla attenzione alle condizioni di esercizio dell’attività scolastica: per il centro riconducibili agli standard di fruizione del servizio scolastico, per insegnanti e istituzioni scolastiche riconducibili al controllo di qualità e all’autovalutazione10. Per quanto riguarda le procedure, occorre almeno ricordare che se il centro interviene fondamentalmente con la pressione su elementi di contorno come tempi ed orari scolastici, alla periferia (nelle scuole) tale linea trova un importante appoggio nel tema della qualità e, successivamente, dell’autovalutazione. Al secondo ambito si riferiscono invece le scelte relative alla valutazione degli output. Relativamente ai risultati, invece, il centro si muove in particolare operando sui concetti di standard, saperi minimi e così via., mentre la periferia (in questo caso soprattutto gli insegnanti) sviluppa una riflessione importante relativamente all’azione valutativa compiuta nei confronti dall’insegnante stesso nella sua dimensione certificativa/sommativa e formativa. Appare da quanto detto caratteristica comune all’azione la separazione netta, Progettazione, organizzazione didattica, valutazione nella scuola dell’autonomia, La Scuola, Brescia 1999; Gori E. - Vittadini G., Qualità e valutazione nei servizi di pubblica utilità, in particolare La valutazione dell’efficienza e dell’efficacia dei servizi alla persona, ETAS Libri, Milano1999; Domenici G. (a cura di), La valutazione come risorsa, Tecnodid, Napoli 2000; Associazione TreeLLLe, L’Europa valuta la scuola. E l’Italia? Un sistema nazionale di valutazione per una scuola autonoma e responsabile, Quaderno n. 2, novembre 2002; Melchiori R. et al., Il laboratorio della valutazione, 2 voll., F. Angeli, Milano 2002; Bottani N. – Cenerini A., Una pagella per la scuola. La valutazione fra autonomia e equità, Trento Erickson, 2003; Vidoni D. – Notarbartolo D. (a cura di), Una scuola che funziona. Teorie e pratiche per una valutazione di sistema, Armando, Roma 2004. 10 Cfr. su tale questione: AA.VV., Pedagogia della valutazione scolastica, La Scuola, Brescia, 1974; AA.VV., La qualità nella scuola, in “Annali della Pubblica Istruzione”, n.1-2, 1995; AA.VV., La scuola della qualità. La qualità della scuola. Guida operativa per la valutazione del servizio scolastico, Carra, Casarano 1996; AA.VV., Progetto e Qualità, Studi e documenti degli Annali della Pubblica Istruzione, 84, 1998; Barzanò G. – Mosca S.- Scheerens J. (a cura di), L’autovalutazione nella scuola, Bruno Mondadori, Milano 2000; Bezzi C.–Palumbo M. (a cura di), Strategie di valutazione. Materiali di lavoro, Gramma, Perugia 1998; Bondioli A. – Ferrari M. (a cura di), Manuale di valutazione del contesto educativo: teorie, modelli, studi per la rilevazione della qualità nella scuola, F. Angeli, Milano, 2000; Bracci M. (a cura di), Valutazione e autovalutazione, Armando, Roma, 2003; Castoldi M., Autoanalisi di Istituto: percorsi e strumenti di autovalutazione, Tecnodid, Napoli 2002; Hadji C., La valutazione delle azioni educative, La Scuola, Brescia 1995; Losito B. – Scalera; V. (1999), Il progetto pilota europeo La valutazione della qualità dell’istruzione, Cadmo, 19, 1999, pp.9-26; Ribolzi L. – Maraschiello A. – Vanetti R., L’autovalutazione nella scuola dell’autonomia, La Scuola, Brescia 2001; Tessaro F., La valutazione dei processi formativi, Armando, Roma 1997; Di Nuovo S., Criteri e metodi di valutazione nell’orientamento educativo, in "Magellano - Rivista per l’orientamento", Iter (“Institute for Training Education and Research”), Giunti, II, Aprile 2001. Segnaliamo, inoltre, le riviste: “Pratical assessment, Research and Evaluation”, http://pareonline.net/; “Rassegna italiana di valutazione”, http://www.valutazione.it/.
14
in alcuni casi il contrasto dichiarato, tra le due linee (procedure/risultati) che invece si presentavano assolutamente tra loro composte nel sistema tradizionale. Il quadro potrebbe quindi apparire fortemente articolato, ma con altrettanta nettezza questa articolazione si presenta invece come frammentazione. Ciascuna delle linee proposte, infatti, fatica a convivere con le altre, fatto questo assolutamente normale in una fase di cambiamento radicale quale quella che stiamo vivendo, ma in realtà ciascuna delle linee cerca in se stessa, e solo in se stessa, la giustificazione epistemologica e quindi la capacità di porsi come risposta fondativa di tutto il sistema di verifica/valutazione. Potremmo perciò dire, con altre parole, che la caratteristica dell’autoreferenzialità che segna gli ultimi decenni di storia del sistema formativo nazionale si proietta anche sulla riflessione relativa agli strumenti di verifica/valutazione impedendo di riconoscere un modo con cui essi si compongano in sistema (problema, questo, da non confondere con quello della valutazione di sistema). In chiusa di questa breve premessa occorre ricordare che tutte queste forme di verifica/valutazione fanno sempre riferimento ad un universo di interessi che non coinvolge direttamente gli stakeholder (educativi, formativi, culturali, economici) ma solo i suoi responsabili, operativi (dirigenti, insegnanti, operatori collaterali) e amministrativi (centrali e periferici), con sullo sfondo, in realtà sempre più defilati, i responsabili politici. In questo senso, la valutazione dei risultati della formazione è stata solitamente vista come un insieme di procedure operative concepite per raccogliere sistematicamente e sistemicamente informazioni valide ed affidabili, identificando la finalità del processo di valutazione con l'individuazione di legami funzionali tra le modificazioni avvenute e certe categorie di risultati organizzativi. La definizione di una formazione efficace è però legata, generalmente, alla definizione di organizzazione efficace. Questo significa che la validità di un intervento formativo nel suo produrre risultati positivi può essere giudicata in modo appropriato solo quando sia stato chiarito quali attività, comportamenti e risultati vengono considerati utili e da perseguire dal punto di vista dell’organizzazione. Da ciò consegue che l’interpretazione dell’efficacia di un intervento formativo diviene sostanzialmente un problema di criterio scelto per leggere i risultati. L'esistenza o meno di un processo di feedback efficace ha poi portato a distinguere una valutazione formativa da una valutazione sommativa. Mentre nel caso della valutazione formativa le informazioni scaturite dalla valutazione sono riportate ai decisori in modo tale che questi possano agire sulla base delle nuove conoscenze adattando gli interventi per raggiungere gli obiettivi stabiliti, o rivedendo gli obiettivi stessi, nel caso della valutazione sommativa essa contribuisce a orientare una logica di apprendimento, contribuendo così a
15
incrementare la possibilità di migliorare le azioni future 11. La ricerca “Dalla differenza, l’equità” e la sua prosecuzione nel terzo anno della scuola media sono collocate in questo contesto. Esse hanno avuto come obiettivo la messa a punto di una verifica/valutazione di sistema e sono state caratterizzate da due punti forti. Il primo, un assoluto rigore metodologico che trova il suo appoggio nella metodologia di Rasch e nella individuazione del valore aggiunto come oggetto di una verifica che permettesse di apprezzare l’attività svolta dalle singole unità didattiche. La seconda caratteristica della ricerca è stata l’attenzione al rapporto tra la didattica in atto e gli strumenti di valutazione di sistema adottati e la possibile utilizzazione dei dati da parte di soggetti altri rispetto ai responsabili di governo del sistema (insegnanti, gruppi didattici, stakeholder, ecc). Questa seconda caratteristica può essere ricondotta a tre punti specifici: la modalità di costruzione delle prove, che dovevano coinvolgere i campi didattici scuole/classi interpellate; i contenuti proposti dalle prove, che dovevano avere un rapporto con la didattica in atto nel campo che veniva testato; alcune modalità di verifica - in particolare la presenza di prove aperte -, la modalità di correzione di queste prove e la presenza di questionari di contesto e di processo paralleli alle prove di verifica. Su questi punti la ricerca si è mossa con attenzione particolare da un lato agli aspetti metodologici, dall’altro con una attenzione più articolata attenta ai diversi aspetti insiti nel tema del rapporto fra valutazione di sistema e scuola in atto.
1.1.2 I riferimenti nei progetti di ricerca È utile, forse necessario richiamare i riferimenti da cui è partita la prima ricerca “Dalla differenza, l’equità”. In primo luogo, va ricordato che il quadro essenziale delle sue finalità era quello di “creare un’informazione comparativa utile ai diversi attori del sistema scolastico (insegnanti, scuole, famiglie amministrazioni pubbliche) per prendere decisioni consapevoli e finalizzate al miglioramento del sistema medesimo” e quindi, a tal scopo, si è reso “necessario concentrare maggiormente l’attenzione sui risultati dei processi formativi (Valutazione), e non solo sugli aspetti di processo”, tenendo conto delle “diverse tipologie di utenza, specie in relazione alle differenti situazioni di handicap e svantaggio socio-economico culturale e fisico” 12 senza ignorare le diverse finalità che alla scuola sono assegnate dalla 11
Cfr., tra gli altri: G. Benvenuto, Mettere i voti a scuola. Introduzione alla docimologia, Carocci, Roma, 2003; C. Coggi – A. M. Notti, Docimologia, Pensa Multimedia, Lecce, 2002; F. De Landsheere, Elementi di docimologia, La Nuova Italia, Firenze 1973; G. Domenici (a cura di), Le prove semistrutturate di verifica degli apprendimenti, UTET, Torino 2005; Gattullo M., Didattica e docimologia, Armando Editore, Roma,1985; Scurati C. (a cura di), Valutare gli alunni, gli insegnanti, la scuola, La Scuola, Brescia, 1993. 12 Cfr. E.A. Hanushek – M.E. Raymond, Improving Educational Quality: How Best to Evaluate Our Schools?, Presented at Education in the 21st Century: Meeting the Challenges of a Changing World Federal Reserve Bank of Boston June 19-21, 2002, in http://www.bos.frb.org/economic/conf/conf47/hanushekraymond.pdf
16
società13. E’ noto che le ricerche sull'uguaglianza di fronte all'istruzione evidenziano la necessità di misurare l'apprendimento disciplinare degli studenti in relazione alle loro caratteristiche d'ingresso. Questo permette, infatti, di poter pervenire a misure del valore aggiunto attribuibili all'azione educativa della scuola, consentendo così una migliore comparazione tra scuole inserite in contesti socio-economici differenti. La ricerca si è caratterizzata per un assoluto rigore metodologico che ha trovato il suo appoggio nella metodologia di Rasch e nella individuazione del valore aggiunto come oggetto di una verifica che permettesse di apprezzare l’attività svolta dalle singole unità didattiche. In questo senso, l'impostazione basata sul valore aggiunto rappresenta la più recente innovazione nei sistemi pubblici di controllo comparativo degli istituti scolastici, generalmente introdotta a seguito delle critiche metodologiche ai sistemi di prima generazione - basati essenzialmente sui livelli assoluti dell'apprendimento disciplinare - che tendevano a riflettere più le differenze nei bacini d'utenza delle scuole che la loro efficacia formativa. L'apprendimento disciplinare viene di norma misurato tramite strumenti standardizzati che devono essere progettati con attenzione, includendovi obiettivi cognitivi complessi, al fine di ridurre i rischi di un'eccessiva focalizzazione dell'azione educativa sulla mera preparazione al superamento delle prove. Il progetto di ricerca si è dunque proposto come fine quello di sperimentare un sistema standardizzato di valutazione degli apprendimenti disciplinari degli studenti lombardi da utilizzare, almeno in via ipotetica, sotto diversi aspetti a cominciare da quello dell’essere elemento per i processi di autovalutazione delle scuole stesse, dell’essere supporto alle decisioni informate delle famiglie e, infine, quale elemento di un sistema di controllo comparativo degli istituti scolastici. Un rilevante problema emerso circa la misurazione dell’apprendimento disciplinare degli studenti è stato quello relativo alla modalità con cui costruire il “metro” attraverso il quale procedere alla misurazione stessa e al suo rapporto con il contesto didattico. In altri termini, si è resa necessaria una adeguata ponderazione nell’individuare un “metro” che fosse adeguato al contesto in cui gli studenti si trovano inseriti e agli effetti che la misurazione ha sullo stesso contesto didattico. Un ulteriore livello proposto dal campo di ricerca concerneva poi la 13
Riproponiamo una sintesi delle finalità della scuola accettato dalla letteratura internazionale: 1. sviluppare nei giovani adeguate conoscenze umanistico - letterarie e scientificomatematiche; 2. promuovere la loro crescita fisica ed emotiva; 3. prepararli al lavoro; 4. insegnare loro ad amministrare la propria salute e le risorse materiali; 5. prepararli alla partecipazione sociale e politica; 6. offrire un ambiente libero dalla droga e dalla violenza. 7. aiutare i più svantaggiati a superare i limiti economici, culturali e sociali delle famiglie di provenienza, in rapporto ai risultati di cui sopra. Cfr. P. Dolton, Improving Education Quality: How Best to Evaluate Our Schools? A Discussion, 2002, in http://www.bos.frb.org/economic/conf/conf47/dolton.pdf.
17
collocazione che il sistema di rilevazione oggettiva, di per se stesso complesso e relativamente oneroso, andava ad assumere all’interno del sistema visto sia nel suo aspetto macro (sistema formativo definito da un determinato territorio), sia nel suo aspetto micro (l’ambito istituzionale in cui concretamente si costruisce l’azione didattica che si intende conoscere in alcuni suoi effetti). La ricerca ha quindi toccato aspetti che richiedevano plurime competenze disciplinari tra loro fortemente interagenti che riguardavano la messa a punto del raccordo fra struttura specialistica di valutazione e contesto scolastico interessato. Si trattava, in particolare, di una messa a punto di un sistema di rilevazione volto a misurare il Valore Aggiunto e la verifica delle più coerenti tecniche statistiche, integrando la sperimentazione messa in atto dall’INVALSI tramite la predisposizione e l’implementazione di test standardizzati contenenti item di differente origine, in grado di acquisire elementi capaci di riconoscere modalità relative all’inserimento del metodo di valutazione testato tra le attività ordinarie della scuola. Tutto questo ha reso necessaria la preparazione degli strumenti tecnici relativi alla rilevazione dei dati. Questo percorso si è svolto attraverso alcune tappe fondamentali. La prima, partita dalla identificazione del “metro”con la costruzione di test a risposta multipla per italiano e matematica14 rigorosamente validati e in test a risposta aperta per storia15 ha portato alla misurazione del VA e ad un iniziale anagrafe degli studenti16 toccando in questo percorso i problemi della messa a punto di procedure di rapporto con le scuole per la rilevazione dei dati, della somministrazione dei questionari, della correzione delle prove. Con questi ultimi problemi considerati e con quelli correlati relativi alla didattica del campo di rilevazione, alla formulazione delle prove e alla correzione degli elaborati si è entrati in un campo più vicino all’oggetto specifico di questa parte del rapporto di ricerca che ci permette di incontrare temi vicini alla motivazione degli insegnanti, alle modalità di restituzione dei risultati al campo didattico interessato e quindi al possibile utilizzo degli stessi da parte degli operatori. Rilevante è quindi stato, a questo proposito, il ruolo che nella sperimentazione hanno avuto i momenti di informazione e di formazione relativamente all’intero campo sia degli istituti, sia degli insegnanti direttamente coinvolti nella sperimentazione I passaggi che hanno permesso il concretizzarsi di questa tappa della ricerca sono dunque consistiti nella costruzione delle prove, nella validazione delle stesse, nella loro correzione e, infine, nella restituzione di queste.
14
Uno sguardo specifico è stato posto al tema della validazione delle prove (validity e reliability). Su queste prove particolare attenzione è stata portata al tema della ‘moderazione’. Cfr. Pitman, J., High-Quality Assessment: We are what we believe and do, IAEA Conference, Bled, Slovenia, 1999; F.E. Crema – E. Gori – D. Vidoni Alcune riflessioni sullo sviluppo di strumenti di (auto) controllo e di intervento organico nei sistemi formativi, in “Non Profit”, 3.2002, Maggioli ed. Milano. 16 Questo è avvenuto nella seconda annualità della ricerca e solo per un gruppo di studenti della scuola secondaria di primo grado. 15
18
1.1.3 Prime riflessioni conclusive Come emerge dalle pagine precedenti, le questioni aperte relative al rapporto tra sistema formativo e modalità di verifica/valutazione proposte dalla ricerca sono molte. Il presente contributo propone queste caratteristiche a livello formale e di teoria pedagogica, indicando i punti di forza del sistema di valutazione sviluppato a partire dalla ricerca “Dalla differenza. l’equità. Valutare gli apprendimenti nella scuola dell’autonomia” e segnalando gli interrogativi forieri di ulteriore indagine. Considerate le caratteristiche della ricerca e il fatto che essa per la prima volta in Italia propone una impostazione fondata sull’analisi di Rasch e sul calcolo del valore aggiunto (VA), appare naturale la predominanza degli aspetti metodologici, anche in relazione agli aspetti attinenti il rapporto tra verifica/valutazione degli output cognitivi e l’istituzione scolastico-formativa. Essi possono essere raggruppati attorno a tre ‘fuochi di attenzione’: 1. la validità dello strumento impiegato considerato nel suo rapporto con il contesto didattico cui fa riferimento: problema che si presenta relativo alle modalità e ai percorsi seguiti nella costruzione dei test e nei rapporti con le scuole interessate alla ricerca (relativamente alla costruzione delle prove; alla gestione delle prove; alla comunicazione dei risultati). 2. Il rapporto tra lo strumento e l’istituzione scolastica in quanto organizzazione chiamata ad operare e quindi portatrice di responsabilità relativamente al raggiungimento di fini (relativamente alla utilizzazione dei risultati). 3. La possibile ricaduta dell’introduzione delle modalità di verifica/valutazione oggetto di prova sulla professionalità e sul ruolo dell’insegnante. Appare ovvio che, in un momento ancora iniziale di un percorso di ricerca complesso questi aspetti siano stati toccati in modo disuguale, sia per quantità di tempo a ciascuno dedicato sia per intensità di riflessione. Anche a ragione dei necessari passaggi tecnici della ricerca e del fatto, ovvio, che il quadro dei dati si è manifestato solo in conclusione della stessa, molti degli aspetti che ci interessano sono emersi con sufficiente chiarezza solo in momenti ormai prossimi alla conclusione del lavoro17. Inoltre il taglio con cui si sono sviluppate le osservazioni, potenzialmente riguardanti tutti gli aspetti costitutivi di ogni istituzione scolastica, è stato limitato ad alcuni di quelli teoricamente identificati e verrà riferito alle due dimensioni fondamentali caratterizzanti il problema: la prima relativa all’influenza della metodologia impiegata su alcuni aspetti caratterizzanti la istituzione; la seconda relativa ai risultati delle prove e all’uso che di essi è possibile (interessante) fare. L’insieme di questi dati comporta poi naturalmente un diverso peso che le ipotesi da cui partiva la ricerca assumono oggi: alcune sono almeno in parte 17
Molte delle considerazioni riportate in questa parte del rapporto in realtà sviluppano e completano i dati presentati nel rapporto conclusivo della precedente ricerca “Dalla differenza l’equità”
19
ridimensionate, altre invece potenziate e in qualche modo quasi sollecitate dallo sviluppo della riflessione. Un primo e più ampio sguardo ci porta a cogliere i tratti generali che il rapporto aperto nelle due direzioni - tra prova (il suo contenuto, le modalità e il percorso attraverso cui viene formata) e ‘didattica in atto’18 ha presentato nel corso della ricerca, studiandone i vari aspetti, i soggetti che vi operano, le pagine della didattica e le implicazioni che caratterizzano il rapporto tra questi diversi elementi. Seguendo la impostazione del lavoro, un primo aspetto da considerare, riguarda il coinvolgimento degli insegnanti nella definizione dei contenuti delle prove, tanto nel caso dei test chiusi quanto nel caso delle prove aperte19. Questo aspetto della metodologia impiegata ha avuto un impatto positivo sugli insegnanti coinvolti, contribuendo a motivarne la partecipazione, ma, come vedremo, non ha mostrato una particolare significatività rispetto a quella delle prove stesse. Un secondo aspetto è relativo al coinvolgimento degli insegnanti nello sviluppo della prova, sia nella somministrazione dei test che nella loro correzione. Si è confermata la significatività del test somministrato allo studente da un suo insegnante, meglio se della stessa disciplina testata, mentre il coinvolgimento di insegnati nella correzione delle prove aperte ha sollecitato un interesse specifico in un gruppo relativamente ampio di insegnanti. Un terzo e differente aspetto riguarda la restituzione dei dati, e l’uso possibile degli stessi. Su questo aspetto si sono sempre mantenute alte attenzione ed attese degli insegnanti coinvolti, cui non è stato possibile corrispondere del tutto, anche in relazione ai tempi tecnici necessari per fornirli. Di maggior interesse è l’effetto che le prove hanno sulla istituzione coinvolta che si possono paragonare all’effetto Pigmalione20 e che, nel nostro caso, si è presentato con modalità peculiari legate alle caratteristiche e alla forza dello strumento statistico impiegato21. La metodologia di Rasch, che si presenta come un metro statistico molto rigido, si caratterizza infatti per la capacità di stabilire un rapporto rigoroso tra prove proposte e contenuti di riferimento delle prove stesse22, mettendo in evidenza accanto ai dati relativi agli esiti delle prove, anche 18
Nel linguaggio della ricerca per ‘didattica in atto’ si intende l’insieme dell’azione specifica di insegnamento del singolo, e delle differenti scelte organizzative attuate che ne rappresentano le condizioni. 19 I contenuti degli items contenuti nei test e nelle prove aperte sono state desunte da schede compilate dagli insegnanti delle classi coinvolte nelle prove. Sulle modalità concrete attuate, indicazioni più specifiche sono nel terzo capitolo di questo rapporto. 20 Questo problema, in letteratura ricordato come ‘teaching/learning to the test’, è presente qualunque sia la forma assunta dalla verifica/valutazione e appare particolarmente enfatizzato dall’uso dei test chiusi. 21 Anche per questo si era ritenuto importante contrastare il possibile effetto partendo da un diretto e sistematico coinvolgimento delle scelte didattiche compiute dagli insegnanti interessati nella costruzione delle prove. 22 Questa caratteristica, che comporta, per la messa a punto dello strumento, una stretta interrelazione tra operatore del servizio e statistico, aveva tra l’altro suggerito il forte coinvolgimento degli operatori nella preparazione e attuazione delle prove previsto dalla ricerca.
20
le incoerenze presenti nelle prove stesse. Due sono le conseguenze significative: le prove possono essere comparate anche con un campo di riferimento fortemente differenziato, come hanno dimostrato le prove aperte di storia23; test e discipline sono separabili, e quindi le competenze sono come tali testabili come pure è possibile, con la costruzione di un ‘programma’ ad hoc24, misurare contemporanamente competenze acquisite e ‘apprendimento specifico’ del singolo studente. E’ importante ricordare che tra le ragioni più importanti e comunemente accettate che giustificano la introduzione di un sistema di verifica/valutazione sta l’esigenza di sostenere l’efficacia del sistema formativo formale (School Effectiveness = SE), cui, più recentemente si è aggiunta quella di avere indicazioni utili a guidare il suo miglioramento (School Improvement = SI)25. Come è noto la sola esistenza di un sistema di valutazione esterno comporta un miglioramento rilevabile nei risultati degli studenti26. La messa in opera del sistema testato, oltre a presentare minime conseguenze inattese, presenta alcuni punti di forza che favoriscono il miglioramento del sistema. Il primo è legato alla capacità della metodologia impiegata di permettere un controllo sulla ‘coerenza didattica’ dei percorsi di insegnamento, della capacità cioè che essi si sviluppino nella direzione di una maggior difficoltà e complessità per un verso, senza però fare salti tali da produrre un effetto di ‘sconnessione’ di una parte degli studenti rispetto agli appuntamenti proposti.27 Anche se per la sua complessità questo aspetto, emerso come punto critico toccato dalla ricerca, viene solo enunciato, esso si propone come una possibile e, a prima vista, molto proficua ulteriore pista di lavoro e di ricerca. Un secondo elemento di grande interesse per lo sviluppo della autonomia delle istituzioni scolastiche è relativo al grado di trasferibilità (universalità) delle prove in presenza di contesti didattici significativamente differenziati28. In questa direzione occorreranno approfondimenti soprattutto sulle possibilità di impiegare prove aperte sul modello di quanto è stato fatto con la storia nella ricerca “Dalla differenza, l’equità” soprattutto relativamente alle condizioni operative per la
23
Le competenze possono essere testate anche con contenuti in larga misura differenti, impiegando una griglia di correzione rigorosa. 24 Cfr la prove, per inglese e per matematica, preparate da Olson nel Minnesota con un impegno di oltre vent’anni. 25 E’ questo uno dei segni che caratterizzano la riflessione fondata su una “nuova” centralità del sistema formativo formale che si giustifica solo a partire dal superamento della autoreferenzialità che ha caratterizzato il più recente percorso dell’istituzione scolastica. 26 Cfr gli studi di Woessmann che identifica anche una sufficiente autonomia decisionale come ulteriore caratteristica di sistema favorevole all’incremento delle prestazioni dell’istituzione scolastica. 27 Questa caratteristica è ben spiegata dal concetto di ‘area prossimale’ formulato da Vigotsky. 28 Lo strumento testato potrebbe garantire l’esistenza di legami forti tra istituzioni scolastiche dotate di un grado medio-alto di autonomia effettiva anche nel campo delle decisioni relative ai curricoli.
21
(eventuale) generalizzazione del sistema di verifica/valutazione testato29. Una ulteriore indicazione emerge, relativa alla sempre discussa questione del rapporto tra stili (e condizioni) di insegnamento e risultati. Se la ‘quantità’ delle conoscenze appaiono sempre dipendere dalle condizioni di contesto, in linea con quanto affermato da Coleman fin dagli anni Sessanta, la capacità di incrementare la conoscenza sembra dipendere in larga misura dalla scuola30. In questa prospettiva sarà doveroso riconsiderare anche la funzione orientativa della scuola, intesa non come esito di una conoscenza che permetterà di agire nel futuro, ma come condizione che offre oggi opzioni differenziate in ragione appunto del proprio (del giovane) orientamento31. Prima di chiudere questo paragrafo un ultimo elemento va ricordato. Il riferimento alla istituzione scolastica non comporta esclusivamente l’identificazione della sua dimensione organizzativa – e quindi gli operatori, la loro azione, le loro scelte -, ma anche alla sua dimensione istituzionale: gli stakeholder (educativi e non) individualmente considerati per le loro scelte fanno riferimento infatti alla istituzione scolastica presso cui pensano di trovare risposta alla domanda di servizio di cui sono portatori. La presenza di informazioni analitiche sui risultati scolastici rappresenta quindi una informazione oggettiva che, in prospettiva, può contribuire a dare un diverso contento specifico (e diverse modalità operative) al rapporto tra istituzione scolastica e stakeholder32. Il tema della professionalità, cui si lega quello del ruolo formale, è certamente il più sentito dall’insegnante che aspira, e giustamente, a recuperare una responsabilità professionale, identificando nella figura del docente il vero baricentro del sistema formativo e, di conseguenza, trovando in ciò il principale titolo di legittimazione della propria collocazione anche sociale. Questa rinnovata professionalità presenta un profilo ideale, così come investe gli aspetti più quotidiani dell’esercizio della docenza: la prassi e le scelte didattiche, l’esercizio dei compiti di valutazione, il rapporto educativo con l’alunno, la collaborazione 29
In questo senso occorrerà distinguere con nettezza lo strumento di verifica/valutazione adeguato per una corretta valutazione di sistema e lo stesso strumento impiegato all’interno di una rete di istituzioni scolastiche nell’esercizio della autonomia. 30 Su questo punto occorrerebbe aprire una finestra ampia, volta a chiarire gli aspetti specifici che accompagnano questa evidenza statistica. E’ infatti di grandissima importanza uscire dalla impasse in cui le constatazioni di Coleman portavano, togliendo radicalmente valore alla scuola in quanto fonte di conoscenza. La prospettiva che emerge ora appare più equilibrata in quanto, se ulteriormente confermata, permetterebbe di identificare nei due elementi del contesto e della scuola le fonti principali di due dimensioni diverse della conoscenza: i dati conosciuti e la propensione all’apprendimento. Questo percorso sembra in prospettiva poter fornire indicazioni di grande interesse anche nello stabilire proporzioni più corrette tra il tempo scolastico e il tempo non scolastico su cui si organizza la vita delle giovani generazioni. 31 Questa potrebbe essere una strada attraverso cui ridare densità alla esperienza scolastica, oggi sentita dai giovani, soprattutto nell’età critica della preadolescenza e della prima adolescenza, come assolutamente altra rispetto alla propria condizione di vita e quindi assolutamente disincarnata. 32 Questa promettente linea di riflessione e di osservazione è stata, per ragioni di tempo e di risorse, solo enunciata: essa si pone però come una necessaria (e interessante) futura linea di ricerca relativa alla verifica/valutazione nei sistemi di servizio alla persona.
22
con i colleghi, l’interazione con gli altri attori del processo formativo. Essa va però letta in una prospettiva corretta, non inquinata dalla autoreferenzialità che tanta responsabilità ha nell’attuale scarsa considerazione sociale dell’insegnante. Il contributo che la ricerca nella sua originaria impostazione aveva inteso mettere a disposizione consisteva innanzi tutto nella possibilità di sottoporre metodicamente a riflessione e a ripensamento l’ordinario svolgimento della didattica, attraverso una metodologia di azione cooperativa fra gli insegnanti e gli operatori specializzati33: una sperimentazione sulla base di procedure, tecniche, strumenti e modalità diverse per la verifica degli apprendimenti, avendo occhio agli obiettivi cognitivi del sistema formativo, ritenuti obiettivi di base, cercando di isolare in qualche modo, nel quadro dei fattori che favoriscono apprendimenti e crescita della conoscenza, il fattore scuola-classe-insegnante. Il problema del possibile rapporto tra stili di insegnamento e risultati di apprendimento, da anni affrontato senza risultati positivi, ancora una volta si è dimostrato refrattario: pur essendo chiaro il legame tra una specifica condizione di insegnamento e l’incremento delle competenze testate, i fattori che legano insegnamento al successo e all’insuccesso scolastico rimangono in quanto tali non definibili e riconoscibili34. L’emergere di una significatività statistica del rapporto tra scuola e incremento dell’apprendimento, anche se non riconducibile a fattori specificatamente individuati, è in ogni caso fonte di indicazioni interessanti la professionalità dell’insegnante. Non solo infatti i dati delle prove rappresentano una informazione utile in quanto integrabile nella valutazione formativa e sommativa - fatto questo che potrebbe di per se stesso essere non particolarmente rilevante - ma essi si presentano anche come fonte di informazioni utili per la autovalutazione dell’insegnante, aprendo un varco verso situazioni simili con cui è significativo misurarsi. La metodologia adottata permette cioè, in prospettiva, di mettere a disposizione degli insegnanti uno strumento che possa essere compreso ed eventualmente fatto proprio, utilizzato come modo per esprimere ragionevolmente e responsabilmente, di fronte al corpo sociale oltre che ai propri pari, le scelte didattiche e metodologiche adottate. L’autonomia riconosciuta alle istituzioni scolastiche promuove anche il diritto/dovere dell’insegnante di esercitare l’autonomia sul piano didattico e metodologico partecipando così attivamente e non passivamente anche al processo della “valutazione delle scuole” con una (rinnovata) competenza docimologica. Questa specifica impostazione della ricerca si presenta quindi non solo come strumento di verifica/valutazione dell’efficacia delle scuole e degli insegnanti, ma 33
Le prove di verifica sono state concepite e strutturate considerando la prassi effettiva di ciascun docente; gli insegnanti sono stati chiamati a collaborare, in varie modalità, alla costruzione delle varie prove di verifica e alla correzione degli elaborati a risposta aperta; in prospettiva si è ritenuto di grande rilevanza anche il modo in cui i risultati della verifica sarebbero entrati a far parte della conoscenza diffusa nelle scuole. 34 Le informazioni raccolte attraverso i questionari, elaborati facendo riferimento iniziale alle opzioni proposte da Scherens, non hanno offerto a questo proposito indicazioni significative.
23
anche come metodologia a loro supporto poiché in grado di fornire informazioni utili a confrontare i livelli raggiunti dai propri studenti con quelli ottenuti in altre classi e scuole in condizioni analoghe, e ciò è interessante anche nella prospettiva di uno sviluppo del tema della formazione degli insegnanti che attualmente si muove per lo più secondo i modelli dell’aggiornamento e del rapporto frontale tra aggiornatore-esperto e docenti35. Un ulteriore aspetto interessante della professionalità docente36 è connesso alla possibilità che essa si amplii nella direzione sperimentata attraverso la figura del ‘correttore di test aperto’ quale si è delineata ed ha operato nella ricerca. Non può sfuggire come l’interazione dello strumento tecnico con l’azione del docente e ancor più l’inserimento del docente (anche se non tutti, ma solo quelli che hanno classi impegnate nelle prove di verifica/valutazione) nella procedura attuata comportino effetti significativi sulla sua professionalità. Ciò avviene innanzi tutto in quanto il punto di vista da cui si deve porre il docente non è più semplicemente quello di “collaboratore/esecutore” ma anche quello di “corresponsabile” sia della struttura sia della attuazione di un progetto. La possibilità di avere elementi di verifica della propria azione didattica, desunti non tanto dal proprio campo di insegnamento quanto dall’omogeneo campo d’insegnamento di colleghi della stessa o di altre scuole, permette inoltre all’insegnante un miglior monitoraggio della propria attività anche tramite l’identificazione di elementi di contesto, non solo organizzativo. In questo senso è evidente la spinta che l’adozione dello strumento potrebbe dare ad una concezione più partecipativa dell’attività docente. Concludendo questa parte del report possiamo dire che, se la performance degli studenti - ovvero l’incremento del loro risultato cognitivo nelle materie oggetto d’indagine - è obiettivo cruciale dei sistemi di istruzione e formazione, questa ricerca ha individuato nel momento di verifica/valutazione una occasione determinante per la produzione di informazione necessaria alla gestione del servizio, a livello di singola istituzione, oltre che a livello di sistema. L’uso di queste informazioni non rimane però limitato al sistema nei diversi elementi in cui si struttura, tra cui emergono istituzione scolastica e insegnante, ma è utilmente estensibile agli stakeholder, educativi, economici, politico/amministrativi. La produzione dell’informazione – fondata sulla relativa certezza che la performance, ovvero l’abilità dello studente nella materia in oggetto, sia misurata accuratamente e validamente dallo strumento di valutazione utilizzato rappresenta però solo il punto conclusivo di un percorso che, per le metodologie statistiche adottate, propone numerosi e ulteriori punti di incontro tra un sistema di valutazione concentrato sulla misurazione dei risultati e le forme specifiche, di natura organizzativa e didattica, che caratterizzano il sistema e le singole unità operative che lo compongono. 35
Esso infatti potrebbe permettere uno sviluppo più critico del metodo della ‘diffusione di buone pratiche’ allo stato attuale ancora troppo vicino alla semplice riproposizione di esperienze, di fatto decontestualizzate. 36 Questo aspetto potrebbe avere anche importanti conseguenze sulla definizione formale del ruolo dell’insegnante e quindi anche sulle sue condizioni giuridiche ed economiche.
24
Lo strumento testato si è dimostrato in grado di rispondere a una pluralità di esigenze, ma anche bisognoso di una guida che lo introduca nel contesto (sistema, rete, istituzione scolastica, singolo insegnamento). A seconda delle istruzioni che gli vengono date esso permette di identificare e raggiungere obiettivi conoscitivi interessanti i diversi livelli dell’organizzazione. I problemi emersi possono essere raccolti in questi capitoli: 1. necessità di uno specifico spazio operativo e di una specifica cultura della verifica/valutazione; 2. la presenza nel sistema di supporti tecnico-statistici forti; 3. disponibilità degli operatori, e in particolare dei docenti, a questo tipo di impegno; 4. continuità e stabilità della presenza dello strumento nel sistema. I punti significativi acclarati dalla ricerca possono essere così raccolti: 1. La scuola è rilevante relativamente al valore aggiunto della conoscenza. Tale dato sembra non tanto contrastare quanto integrare la classica affermazione che ci accompagna dalle ricerche di Coleman in poi secondo cui le quantità di conoscenze dipendono in misura poco rilevante dalla scuola. Nella nostra ricerca, infatti, non si è misurata la quantità della conoscenza, ma l’incremento della conoscenza (il VA). 2. Pur rilevando un rapporto specifico tra stile di insegnamento e incremento della conoscenza non appaiono facilmente riconoscibili i rapporti che giustifichino questo link. In altre parole, se l’insegnamento ha un’influenza, non riusciamo a dire quali sono le caratteristiche di un insegnamento che comportano questa conseguenza. 3. Il metodo adottato permette di integrare le prove aperte in un sistema di verifica oggettiva. 4. In conseguenza del fatto che il metodo di Rasch si fonda sulla costruzione di una griglia rigida (un metro che misura il contesto), i riferimenti delle prove si presentano necessariamente come espressione di competenze trasversali. Appare quindi possibile usare lo strumento anche per testare competenze trasversali. 5. Il rapporto dello strumento statistico con la didattica in atto può di conseguenza variare a seconda del livello (istituzione, rete, sistema) in cui lo strumento stesso è collocato e dell’esistenza di un più o meno forte rischio di ‘teaching/learning to the test’ e della correlata esigenza/volontà di minimizzarlo. In maniera molto sintetica potremmo dire che in quanto inerenti uno strumento di valutazione di sistema le scelte adottate nella ricerca presentano sicuramente un alto interesse tanto sul piano metodologico quanto nella significatività dei dati ottenuti. Più articolato pare invece il giudizio ricavabile relativamente agli aspetti di
25
raccordo fra prove di verifica e didattica in atto, intendendo per didattica in atto quel complesso di scelte che, partendo da un complessivo quadro organizzativo, conducono all’atto concreto dell’insegnamento inteso come proposta di contenuti di apprendimento. Testiamo conoscenze o competenze? E competenze attraverso quale tipo di conoscenze, di natura scolastico-disciplinare o anche diversamente acquisite37? La percezione netta che le prove stesse, a differenza di quanto avviene ad esempio con le prove gestite dall’Invalsi, riguardino di fatto competenze trasversali rende meno significativa l’esigenza di raccordo con la didattica in atto, raccordo che, tra l’altro, porta sempre con sé l’inconveniente di sollecitare un effetto di ‘teaching/learning to the test’38. Un altro aspetto importante in questo tipo di prove appare invece chiarito. Nella prospettiva metodologica adottata le prove aperte sembrano compiutamente inseribili in un sistema di valutazione oggettiva. Non solo in ragione di un problema di costi questo inserimento appare possibile solo riconoscendo la competenza del correttore tra le mansioni ordinarie di un insegnante ‘esperto’. Si apre qui una prospettiva molto rilevante relativa ai mutamenti della professionalità e del ruolo dell’insegnante che potrebbe emergere da questa strada, se imboccata con decisione e coerenza. Sullo sfondo della ricerca condotta, e della riflessione indotta sullo specifico punto trattato in questa parte del report, si stagliano le due forti coppie antinomiche che sottendono il dibattito in corso sulla crisi dei sistemi scolasticoformativi dei Paesi occidentali, e quindi anche dell’Italia. La prima coppia è espressa da un atteggiamento psicologico che oscilla tra la convinzione dell’onnipotenza e quella dell’impotenza della scuola rispetto anche solo alle domande e ai bisogni di conoscenza, senza però riuscire ad ancorare l’oscillazione del pendolo tra i due estremi alla forza di gravità costituita dai dati obiettivi caratterizzanti oggi il sistema scolastico-formativo. La seconda coppia esprime la antitesi tra il bisogno di dare le ragioni delle scelte compiute per l’educazione e l’insegnamento (dicibilità) da un lato e la percezione di una specificità assoluta dell’azione dell’insegnante (ineffabilità) dall’altro. Questo scontro, irrisolto, produce la coesistenza di due opposte immagini dell’insegnante: una, sul piano della razionalità - e quindi anche dei percorsi formativi iniziali -, esaurita nella sua capacità di padroneggiare formalmente 37
Come è noto le prove previste dall’Ocse–Pisa tendono a connettere il dato dell’apprendimento con il contesto di utilizzazione, stabilendo così una distanza tra curricoli e prova. 38 Dato che è certamente inimmaginabile che un sistema di verifica/valutazione complesso come quello proposto copra tutti (o la maggior parte) degli insegnamenti impartiti e se si intende evitare il costituirsi, almeno di fatto se non di diritto, di un core curriculum dominante rispetto a tutti gli altri insegnamenti - di norma L1 e matematica, cui si vorrebbe aggiungere scienze ed eventualmente L2, mentre in questa linea di ricerca si avanzava la candidatura della storia parrebbe opportuno che, almeno a livello di sistema, non si proceda a verificare la crescita delle competenze facendo riferimento ad uno specifico insegnamento, ma piuttosto assegnando questo compito a prove specifiche in grado di testare le competenze. Abbandonare la prospettiva di prove disciplinari comporta ovviamente la rinuncia ad ottenere risultati che testino accanto alla adeguatezza delle competenze acquisite anche specifiche conoscenze.
26
l’azione didattica; l’altra, sul piano dell’esperienza in atto, esaurita dalle dinamiche relazionali ed emotive. L’inserimento di un rinnovato sistema di verifica/valutazione oggettivo, lungi dall’essere – come paventato dai più – uno strumento di controllo ‘disciplinare’, può in realtà rappresentare una non facilmente sostituibile occasione per il rinnovamento della professionalità – e quindi del ruolo e, conseguentemente, dello status giuridico ed economico – degli insegnanti italiani, cui però essi devono positivamente aderire.
1.2 La verifica come elemento di sistema 1.2.1 Teoria del Capitale Umano e obiettivi del sistema di istruzione e formazione I Ministri dell’Istruzione dei Paesi aderenti all’OCSE, riuniti a Parigi nel 1990 (il 13 e 14 novembre) a riflettere sulle nuove sfide ormai presenti sul piano economico e sociale in un mondo in rapidissimo cambiamento, individuarono concordemente nell’istruzione di qualità il volano per la crescita economica e lo sviluppo sociale e civile degli Stati, riconoscendo nel capitale umano il punto d’attracco da privilegiare. Non più, pertanto, una “scuola di massa” impegnata all’inclusione e all’integrazione, ma piuttosto una scuola capace di offrire “una istruzione e una formazione di alta qualità per tutti” e tesa allo sviluppo del capitale umano individuale inteso come “l’insieme delle risorse individuali e delle conoscenze acquisite messe in campo per elaborare teorie, progetti, soluzioni e iniziative, in una dimensione di interazione sociale e in un sistema di mutue relazioni” (Onorato Grassi, 2004). Questo approccio privilegia la dimensione interattiva dell’individuo che investe risorse per acquisire informazioni, utilizza queste informazioni per produrre nuova conoscenza e socializza queste conoscenze per il progresso della società di cui è partecipe. Il mercato del lavoro è lo strumento che permette a ciascuno di tramutare informazioni acquisite e conoscenze prodotte in benefici economici quantificabili a livello personale e sociale, nonché di specializzare il proprio bagaglio culturale. Tuttavia, l’utilizzo di detto strumento è vincolato al rispetto di alcune regole – più o meno formali – che ne limitano l’età minima di accesso e richiedono a ciascun individuo di poter offrire competenze ed abilità immediatamente spendibili, oltre alla capacità di apprendere sul campo. Inoltre, nella presente società post-industriale ed altamente specializzata, l’ingresso di un individuo nel mercato del lavoro è anche condizionato dalla sua capacità relazionale e di networking, ossia dalla sua capacità di entrare in contatto con i soggetti che hanno effettivamente bisogno delle competenze che questi può offrire. In questo senso, dunque, il successo economico di ciascun individuo – nonché l’apporto individuale che questi può dare al progresso sociale – dipendono largamente dalla provenienza e dalle modalità di produzione delle abilità e
27
conoscenze a disposizione di ciascuno al momento in cui questi accede al mercato del lavoro. I genitori, l’influenza dei pari, le capacità individuali e la scolarizzazione sono solo alcuni dei fattori che contribuiscono allo sviluppo delle abilità e del capitale umano individuale, tuttavia la scuola occupa un posto speciale perché può essere direttamente influenzata dalle politiche pubbliche e ciò induce ad enfatizzarne particolarmente il ruolo. L’approccio testé presentato – e condiviso da numerose analisi autorevoli (Hanushek & Locheed (1994), Glenn (2003), Bishop & Woessman (2002), Hirsh (1996), Hanushek&Raymond (2004), Gori (2004)) – postula che la responsabilità necessaria, sebbene non necessariamente sufficiente, della scuola sia quella di trasmettere abilità, conoscenze, competenze e capacità relazionali per sviluppare il capitale umano degli studenti. Tale approccio è altresì in linea con la normativa internazionale che insiste su quattro finalità fondamentali dell’istruzione, ossia il completo sviluppo della personalità umana, con i suoi talenti ed abilità;39 la salvaguardia e allargamento del rispetto per i diritti umani e per le libertà fondamentali;40 il dare a ciascun individuo la possibilità di divenire un membro attivo della società,41 e la promozione della comprensione, tolleranza e amicizia tra tutte le nazioni, e tra tutti i gruppi etnici, razziali e religiosi.42 Le quattro direttive ora indicate, poi, possono essere ulteriormente dettagliate sottolineando come l’istruzione abbia un ruolo fondamentale per: -
la trasmissione del patrimonio culturale;43 lo sviluppo dei valori nazionali;44 i contributi allo sviluppo socio-economico della comunità;45 lo sviluppo di un senso di responsabilità morale e sociale;46 lo sviluppo di competenze e capacità di giudizio critico;47 lo sviluppo del rispetto per l’ambiente naturale.48
39
art. 26 comma b della Dichiarazione Universale dei Diritti dell’Uomo, art. 13 comma 1 del Patto Internazionale sui diritti Economici, Sociali e Culturali, art. 29 comma 1 della Convenzione sui Diritti del Fanciullo, art. 2 e 12 comma 2 e 4 della Convenzione Americana sui Diritti dell’Uomo. 40 art. 55 dello Statuto delle Nazioni Unite, art. 26 comma 2 della Dichiarazione Universale dei Diritti dell’Uomo, art. 13 comma 1 del Patto Internazionale sui diritti Economici, Sociali e Culturali, art. 29 comma 1.b della Convenzione sui Diritti del Fanciullo 41 art. 13 comma 1 del Patto Internazionale sui diritti Economici, Sociali e Culturali, principio 7 della Dichiarazione sui diritti del Fanciullo, art. 29 comma 1.d della Convenzione sui Diritti del Fanciullo, art. 12 della Dichiarazione Americana sui Diritti e Doveri dell’Uomo, art. 12 comma 1 della Convenzione Americana sui Diritti dell’Uomo. 42 art. 26 comma b della Dichiarazione Universale dei Diritti dell’Uomo, art. 13 comma 1 del Patto Internazionale sui diritti Economici, Sociali e Culturali, principio 10 della Dichiarazione sui diritti del Fanciullo, art. 29 comma 1.d della Convenzione sui Diritti del Fanciullo. 43 Principio 7 della Dichiarazione sui diritti del Fanciullo, art. 12 comma 7 della Convenzione Americana sui Diritti dell’Uomo. 44 art. 29 comma 1.c della Convenzione sui Diritti del Fanciullo, art. 4 della Convenzione Americana sui Diritti dell’Uomo. 45 art. 12 della Dichiarazione Americana sui Diritti e Doveri dell’Uomo, art. 2 e 12 comma 1 della Convenzione Americana sui Diritti dell’Uomo. 46 Principio 7 della Dichiarazione sui diritti del Fanciullo, art. 12 comma 4 della Convenzione Americana sui Diritti dell’Uomo. 47 Principio 7 e 10 della Dichiarazione sui diritti del Fanciullo
28
A livello politico, l’utilizzo dello strumento-istruzione per favorire lo sviluppo del capitale umano individuale comporta la necessità di definire le conoscenze, competenze ed abilità di cui si auspica il raggiungimento per gli studenti e, sebbene la creazione di quasi mercati dell’istruzione abbia, in Paesi diversi, seguito percorsi diversi, l’elemento distintivo di questo processo è necessariamente l’identificazione di alcuni indicatori (di efficienza, efficacia, equità) attraverso cui poter monitorare le performance del sistema e degli agenti. In particolare, uno degli indicatori necessari è quello di standard contenutistici di riferimento a livello nazionale, regionale o – perlomeno – locale. La garanzia del raggiungimento degli standard e la necessità di socializzare i risultati raggiunti, sta portando ad un ripensamento della struttura del Sistema-scuola, tanto in termini di meccanismi di comunicazione tra Sistema e stakeholder, quanto in termini di interazioni tra i diversi agenti del sistema, ovvero le istituzioni scolastiche. In particolare, in linea con lo sviluppo della filosofia del new public management, si è sviluppata una nuova concezione del ruolo dello Stato, incentrata sul ridimensionamento dell’intervento diretto - principi di sussidiarietà verticale ed orizzontale - e sull’utilizzo del sistema di finanziamento e della valutazione come leve per la creazione di valore pubblico. Il modello di «governo a distanza», generatore di quasi-mercati nell’istruzione, sottolinea l’autonomia istituzionale della scuola, ma soprattutto la centralità dei sistemi di accountability per la responsabilizzazione degli attori nell’utilizzo di crescenti margini decisionali e di azione strategica.
1.2.2 Modello di governance e sistema di valutazione: un problema di scelta Negli USA, la ricerca degli standard può esser fatta risalire agli inizi degli anni novanta, con l’individuazione dei cosiddetti Goals 2000, una serie di obiettivi che l’istruzione americana avrebbe dovuto raggiungere entro l’anno 2000. Gli standard sarebbero stati “nazionali,” ma non “federali;” ossia non sarebbero stati decisi dal governo federale, ma da un ampio processo che si sarebbe ampiamente basato su esperti in ciascuna area del curriculum. Gli Stati avrebbero potuto liberamente adottare o modificare detti standard e, collaborando, avrebbero sviluppato i test in base ai quali considerare gli studenti e le scuole responsabili dei risultati ottenuti. Tuttavia, come rivela un’attenta indagine, “pochi amministratori statali si erano curati di indicare chiaramente ai distretti che la verifica della performance degli studenti avrebbe, da allora in avanti, sostituito, il blando monitoraggio del passato” (Schwartz e Robinson 1999, 20) e ciò ha catalizzato l’attenzione della categoria docente e dei media sull’aspetto di controllo del sistema, impedendone un suo utilizzo come strumento per il miglioramento delle performance. Per quanto riguarda l’Italia nella sua posizione di Stato-membro dell’UE, il documento di riferimento è sicuramente il “Programma di lavoro dettagliato sul follow-up circa gli obiettivi dei sistemi di istruzione e formazione in Europa” (che 48
art. 29 comma 1.e della Convenzione sui Diritti del Fanciullo
29
si trova nella Gazzetta ufficiale delle Comunità europee 2002/C 142/01 del 14.6.2002), che, nell’ambito dell’Obiettivo strategico 1, individua le “competenze chiave” per la società della conoscenza: Lettura, scrittura e calcolo; Competenze di base in matematica, scienze e tecnologia; Lingue straniere; Competenze nel settore delle TIC e uso della tecnologia; Apprendere ad apprendere; Competenze sociali; Spirito d’impresa; Cultura generale. L’osservazione delle dinamiche legate alla definizione degli standard nei diversi paesi richiede una verifica degli strumenti a disposizione di ciascun attore per poter influenzare le performance degli studenti verso gli obiettivi prefissati. In termini di articolazione e sviluppo dell’offerta, la crescita esponenziale delle dimensioni del sistema, unitamente al fatto che il raggiungimento di un primo obiettivo minimo – quello dell’alfabetizzazione – permette di cominciare a parlare di sviluppo del capitale umano e di strumenti per permettere a ciascuno di esplicare al meglio il proprio potenziale, impone immancabilmente allo Statogestore un aggravio impossibile da sopportare. In tal senso, dunque, è lecito leggere il principio di sussidiarietà, e la sentenza 13/2004 della Corte Costituzionale sul caso Emilia-Romagna, come un movimento che, dalla “libertà dalla scelta,” riporta l’individuo in una condizione di “libertà di scelta.” Per quanto riguarda la legislazione italiana esistente, il punto di partenza è la legge 53/03, Delega al Governo per la definizione delle norme generali sull’istruzione e dei livelli essenziali delle prestazioni in materia di istruzione e formazione professionale. L’epigrafe deriva dalla applicazione del nuovo assetto costituzionale di cui alla legge costituzionale 3/01 ed individua nella legge 53/03 il punto di riferimento sia per quanto riguarda la definizione delle norme sull’istruzione nel suo complesso, sia per l’individuazione dei livelli essenziali delle prestazioni che i servizi scolastici e formativi devono garantire su tutto il territorio nazionale.49 La legge, dunque,50 garantisce ai fruitori del servizio che vi sono alcuni livelli di prestazione al di sotto dei quali le istituzioni scolastiche – oggi autonomie per precetto costituzionale – non possono scendere. In particolare, per la scuola dell’infanzia si osserva che “l’ordinamento degli obiettivi specifici di apprendimento… ha soltanto lo scopo di indicare i livelli essenziali di prestazione (intesi qui nel senso di standard di prestazione del servizio) che le scuole pubbliche della Repubblica sono tenute in generale ad assicurare ai cittadini per mantenere l’unità del sistema educativo nazionale di istruzione e di formazione…”. Il medesimo concetto viene ribadito anche per la scuola primaria e per la scuola secondaria di primo grado.51 49
L’articolo 117, infatti, attribuisce allo Stato legislazione esclusiva per quanto riguarda le “norme generali sull’istruzione” e la “determinazione dei livelli essenziali delle prestazioni concernenti i diritti civili e sociali che devono essere garantiti su tutto il territorio nazionale” (punti m ed n). 50 ed il D. Lgs. 59/04, applicativo della legge per quanto concerne la scuola di base. 51 Per la scuola primaria, infatti, si nota che “le tabelle degli obiettivi specifici di apprendimento hanno lo scopo di indicare con la maggiore chiarezza e precisione possibile i livelli essenziali di prestazione (intesi qui nel senso di standard di prestazione del servizio) che le scuole pubbliche della Repubblica sono tenute in generale ad assicurare ai cittadini per mantenere l’unità del sistema educativo nazionale di istruzione e di formazione…”.
30
Come si vede, le citate disposizioni non permettono necessariamente di dipanare il problema degli standard in quanto, da una parte, obbligano l’istituzione a fornire un servizio con certe caratteristiche ma, dall’altra, non identificano parametri misurabili per stabilire se detto servizio sia stato svolto adeguatamente. Di scarso aiuto è l’art. 3 della medesima legge 53 sulla Valutazione degli apprendimenti e della qualità del sistema educativo di istruzione e di formazione, né il decreto legislativo attuativo della legge 53/2003 relativo alla "Istituzione del Servizio Nazionale di Valutazione del sistema di istruzione e di istruzione e formazione nonché riordino dell'Istituto nazionale per la valutazione del sistema dell'istruzione". Se, infatti, le disposizioni propongono l’Istituto Nazionale per la Valutazione del Sistema di Istruzione come il gestore del Servizio nazionale di valutazione esterna, i cui risultati saranno a disposizione del Governo, del Parlamento e del Paese, non si chiarisce il rapporto tra gli standard testati ed i livelli essenziali (auspicati), né quale sarà l’utilizzo dei risultati delle indagini. In questa situazione gli aspetti più economico-organizzativi del sistema scolastico nazionale risultano quanto mai indefiniti. Da una parte, infatti, l’autonomia istituzionale della scuola e l’esistenza di un servizio di valutazione esterno delle performance sono elementi che prospettano la creazione di quasi mercati nell’istruzione di tipo anglosassone in cui l’accountability è l’elemento cruciale per la responsabilizzazione degli attori locali nell’utilizzo di crescenti margini decisionali e di azione strategica. Tuttavia, la non completa definizione dello strumento e la scarsa chiarezza su quale sia l’oggetto della misura impedisce di utilizzare efficacemente lo strumento. Questo, in gran parte, è un problema di governance in quanto il modello adottato dai paesi anglosassoni presuppone l’esistenza di un potere regolatore che definisca a livello centrale le “regole del gioco” e gli standard di riferimento, ma che lasci alle stesse istituzioni scolastiche il compito di occuparsi degli aspetti organizzativi e gestionali in un contesto di diritto privato. Ciò permetterebbe alle istituzioni scolastiche di operare in un mercato decentrato, esercitando la propria autonomia decisionale ed essendo direttamente responsabili delle loro scelte nei confronti del sistema e del singolo stakeholder che, in presenza di informazioni oggettive sulla qualità dell’offerta e quindi, nello specifico, sulla qualità della scuola, potrebbe attivamente esercitare la propria libertà di scelta. Compito del sistema di valutazione è, quindi, quello di produrre dette informazioni tenendo presenti due principi: 1.
2.
Stato ed individuo sono soggetti di natura diversa che, necessariamente hanno bisogno di informazioni diverse, di livello “macro” il primo, di livello “micro” il secondo, In quanto responsabile delle caratteristiche essenziali del sistema lo Stato deve comunque avere a propria disposizione indicatori efficienti e validi
Egualmente, per la scuola secondaria di primo grado “le tabelle degli obiettivi specifici di apprendimento hanno lo scopo di indicare con la maggiore chiarezza e precisione possibile i livelli essenziali di prestazione (intesi qui nel senso di standard di prestazione del servizio) che le scuole pubbliche della Repubblica sono tenute in generale ad assicurare ai cittadini per mantenere l’unità del sistema educativo nazionale di istruzione e di formazione…”.
31
per tracciare la via in termini di contenuti e principi attorno ai quali modellare il sistema stesso.
1.2.3 Informazione e sistema Coerentemente con questi principi, la presente ricerca ha prodotto due risultati fondamentali. Il primo è quello di identificare il momento di verifica come produzione di informazione necessaria per la gestione del servizio, tanto a livello di singola istituzione, quanto a livello sistemico. Il secondo è quello di lavorare nella direzione dello sviluppo di uno strumento di valutazione imperniato sulla “didattica in atto”, ovvero uno strumento che, pur essendo in grado di produrre le suddette informazioni, in termini pratici si configuri come qualcosa di non diverso dal quotidiano impegno scolastico e permette agli insegnanti di percepire concretamente l’azione di supporto che può derivare dalla valutazione. In questo paragrafo, in particolare, si soppesa il contributo della ricerca per la produzione di informazioni per la gestione dell’intero sistema. I successivi due paragrafi, invece, osservano il problema dell’informazione dal punto di vista degli agenti del sistema. La possibilità di gestire il sistema in autonomia – implementando i meccanismi di sussidiarietà verticale precedentemente delineati – dipende dalla disponibilità di informazioni affidabili sull’effettivo funzionamento delle diverse unità che compongono il sistema. Queste informazioni sono fondamentalmente indicatori di input e output del sistema che vengono raccolti o dal circuito amministrativo (numerosità di scuole, insegnanti, servizi a disposizione degli studenti, numero di studenti…), o utilizzando strumenti di valutazione (promozione a corsi successivi, test…). Il soggetto gestore del sistema – definito Principale – si relaziona con ed interviene su gli agenti del sistema in base ai risultati che questi ultimi ottengono negli indicatori suddetti. Nello specifico, l’attività di valutazione, in particolare a partire dagli anni ’90, si è mossa lungo due versanti: da un lato ha riguardato le principali performance del sistema scolastico (indicatori/parametri di riferimento: popolazione scolastica in ordine all’obbligo scolastico, ai diplomati delle scuole medie superiori, ai laureati in rapporto all’età e in tassi di percentuale sul taglio demografico; spese/investimenti in istruzione-formazione in generale e per alunno pro-capite; rapporto formazione/formazione professionale/occupazione…), dall’altro rilevazioni circa gli apprendimenti degli alunni. Questi due versanti sono presenti sia a livello nazionale ( cfr. Education at a glance con dati che riguardano i Paesi aderenti all’OCSE, compresa l’Italia, le indagini OCSE-PISA e l’indagine IEA-Timms sui livelli di apprendimento degli alunni; o indagini specifiche tipo l’indagine S.I.A.L.S. sulla competenza alfabetica) sia a livello nazionale con modelli diversi. Per l’Italia opera l’Istituto per la Valutazione del Sistema dell’Istruzione, ma non mancano sistemi di valutazione a carattere territoriale (cfr. il Comitato provinciale di valutazione del sistema scolastico della Provincia Autonoma di Trento, della Regione Val d’Aosta e della Provincia di Bolzano).
32
Gli indicatori generalmente utilizzati (soprattutto in quanto facilmente ottenibili), però, forniscono al principale informazioni relative agli input introdotti nel sistema o informazioni sugli output limitatamente alle valutazioni degli insegnanti sui propri alunni. Informazioni di questo tipo sono soggette ad una duplice limitazione: -
Non sono comparabili su scala nazionale in quanto dipendono dalla discrezionalità del valutatore (ovvero dell’insegnante) che definisce gli obiettivi specifici da testare, nonché il contenuto e la struttura delle prove. Inoltre, l’agente – ovvero l’insegnante – è l’unico soggetto che conosce direttamente gli studenti e che dunque gode di un vantaggio informativo rispetto al soggetto gestore che ha a propria disposizione solo informazioni di tipo sintetico sulle quali, tuttavia, deve prendere decisioni anche di tipo finanziario valevoli per l’intero sistema. Queste limitazioni ingenerano una situazione di incertezza in cui vi è il rischio che l’agente sfrutti la propria posizione di vantaggio informativo inviando al principale un’informazione distorta sul proprio comportamento e condizionandone le decisioni, ad esempio circa il mantenimento del rapporto con l’agente. Tradotto in termini pratici, il rischio è che, date le conseguenze, per esempio di tipo finanziario, legate alle performance nei vari indicatori, l’agente modifichi artificialmente i propri risultati modificando strategicamente i propri criteri di valutazione e ponendo, per esempio, dei limiti al numero di studenti che può essere bocciato. Queste modifiche, da una parte, migliorano il risultato relativo dell’agente stesso e dunque la sua possibilità di ottenere finanziamenti o altri incentivi ma, d’altra parte, deviano l’attenzione dell’agente dagli obiettivi definiti come cruciali nel primo paragrafo e qui riassumibili nello sviluppo delle conoscenze e competenze degli studenti. Se la discrezionalità concessa all'agente fa crescere il rischio che questi possa perseguire obbiettivi diversi da quelli assegnati dal principale, un controllo troppo stringente sull'operato dell'agente finirebbe però per svuotare di significato la delega che anche in Italia, al di là delle zone d’ombra ancora presenti, è l’obiettivo dell’autonomia di funzionamento delle istituzioni scolastiche (legge 59/1997, art, 21 e D.P.R. 275/1999), chiamate a progettare curricoli di istruzione/formazione secondo indicazioni del Ministero valide per tutto il territorio nazionale con un piano dell’offerta formativa che risente delle caratteristiche del territorio e dei bisogni degli allievi, piano strutturato da un lato alla luce dei contributi, anche economici, di Enti e realtà locali, dall’altro lungo processi formativi intenzionalmente tesi a ottimizzare specificità e diversità, elevando condizioni di istruzione e di formazione in relazione ai nuovi complessi bisogni. La ricerca “dalla differenza, l’equità”, come suona con più chiarezza la sottodenominazione “misurare gli apprendimenti disciplinari nella scuola dell’autonomia”, trova collocazione nel fascio di iniziative di ricerche tese a “conoscere” i livelli di apprendimento degli studenti in determinate materie e settori disciplinari, nel taglio sia di una valutazione sommativa (= con funzione di certificazione nei confronti del mondo esterno alla scuola o nei “passaggi”
33
d’ordine longitudinale o orizzontale da una classe all’altra o da un tipo di scuola ad un altro) sia di una valutazione formativa (= intimamente legata al processo e alle pratiche educative, pur senza il vincolo causa-effetto deterministicamente segnato nel rapporto insegnamento-apprendimento). A dire il vero l’attenzione si è concentrata maggiormente sulla valutazione sommativa, chiedendo, nell’intreccio tra accountability e assessment (responsabilità/rendicontazione/valutazione), informazioni/conoscenze sugli apprendimenti degli alunni sulla base di misure il più possibile oggettive e confrontabili nel tempo e nello spazio. Come approfondito nel secondo capitolo, questi dati, che emergono da una verifica degli apprendimenti operata con strumenti idonei, in un determinato tempo e in uno spazio circoscritti (regioni scolastiche, realtà nazionali o internazionali) possono essere letti come “monitoraggio di risultati”, come “pagina di certificazione” di uno studente, ma anche come elementi base per la costruzione di indicatori di performance a livello di classe, scuola e oltre, utili nelle conferme ma anche nelle disconferme in ordine a indicatori nazionali (quali sono le misure prodotte – in Italia – prima attraverso i vari Progetti-Pilota dell’INVALSI, e ora attraverso il Servizio Nazionale di Valutazione, oppure – a livello internazionale – l’azione di monitoraggio/controllo dell’OFSTED per la Gran Bretagna o dell’INCE per Spagna) o a indicatori internazionali di quadro a tagli periodici (cfr. quanto emerge dalle grandi rilevazioni internazionali quali il progetto TIMSS dello IEA o il progetto PISA dell’OCSE/OECD). Nel nostro caso, intanto, facendo tesoro delle indicazioni che sono emerse, ed emergono, dalle ricerche che privilegiano una valutazione sommativa e da quelle che fanno leva sulla valutazione formativa, l’approccio scelto è stato quello noto come “misura del valore aggiunto”. Nel misurare l’efficacia della scuola si è guardato, infatti, agli obiettivi di tipo cognitivo alla fine di un dato periodo di istruzione (area disciplinare: italiano, matematica, storia), una verifica, diciamo così, allo stato puro, con il dato di un apprendimento scorporato dalle caratteristiche proprie dello studente e dal suo background. In questo modo è possibile misurare sugli apprendimenti l’effetto dell’istituzione scuola e delle singole classi e operare una comparazione in maniera equa tra le scuole coinvolte nella rilevazione. Questo approccio, tuttavia, trova, nel nostro specifico, una forte variante nella verifica che si muove anche, per le stesse aree disciplinari, per le stesse classi, scuole e allievi, in osservazioni relative agli outcome cognitivi scaglionate nel tempo in senso longitudinale, tenendo conto anche dei modelli di crescita. Ne deriva, in qualche modo, nuova luce sull’efficacia dell’azione degli insegnanti e sul peso che sugli apprendimenti viene riconosciuto all’istituzione scolastica nel suo complesso, alla sua organizzazione intera, alla ricchezza o meno sul piano delle attrezzature didattiche, ai suoi rapporti con le realtà di territorio, al clima che vi si respira. Una pagina che molto attende da ricerche di questo tipo.
34
1.2.4 Informazione ed Agenti del Sistema Il modello di valutazione proposto nella ricerca, tuttavia, è elemento di sistema non solo in quanto potenziale strumento di regolazione, ma anche, e per alcuni versi forse soprattutto, in quanto servizio per gli agenti del sistema. Non è possibile non tenere conto che un sistema di valutazione (locale, nazionale, internazionale) non può “utilizzare” scuole e insegnanti come “terminali” di un processo costruito “altrove”, anche in considerazione che, almeno nel nostro Paese, non sembra ci sia un accordo sufficientemente ampio – e la relativa conoscenza – intorno alle “parole” che sono usate quando ci si riferisce ai problemi della valutazione. A questo proposito, indicatori nazionali/internazionali (il pensiero va in particolare a Lisbona 2000 e/o alle implicazioni della legge 53/2003, più nota come legge Moratti), controllo, monitoraggio, accertamento, misurazione, verifica, valutazione…, per non parlare degli strumenti oltre quelli tradizionali di tema/riassunto/parafrasi/traduzione/problema/interrogazione, sono il segno della percezione da parte di molti di leggere il vasto capitolo della valutazione. Gli insegnanti e le scuole grazie alla ricerca hanno toccato con mano che verificare gli apprendimenti vuol dire dare alla scuola percorsi oggettivi di conoscenza per poter funzionare con maggiore efficacia, adottando con tempestività i cambiamenti ritenuti necessari e rendendo di pubblico dominio il lavoro di tutti gli operatori e le difficoltà che l’istituzione si trova ad affrontare, senza porre tra parentesi il quadro comparativo che i dati permettono di avere presente. Informazione ed Autovalutazione. La ricerca, che mira ad approfondire i problemi legati allo sviluppo di un sistema di monitoraggio e di valutazione delle attività delle scuole, con particolare riferimento agli apprendimenti nell’ambito di alcune materie di studio (italiano, matematica, storia), per produrre indicatori utili per informare i policy maker, i leader scolastici e gli insegnanti stessi circa i fattori su cui fare leva per migliorare l’efficacia della scuola rispetto agli obiettivi educativi considerati, va collocata nell’ambito delle ricerche che guardano al sistema-scuola come ad una realtà non sostituibile. I promotori e gli attori della ricerca sono della convinzione che “lo sviluppo dell’istruzione e dell’educazione (sia) una condizione sine qua non, del progresso economico, sociale e culturale” e che il sistema formativo “sia chiamato a far fronte a compiti nuovi ed estremamente complessi: nuovi, perché la scuola per la prima volta, nella sua storia, è chiamata a preparare gli allievi per una vita e per un domani piuttosto sconosciuto; complessi, perché la scuola si trova ad operare in condizioni sempre diverse e in una stagione caratterizzata dallo sviluppo dell’informazione, dalla crescente mobilità in ordine al lavoro, dal peso della scienza e della tecnica, dalla presenza sempre più invadente dei media e dall’aumento del tempo libero a disposizione, ma anche attraversata dalla degradazione della natura e dell’ambiente, dalle malattie legate alla civilizzazione, dal crescere della delinquenza giovanile…”. Da qui le sfide del XXI secolo, proprio mentre ogni Paese è impegnato non solo a guardarsi dentro, ma anche a tener conto di quanto accade altrove. La competitività, in fondo, passa anche
35
attraverso conoscenze e informazioni e i soggetti si rendono conto che nelle “competenze comunque acquisite” risiedono gran parte delle opportunità per non vivere esperienze frustranti, e non solo nel mondo del lavoro, ma anche nella quotidianità socio-politica e culturale. Centrali, pertanto, diventano le politiche formative e forti tornano ad essere i consensi per la crescita del capitale umano, nella considerazione che l’investire in istruzione e in educazione non può portare a “sùbiti guadagni” o a “rapidi profitti”, ma “è indispensabile produrre coscienza della necessità di investire a lungo termine” e di guardare alla persona come “valore in sé” e come “risorsa”, e che le riforme, specialmente quelle che concernono la formazione, nella loro radicalità, vanno coniugate in termini di partecipazione e di coinvolgimento diretto dei diversi attori interessati, avendo a guida il principio che gli uomini sono uguali se ciascuno ha nel concreto le opportunità di condurre una vita conforme alle proprie scelte liberamente decise nella diversità/equità ritmate da competenze, talenti, preferenze e visioni del mondo che vanno valorizzate e non tradite. Risulta evidente, pertanto, nell’ambito della ricerca, anche con lo spostamento d’asse che si è verificato (al di là della centralità che viene riconosciuta al sistema di istruzione e di formazione nei vari Paesi, gli investimenti risultano piuttosto lontani dalle necessità, mentre sempre forte è l’attenzione all’efficacia e all’equità del servizio in considerazione dell’autonomia delle istituzioni scolastiche) una sostanziale contraddizione tra quanti guardano prevalentemente al sistema formativo in un taglio negativo che con accenti diversi sembrano vogliano riproporre le tesi dei descolarizzatori (il giudizio negativo sul sistema formativo sembra sia diventato un “adagio” dell’opinione pubblica) e quanti nel considerarlo insostituibile chiedono un servizio migliore anche in considerazione della crescita della popolazione scolastica e di una domanda di istruzione sempre più qualificata. Questo ha portato con sé la necessità di cominciare a guardare alla valutazione non come un momento esterno al processo di formazione, ma come una necessità interna ad esso capace di rendere leggibile le pagine di insegnamento e di apprendimento nella loro organizzazione, nelle loro motivazioni, nella loro scrittura. La valutazione, in definitiva, come occasione non solo di verifica degli apprendimenti che vengono accertati, ma anche come momento di riflessione sui contenuti scelti, sui processi e sulle attività messe in atto, sulla natura degli alunni e, in definitiva, sull’istituzione scolastica nel suo complesso (dagli spazi ai tempi, dai dirigenti al personale docente e non docente). La valutazione, quindi, anche come specchio delle pratiche educative e come “informazione/conoscenza” per “ripensarle” o, una volta lumeggiato “ciò che torna” e “ciò che non torna” operare nella direzione di un miglioramento. Senza dimenticare che l’uguaglianza delle opportunità di formazione costituisce più un traguardo che un punto di partenza e che non sono gli allievi, nella varietà delle situazioni che presentano, che sono chiamati (=obbligati) ad adattarsi alla scuola, ma è la scuola che, considerando le difficoltà connesse all’adattamento come percorso di formazione per le finalità educative e gli obiettivi che le sono propri, ha il dovere di condurre tutti, in differenza ed equità, agli apprendimenti ritenuti irrinunciabili.
36
Lontana, pertanto, dalla ricerca/dalle ricerche “sconfortanti” alla J.S. Coleman e alla vasta letteratura sociologica della seconda metà del XX secolo, si sta muovendo una ricerca che, attenta all’efficacia e all’efficienza del sistema formativo (basti pensare agli sviluppi degli studi si economia dell’istruzione), si preoccupa di analizzare più approfonditamente la relazione tra processo formativo, pratiche educative da un lato e successo educativo dall’altro, che è poi il segno che connota l’efficacia dei primi. Il piano degli apprendimenti, quindi, come opera della scuola; e gli accenti da porre sulla qualità dell’istruzione e sull’individuazione di quei fattori che la rendono possibile. Dagli studi sull’efficacia, sull’efficienza agli studi su ciò che rende possibile l’efficacia, l’efficienza, il successo educativo. Da qui il passaggio alla costruzione di un sistema di controllo inteso non come un sistema fiscale, ma come lago di acque limpide e trasparenti nel quale la scuola (e in essi gli insegnanti, gli allievi – ma anche i genitori, le varie realtà politiche ed economiche -) possono specchiarsi, perché in un “gioco” di comparazione possano “leggere” ciò che va e ciò che non va e, con procedimenti di riflessione, e conseguenti decisioni in chiave di rafforzamento, correzioni, cambiamenti, operare le scelte necessarie ciascuno per quello che gli compete. La produzione di misure oggettive sul progresso delle conoscenze e competenze degli studenti quali quelle prodotte nella ricerca in oggetto prefigura la possibilità reale di fornire agli insegnanti degli strumenti e dei punti di riferimento per confrontare i livelli di apprendimento degli alunni della propria classe rispetto a quelli delle classi parallele della propria scuola, e a quelli delle classi parallele delle scuole che, in un certo modo, fanno sistema a livello locale o regionale o nazionale, in una rete di collaborazione stabile, verticale e/o orizzontale, in modo da costruire un modello equilibrato ed attento alle varie specificità. Tale sistema permetterebbe non solo di rendere trasparente la produttività delle scuole, ma anche di aprire il vaso di Pandora di quello che, qua e là, non torna per intervenire e provvedere al miglioramento della scuola, rendendo anche un buon servizio agli insegnanti per la loro crescita professionale. Questo passo della verifica degli apprendimenti costituisce nell’ambito della ricerca il tassello centrale, da tenere presente nelle varie pagine che lo configurano, di un sistema di valutazione delle istituzioni scolastiche alla cui costruzione danno un contributo attivo gli stessi operatori della scuola, in particolare gli insegnanti, che risultano essere disponibili, nella rottura del cerchio della chiusura e dell’autoreferenzialità, a rendere conto del proprio operare attraverso un ente terzo (processo di autovalutazione) e insieme sensibili a guardarsi dentro per riflettere e mettere in atto quanto eventualmente necessario per migliorare la propria azione didattica e quindi la linea della propria professionalità (processo di riflessione e di autovalutazione). Informazione e leadership. Come successivamente approfondito da Paletta e Scagliotti, poi, la disponibilità di misure oggettive sul progresso delle conoscenze e competenze degli studenti è un’informazione di cruciale importanza anche per i dirigenti scolastici che, a tutti gli effetti, sono i gestori della singola istituzione autonoma. In particolare, i dirigenti scolastici sono i soggetti in ultima analisi
37
responsabili dell’efficacia della scuola che, come recentemente sostenuto da Scheerens (2000), “rappresenta il grado con cui le scuole raggiungono i loro obiettivi primari”, e anche se, come lo stesso autore osserva “…dietro di essa sta una considerevole complessità, in quanto possono essere individuati differenti obiettivi primari e differenti meccanismi causali attraverso cui le scuole influiscono sugli studenti”52, questa definizione di efficacia ha “un carattere generale”, si applica a qualsiasi obiettivo si scelga e costituisce un punto di partenza necessario per superare l’autoreferenzialità che sembra caratterizzare oggi il sistema scolastico. Per questo, nel caso dei dirigenti è fondamentale poter distinguere tra le “cause” che determinano l’apprendimento attinenti l’azione della scuola e quelle invece esterne alla scuola stessa. Infatti, le ricerche sull'uguaglianza di fronte all'istruzione evidenziano la necessità di misurare l'apprendimento disciplinare degli studenti in relazione alle loro caratteristiche d'ingresso. Per questa ragione è importante porsi l’obiettivo di pervenire a misure del valore aggiunto attribuibili all'azione della scuola. Tale risultato consentirebbe, tra l’altro, una migliore comparazione tra scuole inserite in contesti socio-economici differenti. In questo modo, attraverso la misura dei risultati di apprendimento, è possibile avere per via indiretta indicazioni utili anche sui processi, cioè sull’efficacia delle azioni didattiche in merito al raggiungimento dei risultati. In questo approccio, il momento della valutazione esterna dei singoli istituti, attraverso una verifica degli apprendimenti in relazione agli standard minimi razionalmente fissati, si presenta come funzione essenziale di garanzia, trasparenza e sostegno al processo decisionale, sia per la legittimazione delle risorse umane e materiali investiti, sia per favorire la scelta delle famiglie nella direzione dell’istituzione che ritengono essere la migliore per i propri figli, sia per le garanzie che il mondo della produzione e del lavoro richiedono. Questo non vuol dire abbandonare le ricerche tese a valutare l’efficacia e l’efficienza della scuola per poi contestarne ruolo e funzione nella società e continuare a proporre tesi di descolarizzazione, ma piuttosto da altra angolazione ad aprire il discorso sugli aspetti negativi e su quelli positivi per puntare al miglioramento dell’efficacia dell’istituzione scuola che, come di nuovo delineato dallo Scheerens (1996, p. 94), “rappresenta il grado con cui essa, sulla base di un management competente, limitando gli sforzi inutili, nell’ambiente più o meno complesso in cui opera, gestisce l’organizzazione e le condizioni ambientali al fine di ottenere, attraverso il processo di trasformazione caratteristico dell’organizzazione, gli output attesi dagli stakeholder”.
1.2.5 Conclusioni: verso un ripensamento del sistema-scuola Il sistema formativo formale, quindi, si sta avvicinando molto lentamente, e non senza qualche difficoltà, ad un assestamento nel segno dell’autonomia funzionale 52
Tra l’altro, proprio la concordanza dei vari soggetti in gioco (insegnanti, studenti, famiglie, governo ecc.) su tali obiettivi costituisce uno dei presupposti per il funzionamento efficace delle scuole (Scheerens, 2000).
38
vista come principio regolatore, sia sul piano dell’organizzazione didattica delle singole istituzioni scolastiche, sia su quello dei servizi offerti in risposta alle domande di formazione che emergono dai territori in cui sono collocate, mentre, con qualche vischiosità in più, si va assestando anche l’organizzazione dell’amministrazione centrale e periferica del sistema. Fermi restando gli impegni a perseguire finalità educative e a realizzare obiettivi formativi in risposta ad esigenze di carattere nazionali (cfr. le indicazioni del Ministro) e sopranazionali (cfr. “i parametri di riferimento europei per l’istruzione e la formazione” segnati in partenza dal Consiglio europeo di Lisbona del marzo 2000), l’autonomia non porta con sé connotazioni di chiusura dell’istituzione scolastica su se stessa, ma piuttosto quelle di apertura verso l’esterno nella costruzione del dialogo e delle relazioni orizzontali con i soggetti e gli Enti presenti sul territorio, a partire da quelle realtà che sono le famiglie degli utenti, interessati allo sviluppo della cultura, della ricerca scientifica e delle tecnologie dell’informazione e della comunicazione e soprattutto alla ricaduta che tutto questo ha sulla natura del lavoro e sulle professioni dei singoli individui. La ricerca “Dalla differenza, l’equità. Misurare gli apprendimenti nella scuola dell’autonomia” ha riletto queste sollecitazioni tramutandole in un percorso di lavoro e di ricerca. L’avere tracciato un percorso non è cosa da poco. Ma ancora più importante è la massa di informazioni, l’insieme di strumenti, i dati di riferimento che resta a disposizione di tutte le scuole della Regione Lombardia. Si tratta di materiali destinati ad essere incrementati e di percorsi che vanno perfezionati. Non vanno enfatizzati i vuoti e le pecche che pure – né poteva essere altrimenti, tenuto conto che le ricerche non sono deterministicamente segnate – sono emersi, ai quali la “riproposizione” della ricerca sarebbe chiamata a porre rimedio, ma piuttosto i nuovi modelli di verifica degli apprendimenti che sono stati delineati con lo scopo anche di supportare l’ambizioso progetto legato all’autonomia delle istituzioni scolastiche per un sistema scolastico non più autopoietico e autoreferenziale. Accanto così alle rilevazioni legate ai sistemi di valutazione internazionali o a quello di valutazione nazionale, potrebbe prendere corpo un sistema di valutazione “locale” connotato a procedure tese a verificare gli apprendimenti non solo in termini assoluti o relativi, ma anche nella direzione di quelle osservazioni e di quelle riflessioni utili agli insegnanti e ai dirigenti scolastici per migliorare l’azione dell’istituzione nella direzione della qualità dell’istruzione e della formazione offerta nel segno dell’efficacia e dell’efficienza, e renderla, quindi, comparativamente “più appetibile” di un’altra.
39
Capitolo 2
Una nuova prospettiva di ricerca
2.1. Quale “Qualità”? Il ruolo dello stato e dei governi nell’Educazione è tema di intenso dibattito e di ricerca (Glenn & de Groof, 2003). Recentemente questo dibattito si è focalizzato sulla questione della Qualità. Va subito evidenziato che il termine Qualità può essere riferito ai “processi”, oppure ai “risultati”. Ovviamente la Qualità dei processi è funzionale alla Qualità dei risultati: non si deve dimenticare infatti che, anche nei processi industriali e produttivi - dove il termine Qualità pervade ormai tutta l’attività di un’azienda (non per nulla si parla di Qualità totale) - tale concetto fa la sua prima comparsa come Qualità del prodotto53. Il “prodotto” è l’obiettivo fondamentale che permette all’azienda di svolgere la sua funzione di soddisfacimento dei bisogni della società e degli individui. Sarebbe pertanto un po’ azzardato, e fine a se stesso, parlare di “Qualità di processo” senza avere definito primariamente il concetto di “Qualità del prodotto”. Purtroppo si deve evidenziare che là dove il risultato (o prodotto) del processo è difficilmente misurabile (come nell’educazione) si è spesso tentati di saltare a piè pari l’aspetto della Qualità del prodotto andando direttamente ad occuparsi di Qualità di processo. Questo errore appare diffuso in Italia (De Rosario, 200254). 53
Ovvero Controllo di Qualità (cfr. Gori e Vittadini, 1999) …” l’Italia appare un caso particolare, dato l’importante sviluppo dell’approccio alla garanzia di qualità di tipo ISO come condizione per l’esercizio dell’attività di formazione. Ciò che è specifico dell’istruzione è costituito dai suoi risultati (“learning outcomes”), che dipendono dal progetto educativo dell’organismo di formazione. Tale progetto mira sia all’adeguamento delle competenze alle esigenze del mercato del lavoro sia allo sviluppo delle persone nel quadro di un percorso di formazione lungo tutto l’arco della vita, che include periodi di attività e di inattività. La relazione sulla visita-laboratorio nel Regno Unito evidenzia che alcuni modelli di qualità sono più idonei di altri a sviluppare la qualità nell’IFP: “The emphasis of Self-evaluation development in Investors in People and EFQM business excellence model probably enables VET providers to fit better than ISO 9000 with current approaches to quality insurance”.”
54
In un tale errore tuttavia non sono state indotte le principali ricerche internazionali sui sistemi educativi che, ispirandosi al buon senso comune, hanno individuato come Qualità del prodotto il livello raggiunto dagli studenti nelle competenze base (logico-matematiche, linguistiche e scientifiche) alle diverse età, misurate attraverso test che garantiscono la comparabilità nel tempo e nello spazio (cfr. OCSE e TIMMS). Studi nell’ambito dell’economia dell’istruzione e del capitale umano, che si basano sui dati raccolti nell’ambito di queste ricerche internazionali, hanno evidenziato come i livelli nelle competenze di base costituiscano il più importante obiettivo dei sistemi educativi (Hanushek & Kimko, 2000; Unesco, 2005). Da qui la rilevanza dei Sistemi di Valutazione dei risultati in termini di competenze acquisite, che vanno anche sotto il nome di “Sistemi di Accountability” (Gori, 2003).
2.2. Quale Assetto istituzionale per l’Istruzione? La ricerca recente (Bishop & Woessmann, 2001) ha mostrato che i sistemi scolastici in cui si da molta importanza al controllo - in forma pubblica e comparabile attraverso test - dei risultati e degli standard raggiunti dagli studenti, sono caratterizzati da livelli di Qualità più elevati, specie in presenza di un alto grado di autonomia delle scuole nella gestione delle risorse e dei programmi di insegnamento. Questi sistemi appaiono inoltre più efficaci nel fare crescere la Qualità, di quelli caratterizzati esclusivamente da politiche di aumento indiscriminato di risorse (Hanushek, 2003), e di puro controllo dei processi secondo standard predefinti55, senza particolare riferimento ai risultati (Bishop & Woessmann, 2001). I modi in cui Sistemi di Accountability possono essere strutturati ed implementati sono tuttavia molto diversi. Inoltre gli studi comparativi (Glenn & de Groof, 2003) hanno evidenziato che i sistemi scolastici si differenziano tra loro per il diverso modo in cui vengono implementate le politiche di distribuzione delle risorse, quelle dell’autonomia scolastica, e quelle che fanno leva sulla libertà di scelta delle famiglie: il che porta direttamente al problema dell’Assetto Istituzionale dei sistemi educativi. Ne consegue pertanto che, i sistemi di Accountability - che in sostanza sono sistemi di produzione di informazione sui risultati - possono produrre effetti differenti in termini di Qualità, a seconda dell’Assetto Istituzionale in cui sono inseriti (Gori e Vidoni, 2005; Gori e Vittadini, 2005). Negli USA, ad esempio, accanto a stati in cui è assente ogni sistema di valutazione, troviamo altri in cui vengono rese pubbliche statistiche sui valori medi dei risultati degli studenti negli esami finali a livello di scuola (report card); oppure stati in cui esistono incentivi legati ai risultati 55
Siano questi imposti da regolamenti statali o da agenzie di controllo della Qualità (vedi norme ISO): si noti che l’Autonomia delle scuole, che dagli studi citati appare come il principale motore della Qualità (a condizione che il sistema dia importanza ai controlli sui risultati) è agli antipodi rispetto alla standardizzazione dei processi imposta dai regolamenti, o dalle norme ISO.
42
ottenuti dagli studenti56. Come evidenziano le ricerche di Hanushek e Raymond (2004) la risposta del sistema scolastico, in termini di Qualità, è molto differente. Per cui esiste ampio spazio per la ricerca volta ad individuare il mix ideale degli aspetti - Valutazione (ovvero produzione di informazione), - Risorse (regole di allocazione ed incentivi), - Autonomia (libertà di gestione delle risorse e dei processi), - Libertà di scelta da parte delle famiglie e l’interazione tra questi57 al fine di migliorare costantemente la Qualità della scuola e del sistema educativo nel complesso. Ed è su questo aspetto che è incentrata la riflessione seguente, volta ad individuare alcune possibili alternative per indirizzare le politiche di riforma dell’assetto istituzionale del sistema educativo italiano. Anche se le considerazioni qui svolte hanno una valenza del tutto generale.
2.3. Gli aspetti critici della Valutazione A fronte di molte evidenze e voci a favore dell’implementazione di Sistemi di Valutazione vi esistono alcuni argomenti critici (Dolton, 2002) da cui è necessario sgombrare il campo prima di lanciarsi negli aspetti più propositivi. Tali argomenti, da un lato vanno ridimensionati nella loro portata negativa, e dall’altro meritano maggiore attenzione al fine di costruire Sistemi di Valutazione più efficaci e più vicini agli insegnanti e agli studenti. I più importanti sono i seguenti (Gori, 2003): a) spesso si sente argomentare, in senso negativo, che i livelli di apprendimento nelle competenze di base rappresentano solo uno dei diversi obiettivi della Scuola e del sistema educativo; b) altre critiche ben note alle misure basate sui test nelle competenze di base, sono legate alla questione della loro debolezza con riferimento ad importanti aspetti della teoria della misurazione: i test sarebbero costruiti in modo da avvantaggiare certi ragazzi o gruppi sociali, e non sarebbero “validi” ed “affidabili”58 perché non consentono di tenere conto di informazioni importanti riguardanti le dimensioni che 56
In Italia la sperimentazione basata sui Progetti Pilota ha inaugurato un sistema che si basa su valori medi dei risultati delle scuole e delle classi accessibili ai soli insegnanti direttamente interessati e ai dirigenti scolastici. Quindi una sorta di report card coperte dalla privacy. Certe scuole possono infatti decidere di farsi “pubblicità” utilizzando questi risultati. 57 Basti pensare ad esempio ad assetti che diffondendo l’informazione sulla Qualità delle scuole alle famiglie, le mettano al contempo in grado di trasferire risorse da una scuola all’altra, attraverso l’iscrizione dello studente. 58 Per una trattazione dei concetti di “Validità” e “Affidabilità” si rinvia a Gori e Vittadini (1999), tuttavia questi verranno ripresi oltre nel testo.
43
si vogliono misurare (competenze logico-matematiche, linguistiche ecc.) come invece, altri tipi di prove, quali componimenti scritti, prove orali ecc.; c) ulteriori critiche derivano dalle conseguenze negative che possono derivare allorquando questi risultati sono utilizzati per determinare conseguenze sulla carriera scolastica del singolo studente e/o su quella degli insegnanti. La peggiore di queste risiederebbe nel fatto che gli studenti e/o docenti concentrerebbero l’attenzione sul mero superamento/insegnamento dei test stessi a detrimento della formazione più completa (Learning/Teaching to the test).
2.3.1 Contro argomentazioni e soluzioni: A) Per quanto riguarda il punto A) ci sono almeno due solidi argomenti in favore di sistemi di Valutazione che risultino confinati al monitoraggio delle competenze di base. Il primo risale a John Stuart Mill e presenta elementi di modernità impressionante alla luce delle odierne società multi-razziali e multiculturali: “to prevent the State from exercising through these arrangements (exams), an improper influence over opinion, the knowledge required for passing an examination (beyond the merely instrumental parts of knowledge, such as languages and their use) should ... be confined to facts and positive science exclusively” (Mill,1806–73). Il secondo argomento, di carattere più tecnico, vede due importanti teorie portare elementi in favore dell’opportunità che i sistemi di Valutazione si limitino, almeno per il momento, alle competenze di base: la teoria della misurazione e la teoria economica. Per quanto concerne la teoria della misurazione, poiché la Valutazione deve potersi avvalere di misure “oggettive” e “valide” della “qualità” la loro costruzione deve soddisfare uno dei più importanti requisiti di questa teoria (Messick, 1989): ovvero quello della “validità esterna”. La soddisfazione di tale requisito impone che la misura creata mostri di essere correlata, in maniera statisticamente significativa, giustificabile dal punto di vista teorico, e con una certa stabilità nel tempo e nello spazio, con qualcosa che sia unanimemente riconosciuto come oggettivo e valido. Con riferimento alla teoria economica, l’Educazione è un investimento volto ad accrescere il Capitale Umano (Gori, 2004) e, sotto questo profilo, solo i risultati nei test nelle competenze di base – tra i diversi indicatori che sono stati costruiti al fine di monitorare i sistemi educativi – hanno dimostrato fino ad oggi di essere correlati con fenomeni (indubbiamente oggettivi e validi) quali l’occupazione, il reddito, la possibilità di accumulare ulteriore capitale umano (ad esempio di continuare con successo gli studi) e lo sviluppo economico (Hanushek e Kimko, 2000)59. Queste sono alcune delle ragioni per le quali è opportuno che l’attenzione della Valutazione si concentri per il momento sulle competenze di base della scuola primaria e secondaria, senza per questo escludere la possibilità che la misurazione 59
Ovviamente sarà utile, in futuro, valutare la presenza ed il tipo di correlazione anche con aspetti quali la salute e la qualità della vita.
44
degli apprendimenti possa estendersi anche a competenze più specifiche e relative a livelli di studi più avanzati, nella misura in cui tali competenze riguardino, secondo Mill ”facts and positive science exclusively”60.
2.3.2 Contro argomentazioni e soluzioni: B) Con riferimento al punto B), ciò che non è molto noto alla maggioranza delle persone coinvolte a vario titolo nelle questioni Educative e della misurazione della Qualità, è che ci sono scuole di pensiero differenti riguardo al modo in cui costruire misure valide ed oggettive di dimensioni latenti, quali le competenze logico-matematiche, linguistiche ecc.. Più in generale misure di dimensioni latenti, importanti in settori nei quali ancora non esistono misurazioni riconosciute come oggettive ed affidabili. Tra queste la scuola di pensiero che fa capo al matematico danese Georg Rasch, basa la sua teoria e il suo lavoro sulla definizione di Oggettività Specifica (Rasch, 1968, 1977). Tale concetto rappresenta una definizione matematicamente rigorosa del più intuitivo concetto di “oggettività”, di uso comune. Un fatto interessante in questo senso, scarsamente noto anche in ambito scientifico, è che tutte le misure di fenomeni uni-dimensionali, come il peso, la distanza, la temperatura e così via, sulle quali la scienza ha basato il suo successo nella spiegazione dei fenomeni fisici e naturali61, soddisfano la definizione introdotta da Rasch62. Questo significa che ogni nuova misura relativa a dimensioni non ancora “misurate” - o credute ”non misurabili” - che voglia essere considerata oggettiva al pari di quelle in uso nelle scienze naturali, deve soddisfare la definizione di Oggettività Specifica (Gori et al., 2005). Sotto questo punto di vista la via indicata da Rasch non costituisce “una delle possibili opzioni per analizzare i risultati di un test”, ma costituisce l’unica via scientificamente valida per creare misure oggettive in quei settori della scienza – tipicamente le così dette scienze umane - che ancora non sono assorti alla dignità e al riconoscimento proprio delle scienze fisiche e naturali e che, proprio sulla possibilità di avvalersi di “vere” misure oggettive hanno basato il loro successo. In questo senso si dimentica spesso che anche tali misure sono il frutto di una lunga ricerca da parte dell’umanità nell’ambito di fenomeni (come la temperatura, od il peso) che per lungo tempo hanno rappresentato qualcosa di misterioso e altrettanto “qualitativo” (cioè non misurabile) di fenomeni come la “motivazione”, la “competenza linguistica” o altra entità più o meno astratta (in quanto non ancora oggettivamente misurabile). L’eredità di Rasch sta nel metodo da seguire per costruire misure oggettive e nella speranza di poter costruire tali misure anche in ambiti che fino ad oggi sono stati ritenuti non misurabili e per questo, relegati al campo - minore sia come 60
Interpretare questo requisito come nozionismo sarebbe facile, ma senza dubbio Mill aveva in mente qualcosa di meno banale e riduttivo. Le competenze da acquisire da parte di una futuribile intelligenza artificiale un po’ evoluta potrebbero rendere forse l’idea? 61 Non a caso la branca della scienza che sfrutta tal misure è quella delle così dette scienze fisiche e naturali, in opposizione alla branca delle scienze umane. 62 http://www.rasch.org/memo18.htm
45
dignità che come finanziamenti - delle scienze umane. Ai nostri fini la definizione di Oggettività Specifica esclude a priori la possibilità che un test possa essere considerato oggettivo se avvantaggia certi studenti o gruppi sociali. Tale aspetto costituisce proprio uno dei maggiori settori di sviluppo della ricerca nella costruzione di test, selezionati e validati secondo la metodologia di Rasch (Gori et al., 2005). Inoltre la metodologia di Rasch è l’unica che possa utilizzare (nel rispetto del principio di Oggettività Specifica), anche informazioni come i giudizi conseguiti da un soggetto in una prova scritta od orale, ai fini della misurazione di competenze, assieme agli usuali test a risposta multipla (Linacre, 1989; Gori et al., 2005),. Con riferimento alla questione della Validità Esterna, la metodologia di Rasch presenta poi un ulteriore vantaggio rispetto ad altri approcci, che consiste nella possibilità di ottenere misure del grado di incertezza delle entità stimate (detto errore standard della misura). Questa informazione è cruciale per calcolare correttamente le correlazioni e, attraverso queste, giudicare il grado di validità esterna delle misure costruite. E’ infatti ben noto (anche se spesso dimenticato: cfr. Rogosa, 1995) che la correlazione tra due quantità θ (per esempio l’abilità in una qualche competenza) e Y (per esempio il reddito, o qualsiasi altra variabile misurata senza errore), quando θ è misurata con errore63, risulta sottostimata (attenuata) in maniera tanto maggiore quanto maggiore è la variabilità dell’errore della misura. In tal modo eventuali giudizi sulla validità esterna della misura rischiano di portare a concludere che questa non è valida in quanto la correlazione è giudicata, erroneamente, statisticamente non significativa64. Dal punto di vista formale la situazione è la seguente: se si indica con θ n la competenza latente dello studente n nella dimensione, o costrutto sotto esame, e con θˆn = θ n + ε n , la sua stima, dove ε n è l’errore di misura, il modello di Rasch produce stime sia di θˆ che di Var (ε n θ n ) , utilizzando le risposte ai diversi n
item del test come una sorta di misure ripetute sullo stesso individuo. In questo senso è possibile introdurre l’indice di affidabilità delle stime costituito da: Var (θ n ) ρ θˆ = N (1) Var (θ ) + 1 Var (ε θ ) .
()
n
N
∑
n =1
n
n
Questo indice è di importanza fondamentale al fine studiare le correlazioni tra θ (la competenza nel caso specifico) e altre variabili quali il genere, lo stato socioeconomico, il contesto e via dicendo. Come Rogosa (1995) ha dimostrato, la correlazione osservata tra una variabile casuale osservata senza errore, Wn , e θˆn ,
63
Cosa che accade sistematicamente in tutti i campi, anche se con un minore grado per le scienze naturali e maggiore per quelle umane. 64 E’ ad esempio questo il caso del voto di maturità e di laurea che di recente ha cominciato a mostrare scarsa relazione con la probabilità di occupazione. Strano che, poi, si dia a tale voto un valore legale!
46
( )
ρ W ,θˆ , deve essere divisa per la radice quadrata dell’indice di affidabilità al fine ottenere una stima non distorta della vera correlazione ricercata
ρ (W ,θ ) =
( ) ρ (θˆ )
ρ W ,θˆ
65
Molti studi che non tengono esplicitamente conto della presenza di errori di misura possono portare dunque a conclusioni del tutto errate. Tra questi, ad esempio, proprio quelli che cercano di individuare le ragioni della diversa Qualità, misurando il ruolo della scuola e della classe (oltre che dei fattori socioeconomici) nella crescita delle competenze, anche detti modelli di “valore aggiunto”. Tipicamente (Aitkin e Longford, 1986) tali studi postulano che il livello di competenze al tempo 2 sia funzione del livello delle competenze al tempo 1 e di variabili socio-economiche e di contesto, del tipo:
θ ij (t 2 ) = α + β ⋅ θ ij (t1 ) + γ ⋅ xij + u j + eij , (2)
E (u j θ , x ) = 0, V (u j θ , x ) = σ u2 , E (eij u , θ , x ) = 0, V (eij u , θ , x ) = σ e2 ,
indipendenti dove i è l’indice dello studente e j quello della classe (o della scuola) a cui lo studente appartiene; θ ij (t1 ) e θ ij (t 2 ) è il livello delle competenze in due momenti successivi; xij un vettore di caratteristiche dello studente e della sua famiglia; u j il contributo alla crescita derivante dal fatto di appartenere alla classe
j; mentre eij rappresenta la parte non spiegata, o errore del modello. Ora, ciò che spesso si dimentica è che sia θ ij (t1 ) che θ ij (t 2 ) sono osservabili solo con errore. Questo ha due conseguenze principali: a) l’effetto di θ ij (t1 ) può risultare sottostimato (come nel caso dell’attenuazione della correlazione) e ciò può produrre una distorsione anche nella stima dell’effetto degli altri fattori esplicativi: tipicamente la distorsione implica una sovrastima dell’effetto dei fattori positivamente correlati con θ ij (t1 ) (quali le condizioni socio-economiche), ed una sottostima di quelli negativamente correlati con θ ij (t1 ) 66.
65
Analogamente, se si desidera stimare la correlazione tra due variabili latenti, relative a due
(θ ( ) ,θ ( ) ), ad ρ (θˆ( ) ,θˆ( ) ) . ρ (θ ( ) ,θ ( ) ) = ρ (θˆ( ) )ρ (θˆ( ) )
dimensioni,
1 n
2
n
1
1
esempio come le competenze matematiche e linguistiche,
2
2
1
2
66
Mano a mano che l’errore di misura cresce l’effetto distorsivo è paragonabile a quello che si verifica in situazioni di variabili esplicative non inserite in un modello di regressione.
47
A questo problema si può in parte ovviare in maniera semplice quando si disponga di due misure espresse sulla stessa scala67. Infatti se si costruisce la differenza Δ ij (t1 , t 2 ) = θ ij (t 2 ) − θ ij (t1 ) , anziché al modello (2) si può fare riferimento al modello (detto Gain model:cfr. Rogosa, 1995): Δ ij (t1 , t 2 ) = α + γ ⋅ xij + u j + eij (3)
E (u j x ) = 0, V (u j x ) = σ u2 , E (eij u , x ) = 0, V (eij u , x ) = σ e2 , indipendenti
Ora, tenuto conto che in realtà si osserva la seguente relazione (4) anziché la (3) di cui sopra: (4) (Δ ij (t1 , t 2 ) + (ε ij (t 2 ) − ε ij (t1 ))) = α + γ ⋅ xij + u j + eij + (ε ij (t 2 ) − ε ij (t1 )) assumendo l’indipendenza degli errori di misura (a media zero) con le altre componenti del modello, e indicando con σ ε 2 −ε1 la varianza della differenza degli errori, l’altra conseguenza negativa derivante dalla mancata considerazione degli errori di misura è che: 2
ρ=
σ u2 σ u2 + σ e2 , che misura la parte
b) l’usuale indice di correlazione intraclasse di variabilità della crescita (o valore aggiunto) dovuta alla classe, contiene al 2 denominatore, anche la varianza σ ε 2 −ε1 della differenza degli errori ε ij che
σ u2 affligge la stima di θ ij (t 2 ) , ovvero ρ = 2 , per cui tale indice σ u + σ e2 + σ ε2 −ε *
2
1
σ u2 ρ = tende ad essere più basso di quello che si vorrebbe calcolare σ u2 + σ e2 . Pertanto tutti gli studi che non tengono conto degli errori di misura tendono a sottostimare sistematicamente l’effetto della classe sulla crescita delle competenze. Di seguito si riportano i valori del coefficiente di correlazione intraclasse ottenuti da modelli del tipo (3) che non considerano la presenza di errori di misura, e di modelli di tipo (4) che invece considerano la presenza degli errori di misura68, applicati ai dati derivanti dalla presente ricerca che ha coinvolto qualche migliaio di studenti e diverse centinaia di classi nella scuola secondaria inferiore e superiore. Come si vede la differenza è notevole e dipende dal livello di affidabilità delle stime delle competenze.
67
Il modello di Rasch è un punto di riferimento fondamentale anche per la costruzione di misure con queste caratteristiche (Wright & Stone, 1979). 68 In questo secondo caso il denominatore del coefficiente di correlazione intra-classe è al netto della varianza della differenza degli errori di misura.
48
Tabella 2.1 - Coefficiente di correlazione intraclasse al lordo e al netto degli errori di misura nei modelli di valore aggiunto per la Matematica (modello gain) Dalla I alla Dalla III Dalla III alla Dalla I alla Dalla I alla II Tec. alla IV IV Liceo II minf II Liceo Prof. Tec. Prof.
Indici Affidabilità (formula (1)) Lordo errore di misura (modello (3) Netto errore di misura (modello (4))
rho (modello senza esplicative) rho (con esplicative) rho (modello senza esplicative)) rho (con esplicative)
0.51
0.47
0.48
0.66
0.58
0.23
0.31
0.46
0.31
0.58
0.24
0.32
0.45
0.33
0.60
0.46
0.44
0.52
0.47
0.76
0.45
0.46
0.55
0.51
0.76
La sottostima del coefficiente di correlazione intra-classe rischia di sviare l’attenzione da quello che intuitivamente, ed empiricamente69, costituisce forse il più importante fattore determinante delle competenze medesime, ovvero l’effetto della classe, che risulta molto più importante della condizione socio-economica. Ritenuto invece, nell’immaginifico collettivo e in molti ambienti scientifici, il fattore “predominante”. Qui bisogna richiamare la distinzione tra due concetti fondamentali in statistica: la significatività di un parametro relativo ad un fattore esplicativo, presente in un modello di regressione, e la parte di variabilità spiegata da tale fattore: con il primo termine si saggia se il parametro sia statisticamente diverso da zero, con il secondo si misura invece l’importanza del fattore nello spiegare le differenze osservate. Quando un fattore, come lo stato socioeconomico, fosse statisticamente significativo, ma dovesse spiegare solo il 10% della varianza delle competenze, questo vuol dire che ci sono altri fattori che spiegano il 90% della variabilità osservata. In questo contesto le politiche volte alla rimozione delle differenze dovute ai fattori sociali sarebbero in grado di ridurre la variabilità solo del 10%: questo sarebbe giusto se l’altro 90% fosse dovuto al caso, o a fattori sui quali non è possibile influire. Purtroppo (o meglio per fortuna), nel caso dell’istruzione, non è così. A tale riguardo, nella figura 2.1, si riporta la quota % di variabilità del livello delle competenze logicomatematiche70 e della crescita (modello (4)), spiegata da fattori socioeconomici71, relative al citato studio condotto nella regione Lombardia, assieme ai coefficienti di correlazione intra-classe (Snijeders & Bosker, 1999) corretti per la varianza dell’errore di misura.
69
Non solo sulla base dei risultati di queste recenti ricerche empiriche sulla Lombardia, ma anche dal lavoro di Rowan et al. (2002) e Goldhaber (2002)
71
Il genere dello studente, il fatto che viva o no con entrambi i genitori, la presenza di fratelli e/o sorelle, la nazionalità, il titolo di studio del padre e della madre, il numero di libri presenti in casa: tutti i fattori che le ricerche internazionali evidenziano come rilevanti (cioè statisticamente significativi).
49
Figura 2.1- variabilità del livello e della crescita delle competenze logico-matematiche Variabilità del livello e della crescita delle competenze logico-matematiche, spiegata dai fattori socioeconomici e dalla classe 16 14 12 10 8 6 4 2 0
4 tecpr
3 tecpr
4 liceo
3 liceo
2 tecpr
1 tecpr
2 lic
1 lic
2 msup
2 minf
1 msup
8.5 1 minf
% di variabilità del livello Y(t) nelle competenze logicomatematiche spiegata da fattori socio-economici
5
% di variabilità della crescita Y(t)-Y(t-1) nelle competenze logico-matematiche spiegata da fattori socio-economici
4 3
2.8
2 1 0 Medie inf
Biennio Liceo
Biennio tecprof
T riennio Liceo
T riennio tecprof
Biennio tecprof
T riennio Liceo
T riennio tecprof
56.8
Medie inf
Biennio msup
Biennio Liceo
100 80 60
56.6
40 20 4 tecpr
3 tecpr
4 liceo
3 liceo
2 tecpr
1 tecpr
2 lic
1 lic
2 msup
1 msup
0 2 minf
% di variabilità del livello Y(t) nelle competenze logicomatematiche, non spiegata da fattori socio-economici, dovuta alla classe (coeff. di correlazione intra-classe)
80 70 60 50 40 30 20 10 0
1 minf
% di variabilità della crescita Y(t)-Y(t-1) nelle competenze logico-matematiche, non spiegata da fattori socioeconomici, dovuta alla classe (coeff. di correlazione intraclasse)
Biennio msup
Come si può rilevare l’effetto delle variabili socio-economiche spiega, mediamente, l’8.5% della variabilità dei livelli delle competenze, e solo il 2.8% del valore aggiunto. Per contro il coefficiente di correlazione intra-classe si aggira attorno al 56.8% per quanto concerne il valore aggiunto. E anche nel caso del livello questo raggiunge una media del 56.6%, con valori che crescono da un anno al successivo in ragione del forte effetto della classe sul valore aggiunto. Questo evidenzia che quello che succede in classe può72, avere un ruolo fondamentale nella creazione di differenze tra i livelli di competenze dei ragazzi molto maggiore delle condizioni socio-economiche.
2.3.3 Contro argomentazioni e soluzioni: C) La questione dell’uso dei risultati del test (o nell’esame finale) al fine di decidere della carriera scolastica dello studente è certamente più complicata. Ma possiamo anche in questo caso fare appello al concetto di validità esterna. Se le misure in base a cui si prendono le decisioni che hanno delle conseguenze per lo studente posseggono tale proprietà, non dovrebbero esserci conseguenze negative per lo studente stesso, a condizione che l’assetto istituzionale in cui viene utilizzata l’informazione sia adeguato. Facciamo un esempio, e prendiamo come 72
A parte effetti distorsivi dovuti a selection bias.
50
riferimento il caso dell’uso a fini di ammissione all’università. Tale caso solleva la questione degli standard di entrata ai fini della prosecuzione (con profitto73) degli studi74. Sotto questo profilo, si può intuire come il rischio di non ammissione possa indurre lo studente a copiare o studiare solo per il test da superare. Tuttavia il dibattito recente nell’Università della California riguardante la “validità predittiva” del test SAT I75 (Saul & Studley, 2002) porta evidenza a favore del fatto che i sistemi di Valutazione dovrebbero produrre misure esternamente valide, cioè correlate con fatti importanti come il successo nella carriera scolastica, la capacità di acquisire competenze utili per il lavoro, la probabilità di occupazione, il reddito e così via. In questo senso se i sistemi di Valutazione, anziché imporre conseguenze sullo studente che non superasse un determinato test, si limitassero alla produzione e validazione esterna di misure oggettive nelle competenze di base, dando informazioni alla società e ai differenti attori riguardo alla correlazione tra queste misure e aspetti importanti della vita, nonché ai livelli soglia oltre i quali, o sotto i quali, si possa venire a determinare un elevato rischio di conseguenze negative, non si capisce perché dovrebbero verificarsi conseguenze negative in termini di learning to the test. Un po’ come nel caso dell’informazione che il sistema sanitario ci fornisce riguardo al peso corporeo, o ai livelli di colesterolo, e alla loro associazione con malattie cardiovascolari o altre conseguenze negative: nessuno ci impedisce di assumere cibo in maniera smodata (o di iscriverci all’università sulla base di un test copiato), ma dobbiamo essere coscienti che esiste una correlazione tra il livello di cibo assunto (livello di competenze in entrata) e la probabilità di lasciarci le penne (abbandonare o essere bocciati agli esami). Ovviamente qui è chiaro che la sostituzione delle “conseguenze” (non ammissione se non si supera il test) con il “consiglio” “guarda che se non raggiungi questo punteggio in questo test, che puoi sostenere in tutta comodità a casa tua quante volte vuoi, la tua probabilità di fallire gli esami sarà del 90%” deve essere veramente seguita dal fallimento, ove lo studente se lo meriti. Eliminare anche questa “conseguenza” rischierebbe di fare del sistema educativo un enorme diplomificio, privo di qualsiasi reale valore aggiunto in termini di capitale umano. Ed è un po’ questo il rischio connesso ai meccanismi di finanziamento vigenti in ambito universitario, in cui il “rilascio del titolo” sta prendendo il sopravvento sulla creazione di competenze, aspetto la cui misurazione risulta del tutto trascurata. L’effetto in sostanza è paragonabile, nel lungo periodo, alla creazione di moneta senza corrispettivo in termini di beni prodotti (Woessmann, 2003).
73
Questo concetto rinvia ovviamente all’idea che nel tempo previsto si raggiungano altri standard, ovvero quelli di uscita (magari previsti per l’entrata nel mondo del lavoro?). 74 Che ovviamente sorge anche da un anno all’altro, anche se spesso non si vuole accettare questa idea pensando che il ragazzo possa “recuperare” prima o poi (non si sa bene come). 75 Cioè della sua validità esterna misurata attraverso la correlazione tra i risultati in tale test e gli esiti della carriera universitaria in termini di risultati ottenuti negli esami dopo l’ammissione.
51
2.4. I modelli multilivello nell’analisi dell’efficacia della scuola Uno strumento ampiamente utilizzato sia nell’ambito della Valutazione come metodo di controllo, o nell’ambito di ricerche sui livelli di competenze quali Ocse PISA o IEA Timms, è quello dei modelli multilivello76. Nel caso della Valutazione l’uso di questi modelli viene suggerito da coloro che, osservando che i livelli ad un certo istante di tempo possono dipendere anche dalle condizioni socio economiche e dai livelli di partenza dello studente, invocano una sorta di “depurazione” dalle condizioni pre-esistenti all’entrata in una scuola o classe, prima di esprimere un giudizio sull’efficacia di tale scuola o classe. Si veda il riferimento ad indicatori in condizioni ceteris paribus (cfr. Gori e Vittadini, 1999). I modelli multilivello sono inoltre ampiamente usati nell’ambito delle indagini OCSE PISA, ad esempio per misurare il grado di variabilità spiegata dai fattori sociali e dalle scuole, ed il possibile effetto di caratteristiche di sistema e/o della scuola sulle competenze dello studente. E’ con questi modelli che Bishop & Woessmann (2001) hanno rilevato l’effetto positivo sui livelli degli apprendimenti derivante dalla presenza di esami centralizzati e di autonomia delle scuole nei paesi partecipanti alle indagini internazionali. Prima di procedere oltre nell’argomentazione sarà tuttavia opportuno distinguere tra modelli che mirano a spiegare la variabilità dello stato (cioè del livello delle competenze) ad un certo istante di tempo (come nel caso delle indagini OCSE PISA) e i modelli di valore aggiunto utilizzati in alcuni sistemi di valutazione (Ballou et al., 2004) o nelle analisi dell’efficacia al fine di individuare i fattori determinanti la crescita (Gori, 2003).
2.4.1 La formalizzazione dello stato e della crescita attraverso un modello matematico Supponiamo di considerare le competenze acquisite ad un certo istante come il frutto di un processo di crescita che si svolge nel tempo. Evidenze empiriche a favore di questa idea sono fornite da recenti studi condotti in Australia (Rowe, 2005), dal grado dell’asilo nido fino al 11° anno di scuola (cfr. fig. 2.2).
76
L’autore è stato uno dei primi ardenti fautori di questa metodologia nell’ambito della valutazione dell’efficienza e d efficacia dei servizi pubblici (Gori, 1992; Gori e Vittadini, 1999), per cui le critiche che seguiranno al loro uso, non derivano da una aprioristico rifiuto di strumenti metodologici complessi.
52
Figura 2.2 – Distribuzione dello sviluppo delle abilità linguistiche in uno studi condotti in Australia (Rowe, 2005). Longitudinal Literacy and Numeracy Study (LLANS) LITERACY SCALE DESCRIPTION & NORMATIVE DISTRIBUTIONS
Angelico Jefferson Warra School of Excellence
Females Males
Note: The indicators listed on this side of the scale have been derived from the tasks completed in the LLANS assessments. Only a selected sample of these indicators has been used to describe developing achievement in literacy.
Recognises implied meaning in a short section of a simple written text. Reads with word-for-word accuracy, an unseen, illustrated reader with a narrative structure, varied sentences and a wide range of common vocabulary. Segments and blends to pronounce unfamiliar words correctly. Spells some common words with irregular patterns, eg., ‘Basket’. Controls content in writing, eg, selects specific details appropriate to the piece, or includes some explanations, opinions or reasons. Explains a story complication and resolution in a picture story book. Links images and text to construct meaning from own reading or listening. Reads with word-for-word accuracy, an unseen, factual early reader with a repetitive structure, varied content and some support from illustrations. Spells high frequency words with a range of patterns. Writes a piece that shows some overall coherence, eg, a sequence of events or a detailed list From own reading or listening, identifies and explains key events, and follows steps in procedures of a picture story book and early readers. Reads common words with difficult spelling patterns, eg, ‘because’. Spells some high frequency words with common patterns. Manipulates sounds in words, eg, swaps ‘m’ in ‘smell’ with ‘p’ to make ‘spell’. Joins simple sentences using conjunctions Offers simple explanations for a character’s behavior, and locates explicit details from own reading or listening to picture story books. Reads unseen early readers with moderate accuracy (ie, omissions or substitutions do not consistently maintain meaning of text. Writes simple sentences that are mostly readable using phonetically plausible spelling for most common words. Lists ideas with little elaboration.. After listening to a picture story book, includes several key aspects in a retelling. Reads simple common words. Identifies all the sounds in simple words. Writes one main idea with mostly recognisable words. Reads some very high frequency words. Recognises the same initial sounds in short words. Writes some recognisable words with spaces. Communicates some meaning in writing
LLANS Scale of developing literacy achievement
Writes a variety of simple sentences; selects and controls content of own writing. Listens to a text and infers the reason for an event without picture clues. Uses full stops and capital letters to separate sentences. Identifies the purpose of parts of a text (eg, glossary, caption).
Mean cohort achievement 9Oth % tile 75th % tile 50th % tile
Describes an event or gives a limited retelling after listening to a picture story book. Reads a single word label by linking to the illustration. Names and sounds many letters. Writes own name correctly.
25th % tile 10th % tile
Achievement of all students in the study
Describes the main idea in an illustration after listening to a picture story book. Identifies writing and distinguishes words and letters. Writes a string of letters or scribble. Locates the front of a picture story book. Identifies a word.
Australian Council for Educational Research
Il bambino entra per la prima volta nell’istituzione scolastica con un certo bagaglio di competenze (lettura, scrittura, logico-matematiche, scientifiche, lingua straniera ecc.) che in gran parte dipendono dalla famiglia di origine se il bambino non ha avuto altre esperienze formative. Considerato un certo tipo di competenza, indichiamo con θ (t 0 ) il livello iniziale il primo giorno di scuola. Successivamente potremo indicare con θ (t ) , con t > t 0 , il livello di competenze del bambino ad un qualsiasi istante di tempo t successivo a t 0 . L’evoluzione delle competenze si attua all’interno di un sistema educativo organizzato in cicli di studi: scuola primaria, scuola secondaria ecc. con durata differente da un paese all’altro. In certi paesi come il nostro, certi fattori che possono avere una rilevanza per la crescita, come gli insegnanti e la composizione della classe, si mantengono più o meno costanti durante l’anno (anche se ovviamente ci sono casi in cui gli insegnanti cambiano durante l’anno) e si mantengono tali per un determinato numero di anni, fino alla fine del ciclo di studi corrispondente. Nel caso del sistema educativo italiano, gli insegnanti e la composizione delle classi tendono a rimanere costanti negli anni dall’1 al 5 (Primaria di primo grado), 6-8 (Primaria di secondo grado), 9-10 (Biennio della Secondaria) e 11-13 (Triennio della Secondaria). E’ comunque importante, ai nostri fini, potere individuare un gruppo di appartenenza costituito dalla classe a cui afferiscono determinati insegnanti e gli stessi studenti per un periodo più o meno lungo. La figura 2.3 rappresenta una possibile situazione tipo, calibrata in particolare sulla scuola italiana, ma va considerato che altri paesi presentano organizzazioni differenti e questo può influire, come si vedrà, sui risultati delle analisi (un aspetto spesso non considerato nelle indagini internazionali).
53
Figura 2.3 – Organizzazione scolastica e crescita delle competenze individuali
Dalla figura 2.3 si rileva la presenza di 4 periodi formativi di differente lunghezza: il primo ha inizio al tempo t 0 e termina al tempo t1 per una durata pari a t1 − t 0 e così via. Il livello delle competenze dell’individuo è pari a θ (t 0 ) al
momento dell’inizio del primo periodo formativo, e risulta pari a θ (t1 ) alla fine di tale periodo che corrisponde, anche all’inizio del secondo77. La variazione delle competenze risulta pari a Δ(t 0 , t1 ) = θ (t1 ) − θ (t 0 ) = δ 1 ⋅ (t1 − t 0 ) e la quantità δ 1 rappresenta il tasso di variazione medio nell’intervallo (t 0 , t1 ) . Analogamente
δ 2 , δ 3 , δ 4 rappresentano i tassi di variazione medi negli altri 3 periodi: come si
può osservare dalla figura, questi tassi possono essere differenti da periodo a periodo, a causa dei fattori che intervengono nei diversi periodi (segnatamente l’effetto dei fattori individuali e scolastici, come l’insegnante, di cui si vuole analizzare l’effetto). A questo riguardo, anche il secondo grafico della figura 2.2 suggerisce, ad esempio, una riduzione nel tasso di crescita tra il 5° e 6° anno e tra il 6° e 7°. Questo può essere tipico del sistema scolastico australiano. Ma anche dalle evidenze empiriche raccolte dalla presente ricerca sulla scuola in Lombardia si ha indicazione di differenti ritmi di crescita da un anno all’altro (cfr. fig. 2.4): le figure riportano i valori medi a livello di classe nelle competenze logico matematiche e linguistiche nel primo, secondo e terzo anno, calcolate sulla base di una scala comparabile nei tre tempi per ciascuna delle due dimensioni. E’ qui 77
Più correttamente sarebbe opportuno inserire anche il periodo delle vacanze, poiché da alcune evidenze (Raudenbush, 1995) durante tale periodo le competenze possono restare costanti o comunque crescere ad un ritmo più lento rispetto al vero e proprio periodo in cui si va a scuola.
54
evidente la prevalenza di un “rallentamento” tra il secondo e terzo anno per entrambi i tipi di competenza. Figura 2.4 -Crescita nelle competenze tra il primo e terzo anno, scuola secondaria di primo grado
Competenze logico matematiche
Competenze linguistiche
3.5
4
2.5
3
1.5
2
0.5
1
M(Y1)
M(Y2)
M(Y3)
0
-0.5
M(Y1)
-1.5
-1
-2.5
-2
M(Y2)
M(Y3)
Questo ha come conseguenza che nei modelli per questo tipo di dati longitudinali l’assunzione di costanza temporale di determinati parametri78, come in particolare il tasso di crescita (Raudenbush, 1995) è troppo restrittiva79. La formalizzazione suggerita in figura 2.3 supera in parte tale limitazione. Ora, tutta la ricerca sull’efficacia della scuola (Gori, 2003) ha lo scopo di indagare quali siano i fattori determinati della crescita ed il loro peso, parafrasando James Coleman (1975): “La misura più importante di qualità della scuola è l’incremento nei livelli di apprendimento che questa produce.” …E’ importante capire “..quali siano i fattori più importanti nel determinare tale incremento.” E’ infatti da questo tipo di ricerche che dipende la possibilità di: - chiarire il ruolo delle condizioni sociali di partenza, che spesso si ritengono essere una delle maggiori determinanti del successo scolastico inteso, appunto, come competenze raggiunte; - quantificare il contributo che la scuola ha sulla crescita delle competenze: questo concetto è spesso definito “valore aggiunto” (Gori, 2003) e su di esso si basa la possibilità di misurare il contributo che la scuola da alla formazione del Capitale Umano, 78
Ipotesi che è alla base della possibilità di utilizzare i dati longitudinali come misure ripetute sullo stesso parametro in modo da renderne possibile la stima. 79 Non ci intratterremo qui su una formalizzazione molto generale del problema della crescita, dovuta a Kissane (1982), che originariamente è stata proposta anche da Rasch (1977) e da Rao (1958), che appare foriera di nuove prospettive nell’analisi dell’efficacia della scuola.
55
almeno per la parte costituita da competenze (Gori, 2004); individuare fattori, così detti malleabili (Scheerens, & Bosker, 1997) su cui fare leva per migliorare i livelli di competenze (organizzazione, clima, formazione delle classi, caratteristiche degli insegnanti, ecc.). Per rispondere a tali domande è necessario procedere alla formalizzazione attraverso un modello matematico dell’evoluzione delle competenze sulla base della figura 3. Per prima cosa si supporrà che il livello iniziale al tempo t 0 possa dipendere soltanto da fattori socio-economici, ipotizzando per semplicità che il bambino non abbia avuto precedenti esperienze scolastiche80, per cui, indicando con x lo stato socio-economico, assumendo una relazione lineare, risulterà che nell’istante in cui si entra in una classe j1 , nel primo periodo scolastico (il pedice 1 dell’indice j indica questo), il livello o stato dell’individuo i si può esprimere come:
“Modello di stato”
θ ij (t 0 ) = α 00 (t 0 ) + α 10 (t 0 ) ⋅ xij 1 + α 0 j (t 0 ) + Rij(α ) (t 0 ) , 1
1
(5)
1
(
)
(
1
)
E α 0 j1 (t 0 ) x = 0 , V α 0 j1 (t 0 ) x = σ α21 (t 0 )
(
)
(
)
E Rij(α1 1 ) (t 0 ) x, α 0 j1 (t 0 ) = 0 , V Rij(α1 1 ) (t 0 ) x, α 0 j1 (t 0 ) = σ R2 (α1 ) (t 0 ) Come indica il termine “stato”, questo costituisce una rappresentazione matematica del livello delle competenze al tempo t 0 . Si rileva qui che α 0 j1 (t 0 ) , ovvero gli “effetti – classe” non possono essere interpretati come “causa” delle competenze raggiunte al tempo t 0 , in quanto lo studente, per ipotesi, è appena entrato nella classe j1 (è questo il caso di molti paesi partecipanti alle indagini OCSE-PISA in cui il 15-esimo anno di età può corrispondere al primo anno di un nuovo istituto o periodo scolastico). La loro interpretazione è semplicemente quella di “differenza tra il livello medio di competenze iniziali della classe j1 ed il livello medio generale” al netto delle altre variabili esplicative. Un valore 2 elevato della varianza di tale componente, σ α1 (t 0 ) , in rapporto alla varianza
totale, σ α1 (t 0 ) + σ R (α1 ) (t 0 ) , delle competenze non spiegate dalla variabili esplicative, sta solo ad indicare una forte disomogeneità di partenza nei livelli medi di classe. Cioè la presenza di classi con livelli medi molto al di sopra la media generale e classi con livelli medi molto al di sotto la media generale. 2 Questa varianza σ α1 (t 0 ) può dipendere dal modo in cui vengono formate le 2
2
classi: in paesi in cui queste si formano per livelli di competenze omogenee 80
Ipotesi che si può fare a meno di assumere nella misura in cui si abbiano informazioni sulle esperienze scolastiche pregresse.
56
questa potrà essere tendenzialmente più alta. Quello che va assolutamente evidenziato, a questo riguardo, è che è azzardato attribuire a tale variabilità una valenza negativa rispetto alla prospettiva di crescita degli studenti, a meno che non si abbiano evidenze a favore del fatto che una forte omogeneità dei livelli medi e una forte variabilità all’interno delle classi costituisca un fatto positivo, tutto da dimostrare. Assumeremo ora che il tasso di crescita delle competenze nell’intervallo (t 0 , t1 ) possa dipendere da caratteristiche socio-economiche e dalla classe di appartenenza. Avremo pertanto: “Modello per il tasso di crescita”
δ ij (t 0 , t1 ) = β 00 (t 0 , t1 ) + β 10 (t 0 , t1 ) ⋅ xij + β 0 j (t 0 , t1 ) + Rij( β ) (t 0 , t1 ) 1
1
(6)
(
1
)
(
1
1
)
E β 0 j1 (t0 , t1 ) x = 0 , V β 0 j1 (t 0 , t1 ) x = σ β21 (t 0 , t1 )
(
)
(
)
E Rij(1β1 ) (t 0 , t1 ) x, β 0 j1 (t 0 , t1 ) = 0 , V Rij(1β1 ) (t 0 , t1 ) x, β 0 j1 (t 0 , t1 ) = σ R2 ( β1 ) (t 0 , t1 ) A differenza dei parametri α 0 j1 (t0 ) che indicano la differenza tra la media della classe e la media generale nei livelli di competenze iniziali nella classe j1 , e quindi non possono essere interpretati come “effetto della classe”, i parametri β 0 j1 (t0 , t1 ) sono interpretabili come il contributo della classe j1 al tasso di crescita nell’intervallo (t0 , t1 ) . Il ruolo che hanno i fattori socio-economici e quelli invece imputabili alla classe sulla crescita va analizzato in questo contesto e non in quello del modello (5), come purtroppo fanno molti studi basati sui dati derivanti dalle indagini OCSE PISA. Modelli del tipo (5) e (6), corretti per l’errore di misura come già sopra indicato, sono stati adattati nella presente ricerca sugli apprendimenti nella regione Lombardia, e utilizzando la nota regola per il calcolo dell’ R 2 e del coefficiente di correlazione intra-classe (Snijeders & Bosker, 1999), hanno dato i risultati riportati nella figura 1, i quali mostrano come il ruolo dei fattori socio-economici sia del tutto marginale nello spiegare la crescita, ma, tutto sommato, anche il livello (modello di stato).
2.4.2 Validità delle analisi di efficacia della scuola sulla base di modelli di “stato” Qui però si vuole evidenziare un altro aspetto, ovvero l’errore che si compie in molti studi sui dati derivanti dalle indagini OCSE-PISA, quando si interpretano i risultati relativi all’applicazione di modelli di stato (gli unici che nell’ambito di questi studi possono essere applicati in quanto si dispone di una sola osservazione temporale sugli apprendimenti). Tenuto conto che:
57
(7)
θ ij (t1 ) = θ ij (t0 ) + δ ij (t0 , t1 ) ⋅ (t1 − t0 ) 1
1
1
sostituendo (5) e (6) nella precedente espressione (7), si ottiene:
(9) θ ij (t1 ) = (α 00 (t 0 ) + α10 (t 0 ) ⋅ xij + α 0 j (t 0 ) + Rij(α ) (t 0 )) + (β 00 (t 0 , t1 ) + β10 (t 0 , t1 ) ⋅ xij + β 0 j (t 0 , t1 ) + Rij(β ) (t 0 , t1 ))⋅ (t1 − t 0 ) 1
1
1
1
1
1
1
1
1
che raggruppando i diversi termini opportunamente, si riduce a:
θ ij (t1 ) = 1
(10)
{α 00 (t 0 ) + β 00 (t 0 , t1 ) ⋅ (t1 − t 0 )} + + {α 10 (t 0 ) + β10 (t 0 , t1 ) ⋅ (t1 − t 0 )}⋅ xij + + {α 0 j (t 0 ) + β 0 j (t 0 , t1 ) ⋅ (t1 − t 0 )}+ {Rij(α ) (t 0 ) + Rij(β ) (t 0 , t1 ) ⋅ (t1 − t 0 )} 1
1
1
1
1
1
1
Ne consegue che quando si stimano modelli come i seguenti (tipici delle analisi condotte con i dati OCSE PISA): (11)
θ ij (t1 ) = α + β ⋅ xij + u j + ε ij 1
1
1
1
risulta che: (12)
u j1 = α 0 j1 (t0 ) + β 0 j1 (t0 , t1 ) ⋅ (t1 − t0 )
Con particolare riferimento all’effetto della classe, u j1 (12), si rileva che questo deriva dalla somma di due componenti, una costituita da α 0 j1 (t0 ) , che come già sottolineato non ha niente a che vedere con l’effetto della classe sulla crescita, e l’altro dato da β 0 j1 (t 0 , t1 ) ⋅ (t1 − t 0 ) che invece è il contributo della classe alla crescita. Come si può rilevare tale effetto è proporzionale al tempo in cui lo studente è stato “esposto” all’influenza della classe: chiaramente il primo giorno di scuola (t1 − t 0 ) = 0 per cui u j1 non può in nessun modo essere interpretato come un “effetto della classe” (o scuola). Qui emerge, a dir poco, un forte dubbio sulla validità ed il significato di tutte le analisi condotte nell’ambito dei dati OCSE PISA che mirano a misurare l’effetto della classe (e delle variabili esplicative del contesto: clima, presenza di certe caratteristiche come computers, biblioteche ecc.) attraverso una sola osservazione sulle competenze. Come è possibile studiare e comparare, attraverso modelli di stato, l’effetto della scuola e dei fattori scolastici in paesi diversi in cui certe volte lo studente a 15 anni potrebbe essere entrato nella scuola medesima solo da pochi giorni? Questo
58
costituisce il primo elemento critico di riflessione sull’uso dei modelli multilivello nella ricerca.
2.4.3 Modelli multilivello o “curve di crescita”? Il secondo elemento di criticità deriva dalle seguenti argomentazioni. Con i modelli multilivello, applicati alla crescita (o valore aggiunto), è possibile distinguere due parti fondamentali nella crescita di uno studente: una, funzione delle sue caratteristiche al momento dell’entrata in una scuola o classe, e un’altra funzione della scuola e della classe. Il merito di questi strumenti sta proprio nella possibilità di individuare il ruolo di questi differenti fattori, ed in particolare di quelli scolastici, anche detti “malleabili” (Scheerens, & Bosker, 1997). Su questo versante, tuttavia, la ricerca internazionale (Goldhaber, 2002; Rowan et al., 2002) sempre più evidenzia che, tra questi ultimi, è l’insegnante che fa la differenza nella crescita delle competenze, ma che, allo stato attuale delle conoscenze, è assai difficile individuare ciò che rende tale un buon insegnante. Anche nell’ambito della ricerca svolta in Lombardia sul valore aggiunto nelle competenze logico-matematiche e linguistiche, nell’ambito della scuola secondaria inferiore, si evidenzia un ruolo del tutto marginale delle caratteristiche degli insegnanti e delle altre variabili di contesto come mostra la seguente tabella 2.2, da cui si desume che la parte di variabilità spiegata da tali variabili (modello 1) è dell’ordine dell’1.4% (in linea con i risultati di Goldhaber, 2002), e si giunge ad un massimo del 10% inserendo variabili (modello 2) la cui interpretazione è alquanto dubbia ai fini dell’implementazione di politiche81. Per cui i risultati dell’applicazione dei modelli di valore aggiunto hanno fino ad ora dato una indicazione ben precisa: non è possibile individuare fattori strategici su cui fare leva per migliore la Qualità, ma d’altro canto è possibile individuare situazioni (scuole o classi) che sono significativamente sotto la media, in media o sopra la media dal punto di vista del “valore aggiunto”, o “incremento” nel tempo, come quelle rappresentate dal primo grafico di figura 2.2 (i pentagoni della prima figura si riferiscono ai valori medi di una determinata scuola). L’informazione “aggiuntiva” fornita dai modelli multilivello, rispetto a quella fornita dalla figura 2.2, consiste nel fatto che con questo approccio si individuano gruppi di classi, o scuole, per le quali la crescita è sotto la media, in media e sopra la media, al netto delle condizioni in entrata (ceteris paribus). Qui i problemi sono due: poiché i fattori socio-economici possono spiegare una parte molto limitata della variabilità della crescita non c’è nessun vantaggio dall’uso di modelli multilivello di valore aggiunto (o crescita) rispetto al “banale” primo grafico di figura 2.2. Il secondo problema è che, se l’effetto delle variabili socioeconomiche fosse più rilevante, poiché in media, gli studenti di condizioni economicamente svantaggiate hanno un livello iniziale più basso rispetto a quelli di famiglie economicamente e socialmente avvantaggiate, i modelli tendono a 81
Cfr.: il giudizio dell’insegnante sul grado di accordo con la possibilità che il dirigente dia un indirizzo specifico alla scuola.
59
classificare come “in media” le scuole o classi in cui i figli di famiglie povere raggiungono, al successivo istante di tempo, livelli inferiori a quelli di famiglie ricche. Poiché l’essere in media è associato ad un’idea di normalità, l’uso indiscriminato e irriflessivo dei risultati di questi modelli può contribuire a mantenere le differenze sociali: un cosa che invece la scuola dovrebbe assolutamente rimuovere. Ciò che si desidera infatti ottenere dal sistema scolastico è, all’opposto, il “miracolo” della ragazzo svantaggiato che valorizzando al massimo le sue potenzialità raggiunge i più elevati livelli di istruzione. In un certo senso, dunque, i modelli statistici utilizzati a fini di valutazione soffrono di una contraddizione: la necessità (statistica, ma anche di senso comune) di considerare le condizioni preesistenti (come il sesso e le condizioni familiari) al fine di paragonare correttamente (ceteris paribus) l’efficacia delle diverse scuole o classi, tende a giustificare le differenze sociali che la politica vorrebbe rimuovere. Quindi, in un certo senso, tali modelli non sono “politicamente corretti” e il loro uso a fini di implementazione di politiche della qualità è molto discutibile. Pertanto viene da chiedersi che utilità abbiano per il singolo studente, risultati derivanti da modelli multilivello in rapporto a strumenti alternativi come le curve di crescita evidenziate in figura 2 che, invece, oltre ad evidenziare in maniera palese situazioni abnormi come quella della scuola corrispondente ai pentagoni, sono in grado di rilevare prontamente e per ogni studente la necessità di azioni correttive. Per finire che tipo di incentivi e quali azioni correttive potrebbero poi essere prese sulla base di risultati di modelli la cui costruzione richiede lunghi mesi di raccolta e pulizia dei dati? Al momento in cui i risultati giungessero alle scuole, gli studenti sui quali tali risultati sono stati stimati potrebbero essersene già andati, senza la possibilità di intraprendere tempestivamente adeguate azioni correttive.
60
Tabella 2.2- Modelli esplicativi della crescita delle competenze logico-matematiche nel triennio delle scuole secondarie di primo grado: due misure di crescita per ogni studente tra il 1° e 2° anno e tra il 2° ed il 3°.
Note: Il modello nullo contiene solo l’effetto della classe differenziato per il primo e secondo periodo. Il modello con esplicative contiene anche i fattori riportati nella tabella. I diversi modelli nulli relativi ai modelli 1, 2 e 3 presentano valori differenti delle componenti di varianza a causa del diverso numero di osservazioni .In rosso sono evidenziati i parametri significativamente diversi da zero al livello del 10%. Correlazione intra-classe e indice R2 hanno l’usuale significato.
2.5. Conclusioni: una nuova prospettiva Se dunque la soluzione sta nella creazione di misure oggettive ed esternamente valide nell’ambito delle competenze di base e nell’uso sapiente di questa informazione, quale può essere una via alternativa a quelle attualmente esistenti? La Valutazione così come la si conosce attualmente, è una macchina mastodontica e dispendiosa, con la quale si sottopongono a test milioni di studenti contemporaneamente in tutto il territorio nazionale, ottenendo enormi masse di dati che vengono analizzate per mesi, e a volte per anni, prima di avere una minima ricaduta sugli studenti e sui loro insegnanti. L’alternativa a tutto ciò esiste già, ed è di una semplicità impressionante. Si consideri il primo grafico della figura 2, relativa alla distribuzione della crescita delle abilità linguistiche nei bambini nei primi tre anni di scuola dell’obbligo in uno studio australiano (Rowe,
61
2005)82. Sull’asse delle ordinate si ha la misura del livello di competenze e sulla sinistra la descrizione di cosa il bambino è in grado di fare per ogni livello: a quello più basso il bambino necessita dell’ausilio di testi illustrati, mentre successivamente egli è in grado di riconoscere ed esprimere concetti facendo riferimento alla sola lettura delle parole e delle frasi, senza l’aiuto di figure. Il grafico mostra la crescita delle competenze nei primi tre anni di scuola: la linea nera rappresenta la crescita media, i pentagoni quella degli studenti di una particolare scuola. Si evidenziano chiaramente che certe scuole sono più efficaci di altre nell’accrescere le competenze degli studenti: quelli appartenenti alla scuola “Angelico Jefferson”, i cui valori medi sono segnalati con pentagoni, sono tra i migliori del paese al momento dell’inizio della scuola (e probabilmente le loro famiglie presentano anche uno stato socio-economico elevato), ma dopo tre anni questi ragazzi si ritrovano quasi all’estremo opposto della graduatoria dei ragazzi della loro età!! Evidentemente la scuola non ha fatto un buon lavoro. Questa tipologia di strumenti è stata recentemente indicata come la più efficace al fine di promuovere la qualità della scuola (si veda Rowe, 2005 e Gori e Vidoni, 2005) poiché tali strumenti costituiscono il nesso fondamentale tra la valutazione Sommativa – su cui si basano i sistemi di Accountability – e la valutazione Formativa – che d’altro canto costituisce la base per l’autovalutazione e un insegnamento di buona qualità, in quanto attento allo sviluppo del ragazzo e pronto a colmarne i punti deboli in ogni dimensione indagata, almeno nell’ambito delle competenze di base (Rowe, 2005). E’ facile intuire inoltre le potenzialità, ai fini dell’implementazione di un sistema di valutazione finalizzato all’accrescimento della Qualità, di un’informazione di questo tipo fornita alle famiglie, collegata alla possibilità, in ogni momento dell’anno di controllare il livello di sviluppo del proprio figlio, magari attraverso un sito internet che sottoponga i figli a test a risposta multipla, componimenti scritti e, perché no, prove orali registrate via webcam!!!. Qui si evidenzia come un’altra delle critiche portate ai sistemi di Valutazione, ovvero quella di incentivare comportamenti di “gaming” (copiare il test), non avrebbe in questo caso ragion d’essere. In questo scenario di “sistema di Valutazione” estremamente semplificato, ma del tutto chiaro, lo Stato, oltre a poter stare al di fuori dell’organizzazione dell’educazione (anche se non necessariamente come già rilevava John Stuart Mill83), potrebbe limitare la sua azione a finanziare la ricerca, produzione e diffusione di informazioni alle famiglie e alle scuole, riguardanti: - le competenze di base, e la distribuzione della loro crescita come nella figura 2.2; - la correlazione tra queste entità e fenomeni importanti (successo nella carriera scolastica, occupazione, reddito ecc.), e - suggerimenti riguardanti i livelli di soglia e gli standard derivanti da queste analisi di correlazione.
82
http://www.acer.edu.au/workshops/documents/Rowe.pdf John Stuart Mill: “An education established and controlled by the State, should only exist, if it exist at all, as one among many competing experiments, carried on for the purpose of example and stimulus, to keep the others up to a certain standard of excellence”
83
62
In sostanza, proprio come lo Stato provvede a certificare le bilance in uso nel commercio, finanzia ricerche riguardanti la correlazione tra il peso corporeo e le malattie cardiovascolari, e fornisce informazioni su certi “standard” del tipo “se il tuo peso supera la soglia x puoi avere una probabilità p di morire di attacco cardiaco”, così, in campo educativo, la informazione fornita potrebbe semplicemente essere del tipo “per avere una probabilità p di avere successo all’università, dovresti avere un punteggio almeno pari ad x nelle competenze relative alle dimensioni A, B etc.” L’opinione maturata dall’autore in questo senso è che sarebbe molto più utile investire risorse nella costruzione di curve di crescita del tipo di figura 2, e di strumenti veloci e affidabili, quali i test assistiti tramite computer, per potere verificare in un qualsiasi momento dell’anno lo stato di crescita delle competenze del singolo studente in modo da potere prontamente correre ai ripari in caso di evidente discrepanza tra la crescita effettiva e quella attesa. La domanda è: perchè attendere i risultati di complesse indagini annuali (generalmente pubblicate con molto ritardo) quando è possibile applicare strumenti veloci come quelli di figura 2, i quali hanno un preciso aggancio con lo sviluppo delle competenze e con la valutazione formativa? Rispondere a questa domanda è a parere nostro la sfida degli anni futuri. Ovviamente, l’effetto di una tale “riforma” del sistema di Valutazione sulla qualità della scuola verrebbe a dipendere molto (come già preannunciato) dall’assetto istituzionale in cui si colloca: la diffusione di informazioni sulle curve di crescita non avrebbero nessun effetto se non venissero accompagnate da una facilità d’uso da parte delle famiglie e da parte degli insegnanti, e alla possibilità di intervenire prontamente sui singoli studenti, sulle classi e sulle scuole. In questo senso una proposta di riforma semplice ed immediata è che la funzione di controllo che attualmente lo Stato attua attraverso i suoi ispettori (oggi con l’ausilio ulteriore delle macchinose indagini citate) dovrebbe essere profondamente rivista. Gli “ispettori” migliori potrebbero (dovrebbero) diventare le famiglie stesse. Poiché le famiglie sono i principali portatori di interesse nei confronti delle scuole si potrebbe fare leva sul principio di sussidiarietà (Gori e Vittadini, 1995): ad esse dovrebbe essere assegnato il ruolo di “ispettori” del sistema scolastico. Se a ciò si accompagnasse una forte libertà di scelta e un potere di re-distribuzione delle risorse (nella forma di voucher che la famiglia potrebbe portare alla scuola prescelta (Glenn & de Groof, 2003)), forse si potrebbe mettere in moto un reale meccanismo volto al miglioramento della qualità, in cui le scuole e gli insegnanti, ogni giorno e non una volta l’anno in occasione delle rilevazioni del ministero, potrebbero sentire l’obbligo di “render conto” ai più importanti portatori di interessi del sistema scolastico: studenti e famiglie.
63
Capitolo 3
Approfondimenti e sviluppi
3.1 Aspetti metodologici relativi ai test di apprendimento 3.1.1. Oggetto della misurazione Nella ricerca “Dalla differenza, l’equità” intenzionalmente si è scelto di valorizzare la responsabilità e l’autonomia dei docenti delle classi che venivano sottoposte al test, coinvolgendoli. Inoltre, scopo di questa misurazione era vedere se fosse possibile isolare e quantificare l’efficacia dell’azione della scuola sulla crescita degli apprendimenti, cioè la misura del valore aggiunto. Oggetto della misurazione era quindi la didattica come azione intenzionale della scuola, e come fonte dell’informazione per la selezione del campo dei contenuti su cui costruire i test si sono presi i docenti stessi e le loro azioni didattiche. D’altra parte, nella scelta di misurare gli apprendimenti scolastici era contenuta l’intenzione di osservare in quale relazione si pongano fra loro curricoli reali e prove di misurazione comparabile, e giocava un ruolo anche l’esigenza, fortemente sentita dalle scuole, di riconoscere un nesso fra quello che realmente viene fatto nelle scuole e le misurazioni di sistema, in cui ciò che viene richiesto non sempre è quello su cui gli studenti vengono preparati. La sfida, che era possibile accogliere per la metodologia statistica adottata, era quella di testare la “didattica in atto”, intesa nel senso delle scelte - di contenuto e di livello di difficoltà - previste dagli insegnanti, il che ha richiesto un’indagine, piuttosto inedita, sui “curricoli reali”. All’interno di questo rapporto fra test e curricola praticati si colloca anche la decisione, allora innovativa84, di predisporre test distinti per licei e istituti tecnicoprofessionali, e, all’interno del triennio, tre test differenti di matematica. Condizione per una buona misurazione è la validità o capacità del test di misurare effettivamente ciò che dice di misurare, in questo caso appunto 84
Ha poi operato una scelta analoga l’INValSI; v. rapporto finale 2004-2005: “le rilevazioni relative agli apprendimenti per la classe III secondaria di II grado hanno tenuto conto delle peculiarità delle diverse tipologie e dei vari indirizzi. A questo fine sono state costruite prove avanzate per matematica e scienze.”
gli apprendimenti, e la precisione con cui tale misura avviene. Nel caso della ricerca “Dalla differenza, l’equità” il problema della validità85 delle misurazioni si è posto in maniera in parte diversa rispetto a quanto previsto in letteratura. Infatti la metodologia statistica di Rasch utilizzata fornisce dei riscontri oggettivi sulla validità dei test applicando un modello matematico: un test è quindi valido se soddisfa tale modello. Oltre al rispetto delle norme per la predisposizione degli item nelle prove strutturate e la costruzione dei test, la ricerca DE ha assunto come criterio le caratteristiche previste per il corretto utilizzo del modello. Esso richiede, in via preliminare, che siano soddisfatte due condizioni: che la variabile misurata sia univocamente individuata, e che gli item rappresentino un ordine crescente di difficoltà. A queste condizioni è possibile misurare non solo la maggiore o minore “intensità” con cui la variabile “apprendimento” si manifesta (per es. in termini di percentuali di risposte esatte), ma anche la crescita nel tempo della medesima variabile. Il significato tecnico di “validità” non attiene qui solo alla predisposizione a priori del test; il modello matematico a posteriori dà informazioni precise sulla validità dei singoli item - consentendo di tenere conto solo degli item con buon adattamento -, per esempio segnala se vi è disomogeneità delle risposte rispetto ai diversi sottogruppi (DIF), o formulazione imprecisa (misfit): spesso item malfunzionanti indicano che la dimensione non è stata individuata con esattezza86. Inoltre il modello costruisce una scala “oggettiva”, che misura insieme la difficoltà del test e l’abilità dei rispondenti, e quindi segnala anche la eventuale eccessiva facilità o difficoltà del test rispetto ai soggetti cui è stato sottoposto87. Rispetto ai diversi concetti di validità esistenti in letteratura è necessario fare qualche osservazione: solitamente la validità può essere relativa a contenuti, oppure a un costrutto, oppure a un criterio88. Apparentemente dovrebbe essere possibile misurare gli apprendimenti, se si assume il principio della “validità secondo un contenuto”. In questo caso il ricercatore si pone il problema di verificare che lo strumento utilizzato rappresenti una porzione significativa del fenomeno che egli intende misurare: è il caso “tipico di una prova di profitto”, in cui si cerca con una selezione a priori di “coprire il più possibile i vari aspetti o le varie componenti di un determinato capitolo” e dunque sarà “l’accordo di uno o più esperti e di competenti” su tali contenuti a validare la selezione,
85
Il tema dell’affidabilità delle misure è ampiamente svolto nel secondo capitolo. Sul punto vedi par. 3.2.3. 87 Questa proprietà dell’analisi di Rasch era già stata applicata alle prove IEA-SAL; v. M.T. Siniscalco, Risultati della prova opzionale, in Misurare e valutare le competenze linguistiche, cur. Corda Costa – Visalberghi, La Nuova Italia 1995, p. 291-294. 88 Criteri così definiti in The Standards for Educational and Psychological Testing del 1985 di APA, AERA, NCME, ancora ripresi in Statistical test theory for education ad psychology di de Guijter e Van der Kamp (giugno 2003), pp.79-80 (reperibile in rete: http://icloniis.iclon.leidenuniv.nl/gruijter/) e in vari testi italiani (v. nota successiva). 86
66
riconoscendo i risultati come “rappresentativi dell’universo delle prestazioni possibili in un determinato ambito” 89. Tuttavia, nonostante alcune apparenti somiglianze, risulta problematica l’identificazione, quanto a finalità e a contesto di realizzazione, fra test di misurazione e prova scolastica di profitto, che tiene conto di più variabili contemporaneamente, e quindi fra oggetto della misurazione, che viene selezionato fra molti possibili, e oggetto del curricolo. Nonostante ciò la scuola è “efficace” - al punto da fornire “valore aggiunto” - proprio attraverso un’azione didattica che passa attraverso la trattazione di certi contenuti. Quanto alla “porzione significativa”, si presume che i test debbano avere come contenuto degli standard di apprendimento comuni centralmente elaborati. Nel caso dei test dell’INValSI lo scopo è stato anche quello di indagare se e in quale misura si apprendano effettivamente certi contenuti, che coincidono con degli standard considerati “irrinunciabili” identificati su tutta la gamma dei contenuti possibili in quel campo o materia; essi fanno riferimento a un livello medio di difficoltà (con un range dichiarato da 0.4 a 0.6). Se si applica invece il modello di Rasch, ad essere sottoposta a misura non può essere l’intera gamma dei contenuti (per il vincolo dell’unidimensionalità), né solo il livello minimo richiesto dal concetto di “standard irrinunciabile” (per la necessità di avere “pesi” capaci di misurare anche i molto bravi). D’altra parte, va osservato che la scelta operata da DE di prendere come base i contenuti curricolari ha alla base l’ipotesi che la padronanza di certi contenuti possa comunque essere buon predittore del successo scolastico in gradi successivi oppure sul lavoro (per es. la conoscenza della matematica a 15 anni rispetto al successo lavorativo90), secondo un “criterio” esterno al test91. Tuttavia il punto è da studiare con maggiore attenzione, come per adesso non mi pare sia stato fatto: in che modo il percorso scolastico concreto attraverso una serie di attività specifiche e di contenuti produca competenze stabili in grado di supportare gli studi successivi o l’inserimento nella vita adulta, non è scontato92. Si oscilla fra due eccessi: da un lato l’enfasi posta sulle competenze metacognitive (di cui anche in Italia si è fatta gran
89
Le virgolette si riferiscono a una sintesi che sui criteri di validità ha dato R. Bolletta in G. Barzanò, S. Mosca, J. Scheerens (a cura di), L'autovalutazione nella scuola, Bruno Mondadori, Milano 2000. 90 Si vedano i lavori di Hanushek citati dal prof. Gori e il rapporto della prima annualità della ricerca, ma anche lo studio di Heijke et alii citato alla n. 17. 91 La validità rispetto “a un criterio” pone come punto fermo il carattere predittivo di alcuni indicatori, in grado di segnalare significative ricadute del possesso di alcuni requisiti (es. la comprensione dei testi per il life long learning) sugli esiti nel futuro: si tratta della validazione esterna, su cui v. nel presente rapporto al capitolo 2. 92 In base al criterio di validità cosiddetta “esterna”.
67
discussione), con il rischio della ignoranza dei più basilari contenuti93, dall’altro l’attaccamento ai contenuti intesi come nozioni, il cui possesso può essere inincidente. Nelle misurazioni del programma internazionale OCSE-PISA, dove è impossibile prendere come base i curricoli scolastici a causa delle differenze profonde fra i diversi sistemi scolastici dei paesi aderenti, vengono per lo più definite come oggetto di misurazione le competenze cosiddette “applicative”, considerate utili al futuro inserimento nella vita attiva, distinguendole da quelle teoriche o “scolastiche” apprese nel corso di studi precedente94. In realtà l’indagine PISA si orienta al “dopo” (quello che sarà utile in futuro) e non al “prima” (quello che è stato appreso a scuola)95. Nelle misurazioni del Progetti Pilota INValSI la scelta è stata mista: convivono da un lato l’intento di rilevare la trattazione a scuola di certi contenuti (per esempio la geometria e la grammatica, di cui si è dimostrata la scarsa cura nelle scuole nostrane), dall’altro l’interesse verso alcune competenze trasversali (di ragionamento, di comprensione testuale), anche nel giusto sforzo di non cadere nello sterile nozionismo. Interessante il concetto di validità rispetto “a un costrutto”, che si riferisce soprattutto alla misura di atteggiamenti, abilità trasversali, comportamenti. Vi è una variabile latente che viene intercettata attraverso quesiti legati fra loro non per omogeneità di contenuti, ma tramite costrutti, definiti “qualità psicologiche che assumiamo debbano esistere per spiegare alcuni aspetti del comportamento”. In questo caso è necessario un “quadro teorico che sia in grado di spiegare la relazione tra il possesso di determinate qualità e particolari comportamenti osservabili”, e questo è uno dei punti salienti anche in questa ricerca. Nel test DE, infatti, ad essere misurata è una “dimensione” univoca, che non coincide necessariamente con la somma di certe manifestazioni molteplici96. E’ cioè oggetto stesso di indagine se e in quale misura all’interno del sapere scolastico sia possibile isolare delle “dimensioni” che 93
Nella scuola statunitense, dopo anni di centratura sugli skills dalle tassonomie per lo più vaghe, il problema è, profeticamente, già esploso: v. R. Shattuck, The Shame of the Schools, “The New York Review of Books” (april 7) 2005, dove si denuncia la separazione fra due mezze verità che non si incontrano : “a standard (a required level of attainment in a defined activity) cannot exist in education without a curriculum to define the activity or field of study”. 94 Così nel Quadro di riferimento o Framework sulle conoscenze e abilità di PISA 2003 edito da Armando, 2004, ad es. a p. 11, 12, 15 (“saper ragionare … piuttosto che saper rispondere alle domande tipiche dei libri di testo”), dove si rileva un atteggiamento piuttosto pessimistico sui rapporti fra scuola e competenze “utili alla vita”, e che proviene da sistemi scolastici fortemente afflitti da nozionismo, tanto che si contrappone la conoscenza della nomenclatura specifica (piante e animali) alla comprensione di “grandi temi” di attualità. Si vedano però le critiche a questa impostazione nell’articolo di Van Dieren cit. alla nota seguente. 95 Sul rischio dell’impoverimento del concetto stesso di competenza, interessante quanto proprio a partire dai test OCSE-PISA fa notare F. Van Dieren in Enseigner par compétences ou former à travers une discipline: où sont les contradictions ? reperibile in http://smf.emath.fr/VieSociete/Rencontres/France-Finlande-2005/ResumeConferences.html 96 V. nel par 3.2 la discussione sul diverso costrutto che separa, nella misurazione delle abilità linguistiche, il lessico dalla morfologia.
68
vengono misurate attraverso i contenuti, se tali dimensioni coincidano con “abilità trasversali”, e come esse si leghino ai curricoli scolastici97. In questo senso il risultato della ricerca è innovativo anche in quanto sottolinea quale fattore fondamentale dell’apprendimento - oltre l’alunno, l’insegnante e le condizioni di processo - l’elemento “terzo” cioè proprio il curricolo98: problema già messo in luce agli inizi dell’indagine da Trevor Bond99, ma al quale i risultati dei test hanno fornito nuovi e inattesi spunti di riflessione.
3.1.2. Dalla didattica alla misurazione Nella ricerca “Dalla differenza, l’equità”, partendo dunque dall’ipotesi, benché non ancora compiutamente analizzata100, che le conoscenze scolastiche contribuiscano a “far crescere” e a formare almeno le attitudini utili agli studi successivi, si è inteso rilevare appunto quelle conoscenze (senza porre in via preliminare il problema del costrutto) che si presentano a scuola come “materie”. La ricerca ha messo al centro le conoscenze scolastiche, col vincolo che fossero disposte nell’arco temporale con una complessità di ordine crescente e quindi con un certo grado di “sequenzialità”: caratteristica alla quale non era detto che corrispondessero i curricola tradizionali. Il problema della crescente difficoltà dei curricoli nei documenti ufficiali viene spesso definito solo in termini di passaggio da semplice a complesso (semplici elementi di …; caratteri fondamentali di …)101. Infatti
97
Si tratta della ricaduta più interessante dal punto di vista della didattica, che richiederà negli anni a seguire attente ricerche, che sono state soltanto iniziate (v. 3.2.) 98 In E. Damiano, L’azione didattica, Armando, 1993, l’autore mostra come la “coppia fissa” insegnamento / apprendimento non tenga conto dell’influenza del “mediatore culturale” che è il contenuto stesso della relazione. 99 Ne parlò al primo seminario della ricerca su “L'analisi di Rasch nella misura dell'apprendimento e dell'efficacia della formazione” svoltosi il 4 giugno 2003 a Pavia presso la Centro Studi Fondazione Maugeri (v. http://www.crisp-org.it/seminario%20Pavia.asp), quando osservò che la difficoltà del test rispetto alle abilità dipende anche dalla corretta collocazione dei segmenti del curricolo nel percorso scolastico. 100 Nel corso della ricerca su questo punto si è fatto riferimento agli studi di Heijke et alii , On management skills of young economists, Maastricht 2001; Heijke H., Meng C., Ramaekers, G., (2002). An investigation into the role of human capital competences and their pay-off, ROA-RM2002/3E. 101 A titolo di esempio, non riferito al caso di specie, si possono citare ancora recentemente gli Obiettivi Specifici di Apprendimento della scuola secondaria di primo grado, previsti a seguito dell’entrata in vigore della legge 53/2002: sotto la voce, o macro-obiettivo, “riflessione sulla lingua” nel primo biennio viene previsto lo studio di “Classi di parole e loro modificazioni. Struttura logica della frase semplice (diversi tipi di sintagmi, loro funzione, loro legame al verbo)” - con le relative “abilità”: “Riconoscere e analizzare le funzioni logiche della frase semplice. Utilizzare tecniche di costruzione della frase semplice in base al profilo comunicativo. Applicare modalità di coesione-coerenza”. Per il terzo anno si parla di “Approfondimenti su classi di parole e loro modificazioni. Approfondimenti sulla struttura logica e comunicativa della frase
69
specialmente nelle materie umanistiche viene mantenuto nel tempo un impianto relativo ai medesimi “obiettivi, contenuti e metodi”, ricorsivamente legati a “conoscenze lessicali, morfologia, sintassi, comprensione del testo letterario e non letterario, etc.”. Più arduo è definire, sulla base o di ipotesi o di osservazioni empiriche, il grado di semplicità specifico previsto per una certa fascia di età o di livello scolare. Tale vincolo imposto dalla metodologia statistica è pedagogicamente significativo: uno dei fattori motivanti dell’apprendimento è la percezione per gli studenti di passare, in un curricolo scolastico, dal meno al più, quindi di essere condotti su un percorso ragionevole che ha nel suo stesso ordine una ragione per essere percorso; mentre appare demotivante il contrario (non percepire o non esserci un percorso crescente). Il compito affidato alla scuola è appunto di “far crescere”, attraverso l’apprendimento (e molto altro), in una direzione “utile” per esempio al proseguimento degli studi, per una questione di efficacia nel servizio alla persona. Agli insegnanti è stato chiesto pertanto quali parti del loro insegnamento curricolare ritenessero “fondamentali”102, di selezionarne un certo numero, di disporli in un ordine crescente di difficoltà necessario all’impiego della metodologia statistica (scheda A), e infine di indicare i quesiti relativi, anch’essi disposti in ordine di difficoltà (scheda B). Quest’ultima richiesta avrebbe dovuto consentire anche di raccogliere una serie di quesiti per la formazione di un database di item, come primo passo nella costituzione di un archivio di prove validate. Tuttavia, la logica secondo la quale gli insegnanti hanno presentato le loro proposte, per l’italiano più che per la matematica, ha introdotto un primo punto di criticità: infatti essa è stata prevalentemente elencativa di contenuti del programma, in cui si mescolano cose diverse contenute nella “materia scolastica” (per es. grammatica, poesia e narrativa). Del resto, nella scuola viene legittimamente considerato “fondamentale” che ogni uomo/cittadino sia formato relativamente ad una serie di contenuti culturali o etico-disciplinari irrinunciabili (“Cavour” piuttosto che “Garibaldi”), in base alle altre finalità educative per es. dello sviluppo della personalità, o della cittadinanza, o dell’integrazione nella cultura di appartenenza. Una delle finalità della scuola è di fatto culturalpolitica, cioè di trasmettere da una generazione all’altra il patrimonio del quale ogni civiltà si serve per comunicare al suo interno e per produrre nuova conoscenza. In questa logica i diversi segmenti dal punto di vista della “difficoltà” possono risultare equivalenti103; nel contesto italiano la coerenza interna dei
semplice…”, ma significativamente non compaiono nuove “abilità”: non viene cioè specificato quali operazioni o azioni esperte siano legate a tali passaggi nel tempo. 102 Senza sciogliere l’ambiguità presente in questo termine: v. più sotto. 103 Per esempio gli otto argomenti a scelta della prova aperta di storia sono risultati di difficoltà non significativamente diversa.
70
percorsi per le materie umanistiche è cronologica, e le cosiddette “abilità”104 ne costituiscono una traduzione in termini operativi, anche se il loro contenuto non può essere considerato solo strumentalmente. Difficile quindi anche l’individuazione precisa dei gradi di difficoltà sequenziale dei quesiti. Il percorso cosiddetto modulare, anche se apparentemente offre maggiori chances alla crescita di abilità, non necessariamente si preoccupa della successione dei segmenti in ordine di difficoltà. Il problema quindi è la individuazione della “bilancia” e ancor più dei “pesi” con i quali mettere in correlazione i comportamenti più o meno esperti, essendo in questo caso la misurazione un paragone fra due diverse serie ordinate, ognuna contraddistinta da una variabile latente, cioè abilità e difficoltà. Nonostante gli ostacoli, o proprio per questi ostacoli, l’esperienza condotta ha prodotto osservazioni molto specifiche su alcuni aspetti delle “materie scolastiche”.
3.1.3. Le materie scolastiche alla prova della misurazione L’ordine sequenziale del curricolo - e quindi l’ordine di difficoltà degli item - è la condizione per poter porre su uno stesso asse test svoltisi in due momenti differenti (nel caso della prima annualità della ricerca DE, gli anni 2003 e 2004), in cui gli item comuni fungono da “misura” del loro reciproco rapporto. Appare notevole che per alcuni ambiti (disciplinari oppure per fasce di età) la questione dell’ordine sequenziale del curricolo pare non porsi o risolversi spontaneamente. Nel caso della matematica per esempio, a tutti i livelli, il confronto fra i test del PP2 e i test dell’anno successivo (primo DE 2004) ha indicato una disposizione naturalmente allineata. In Figura 3.1 il test di matematica DE 2004 rispetto al PP2 2003, in cui solo alcuni item DE - 15, 12, 9, 24 e 28 risultano collocati in campo-PP2 (secondo una ideale linea di demarcazione) e gli item di linkage sono in posizione per lo più mediana.
104
Uso questo termine con una certa resistenza. Esso sistematizza il persistente dilemma fra “sapere” e “saper fare”, che non coglie a pieno la portata strumentale dei concetti e dei modelli teorici e il potenziale professionalizzante della riflessione, né il contributo concettuale delle pratiche, vero nodo del cosiddetto secondo canale.
71
Figura 3.1 – test di matematica di prima (PP2) e seconda media (DE 2004) .# +
2
| .# | | .# | .### T|T + .#### | .### | .##### | .#### | .###### S|S
1
##### .######## .######### .########### .########## .############ 0 .########### .############ .############ .########### .######## .########### -1 .########### .#########
-2
.####### .##### .#### .### .
I18 DE 18
I21 DE 21 I13 DE 13 I20 DE I11 DE I30 DE I10 DE I26 DE I16 DE I17 DE I6 PP2
I19 DE 19
20 11 30 10 26 16 17 25 - DE 6
+ | | | | | M+M I1 PP2 5 I41 PP2 15 | I36 PP2 7 I8 PP2 17 | I28 DE 28 I5 PP2 24 | I12 DE 12 I42 PP2 16 | I37 PP2 8 | I39 PP2 13 + I38 PP2 12 S|S I7 PP2 27 | I15 DE 15 | I2 PP2 9 | I33 PP2 3 | + |T I31 PP2 1
I23 DE 23 I14 DE 14
I22 DE 22
I44 PP2 19 I27 DE 27 I32 PP2 2
DE 1 I25 DE 25
I29 DE 29 I48 PP2 23
I3 PP2 10 - DE 3
I4 PP2 11 - DE 4 I45 PP2 20 DE 8 I46 PP2 21
I49 PP2 26
I24 DE 24 I9 DE 9 I43 PP2 18 I40 PP2 14
I35 PP2 6
DE 5
DE 7 I50 PP2 28 DE 2 I47 PP2 22
In tali condizioni, poiché il test DE risultava più difficile rispetto al test dell’anno precedente, è stato possibile calcolare la misura del valore aggiunto. Bisogna aggiungere che i programmi di matematica nelle scuole elementari e medie sono notevolmente uniformi, ma il dato non è decisivo in quanto anche all’interno dei diversi indirizzi a livello delle superiori si è riscontrato il medesimo fenomeno105. Il naturale allineamento, inoltre, segnala per via empirica che la dimensione misurata dal test di matematica è tendenzialmente omogenea da un anno all’altro, e coincide in buona parte con conoscenze applicate a casi concreti, cioè a competenze di calcolo, risoluzione di casi, argomentazione logica. Il curricolo sistematico colloca nel tempo strumenti logici e operativi necessari al segmento successivo, costruendo un percorso di “approssimazione progressiva”106 al comportamento esperto. Anche nel caso del test di italiano per le scuole elementari e medie non si sono riscontrati ostacoli di rilievo alla disposizione dei due test secondo l’ordine di difficoltà (ma v. terza parte del rapporto), fatta salva la 105
Osservazioni solo in parte diverse emergono dal confronto fra i due test e il terzo, dell’anno 2005: v. par. 3.3. 106 Questo favorisce anche la possibilità dell’azione didattica dell’insegnante sulla “zona di sviluppo prossimale” descritta da Vygotskij.
72
nota facilità del test in relazione alle abilità degli studenti, che si riscontra anche nella misurazione INValSI (PP2). Un nodo teorico tutto da sciogliere è emerso invece dai test di italiano delle superiori. In questo caso, sia per i tecnici sia per i licei, per biennio e per triennio, i risultati del test DE 2004 si sono praticamente sovrapposti rispetto a quelli dell’anno precedente. Come emerge dal grafico di Rasch, alcuni item del test PP2 risultavano difficili anche confrontati con quelli del test DE dell’anno successivo, mentre item facili per il DE sarebbero risultati facili anche l’anno precedente. In questo modo non è stato possibile misurare il valore aggiunto per l’italiano alle superiori. Figura 3.2 – test di italiano dell’istituto tecnico di prima (PP2) e seconda superiore (DE 2004) .# |test DE 4
2
1
| | T| + | |T | | | .##### S| .###### + .###### |S .# .# .# .# .# .### .####
.###### .##### .###### .####### ############# 0 .######
| | | M| | +M
.##### | .###### .##### .##### .####
-1
-2
.#### .### .## .## .# .# . .
I11 DE 11 I22 DE 22
I40 PP2 A11
I16 DE 16 I44 PP2 A17
I49 PP2 B4 I57 PP2 B17
I25 DE 25 I26 DE 26 I9 PP2 B18 - DE 9 I23 DE 23 I12 DE 12 I18 DE 18 I45 PP2 A18 I56 PP2 B16 I27 DE 27 I34 PP2 A4 I3 PP2 A13 - DE 3 I52 PP2 B7 I1 PP2 A10 - DE 1 I17 DE 17 I35 PP2 A5 I46 PP2 B1 I30 DE 30 I36 PP2 A6 I43 PP2 A16 I54 PP2 B9 I21 DE 21 I31 PP2 A1
| | | I14 DE 14 S| I32 PP2 A2 I38 PP2 A8 |S I28 DE 28 + I24 DE 24 | I10 DE 10 | I2 PP2 A12 - DE 2 | I13 DE 13 T| |T | I15 DE 15 +
I47 I33 I55 I48 I29 I41 I53
PP2 B2 PP2 A3 PP2 B13 PP2 B3 DE 29 PP2 A14 PP2 B8
I50 PP2 B5
I4 PP2 B10 - DE 4
I19 DE 19 I6 PP2 B12 - DE 6 I51 PP2 B6 I20 DE 20 I8 PP2 B15 - DE 8 I39 PP2 A9 I42 PP2 A15
I37 PP2 A7 I7 PP2 B14 - DE 7 I5 PP2 B11 - DE 5
Nella Figura 3.2 per esempio si vede il comportamento del test 4 DE 2004 (italiano nella classe seconda superiore dell’istituto tecnico) in relazione al test PP2 dell’anno precedente (classe prima): gli item avrebbero dovuto posizionarsi in successione, in basso il PP2, in alto il DE. Invece gli item 13 e 15 del DE 2004 sono addirittura sotto la soglia di facilità dell’anno precedente, mentre l’item A11 PP2 2003 ha un grado di difficoltà pari al più difficile dell’anno successivo. In tutte le misurazioni condotte secondo la metodologia di Rasch, come detto, il modello funziona se la variabile latente è unidimensionale, per
73
poterne misurare diversi livelli, e questo vale a maggior ragione per la costruzione della scala di valore aggiunto, cioè per il confronto nel tempo tra due test diversi. Si comprende la scelta di PISA, anche se in quel caso non vengono costruite scale longitudinali, di testare solamente la capacità di lettura, individuandola come variabile unica - collegata in modo del tutto indiretto ad una serie complessa di interventi che la scuola offre nel campo dell’educazione linguistica -, che risponde a questa necessità di misurare un oggetto ben definito, comune a più sistemi scolastici, dotato di più livelli di expertise (i cinque livelli di competenza di lettura107). Sui test di italiano quindi il nodo teorico da sciogliere non riguardava solamente il grado di difficoltà. A questo punto della ricerca emergeva infatti l’ipotesi che il test non avesse funzionato non perché il test DE fosse troppo facile oppure il test PP2 troppo difficile, bensì perché la variabile latente misurata dal test DE non fosse la medesima misurata dal test PP2; questa ipotesi è stato poi possibile verificarla su un “modello semplificato” cioè sui tre test delle medie, dove si era ottenuto il calcolo del valore aggiunto, individuando almeno due costrutti differenti108. In questo senso, fin dall’inizio si sapeva che la decisione di puntare sulla “didattica in atto” sarebbe stata un esperimento sui costrutti impliciti dei curricoli, specialmente alle superiori, dove si era scelto di testare anche i contenuti letterari e storico-culturali, e non solo prevalentemente le conoscenze morfo-sintattiche e lessicali e l’interpretazione testuale, come nei test INValSI dell’anno precedente.
3.1.4. Potenziale euristico del test di italiano Vista a posteriori, la composizione di un test di apprendimento non ha dunque al centro un problema di “contenuti irrinunciabili” da individuare tra i “saperi fondamentali”, in questo caso per es. se viene insegnato o no il “canone” o gli autori considerati “classici”, ma diventa occasione per una riflessione più approfondita: sulle “azioni” della materia, sulle sue dinamiche, sulle sue “soglie” logiche, tutti elementi utili a ripensare sia la didattica sia i processi di apprendimento da un punto di vista inusuale. Fin dall’inizio i docenti incaricati di predisporre gli item avevano avuto il compito di trasformare i quesiti proposti dagli insegnanti nella scheda B, quasi tutti formulati secondo la matrice del “tema” (“parlami di”), dal tipo testuale discorsivo al tipo testuale “richiesta specifica su variabile singola”109: Ma ciò comporta chiedersi: cosa si misura in realtà testando la conoscenza linguistica ? e quella letteraria ? qual è la variabile reale indagata ? La complessità delle operazioni connesse con il dare una risposta accettabile ad una domanda sintetica richiede più attenta analisi. 107
V. nel citato Quadro di riferimento, p. 128-129. Il punto è ampiamente dibattuto nella terza parte del rapporto al par. 1.1. 109 Come già esposto nel rapporto della prima annualità. 108
74
In realtà, l’utilità dell’assunzione della “didattica in atto” come matrice per la produzione del test, a parte elementi di carattere motivazionale come potrebbe essere il coinvolgimento degli insegnanti, è proprio nel fatto di rilanciare la ricerca sulle dimensioni contenute nell’insegnamento, di isolarle le une dalle altre, di rileggere in termini di variabile latente le componenti considerate essenziali di una materia; ha cioè carattere euristico. Benché la misura non pretenda di esaurire la totalità della disciplina, essa fa emergere il compito prioritario di analizzare110 l’oggetto complesso del sapere alla ricerca non di “contenuti” esaurienti del test, bensì di dimensioni specifiche, che non interferiscano con altre variabili spurie e siano suscettibili di supportare una misurazione esterna attendibile111. In ogni caso sui due versanti vi è una domanda parzialmente irrisolta non solo sulle misure ma sulle materie scolastiche: cosa si sta facendo veramente quando si insegna una certa materia ? quale coerenza di percorso si propone, e all’interno di quali ambiti ? Interessanti risultati in questa direzione li ha dati la prova aperta di storia (v. oltre). Inoltre nuovamente ricordata la differenza fra la misurazione e la prova scolastica, l’una selettiva di una certa dimensione e su quella estremamente analitica, l’altra predisposta su molte variabili contemporaneamente e contestualizzata. Di fatto legare in maniera diretta le misurazioni comparabili con le esperienze “reali” che si svolgono a scuola (quella che è stata chiamata appunto “didattica in atto”), nonostante l’esigenza in questo senso sentita dalle scuole, non è pensabile se si considera che la scuola opera sintetizzando più aspetti, e nemmeno tutti di ordine cognitivo, mentre il test per funzionare deve operare una riduzione sistematica dell’azione didattica. Resta aperta la questione del "core curriculum" (considerato come il mezzo), cioè di cosa insegnare affinché gli studenti acquisiscano le "core competencies" (il fine), esse stesse oggetto di riflessione, quelle che permetteranno lo sviluppo di risorse positive in termini di capitale umano. E’ appunto il nesso fra curricola, sempre motivati da considerazioni non solo cognitive, e core competencies, che nemmeno l’indagine OCSE PISA ha affrontato.
110
L’analisi disciplinare avviata in certi settori della scuola (es. Didattica breve) potrebbe, se si facesse carico di questo angolo visuale, fornire un contributo. 111 Si tratta di indagini estremamente complesse che in certi casi possono richiedere anni di investigazione: cfr. le ricerche di L. TESIO per la misura della invalidità ai fini del finanziamento degli istituti riabilitativi: Il sistema di misura Functional Independence Measure (FIM) nel controllo di qualità e nella classificazione dei ricoveri riabilitativi e per cronici, in Sistemi classificativi dei pazienti in degenza riabilitativa, a cura di E. CAPODAGLIO e C. PASSERINO, Fondazione Salvatore Maugeri, IRCCS, Pavia 1996.
75
3.1.5. Potenzialità dei risultati Sulla compatibilità fra misure standardizzate e scuola si osserva in prima battuta che ai test di misurazione comparabile non può essere chiesto ciò per cui non sono predisposti, non trattandosi di prove scolastiche di profitto: 1. i test standardizzati di apprendimento non sono predisposti per misurare la complessità, bensì per sottolineare dimensioni ritenute fondamentali con una selezione che viene fatta a priori (top down) a partire da ipotesi dotate di una certa validità statistica (la significatività di certi apprendimenti per il curricolo successivo); 2. la restituzione riguarda pertanto la sola dimensione focalizzata, e non può fornire risposte di maggior ampiezza; 3. tutti i tentativi di incrociare direttamente dati parziali di output con dati interni (es. risorse, contesto, processi, schema organizzativo), almeno fino a che non vi sarà certezza che le rilevazioni non sono parziali e che le correlazioni sono statisticamente significative, rischiano di costituire operazioni approssimative e non consentono da sole di decidere quali aspetti della vita della scuola migliorare e/o incentivare economicamente; 4. pare attualmente prematura, o forse illusoria, la possibilità di ridurre le materie scolastiche a un insieme di sequenze semplici (ma il tentativo pare in parte riuscito alla Northwest Evaluation Association di Portland in Oregon112, o all’Australian Council for Educational Research113), se non nel caso della matematica, dove una certa logicità della costruzione pare assicurata appunto dalla sua stessa “natura” sistematica (ma come liquidare in due parole tale campo che rasenta gli universali ?). Tuttavia, anche se non esiste alcun insegnamento dotato della caratteristica di essere unidimensionale, o di proporre una difficoltà alla volta, è possibile e anche didatticamente opportuno operare scelte in modo controllato. Su questo versante vi è anzi molto lavoro da fare. Nella percezione delle proprie azioni didattiche, l’insegnante può distinguere le diverse dimensioni che si presentano, che possono essere note e previste oppure sovrapporsi: se in un test ciò costituisce un elemento di disturbo, nella didattica è elemento di maggiore articolazione e ricchezza di piani, di cui è necessario però avere coscienza per condurli a un fine didattico padroneggiato.
112
Secondo quanto relazionato da Allan Olson nel Seminario internazionale “Institutional Models in Education. Legal Framework & Methodological Aspects for a new approach to the problem of School Governance” svoltosi a cura dell’INVALSI a Frascati (6– 8 maggio 2004). Gli atti sono in avanzato corso di stampa. 113 Nello stesso Seminario, ne ha parlato Trevor Bond portando un esempio sulle competenze di lettura nella scuola primaria. Entrambe le istituzioni sono rintracciabili in Internet.
76
Pertanto, l’informazione anche parziale sul suo insegnamento che l’insegnante può ricavare da una misurazione oggettiva è comunque un dato di conoscenza importante. Sono acquisizioni professionalmente interessanti il saper collocare: 1. i contenuti o le attività che si propongono in una giusta gradazione di difficoltà per la costruzione di un curricolo progressivo, tenendo presente l’insieme delle competenze necessarie per superare una certa soglia curricolare; 2. lo studente nella giusta relazione rispetto alle difficoltà che gli si propongono (si pensi alla formulazione delle domande nelle interrogazioni), rispetto al resto della classe e al livello atteso per quella fascia scolare, prerequisito per quella successiva; 3. se stesso in una giusta relazione con altre classi / altri insegnanti / altre scuole. La nostra ricerca per esempio ha fornito alcuni dati di grande interesse come: a. (sul punto 1) la distanza o coincidenza fra item ritenuti facili/difficili e quelli oggettivamente facili/difficili (v. terza parte del rapporto par. 1.2); b. (sul punto 2) la distanza misurabile che all’interno di una classe separa il più bravo dal meno bravo (a volte è stato quantificato in una distanza corrispondente anche a un intero anno scolastico), elemento che tocca i criteri di formazione delle classi; c. (sul punto 3) la discrepanza esistente fra i voti interni e le misurazioni, in cui, pur dimostrandosi valida la graduatoria interna alle classi, di cui difficilmente l’insegnante ha una percezione distorta, sono gli standard di riferimento ad essere a volte molto distanti. In ogni caso, la coscienza della funzionalità dello strumento a rilevare solo singoli aspetti può evitare l’effetto noto del teaching to the test, soprattutto se è chiaro che il test non copre l’insieme delle finalità e delle condizioni dell’apprendimento; dunque non può essere desunta dalla presenza o dall’assenza nel test di un contenuto la maggiore o minore significatività dello stesso, che attiene ad altri criteri di selezione. A meno che la misurazione non venga fatta a fini “propedeutici” (indurre la scuola nel suo complesso a focalizzare certe parti di programma come per es. la geometria), ma questo non dovrebbe essere lo scopo di una “misurazione”. Quindi la complessità non costituisce un ostacolo al raggiungimento del fine della misurazione né la misurazione di per sé richiede che la complessità della scuola sia ridotta. Un conto è selezionare gli aspetti per poter rendere unidimensionale un test, un altro è ridurre la realtà alla misurazione. Semmai vi è la necessità di integrare le misurazioni unidimensionali all’interno di un più vasto momento regolativo del sistema.
77
Le misurazioni, piuttosto, proprio perché forniscono solo le notizie per le quali sono state predisposte, richiedono continui approfondimenti sui modelli operativi più funzionali ai diversi scopi: per es. si può dire al termine della nostra ricerca che la prova chiusa – considerata fino ad ora l’unica veramente “oggettiva” – non costituisce l’unico modello di misurazione comparabile (v. paragrafo successivo). Si tratta in ogni caso di un primo passo per il superamento dell’autoreferenzialità, che è obiettivo importante in un sistema nel quale la scuola risponda effettivamente di quanto riesce a fornire alla società in termini di capitale umano.
3.1.6. Validità e attendibilità delle prove aperte Volendo trovare correttivi al test unidimensionale capace di identificare una sola variabile alla volta, l’alternativa alla prova disciplinare potrebbe essere una prova chiusa su più discipline in cui la variabile latente risulti trasversale rispetto ai contenuti. Bisognerebbe chiedersi per esempio se un test di logica sia in grado di coprire dimensioni del linguaggio verbale e della matematica, o simili. L’operazione richiederebbe però uno studio molto approfondito sulle epistemologie e sulle metodologie disciplinari, piuttosto complessa e dal risultato incerto. A sorpresa, invece, un dato interessante in chiusura della prima annualità della ricerca risulta essere la maggiore adeguatezza della prova aperta a testare diverse variabili. Infatti, là dove la prova chiusa per poter funzionare si trova costretta a selezionare una sola dimensione e a testare quella attraverso molteplici prodotti (i diversi item del test), la prova aperta ammette una pluralità di variabili, utilizzate in questo caso come diversi indicatori della griglia di correzione, posti in ordine di difficoltà crescente, e graduati secondo scale di descrittori rispondenti anch’essi al requisito della difficoltà crescente, ma da applicare a un unico prodotto (il “testo” di prova aperta)114. La selezione e l’applicazione degli indicatori alle prove ha indotto anzi una riflessione interessante tra i correttori, proprio in merito alla definizione di cosa sia il sapere storico in ambito scolastico. Sono risultati appropriati quasi tutti gli indicatori, se si intende tale sapere storico come il “parlare di un argomento storico” secondo certe caratteristiche (es. consequenzialità, significatività, pertinenza dei dati, criticità …)115. A questo proposito, un limite della griglia riguarda l’indicatore linguistico, per la sua non omogeneità rispetto all’oggetto o alla “variabilesintetica-storia”, in quanto l’uso del lessico specifico non era considerato esplicitamente fattore di maggior difficoltà. 114
Come già detto la difficoltà non riguardava invece gli argomenti in sé. Uno stesso principio potrebbe essere adottato per l’italiano nelle superiori, laddove si esplicitasse chiaramente in che cosa consiste il “sapere storico-letterario”. 115
78
La sorpresa, se sorpresa si può chiamare, è quella che gli stessi indicatori, proposti in una successione di difficoltà “preventiva” (conoscere i dati doveva essere più facile che saperli argomentare) è risultata in parte errata in quanto, in un insegnamento orientato al “discorso” sulla storia, proprio la conoscenza semplice dei dati pare essere un obiettivo più difficilmente raggiunto che non la consequenzialità logico-cronologica. Quanto alla obiettività e alla comparabilità di tale prova, diverso è l’approccio della metodologia di Rasch e del suo concetto di “oggettività specifica” rispetto ai requisiti tradizionali di oggettività per es. ottenuti tramite “elaborati-campione”116, che prevede che i diversi correttori siano d’accordo sulle risposte considerate accettabili, e che sappiano poi applicare questi criteri alla multiformità dei casi concreti. Le prove aperte, trattate con una metodologia anch’essa legata al modello matematico, attraverso la moderazione delle variabili della severità del giudice e della sua equanimità verso le prove, hanno mostrato un’attendibilità notevole. Le materie umanistiche pertanto possono trovare nel test aperto uno strumento di misurazione comparabile che non sacrifichi del tutto la loro innegabile complessità, l’intreccio di conoscenze, capacità, abilità che si legano a livelli molteplici nella loro trattazione come materia scolastica. Si tratta di un campo nel quale dopo la prova DE di storia sarebbe importante condurre altre esperienze di ricerca sistematica, anche perché si tratta di una tipologia più vicina alle prove scolastiche e quindi più passibile di andare “a regime”.
3.2 osservazioni sui test di italiano nella scuola secondaria di primo grado 3.2.1 Analisi dei costrutti nel 2004 Per il test di italiano si può dire che sia successo quello che William P. Fisher Jr.117 afferma a proposito dei test in generale: “whether or not any item belongs to one particular construct or to another is not a question that can be answered on a purely theoretical basis, without reference to data”. Lo stesso autore afferma: "In an earlier work, Messick118 says not only that `all measurement should be construct-referenced' (p. 957), but that `any concept of validity of measurement must include reference to empirical consistency' (p. 960).
116
Come è avvenuto per le prove di scrittura IEA-SAL: v. il citato volume Misurare e valutare le competenze linguistiche, cur Corda Costa – Visalberghi, La Nuova Italia 1995, pp. 55. 117 Le citazioni sono tratte da Content Validity and Misfitting Items , Bohlig M., Fisher W.P. Jr., Masters, G.N., Bond, T. in ”Rasch Measurement Transactions”, 12-1, 1998. 118 The standard problem: meaning and values in measurement and evaluation, “American Psychologist”, 30, 1975, 955-966.
79
He should then hold that construct validity depends on empirical consistency, exactly the matter of interest in the application of the Rasch model." In questo senso nella prima parte del rapporto si è parlato di aspetto “euristico” della misurazione attraverso il modello di Rasch, che a posteriori ha fornito dati empirici sulla stessa formulazione sia dei test nel loro complesso sia dei singoli item. Un’attenta analisi dei questionari di italiano della scuola secondaria di primo grado mostra che anche lì dove la sequenza nel tempo dei tre test (prima, seconda, terza classe) si è allineata correttamente, senza sovrapposizioni di rilievo119, in realtà la dimensione indagata non era unica. Nel grafico in Figura 1 (DE- Differenza ed equità 2004 italiano in seconda media) gli item si raggruppano secondo due costrutti120, consentendo di rileggere a posteriori la composizione del test. In realtà il grafico conferma un’osservazione intuitiva: la risoluzione del test infatti richiede sia conoscenze linguistico-grammaticali sia attività di comprensione testuale che, pur facendo entrambe parte del settore della “educazione linguistica”, di per sé non sono dimensioni assimilabili fra loro e si sarebbero dovute scorporare in due differenti test. Il grafico mostra in questo modo l’attitudine del modello ad individuare il problema, e ciò fa ritenere che anche in casi più complessi, oppure di minore evidenza empirica, come nel caso del test della scuola superiore di secondo grado, sia possibile utilizzarlo a fini euristici, anche se su questo punto non vi è accordo in letteratura.
119
Il punto riguarda la possibilità di calcolare il valore aggiunto: cfr. 3.1 Aspetti metodologici. Qui contraddistinti da lettere maiuscole o minuscole. Il grafico è completato da una tabellalegenda della corrispondenza fra lettera e item, che qui non si riporta. La situazione “ottimale” sarebbe se non si rilevassero nette distinzioni di sorta. 120
80
Figura 3.3 – Test di italiano seconda media – DE 2004 TABLE 23.2 Link PP2 e Diff-eq - Medie Italiano - ZOU302ws.txt Mar 29 17:38 2005 INPUT: 7845 Persons, 55 Items MEASURED: 7646 Persons, 55 Items, 2 CATS 3.38 -------------------------------------------------------------------------------PRINCIPAL COMPONENTS (STANDARDIZED RESIDUAL) FACTOR PLOT Factor 1 extracts 1.7 units out of 55 units of Item residual variance noise. Yardstick (variance explained by measures)-to-This Factor ratio: 17.8:1 Yardstick-to-Total Noise ratio (total variance of residuals): .5:1 -2 -1 0 1 2 ++---------------+---------------+---------------+---------------++ + | + | A | | + | + | B | | + |C + | | | + E |F D + | | G | + | H + | | I | + | JK + | M N O P L | +---------S-VZ--11z---y------QU--W--Y---------X---R1--T-----------+ | s wu x rp v |q t | + n |o + | m j| k l | + i c | d g b h ef + | a| | + | + ++---------------+---------------+---------------+---------------++ -2 -1 0 1 2 Item MEASURE
.6 F A C T O R 1
.5 .4 .3 .2
L .1 O A .0 D I -.1 N G -.2 -.3
Rispetto all’osservazione intuitiva il modello non solo fornisce conferme, ma permette anche una serie di ulteriori osservazioni: per esempio sulla mancata separazione, quanto a “costrutto”, fra livello morfologico e livello sintattico a causa della natura delle domande e del modello linguistico-didattico di riferimento. Risulta superfluo in questo caso distinguere fra conoscenze morfologiche e sintattiche, o fra analisi logica e analisi grammaticale o del periodo, mentre è interessante la collocazione del lessico, che non può essere oggetto di classificazione, nel secondo costrutto (su questo punto v. più analiticamente nel test del 2005). Infatti, analizzando i singoli quesiti all’interno del test DE 2004, vengono innanzitutto riconosciuti come omogenei, addirittura indipendentemente dall’argomento specifico del quesito, quelli accomunati dal fatto che si tratta sostanzialmente di operazioni di classificazione, e che hanno come “azione esperta” richiesta il riconoscimento, segnalato nella formulazione della domanda con l’uso del verbo essere o di analoghe espressioni: -
(analisi grammaticale) “Nella frase ‘Il figliolo del re che ritornava da caccia la incontrò per un viottolo’, la è …” (item 1 DE-link PP2) (analisi logica) “Nella frase ‘Se la possiedi, usa una bussola per segnare il nord’ una bussola è …” (item 8 DE- link PP2) (analisi del periodo) “Quante proposizioni ci sono nella frase ….” (item 2 DE- link PP2)
81
(analisi logica) “Individua in quale frase il pronome ‘che’ ha funzione di soggetto … (item 20 DE) Si tratta di domande di “analisi”, indipendentemente dal fatto che il quesito sia legato ad un testo di senso compiuto (la domanda 8 è relativa al testo funzionale “La banderuola”) oppure di una domanda isolata. Si può osservare a questo proposito, dal punto di vista della costruzione del test nel suo complesso, che la domanda di grammatica legata a un testo risulta non giustificata dal punto di vista funzionale se la domanda è comunque autosufficiente121, mentre è necessaria nei quesiti di comprensione testuale, in cui gli elementi, tra i quali pare collocarsi il lessico, sono riconoscibili solo in un contesto. Il secondo costrutto individuato dal modello, almeno in una prima approssimazione (ne sarebbero forse possibili di ulteriori), riguarda appunto gli item di comprensione testuale, dove le “azioni” richieste sono ancora di riconoscimento, ma non di categorie o classi, bensì di caratteri semantici o di aspetti sintetici, o di conoscenze legate alla poesia: -
“Nel testo l’argomento della seconda strofa è …” (item 23 DE) (sintesi su più elementi analitici) - “Gli elementi che caratterizzano la forma del diario sono …” (item 27 DE) (interpretazione) - “Lo scopo del testo è…” (item 29 DE) (sintesi) - “Il linguaggio utilizzato è …“ (colto e ricercato / gergale / semplice e colloquiale / ricco di figure retoriche) (item 31 DE) (interpretazione) - “Lo schema metrico ABBA corrisponde alla rima …” (item 21 DE) - “La terza strofa è …” (distico/ottava/sonetto/terzina) (item 22 DE) - “Individua in quale frase la parola mare è usata come metafora: …” (item 25 DE) (valutazione) Tipologie differenti di domande, in questa dimensione, perché richiedono una diversa “azione”, sono invece: -
“In quale delle seguenti coppie di vocaboli il primo termine NON ha significato opposto rispetto al secondo: …” (item 30 DE) (selezione rispetto al bagaglio lessicale) - “Gli aggettivi che meglio descrivono il carattere del protagonista sono …” (item 28 DE) (qui è richiesto di scegliere in base a un criterio che si trova nel testo nel suo complesso) - “Quale delle seguenti azioni NON può essere espressa con il verbo ‘puntare’ ? …“ (item 32 DE) (qui è richiesta una selezione in base al principio dell’accettabilità del significato). In effetti, la comprensione testuale richiede attività cognitive assai sofisticate, che non possono essere assimilate a quelle richieste da una “educazione grammaticale” che resta legata alla categorizzazione di matrice aristotelica; inoltre va notato che le abilità richieste dalla comprensione, -
121
Anche se lo sforzo dell’estensore dei test INValSI è dichiaratamente quello di presentare sempre testi di senso compiuto per conferire una certa plausibilità di senso alle analisi richieste.
82
nonostante l’apparenza, sono attualmente scarsamente praticate nella scuola italiana e soprattutto nella secondaria di primo grado, come approccio didattico e come tipologie di esercizi, pur essendo previste nei livelli di competenza ormai di due tornate di prove OCSE-PISA e in parte dai quesiti INValSI122. La descrizione e ancor più la “misurazione” di queste abilità è però ancora in buona parte da indagare. 3.2.2 Analisi dei costrutti nel 2005 Nella composizione dei test per la terza media sia di italiano sia di matematica (DE – Differenza ed Equità 2005 o New) sono state intenzionalmente accostate fra loro due parti che si riferiscono l’una al livello in uscita dal ciclo della scuola media (item appositamente predisposti) e l’altra all’inizio del ciclo successivo (item assunti dal test PP3 della classe prima superiore)123. In italiano (Figura 3.2), gli item si collocano nuovamente su due differenti dimensioni, e anche le tipologie di quesito sono parse abbastanza diverse fra loro, se si utilizza la chiave di lettura delle “azioni” richieste.
122
Ci si riferisce qui per esempio allo studio delle inferenze, che fanno parte della pragmatica del linguaggio, oppure alla linguistica testuale; altre metodologie in uso invece, come le tipologie testuali o la narratologia, risultano meno funzionali alla “comprensione”, legandosi più al riconoscimento di tipi fissi. Su questa strada sarebbe necessario compiere scelte coraggiose al livello della “didattica in atto”: gli OSA per la scuola secondaria di primo grado presentano alcuni riferimenti ad ambiti innovativi, in particolare: “tema/rema, fuoco/sfondo; profilo comunicativo della frase; movimenti testuali, …” che costituiscono una via praticabile per l’ampliamento delle competenze di comprensione del testo. 123 Sul punto v. anche il par. 3.3. Livelli di difficoltà percepito: il caso della matematica.
83
Figura 3.4 – Test di italiano terza media – DE 2005 o New TABLE 23.2 III Media Italiano New ZOU665ws.txt Dec 24 18:17 2005 INPUT: 1243 Persons, 35 Items MEASURED: 1243 Persons, 29 Items, 2 CATS 3.38 --------------------------------------------------------------------------------
F A C T O R
.4 .3 .2 .1
1 .0 L O -.1 A D -.2 I N -.3 G -.4
PRINCIPAL COMPONENTS (STANDARDIZED RESIDUAL) FACTOR PLOT Factor 1 extracts 1.6 units out of 29 units of Item residual variance noise. Yardstick (variance explained by measures)-to-This Factor ratio: 12.6:1 Yardstick-to-Total Noise ratio (total variance of residuals): .7:1 -2 -1 0 1 2 ++---------------+---------------+---------------+---------------++ | | | + | B A + | | | + | + | D CE | F | + I | G H + | J| | + K M | L + | N | | +--------------------------------|--------------------------------+ | | O n | + l | m + | k | j | + h i g | + | e | f | + | + | c | d | + a | b + ++---------------+---------------+---------------+---------------++ -2 -1 0 1 2 Item MEASURE
Anche in questo caso la distribuzione degli item nel grafico corrisponde all’ipotesi avanzata per il test di seconda media. Appartengono al “costrutto” segnato con lettera maiuscola tutti gli item relativi a conoscenze di analisi grammaticale, logica e del periodo, per lo più provenienti dal test PP3 per la prima superiore, con l’eccezione-conferma del “riconoscimento” di uno schema metrico. Appartengono invece al costrutto segnato con lettera minuscola le domande con valore interpretativo, come per es. - “Qual è il significato della poesia?” (New 6) - “Qual è lo scopo del testo?” (New 16) e item in forme più dinamiche e dalle consegne più varie, come ha deliberatamente scelto di formularle l’estensore DE 2005: - “Col tempo l’ossessione di Stefano” (diminuisce / rimane uguale / aumenta / scompare) (New 13) - “Perché una volta data la forma alla pasta, questa non è pronta per essere confezionata?” (New 19) Fra queste domande, significativamente, i sei item relativi al lessico, fra cui, di tipologia interessante: - “A quale dei seguenti oggetti è abbinato normalmente il termine cespo?” (New 11) (n.b. “normalmente”) - “Come si chiama il processo in cui si ottiene la farina dal grano?” (richiede di tornare sul testo per controllo) (New 17) - Il lessico infatti è non tanto un bagaglio acquisito di termini, quanto uno dei modi attraverso i quali si entra in rapporto con un testo nel suo
84
complesso: ciò è evidente nella richiesta di “normale abbinamento” fra un termine e un contesto generico (11), ma anche nella richiesta di individuare su tutta l’ampiezza del testo specifico i segnali analitici del significato di un termine (17). Inoltre si vedano i quesiti al negativo: - “Quale di questi termini NON è sinonimo di inesorabile?” (New 15) - “In una delle seguenti coppie di vocaboli il primo termine NON ha significato opposto rispetto al secondo: quale?” (DE 2004 link con New 5) che fanno riferimento sì al “bagaglio lessicale”, ma sempre richiedendo uno “sguardo” a situazioni reali in cui il termine sia o non si plausibile. Sul lessico altre interessanti osservazioni si vedranno più avanti. 3.2.3. Item malfunzionanti (misfit) L’analisi delle curve di Rasch fornisce altre informazioni preziose: item pur costruiti secondo norme considerate valide124, che avrebbero quindi dovuto dare un buon adattamento, sono invece risultati “misfit”. Come scrive Geoff Masters, “Item misfit can be an indication that performances in the domain, as I originally conceptualized it, cannot be summarized in a single number”; e Trevor Bond: “let us presume that the items for a potential test were all included for some very good (substantive, theoretical, construct-related) reasons. Then, less than pleasing fit statistics say ‘Think again', not ‘Throw it out'”125. Come si sa, possono essere individuate due tipologie di malfunzionamento, quello per cui la risposta non dipende dalla abilità, bensì da altri fattori (per esempio fattori etnici o culturali, geografici, differenze di genere … = infit e outfit < 1), oppure quello per cui le risposte vengono date a caso per difetto nella formulazione della domanda o dei distrattori (così che anche i bravi sbagliano, mentre i non bravi “ci azzeccano” = infit e outfit > 1)126. I due casi sono illustrati graficamente dalla Figura 3, tratta dal rapporto di ricerca della prima annualità.
124
Con riferimento alla docimologia, ma anche alla ricerca sociale. Nel caso di indicatori di fit meno che soddisfacenti bisognerebbe ripensare alla formulazione delle singole domande, invece che eliminarle. La costruzione di database di item funzionanti, in cui anche il livello di difficoltà sia stato accuratamente validato (cioè l’item risulti di difficoltà costante in anni differenti rispetto a studenti differenti) richiede un lavoro di anni, come ha sottolineato G.Kingsbury (NWEA) al seminario internazionale della Comunità Europea “Methodological Tools for Accountability Systems in Education” svoltosi presso il Joint Research Centre di Ispra (6-8 febbraio 2006). 126 Mentre ai fini di un buon adattamento gli indici di infit e outfit dovrebbero avere dei valori compresi tra 0.8 e 1.2 125
85
Figura 3.5 - Curve teoriche degli item e item con cattivo adattamento
P (Yi1 = 1θi , δ 1 ) P(Yi 2 = 1θi , δ 2 )
P(Yi 3 = 1θ i , δ 3 )
Item facile
Infit << 1 Outfit <<1
Item medio
Item difficile
θi
Infit >> 1 Outfit >>1
P (Yi1 = 1θ i , δ 1 )
Item facile
P(Yi 2 = 1θi , δ 2 )
Item medio
P (Yi3 = 1θ i , δ 3 )
Item difficile
θi
Le osservazioni che seguono, pur nella consapevolezza della difficoltà di risposte univoche, avviano una pur iniziale riflessione sull’oggetto ravvicinato; cercano cioè di investigare se, e in quali condizioni, diverse tipologie di domande rispondano diversamente alla prova dell’adattamento al modello matematico. Lo scopo, più che essere una critica alle singole domande, è quello di identificare punti di attenzione che servano alla formulazione corretta degli item, come suggerito da T. Bond. Volendo fare qualche esempio sul test per la seconda media che illustri casi diversi, si può cominciare con l’osservare l’item C1 del PP2, utilizzato come item di linkage nel test DE 2004 (item 5), e il DE 27. La domanda C1 fa parte delle domande sul testo “La banderuola”. Si osserva dal grafico un comportamento “a caso” delle risposte, in cui ragazzi con buone abilità sbagliano, mentre altri studenti rispondono correttamente più della stima delle loro abilità.
86
EMPIRICAL & MODEL ICCs : 5. I5 PP2 C1 - DE 5 ++---------+---------+---------+---------+---------+---------++ O 1.0 + ...*...*....+ B | ...... | S | ... x x | E | ..x | R .8 + . x x + V | .. x x | E | *xxx x | D | x* | .6 + . + A | xx* | V .5 + x . + E | xxx . | R .4 + . + A | x x . | G | x .. | E | x x . | .2 + . + S | x .. | C | ..* | O | ...... | R .0 +....*.......xx x x + E ++---------+---------+---------+---------+---------+---------++ -6 -4 -2 0 2 4 6 Person MEASURE
In effetti la domanda è ben formulata, ma ha come variabile latente il “riconoscimento della tipologia testuale” (la risposta giusta è la B), che risulta una metacognizione rispetto all’altra variabile possibile “scopo dell’esperimento”, più direttamente percepita dallo studente. Cosicché si sovrappone appunto lo scopo in sé dell’esperimento descritto dal testo, indicato dal distrattore D. Sofisticata per quella fascia d’età anche la corretta distinzione fra “insegnare a costruire” (tipologia imperativa) e il “descrivere” presente nel distrattore C, come semplice algoritmo del processo di funzionamento. In conclusione, poiché i distrattori si presentano per ¾ con un buon indice di plausibilità, la risposta viene data a caso e non rileva l’abilità testata. Anche l’item DE 27 è affetto da distorsione: si tratta della medesima tipologia e del medesimo segmento “metacognitivo ”, cioè il riconoscimento della forma testuale. DE 27 Gli elementi che caratterizzano la forma del diario sono (Introduzione e svolgimento / Datazione e formula di saluto / Strofa e rima / Informazione e descrizione)
87
EMPIRICAL & MODEL ICCs : 27. I27 DE 27 ++---------+---------+---------+---------+---------+---------++ O 1.0 + ...*....+ B | ..... | S | x ... | E | .. | R .8 + .. x + V | x. x x | E | x. x | D | . | .6 + * + A | x * | V .5 + x * + E | xx. | R .4 + x . + A | xx . | G | .. | E | x. | .2 + x xx .. + S | .*x | C | *. | O | ...... | R .0 +............*...* x + E ++---------+---------+---------+---------+---------+---------++ -6 -4 -2 0 2 4 6 Person MEASURE
Inversamente rispetto al precedente, in questo caso le risposte erano tutte poco credibili, compresa quella corretta, in quanto A si riferisce al tema tradizionale, B (quella giusta) piuttosto alla lettera, per la presenza, oltre alla data, della “formula di saluto”, C decisamente a composizioni di registro letterario poetico, e D a un genere comunicativo possibile all’interno di un diario, ma non come elemento tipizzante. Le alternative sono dunque sembrate tutte errate, e la risposta è stata data a caso. Un altro caso di misfit si riferisce a quesiti in cui è maggiormente presente l’elemento valutativo. Si esamini l’item DE 31. DE 31 “21 settembre (…) Un tempo m’ero fatta un’idea che avrei comprato un altro diario dopo averti riempito e che avrei tenuto un diario o un memoriale per tutta la vita. Ma ora penso che non lo farò. I diari sono una gran cosa finché si è giovani. Difatti tu mi hai salvato dalla pazzia, cento, mille, un milione di volte. Ma penso che quando una persona diventa adulta dovrebbe essere in grado di parlare dei suoi problemi e dei suoi pensieri con altra gente invece che soltanto con un’altra parte di se stessa come sei stato tu per me.”
(Alice, i giorni della droga)
Il linguaggio utilizzato è (Colto e ricercato / Con espressioni gergali / Semplice e colloquiale / Ricco di figure retoriche)
88
EMPIRICAL & MODEL ICCs : 31. I31 DE 31 ++---------+---------+---------+---------+---------+---------++ O 1.0 + ....*....+ B | ....*. | S | ... | E | .. x | R .8 + . x + V | * xx | E | ** | D | * | .6 + . + A | x*x | V .5 + x. + E | x. | R .4 + xxx. + A | . | G | x x . | E | x x .. | .2 + . + S | ..x | C | *.. | O | ...... | R .0 +............*.. x x x + E ++---------+---------+---------+---------+---------+---------++ -6 -4 -2 0 2 4 6 Person MEASURE
Lo studente in questo item è chiamato a dare non una risposta su un singolo elemento specifico, bensì una valutazione globale su più indizi fra loro correlati, tali per cui una “marca” risulta prevalente, e che fanno propendere per l’uno o l’altro giudizio sintetico. Non si può dire però che manchino nel testo figure retoriche (“cento, mille, un milione di volte”) o quelle che per un dodicenne sono ricercatezze (“memoriale” insieme al più semplice “diario”, “essere in grado di” al posto di “sapere”), al punto da non poter individuare il tono colloquiale come marca specifica, se non in linea teorica (di solito il diario personale ha un tono colloquiale). Un ulteriore esempio di risposta casuale si trova in una domanda riferita al lessico: che non si tratti di uno degli elementi paradigmatici del sistema linguistico, come le morfologia o la sintassi che possono essere “apprese” sistematicamente, è noto. Non esiste “l’analisi lessicale” in quanto non è possibile classificare i lessemi, ma semmai solo i morfemi funzionali come per esempio i suffissi: d’altra parte il riconoscimento del significato delle parole è una delle strategie di lettura investigativa. Nel caso della domanda sul lessico, infatti, non si testa tanto l’ampiezza del bagaglio lessicale posseduto da un alunno, ma la capacità di inferenza attraverso tecniche quali il ricorso all’etimo oppure al contesto; a meno di presentare la domanda del tutto staccata da un testo di riferimento.
89
Si veda il seguente esempio preso dal PP2:
EMPIRICAL & MODEL ICCs : 45. I45 PP2 B5 ++---------+---------+---------+---------+---------+---------++ O 1.0 + *.....*........+ B | *.*... | S | ... | E | .. | R .8 + .. x x + V | . x | E | .x x | D | x x *x x | .6 + x x * + A | x x. | V .5 + x . + E | x x . | R .4 + . + A | . | G | x .. | E | x . | .2 + . + S | .. | C | ... | O | ...... | R .0 +....*.... x x + E ++---------+---------+---------+---------+---------+---------++ -6 -4 -2 0 2 4 6 Person MEASURE
Nel testo in esame il termine compare riferito agli alianti, “aerei senza motore, con i quali ci si gettava dalle alture per effettuare i cosiddetti voli librati”, e dunque i distrattori127 che si riferiscono in modo non scorretto al contesto, cioè la mancanza di rumore (“senza motore”) oppure il tempo limitato (“ci si gettava dalle alture”), risultano credibili, a prescindere dal senso specifico del termine (l’equilibrio nell’aria). Nel caso indicato, appare verosimile che anche chi ha risposto in maniera corretta possa averlo fatto a caso, poiché la parola risulta perlomeno rara per un dodicenne. In tal modo vi è poca relazione fra l’abilità stimata e la probabilità di risposta “corretta”, se la correttezza è la conoscenza specifica del termine e non la plausibilità rispetto al contesto.
127
Purtroppo un’analisi dell’impatto dei distrattori richiederebbe la disponibilità dei dati completi sui risultati del test.
90
Queste osservazioni confermano l’ipotesi, svolta in precedenza sulla base dei costrutti, della collocazione degli item sul lessico nella sfera delle abilità di comprensione, e non in quella della conoscenza linguistica. Apparentemente dunque i quesiti relativi al secondo costrutto presenterebbero notevoli rischi di maladattamento del tipo [>1]. Si vedano ora le seguenti domande relative al primo costrutto, dove il problema dell’interpretazione delle curve di Rasch si pone diversamente. Si tratta di quesiti privi di ambiguità nell’assunto, di natura strettamente grammaticale, e che presentano invece un alto grado di discriminatività [<1]. Nei due item DE 13 e 14, per esempio, la curva si dispone nettamente in verticale, separando decisamente chi sa e chi non sa. DE 13 “In ospedale i medici visitano i pazienti ogni mattina”. Nella frase il complemento oggetto è (In ospedale / Ogni mattina / I medici / I pazienti) EMPIRICAL & MODEL ICCs : 13. I13 DE 13 ++---------+---------+---------+---------+---------+---------++ O 1.0 + x x xx x.*...*.....*....+ B | xxx x...... | S | ... | E | x.. | R .8 + x. + V | .. | E | *x | D | . | .6 + .x + A | . | V .5 + . + E | . xx | R .4 + . + A | . x | G | . | E | .. | .2 + . + S | .. xx | C | ... x | O | ...... | R .0 +........ x x x xx + E ++---------+---------+---------+---------+---------+---------++ -6 -4 -2 0 2 4 6 Person MEASURE
DE 14 “Ho sentito dei cd con il tuo nuovo stereo dal suono bellissimo”. Nella frase il complemento oggetto è …” (Nuovo stereo / Suono bellissimo / Dei cd / Ho sentito)
91
EMPIRICAL & MODEL ICCs : 14. I14 DE 14 ++---------+---------+---------+---------+---------+---------++ O 1.0 + xx xx *.*...*.....*....+ B | xxx ..... | S | x ... | E | x.. | R .8 + *. + V | . | E | *x | D | . | .6 + .x + A | . | V .5 + *xx + E | * | R .4 + . + A | .. | G | . | E | . x | .2 + .. + S | .. | C | .. x | O | ...... | R .0 +........ x x x xx + E ++---------+---------+---------+---------+---------+---------++ -6 -4 -2 0 2 4 6 Person MEASURE
Si tratta di problemi di analisi logica, i quali in sé non presentano particolari ostacoli – semmai una maggiore difficoltà è nel DE 14 dove il complemento oggetto si presenta con l’articolo partitivo - in quanto gli elementi della frase, priva di subordinate, sono disposti secondo un ordine canonico di successione. Tuttavia l’esito è che studenti non abili rispondono correttamente e studenti abili sbagliano, e la domanda non misura l’abilità degli studenti, ma distingue fra studenti che hanno o non hanno trattato l’argomento. Nel caso della prova scolastica questo potrebbe corrispondere ad un fine adeguato della prova (ha / non ha studiato). Non si tratta certo della totalità degli item grammaticali, dove si registrano anche altri comportamenti. Tuttavia, gli item grammaticali sono quelli dove maggiormente si è visto che in certi casi il percorso scolastico, più che sottoporre agli studenti una successione di “difficoltà”, fornisce contenuti, la cui sola conoscenza/non conoscenza fa da discrimine, e dove emerge conseguentemente l’attitudine di un test così concepito a fornire una “indagine” sui curricoli reali della scuola più che una misurazione128. Un’ipotesi sulle disfunzioni infatti è che variabile causale dei risultati in esame sia il tipo di “programma” svolto dalle classi/scuole, attente in grado maggiore o minore all’aspetto testato: nel caso dell’analisi logica per esempio e in generale della riflessione sul sistema linguistico, esso è indispensabile per l’accesso agli studi liceali, e quindi dovrebbe essere maggiormente curato in scuole la cui utenza si indirizza preferibilmente al liceo; in questo caso si tratterebbe di DIF. Un’analisi dei dati disaggregati per scuola potrebbe suffragare questa ipotesi. Quanto al test di terza media, sono risultati affetti da malfunzionamento gli item 4 (l’unico link sia al DE 2004 sia al PP2: ciò nonostante nei due casi 128
Si è fatto cenno al problema nella parte 3.1 del rapporto, Aspetti metodologici.
92
precedenti avesse avuto un buon adattamento), 12, 14, 18, 21, 28. Fra questi vale la pena di commentare: New 21: “Qual è una caratteristica della proposizione implicita?” (E’ sempre in modo finito / Ha sempre il verbo all’infinito / Ha sempre il soggetto sottinteso / E’ sempre in modo indefinito) EMPIRICAL & MODEL ICCs : 21. N 21 ++-----+-----+-----+-----+-----+-----+-----+-----+-----++ O 1.0 + x x x......*.....+ B | x x x ...... | S | .... | E | x .. | R .8 + .. + V | .. | E | x *x | D | . | .6 + *. + A | * | V .5 + . + E | . | R .4 + x..xx + A | . x | G | . x | E | x x ..x | .2 + .. x + S | .* x | C | ..*. x | O |...... | R .0 + x x + E ++-----+-----+-----+-----+-----+-----+-----+-----+-----++ -3 -2 -1 0 1 2 3 4 5 6 Person MEASURE
Si tratta di una delle poche domande di “analisi” non attinta dal PP3, che nonostante sia da attribuire alla tipologia del riconoscimento richiede una operazione piuttosto complessa: da un lato la domanda prevede non il semplice riconoscere, come sarebbe stato “quale fra queste proposizioni è implicita”, bensì la padronanza di una formulazione teorica; dall’altro essa utilizza la forma “sempre”, cioè accetta solo una definizione esatta. Anche questa però, a prescindere dall’evidente maladattamento, tendenzialmente ha distinto la popolazione sottoposta a test in due categorie (chi sa e chi no), a conferma forse del fatto che la “grammatica” a scuola “si fa / non si fa”. New 14: “L’espressione specchio di mare è …” (una similitudine / una sinestesia / una metonimia / una metafora)
Il grafico registra una correlazione quasi assente fra abilità e difficoltà, con risposte date a caso, ma prevalgono anche classi in cui la risposta può essere stata suggerita.
93
O B S E R V E D
1.0
.8
.6 A V E R A G E
.5 .4
.2 S C O R E
.0
EMPIRICAL & MODEL ICCs : 14. N 14 ++-----+-----+-----+-----+-----+-----+-----+-----+-----++ + x ....*.....+ | ....... | | .... | | ..x x | + .. + | . x | | .. x | | . | + x .xxxx + | x ** | + xx x x * + | x x xx . | + x * + | x.. | | . | | .. | + .. + | .. | | ... | | ....... | +. x x + ++-----+-----+-----+-----+-----+-----+-----+-----+-----++ -3 -2 -1 0 1 2 3 4 5 6 Person MEASURE
In questo caso evidentemente è richiesta una “doppia conoscenza” di carattere sia teorico (in che cosa consistono le figure retoriche indicate), sia interpretativo (in che senso va inteso “specchio”). La sovrapposizione di due diverse operazioni, che in una prova di profitto scolastico sarebbe del tutto ammissibile, non è compatibile invece con un test costruito secondo il modello di Rasch. Dispiace (a chi scrive !) l’eliminazione della seguente domanda che richiedeva una certa concentrazione ed abilità, proposta su un testo articolato e che scandiva diverse fasi di un processo complesso: New 18 “Qual è l’ordine esatto dei processi descritti per la produzione della pasta?”
(Trafilazione, impasto, macinazione, essiccamento, raffreddamento / Macinazione, essiccamento, impasto, raffreddamento, trafilazione / Macinazione, impasto, trafilazione, essiccamento, raffreddamento / Trafilazione, raffreddamento, impasto, essiccamento, macinazione)
94
O B S E R V E D
1.0
.8
.6 A V E R A G E
.5 .4
.2 S C O R E
.0
EMPIRICAL & MODEL ICCs : 18. N 18 ++-----+-----+-----+-----+-----+-----+-----+-----+-----++ + xxx.**.*..*....*......*.....+ | x x **.*... | | x.** | | x*.. | + .. + | x . | | .. x | | . x | + . + | . x x | + .. x + | . | + . + | . | | .. x | | . | +. + | | | | | | + x x + ++-----+-----+-----+-----+-----+-----+-----+-----+-----++ -3 -2 -1 0 1 2 3 4 5 6 Person MEASURE
La domanda risulta difficile, anche perché una delle fasi doveva essere ricavata per via indiretta (La pasta viene ventilata più volte con aria calda. A mano a mano che l'umidità affiora viene eliminata. Anche in questo caso la legge é molto precisa, l'umidità finale non deve essere superiore al 12,5%. L'elemento finale dell'essiccatoio è il raffreddatore che provvede a portare a temperatura ambiente la pasta ancora a temperatura d'essiccatoio). In questo caso può aver giocato un ruolo negativo anche la triplice stratificazione contenuta nella richiesta, basata sull’incrocio di: individuazione delle articolazioni interne al testo; lessico; collocazione di ben cinque fasi replicate in ordine diverso nelle quattro possibilità offerte. Probabilmente anche questo genere di quesiti è molto adatto ad una prova curricolare, ma mal si presta alla misurazione di un costrutto unidimensionale. Anche se è molto difficile in questi casi dare una spiegazione del tutto convincente del maladattamento, si tratta di ipotesi plausibili. Questi esempi, in ogni caso, sono stati proposti allo scopo di mostrare quanto lavoro ci sia ancora da fare sull’analisi della formulazione dei quesiti, in relazione ai differenti costrutti indagati e all’adattamento, ed anche di mostrare in che senso una misurazione non possa coincidere con una prova scolastica, pur avendo più di un elemento in comune con essa.
95
3.3 Il livello di difficoltà percepito: il caso della matematica 3.3.1 Standard e didattica E’ noto il problema dell’inesistenza di veri standard valutativi e di un senso comune condiviso all’interno del corpo insegnante: ciò fa sì che, in diverse regioni / scuole / classi, performance uguali diano luogo a valutazioni differenti e conseguentemente a investimenti distorti in termini di aspettative sul futuro. Il fenomeno è ancor più evidente in seguito alle misurazioni OCSE, che indica che le valutazioni negli esami di terza media nel sud Italia sono sovrastimate rispetto alle reali abilità degli studenti. Un fattore decisivo nella stessa azione didattica, e quindi nel controllo consapevole da parte degli insegnanti del processo di apprendimento degli studenti, consiste nella possibilità di sottoporre agli studenti - quanto a contenuti, a segmenti di percorso, a quesiti - livelli di difficoltà adeguati, cioè “prossimi” al livello di competenza dello studente, che secondo la formulazione risalente a Vygotskij devono essere immediatamente più difficili di quel che lo studente sa fare (“zona di sviluppo prossimale”). Infatti se l’attività è troppo facile ciò indurrà noia, mentre se è troppo difficile indurrà scoraggiamento. Importante è quindi la capacità degli insegnanti di stimare i livelli di difficoltà proposti agli studenti nello svolgimento del curricolo. Un aspetto interessante della ricerca “Dalla differenza, l’equità” riguarda la possibilità offerta dal modello di Rasch di definire in maniera oggettiva il livello di difficoltà del test nel suo complesso rispetto alle abilità degli studenti, e dei quesiti in rapporto reciproco.
3.3.2 Misure di rasch: il grado di difficoltà del test Va detto innanzitutto (v. Figura 3.6) che i tre test, e soprattutto il primo e il secondo, corrispondenti alle classi prima e seconda media, segnalano il naturale allineamento del curriculum di matematica rispetto alla difficoltà, di cui si è parlato nella prima parte del rapporto: infatti essi si collocano correttamente uno rispetto all’altro nella successione temporale, come si vede dalla posizione di PP2, in basso, e DE collocato più in alto; New (il test per la terza media), nonostante una collocazione in alto, presenta anche diversi item più “spalmati”. Da notare la corrispondenza complessiva tra la media delle difficoltà e quella delle abilità.
96
Figura 3.6 - I tre test di matematica PP2, DE 2004, New (DE 2005)
Se ora si considera in Figura 3.7 il test della terza media e in particolare la Media della difficoltà (sulla dx) e la Media delle abilità (sulla sin), esso risulta più facile rispetto alle abilità degli studenti, diversamente dal test di seconda media, che era risultato abbastanza difficile: tendenzialmente non vi sono nel terzo test domande abbastanza difficili da riuscire a misurare i 63 (7 individui per ognuno dei 9 asterischi superiori) studenti più bravi, quelli che si collocano oltre il livello “2”.
97
Figura 3.7 - Test della terza media (DE 2005 o New)
4
3
2
1
0
-1
-2
Persons MAP OF Items | .# + | | | | | .# | | + | .## | | T| .## | | .### | + N 8 .##### | .#### | N 11 |T .###### | .###### S| .###### | | N 35 .##### + N 14 .######## | N 17 ######## |S N 24 .######## | N 19 .######### | N 25 .###### M| N 9 .###### | .######### | N 12 .####### +M N 10 .######## | N 13 .########### | N 32 .####### | N 2 (DE 16) .####### | N 16 .##### | N 21 N 6 .##### S|S N 1 (DE 10) .##### | N 23 + N 18 .##### | .### | .### | .## | |T .# T| . | N 27 + . |
N 22
N 33
N 20
N 4 (DE 21)
N 39
N 34 N N N N N
15 38 28 29 3 (DE 17)
N 5 (DE 26)
N 7
N 31 N 36
N 37
N 26 N 30
In realtà, anche in questo test, come in quello di italiano, una parte dei quesiti (dal n. 26 al n. 40) era tratta dal test PP3 della prima classe superiore, in modo da costruire idealmente una prova di passaggio fra l’uscita dalla terza media e l’ingresso nel ciclo successivo. Gli item provenienti da due diversi livelli non costituiscono però lo spartiacque fra livello facile e livello difficile, come ci si aspetterebbe (maggiore difficoltà in prima superiore), e si può dire anzi che proprio il segmento del PP3 abbia in parte “abbassato” la soglia di difficoltà. In particolare nel PP3 erano previsti item (es. 21, 27, 28, 37) che per la terza media sono stati ritenuti già dall’estensore (e poi sono anche risultati) facili, inoltre gli item 30 e 36 sono risultati facili ma erano stati ritenuti difficili dall’estensore. E' probabile che il test di prima superiore dell'INVALSI saggi conoscenze relative non ai livelli “in uscita” dal ciclo precedente (un momento specifico nel tempo) bensì alle competenze complessive del precedente ciclo (i
98
prerequisiti per la scuola superiore). In questo caso si nota la differente filosofia dei due sistemi di misurazione, in cui il DE si domanda “che cosa esattamente sa fare in questo momento lo studente ?” e quindi “dove esattamente si colloca rispetto ad una scala gerarchica del sapere ?” che è possibile stabilire nel costruire il curriculum, mentre il PP2 si domanda “lo studente ha studiato o no i seguenti argomenti compresi nella materia in questo periodo di tempo che va dalla prima alla terza media ?” 3.3.3 Il grado di difficoltà degli item Anche il grado di difficoltà dei singoli item è oggetto di osservazione. Dall’analisi delle schede B compilate dagli insegnanti, dove erano richiesti tre quesiti per ogni argomento posti in “ordine di difficoltà”, è emerso che quesiti considerati difficili da alcuni insegnanti erano all’inverso ritenuti facili da altri, il che è comprensibile in relazione al contesto della classe. Il livello di difficoltà, nel caso della scheda B, riguardava però non quesiti a scelta multipla, centrati su un’azione specifica, bensì più generiche delimitazioni dell’ “argomento”, e quindi livelli meno precisamente stimabili. Più interessante della scheda B è risultata la percezione della difficoltà degli item da parte degli estensori dei test. Sia nella prima sia nella seconda rilevazione DE è stata chiesta agli insegnanti la stima della difficoltà dei singoli item secondo una semplice classificazione (“facile / medio / difficile”), che poi è stata confrontata con l’esito: in tutti i test ci sono state diverse sorprese. Nel caso della prova di matematica della terza media (DE 2005 o New) si è voluto predisporre un controllo specifico, richiedendo all’estensore non soltanto l’indicazione generale sul singolo item (ancora “facile / medio / difficile”), ma anche un’ipotetica “graduatoria preventiva” dell’intero test, con livelli di difficoltà quantificati da 2 a 9 (Figura 3), da confrontare successivamente con i risultati oggettivamente misurati secondo il modello matematico, il quale costruisce una vera “scala” in ordine crescente. Per avere un’idea dei punti in cui vi è scarto fra previsione e esito, si prende in esame ancora il grafico in Figura 2, che rappresenta il test della terza media, non ancora depurato degli item che non adattandosi bene al modello sono stati poi scartati dalla misura del valore aggiunto nelle tre annualità (9 su 35 item originari). Da notare nella tabella che nel test vengono segnalati nella seconda colonna, oltre agli item “nuovi”, anche item DE (item di linkage con il test dell’anno precedente) e quelli tratti dal PP3.
99
Figura 3.8. Livelli di difficoltà previsti n. domand a
Corrispond e al
Argomento
Livello difficoltà
Rispost a giusta
FACILE
B
coeff. di diffico ltà 2
5
DE n.26
18
-
RAPPORTI PROPORZIONI NUMERI RELATIVI
28
PP3 n.19
GEOMETRIA SOLIDA
FACILE
A
2
FACILE
C
31
PP3 n.21
2
ESPRESSIONI LETTERALI GEOMETRIA PIANA
FACILE
D
2,5
1
DE n.10
6
-
FACILE
C
3
FACILE
C
3
E
16
-
ESPRESSIONI LETTERALI PIANO CARTESIANO
FACILE
A
3
21
-
NUMERI RELATIVI
FACILE
C
3
37
PP3 n.8
PROBABILITA’
FACILE
B
3
27
PP3 n.7
GEOMETRIA PIANA
FACILE
C
3,5
7
-
EQUAZIONI
MEDIO
C
4
15
-
NUMERI RELATIVI
MEDIO
B
4
24
-
E
MEDIO
B
4,5
8
-
CIRCONFERENZA CERCHIO CIRCONFERENZA CERCHIO NUMERI RELATIVI
E
MEDIO
B
5
MEDIO
C
5
E
MEDIO
C
5
E
MEDIO
A
5
12
-
19
-
22
-
35
PP3 n.25
CIRCONFERENZA CERCHIO CIRCONFERENZA CERCHIO FRAZIONI
DIFFICILE
D
5
39
PP3 n.4
STATISTICA
MEDIO
C
5
3
DE n.17
FRAZIONI
MEDIO
B
6
13
-
MEDIO
C
6
34
PP3 n.5
ESPRESSIONI LETTERALI RAPPORTI PROPORZIONI PROBABILITA’
MEDIO
C
6
MEDIO
38
PP3 n.17
29
PP3 n.24
32
E
C
6
MEDIO
D
6,5
PP3 n.23
CIRCONFERENZA E CERCHIO NUMERI E OPERAZIONI
MEDIO
C
6,5
4
DE n.21
GEOMETRIA PIANA
DIFFICILE
D
7
10
-
MEDIO
B
7
9
-
ESPRESSIONI LETTERALI GEOMETRIA SOLIDA
DIFFICILE
C
7,5
2
DE n.16
FRAZIONI
DIFFICILE
C
8
11
-
DIFFICILE
D
8
14
-
CIRCONFERENZA E CERCHIO GEOMETRIA SOLIDA
DIFFICILE
D
8
17
-
GEOMETRIA SOLIDA
DIFFICILE
A
8
23
-
NUMERI RELATIVI
DIFFICILE
D
8
25
-
NUMERI RELATIVI
DIFFICILE
D
8
36
PP3 n.28
GEOMETRIA SOLIDA
DIFFICILE
B
8
20
-
EQUAZIONI
DIFFICILE
C
8,5
30
PP3 n.3
DIFFICILE
D
8,5
26
PP3 n.6
DIFFICILE
B
9
33
PP3 n.26
ESPRESSIONI LETTERALI GEOM. PIANA – CALCOLO LETTERALE NUMERI E OPERAZIONI
DIFFICILE
A
9
100
Confrontando i dati di previsione (Figura 3.8) con la graduatoria degli item (Figura 3.7) si rileva quanto segue: - le diverse fasce di difficoltà individuate dall’estensore si collocano in maniera coerente per più di quattro quinti (32 item su 39; 7 item “anomali”); - risultano ben stimati i livelli bassi e medio-bassi: gli item indicati con un punteggio da 2 a 3 si collocano in modo piuttosto compatto nella fascia inferiore rispetto alle abilità degli studenti, il solo item 27, che dall’estensore è considerato facile ma posto al confine con gli item medi, risulta addirittura troppo facile, anche se poi viene scartato per malfunzionamento e quindi non compare nella scala generale; - i livelli attorno alla media, benché collocati al centro della scala delle abilità risultano più spalmati (non compatti) come è prevedibile nella zona più “sensibile”, e in parte sottostimati (es. l’item 35, dato con un punteggio “medio” di 5 ma indicato come “difficile”, si colloca infatti piuttosto in alto); - in questa fascia è presente un vero elemento spurio (l’item 8, dato con un punteggio di 5 e giudicato “medio”, è risultato invece il più difficile); - ben collocato anche il livello medio-alto: gli item indicati con punteggio 6-7 corrispondono bene sia alla difficoltà media del test, sia alla media delle abilità degli alunni; - il livello alto invece contiene, insieme a buone previsioni, vere sorprese nella valutazione: si tratta degli item 23, 30 e 2 (item di linkage), tutti previsti con un punteggio di 8, molti dei quali si collocano invece in posizione bassa; specialmente il n. 30 risulta il più facile129 insieme al 18 (collocato correttamente); - ancora più interessante il livello che doveva segnalare l’eccellenza (punteggio 9), di cui uno (33, peraltro eliminato per cattivo adattamento) si colloca solo oltre la media, mentre il 26, che doveva essere il secondo più difficile, si colloca addirittura fra i più facili. Gli item “killer” sono quindi i seguenti: 30, 23, 36, 2, 33 (eliminato) e 26, in quanto sovrastimati (dovevano essere nella fascia alta e invece sono risultati facili), e in sostanza solo l’8 (meno clamorosamente il 35) in quanto sottostimato.
129
E’ interessante che in altre rilevazioni sia emersa addirittura una sistematica sovrastima degli item considerati più difficili e un’altrettanto sistematica sottovalutazione di quelli considerati più facili: ne ha parlato al seminario internazionale della Comunità Europea “Methodological Tools for Accountability Systems in Education” svoltosi presso il Joint Research Centre di Ispra (6-8 February 2006) l’austrialiano prof. David Andrich.
101
3.3.4 Osservazioni dell’estensore del test Il docente estensore del test, a posteriori, ha fatto alcune osservazioni sullo scarto fra previsione ed esito. Item risultati più difficili del previsto: Item n° 8: Riguardava un argomento teorico e non applicativo; forse è risultato più difficile del previsto proprio perché richiedeva una conoscenza teorica piuttosto raffinata. Probabilmente nella S Media si fa poca teoria di matematica. Item n° 35: si trattava di un segmento del programma precedente, un tipo di problema che sarebbe risultato più facile alla fine della I media. Questo fatto pone la questione anche in matematica delle conoscenze cumulate, cioè dell’effettivo livello di apprendimento, forse troppo mnemonico o meccanicistico e poco ragionato. Item risultati più facili del previsto: Innanzitutto c’è la possibilità che i ragazzi testati siamo bravi ! Item n° 30: l’ esperienza dice che ragazzi del biennio delle superiori faticano ancora a districarsi su questioni del genere. Tuttavia, a questa domanda si poteva rispondere basandosi anche sullo studio a memoria di alcune formule (cosa non di per sé negativa); così facendo, la conoscenza dell’algebra non sarebbe stata necessaria. Item n° 2: Continuo a ritenere non banale la difficoltà implicita nell’item in questione; forse la disposizione delle 4 possibili risposte ha facilitato la scelta di quella giusta, consentendo di andare un po’ ‘a naso’ ! Item n° 26: Il risultato inatteso potrebbe significare che associando l’aspetto visivo a quello del calcolo algebrico, le difficoltà diminuiscono. Item n° 23 e 36: Probabilmente qui gioca la buona preparazione su quegli argomenti specifici. 3.3.5 Conclusioni In conclusione si può da un lato ribadire l’importanza per l’insegnante di paragonarsi con i vincoli e anche coi risultati delle misurazioni oggettive, al fine di rivedere proprie convinzioni o confermarle, e ciò soprattutto e più specificatamente quando si passa dalla percezione della difficoltà dell’argomento nel suo complesso a quella della specifica richiesta (dell’item, ma anche di una domanda di interrogazione). E’ il caso che emerge evidentemente dal confronto fra le schede B, cui si è fatto cenno. D’altro canto, nel caso che si è esaminato in questa parte del rapporto si ha comunque la consolante conferma del fatto che un insegnante competente, normalmente impegnato nell’attività didattica, come l’estensore del test di seconda e di parte di quello di terza media, ha una percezione molto ben approssimata del livello di difficoltà degli item e quasi esatta del livello di difficoltà del test nel suo complesso130. 130
Difficilmente sbaglia poi nello stabilire una graduatoria interna alla classe, anche se può sbagliare nel peso “standard” con cui misura tutti.
102
Una certa sfasatura su questo aspetto può essere imputata appunto al carattere ibrido del test (misto di PP3 e DE), e forse anche al fatto che la popolazione selezionata può essere stata migliore dell’anno precedente per motivi di campionamento (scuole particolarmente interessate a sottoporsi al secondo esperimento di misurazione della crescita). Lo stesso esito positivo sulla complessiva “attendibilità” degli insegnanti ha dato la prova aperta di storia, dove circa 30 valutatori, selezionati fra normali docenti di scuola secondaria, a prescindere dal loro maggiore o minore grado di severità (che il modello è in grado di “moderare”), hanno mostrato un alto grado di affidabilità: solo in pochi casi si notavano valutazioni “umorali”, cioè non equanimi rispetto ai diversi elaborati. Ciò conferma l’idea che anche all’interno della scuola non è impossibile una valutazione affidabile, tale che tenga conto delle persone reali che vi operano e delle molteplici esigenze interne al sistema scolastico.
3.4 Prove aperte e prove chiuse 3.4.1 Aspetti salienti dello stato di salute odierno della valutazione per prove strutturate nella scuola italiana Rispetto alle prassi oggi correntemente diffuse e praticate nella scuola italiana, la Ricerca ha “fotografato” una situazione complessiva che può essere riassunta attorno ad alcuni aspetti salienti. 1. A fronte di una certa generalizzazione, per la quasi totalità delle discipline scolastiche, dell’uso di prove “oggettive” di valutazione (più o meno strutturate), con il relativo apparato didattico e organizzativo (test d’ingresso; batterie graduate di esercizi; tassonomie; nei casi migliori, progettazione e valutazione collegiale, nel singolo dipartimento disciplinare o nella singola classe, delle verifiche e delle loro risultanze), permane fra gli insegnanti una riserva di fondo sulla fondatezza, la pertinenza e l’efficacia didattica e pedagogica di tali prove. Ne discende, per lo più, una variabile disistima, che in qualche caso - più raro - assume la forma del rifiuto totale, e più spesso si giustifica invocando la complessità dei processi formativi, l’impossibilità di ridurli o scomporli analiticamente in “parti” o “segmenti” isolati, le difficoltà a ristrutturare la didattica ordinaria o tradizionale in base a tale nuovo “paradigma”. 2. A questa riserva di fondo dànno inoltre motivazione una serie di caratteristiche – e limiti – che si possono rilevare vagliando sia la storia della implementazione delle “prove oggettive” nella scuola italiana, sia il bagaglio professionale di norma acquisito dai docenti nella loro formazione iniziale. Nell’insieme occorre sottolineare: a) l’impianto prevalentemente analitico - infra-disciplinare, strutturalistico, metodologistico - delle prove strutturate,
103
conseguente alla visione ingegneristica e procedurale dei processi formativi e alla relativa “scomposizione in fattori primi” che abitualmente regge e guida come principio ispiratore la loro concezione e creazione (con tutte le difficoltà che ciò comporta, non appena l’oggetto di studio e di apprendimento presenta gradi di complessità crescenti - per intendersi, oltre la soglia dei saperi elementari e della cosiddetta “alfabetizzazione”); b) la mancanza, nei docenti, di una adeguata “cultura della valutazione”, in termini sia di sensibilità culturale e di specifica preparazione disciplinare e professionale in materia, sia di consapevolezza della necessità d’introdurre responsabilmente nella scuola adeguati strumenti di verifica e valutazione dei processi formativi (pur coscienti dei loro limiti intrinseci e con ogni indispensabile cautela e attenzione).
3.4.2 In sintesi, le principali risultanze della Ricerca circa le “prove aperte” – e la loro possibile utilizzazione insieme alle “prove strutturate” Proponendo “prove aperte” di Storia contestualmente alla somministrazione di “prove chiuse” in ambito linguistico-letterario e matematico, la Ricerca ha voluto saggiare – limitatamente alla Scuola Secondaria di II Grado - un’ipotesi innovativa, che alla prova dei fatti ha trovato conferma relativamente ai seguenti punti: -
-
-
-
E’ possibile costruire prove di verifica degli apprendimenti di tipo complesso e multifattoriale, a partire dalla prassi d’insegnamento correntemente praticata dagli insegnanti. Ciò implica – e richiede - la formazione di “comunità disciplinari” come contesto genetico delle prove stesse e come orizzonte di riferimento/unità di misura della loro valutazione; La fisionomia complessa e multifattoriale di tali prove permette di verificare, negli studenti, l’apprendimento e la padronanza dei saperi di grado più elevato e stratificato rispetto alle conoscenze e alle abilità di base, nonché la maturazione delle capacità e abilità logico-cognitive più raffinate; La natura specifica di tali prove richiede un elaborato processo di ideazione, validazione e correzione degli items, facente perno sull’esistenza di un gruppo di docenti rappresentativo della più ampia “comunità disciplinare” o “scientifica” e, contestualmente, sull’utilizzazione di adeguate metodologie di trattamento e moderazione statistica (nel caso, il modello di Rasch); L’utilizzazione contestuale di “prove aperte” e “prove chiuse” può non solo valere come efficace e più completo strumento di verifica e valutazione degli apprendimenti, ma anche generare feedbacks significativi per il compito e la responsabilità primari dell’insegnante
104
-
consistenti nel saper progettare percorsi formativi quanto più adeguati alle reali condizioni e capacità degli studenti, oltre che alle risorse presenti nei diversi contesti o ambiti educativi.
3.4.3 Ulteriori prospettive d’indagine In prospettiva, la Ricerca apre ulteriori piste di lavoro, certo non prive di difficoltà, che meritano attenta considerazione. 1. La prima pista si riassume nell’interrogativo circa l’effettiva possibilità di creare – e a quali costi - efficaci strumenti di verifica degli apprendimenti in forma di “prova aperta”. Come si è visto, ciò richiede: a. la costituzione, in modo relativamente stabile e duraturo (almeno il ciclo scolastico interessato), di una “comunità disciplinare” che valga come contesto genetico e luogo di elaborazione delle prove di verifica, oltre che come orizzonte normativo di fondazione e riferimento della prassi valutativa; b. l’utilizzazione di complesse metodologie statistiche di trattamento ed elaborazione dei dati, da parte di Enti e personale qualificati, con cui le Istituzioni scolastiche possano avviare specifiche partnership; c. la padronanza - da parte dei docenti disponibili, motivati e coinvolti di una procedura standardizzata di correzione degli elaborati, per la quale si deve prevedere l’offerta di una corrispondente e specifica formazione; d. l’incardinamento significativo di tale prassi valutativa nella didattica corrente come fattore dinamico d’innovazione, in grado di modificare significativamente nel medio periodo l’organizzazione della vita scolastica, l’articolazione dell’insegnamento, i processi formativi e di apprendimento. 2. Qui si apre la seconda pista, che dovrebbe sondare la possibilità di “portare a regime” e “normalizzare” uno strumento valutativo di questo tipo nell’impianto istituzionale, gestionale e pedagogico della scuola italiana attuale. Il profilo della questione presenta almeno i seguenti versanti: a. in che modalità può essere concepita tale “normalizzazione” ? Come estensione tout court di una prassi del genere al sistema scolastico e formativo nella sua interezza – oppure come sua progressiva implementazione, a partire da determinati centri d’irradiazione e “attrazione” innovativa ? b.
nell’uno e nell’altro caso, quali sono gli impegni – istituzionali, economici, gestionali – cui si dovrà far fronte ? Con quali mezzi e supporti ? Qual è l’ordine di grandezza delle risorse – umane ed economiche – da impiegare ? Quale il profilo di governance più coerente con le finalità da perseguire ?
105
c.
che cosa comporta un’innovazione del genere sul versante della professionalità (competenza disciplinare + competenza pedagogica) dei docenti ? Quali orientamenti e imperativi ne discendono per la loro formazione iniziale o in servizio, per l’esercizio della loro professione, per la retribuzione della loro attività ?
Ciascuna di queste voci è ulteriormente suscettibile di sviluppo e articolazione interna. Per fare un esempio, relativo all’ultima: - circa l’esercizio della professionalità docente: che differenza esiste fra la valutazione come prassi individualistica del singolo insegnante e la valutazione, intesa e vissuta come frutto di una cooperazione (sia ideativa che fattiva) e di una corresponsabilità con altri colleghi e soggetti educativi? - circa la formazione iniziale e in servizio: in che modo si forma nei docenti una autentica “cultura della valutazione” ? quale preparazione disciplinare o metodologica occorre ? chi è in grado di elaborarla, trasmetterla, supportarla e incrementarla nel tempo ? quali problemi ne discendono per la governance della singola istituzione scolastica e dell’intero sistema formativo ? - circa la competenza disciplinare e pedagogica del docente: come si configurano e si compongono entrambe queste competenze professionali “di base” ? quale modalità di lettura del problema formativo, di concezione dell’insegnamento e dell’apprendimento, di iniziativa educativa verso gli studenti e il loro contesto vitale ne discendono ? - in quali profili più specifici può articolarsi e differenziarsi - per compiti propri, collocazione istituzionale, statuto giuridico, retribuzione economica - la professionalità docente nel campo d’attività della “valutazione”, intesa come “elemento di sistema” dell’ordinamento scolastico e formativo ?
3.5 I questionari di contesto e di processo: acquisizioni e possibili sviluppi La somministrazione agli insegnanti e agli studenti di questionari che rilevassero indicatori di contesto e di processo era stata prevista fin dalla fase iniziale della ricerca. Tali questionari erano stati pensati quali strumenti di integrazione delle misure del valore aggiunto, al fine di contribuire a riconoscere e a valorizzare la professionalità dei docenti, offrendo indirettamente informazioni circa l’efficacia dei differenti processi motivazionali e didattici attivati, al netto dei dati socio-economici di partenza: si inserivano quindi
106
nell’ambito delle linee di studio della school effectiveness e della school accountability. In particolare la somministrazione di questionari di processo era finalizzata a mettere in luce le possibili correlazioni fra i dati di crescita rilevati dall'indagine e i processi formativi messi in atto da scuole e docenti, in un'ottica di school improvement. Se è noto infatti, a partire dagli studi di Coleman, che i livelli delle conoscenze in un determinato momento del percorso formativo sono spiegati prevalentemente dai fattori socio-economici (SES), gli studi sul valore aggiunto (VA) sembrano indicare invece che la crescita degli apprendimenti è da attribuire ampiamente all'influsso della scuola. Per la formulazione dei questionari di contesto e di processo da somministrare nell’ambito della presente ricerca si è quindi considerata innanzitutto la prassi dei vari test nazionali ed internazionali, quali quelli INValSI, Ocse-PISA, Iea TIMSS, ecc.
3.5.1 Impatto sui docenti In realtà, rispetto agli altri test, la somministrazione anche ai docenti di un questionario relativo alla loro prassi didattica e al clima della classe rappresentava una novità, in quanto ad esempio nei test INValSI e Ocse-PISA erano previsti questionari di processo rivolti solo a studenti e dirigenti scolastici. Questa novità è stata effettivamente rilevata dai docenti e ha causato alcune perplessità fra i referenti delle scuole durante gli incontri di presentazione dei questionari stessi: alcuni hanno sentito questo tipo di domande come una indebita invasione nella libertà di insegnamento e una violazione della privacy, evidenziando così le resistenze che ancora si manifestano quando si affronta il problema della valutazione di sistema delle scuole, e quindi, almeno indirettamente, dei docenti. Nonostante le assicurazioni che i dati sarebbero stati trattati esclusivamente in modo aggregato e anonimo, alcuni docenti non hanno di fatto compilato il questionario (in una percentuale attorno al 13%). Per inciso, è interessante chiedersi qual è l’origine di un simile atteggiamento da parte degli insegnanti: perché un questionario che miri ad identificare uno stile di insegnamento ed eventualmente la sua efficacia viene osteggiato? Questo sembra implicare un valore distorto assegnato alla verifica del proprio operato, considerata non tanto come un momento cruciale di ripensamento critico e di sintesi della propria azione professionale, in vista di un consolidamento o di un miglioramento, ma piuttosto come qualcosa di legato soltanto ad una valutazione, anche quest’ultima caricata di un significato esclusivamente punitivo: pertanto si ritiene opportuno non dare troppa pubblicità a quanto succede in classe.
107
3.5.2 Le variabili presenti in letteratura Oltre alla prassi diffusa dei test, l’altra fonte da cui si sono tratte indicazioni per la formulazione dei questionari di processo sono le tendenze rilevate negli ultimi anni in letteratura (cfr. Gori (2003) pp. 16 ss.). Negli studi a livello internazionale sono state individuate già da tempo alcune categorie di indicatori di contesto e di processo atti a evidenziare le caratteristiche di contesto e gli stili di leadership e di insegnamento delle diverse istituzioni scolastiche. Secondo Scheerens (1999), che compara lavori precedenti propri e di altri autori, i fattori connessi alla scuola, agli insegnanti, alle classi e al contesto che possono avere un effetto sugli apprendimenti degli studenti, si possono sostanzialmente ricondurre ai seguenti: 1. la leadership educativa della scuola 2. un clima scolastico ordinato e orientato agli apprendimenti 3. la qualità e l’organizzazione del curriculum 4. la chiarezza sugli standard minimi richiesti 5. frequenti valutazioni 6. la formazione in servizio del personale 7. alte aspettative 8. il coinvolgimento delle famiglie 9. stimoli esterni In particolare, fra questi fattori, quelli ai nn. 1,2,5,7 coincidono con i cinque già indicati dal primo studio in questo campo, quello di Edmonds (1979), poi ripresi in modo sostanzialmente invariato da Scheerens e Bosker (1997). Come si nota i fattori focalizzati specificamente sull’azione individuale degli insegnanti sono pochi, ma occorre aggiungere la considerazione che tutti gli altri fattori organizzativi e di contesto influenzano, attraverso l’organizzazione, l’efficacia dell’azione stessa degli insegnanti.
3.5.3 I questionari di contesto Insieme ai test DE, sia quello del 2004 sia quello del 2005, sono state somministrate agli studenti due semplici schede volte a rilevare, da una parte, le valutazioni interne assegnate dagli insegnanti nelle materie oggetto del test (per un confronto con il livello degli apprendimenti misurato secondo il metodo di Rasch), dall'altra alcune variabili di contesto SES, quali: -
nazionalità degli studenti e lingua parlata a casa presenza o meno in casa dei genitori e di fratelli titolo di studio dei genitori numero di libri presenti in casa Come riportato nel capitolo relativo ai dati della ricerca, dall'analisi di queste variabili non sono risultate correlazioni significative con la crescita degli
108
apprendimenti (mentre, come detto sopra, le correlazioni sussistono se si considera non la crescita, ma il livello degli apprendimenti in un certo momento). Pertanto si è optato per un allargamento dei dati, raccogliendo anche dati di processo. Occorre a questo punto rilevare che il contesto SES a cui si fa riferimento nella comune formulazione di questo tipo di questionari è esplicitamente quello famigliare, mentre non viene preso in considerazione come significativo per gli apprendimenti il contesto extrafamigliare, che potrebbe rivelare aspetti interessanti.
3.5.4. Le variabili considerate nei questionari di processo Al momento della somministrazione del test della seconda annualità (2005) si è deciso quindi di integrare gli elementi di contesto raccolti con altri dati di contesto e di processo, da rilevare attraverso questionari rivolti a insegnanti e studenti. Nel formulare tali questionari si è scelto, anche per limitarne l’estensione, di strutturare le domande restringendo il campo ai seguenti aspetti di contesto e organizzativi dell’attività scolastica: Variabili di input: - formazione iniziale, stato giuridico e anni di anzianità del docente (nella parte di anagrafe) Variabili di processo: - leadership educativa e clima scolastico, nella percezione degli insegnanti e degli studenti. In particolare si sono inserite domande riferite alla presenza o meno di “alte aspettative” e all’attenzione riservata agli studenti delle “diverse fasce” di rendimento scolastico (es.: "In questa scuola il dirigente e la maggior parte degli insegnanti hanno alte aspettative verso i risultati degli studenti, i quali lo percepiscono", "L'insegnante dà anche agli studenti più bravi occasioni per progredire", "L'insegnante richiede agli allievi di lavorare sodo", "L'insegnante fa capire agli studenti che potrebbero migliorare" (box 8, 10, 12 e 13- docenti e box 1, 2 e 3- studenti). Il secondo aspetto può essere collegato a considerazioni sulla “zona di sviluppo prossimale” di Vygotskij. - organizzazione del tempo scolastico, con particolare riferimento ai compiti a casa (box 9- docenti e box 4 e 5- studenti) - metodologia e frequenza delle valutazioni nel box 11- docenti. Occorre tuttavia considerare che le evidenze statistiche emerse dagli studi effettuati nel campo della school effectiveness, (cfr. Paletta (20051) p. 27, tab. 4 e (20052)), pur considerando significativi quasi tutti i fattori elencati da Scheerens (sopra riportati con numeri da 1 a 9) evidenziano correlazioni minime fra essi e la crecita degli apprendimenti degli studenti, fatta eccezione per le “alte aspettative”, caratterizzate da un coefficiente di correlazione medio-debole (0.20). Le variabili più significative per spiegare la crescita degli apprendimenti
109
sono invece quelle di "insegnamento strutturato"(cfr. Paletta (20051), ibdem), e precisamente: -
l’apprendimento cooperativo (coeff. 0.27) il feedback (coeff. 0.48) il rafforzamento dell’apprendimento individuale (coeff. 0.58) la differenziazione/adattabilità dell’istruzione (coeff. 0.22). Queste variabili, tutte incentrate sull’apprendimento, e precisamente sulla continua interrelazione fra docente e discente, insieme ad altri aspetti legati alla specificità delle attività didattiche, non sono però state testate nei questionari di processo somministrati. Solo nel questionario-studenti sono stati inseriti alcuni items relativi al feedback, sia sui compiti a casa (chiedendo se "l'insegnante controlla se ho fatto i compiti a casa", "fa osservazioni" su di essi, li "valuta", ne "tiene conto per l'assegnazione dei voti in pagella"), sia in senso più generale ("L'insegnante accetta che gli studenti consegnino compiti scritti male o senza cura"; "L'insegnante mostra soddisfazione quando gli studenti fanno bene"). Da notare fra l'altro una significativa vicinanza fra questo tipo di domande e il concetto di "alte aspettative". Questi e i restanti aspetti dell'"insegnamento strutturato" rappresentano quindi campi di indagine ancora aperti, che dovrebbero essere opportunamente studiati.
3.5.5 Esiti e possibili sviluppi dell'utilizzazione dei questionari di processo Dal trattamento statistico dei questionari somministrati a docenti e studenti si è evidenziata finora la quasi totale assenza di correlazioni significative fra le variabili di contesto e di processo e le misurazioni della crescita degli apprendimenti, a parte quelle importanti (già precedentemente emerse) relative al gruppo-classe. In particolare è emersa una correlazione significativa fra l'appartenenza ad una classe ad alto VA e la tendenza ad iscriversi ad un liceo nel prosieguo degli studi. Su questa scelta influisce positivamente anche l'alta valutazione attribuita all'alunno dagli insegnanti, anche in contrasto col reale VA misurato (vedi la parte di E. Gori, G. Plazzi, M. Battauz relativa ai dati). Se questi dati fossero confermati, ciò costituirebbe una ulteriore evidenza sperimentale delle indicazioni presenti in letteratura, che assegnano un valore molto scarso all’influsso dei cinque principali elementi di contesto SES e di processo sulla crescita degli apprendimenti degli studenti. Si aprono pertanto possibilità di ulteriori approfondimenti per verificare se esistano correlazioni significative tra il VA misurato e lo stile di insegnamento o di leadership, o altri elementi relativi al contesto non ancora indagati, da approfondire anche prendendo spunto dai diversi risultati, in termini di valore aggiunto, ottenuti dagli studenti. In particolare sarebbe interessante verificare l’esistenza di correlazioni tra le variabili di insegnamento strutturato, soprattutto il cosiddetto “rafforzamento
110
degli apprendimenti individuali” e la crescita degli apprendimenti: si potrebbe così analizzare che tipo di ricaduta hanno sugli studenti i diversi metodi di esercitazione e di verifica, e, in generale, l’atteggiamento (esigente, critico, valorizzatore…) del docente nei confronti degli studenti e dei loro apprendimenti. In senso più generale, poi, potrebbero risultare interessanti altri approfondimenti, ad esempio nel campo della leadership, per verificare quanto una certa leadership educativa possa influenzare l’azione didattica degli insegnanti e i suoi effetti sugli apprendimenti, oppure relativamente ad altri aspetti dell’azione didattica, ad esempio quelli legati alla zone di sviluppo prossimale di Vygotskij. Sarebbe infine interessante allargare l’analisi del contesto SES da quello famigliare almeno ad alcuni elementi di quello extrafamigliare. Le principali linee in cui pare possa indirizzarsi quindi il trattamento statistico dei dati, per un prosieguo della ricerca, sono le seguenti: A) Rispetto al campo dell'azione dell'insegnante potrebbero essere approfondite in modo più analitico le caratteristiche del rapporto fra docente e gruppo-classe, dato che anche dalla presente ricerca risulta confermato il dato secondo cui le variazioni più significative negli apprendimenti si registrano in relazione ai gruppi-classe. Come è noto, nei sistemi scolastici dei vari Paesi le classi non sono costituite allo stesso modo e non si identificano sempre con un gruppo fisso. Si potrebbero quindi indagare le variabili “sensibili” sulla crescita degli apprendimenti indotta dal rapporto costante di un docente, per un certo periodo di tempo, con un determinato gruppo di alunni. B) Una seconda linea di sviluppo potrebbe essere quella che considera in modo correlato il binomio insegnante-studenti: si dovrebbero approfondire gli incroci fra le risposte fornite dagli uni e dagli altri rispetto ad analoghi argomenti, o anche somministrare agli insegnanti coinvolti nelle rilevazioni della seconda annualità dei questionari integrativi sulle variabili di insegnamento strutturato, per ampliare e completare il quadro dei dati in nostro possesso. C) Una terza possibilità, per un ulteriore sviluppo dell’ipotesi di ricerca con i dati in nostro possesso, è quella di effettuare incroci di tre elementi noti: - la crescita degli apprendimenti; - variabili di processo e di contesto rilevate dal questionario-insegnanti; - le stesse variabili come emergono dalle risposte degli studenti. In questo modo si potrebbe rilevare se il valore dichiarato dagli insegnanti è in qualche modo illuminato o confermato dalle affermazioni degli studenti e se esiste un qualche rapporto fra i primi due elementi e la crescita degli apprendimenti. Va chiarito comunque che scopo della presente ricerca non è stato quello di identificare uno stile di insegnamento “migliore” di altri in senso assoluto, ma di evidenziare se vi siano aspetti dell'insegnamento, e più in generale del contesto
111
scolastico, capaci di influire positivamente sulla crescita degli apprendimenti: siamo cioè convinti che ci possano essere diversi buoni “stili di insegnamento” in diversi contesti; anzi, l’emergere di correlazioni significative impreviste potrebbe dare nuove indicazioni per gli studi di school effectiveness: e su questo i dati potranno gettare ulteriore luce. In particolare se si evidenziasse una forte correlazione fra il “rafforzamento dell’apprendimento individuale” e i progressi rilevati negli apprendimenti, ciò costituirebbe una importante indicazione verso un stile di insegnamento più orientato alla responsabilizzazione dell’allievo e basato sulla fiducia accordata alle sue capacità di sviluppare le proprie potenzialità. Sarebbe infine molto utile la possibilità di un allargamento del campione statistico, perché le indicazioni e le tendenze emerse dalla presente indagine possano ricevere una effettiva validazione. Resta comunque appurato che per una valutazione equilibrata e completa di una scuola o di un intero sistema scolastico attraverso il metodo del VA non si può prescindere da una considerazione sempre più precisa del peso degli elementi di contesto e di processo.
3.6 Il rapporto con le scuole Alla fine del 2004 terminava la ricerca “Dalla Differenza, l’equità. Misurare gli apprendimenti disciplinari nella scuola dell’autonomia” che metteva le basi ad una esperienza significativamente innovativa per un sistema di valutazione efficiente per i due cicli la scuola lombarda. Nella stessa direzione, con l’obiettivo di verificare la possibilità di predisporre misure di valore aggiunto nella prospettiva delle curve di crescita, si è posta la seconda annualità del progetto di ricerca, rivolta questa volta esclusivamente agli Istituti Scolastici secondari di primo grado che avevano già partecipato alla precedente ricerca.
3.6.1 Il coinvolgimento della scuole In questo progetto, il primo compito in cui l’IRRE Lombardia si è trovato impegnato è stato quello di attivare un coinvolgimento attivo delle scuole secondarie di primo grado che avevano partecipato alla sperimentazione dell’anno precedente, sugli obiettivi della nuova ricerca. Indubbiamente questa operazione si presentava alquanto delicata poiché alle scuole veniva richiesto, per l’anno scolastico 2004/2005, un coinvolgimento e un ulteriore carico di lavoro in un momento in cui l’attuazione di riforme strutturali già vedeva impegnati dirigenza e docenti su molti fronti.
112
Considerato che le scuole secondarie superiori di primo grado che avevano partecipato al progetto “dalla differenza, l’equità” erano, tra scuole Medie e istituti Comprensivi, complessivamente 40, ma che dovevano essere escluse quelle di cui non si possedevano i dati relativamente alla rilevazione INVALSI condotta nel 2003, rimanevano da contattare 22 istituti scolastici. Di conseguenza, ricevere le adesioni di tutte le scuole era praticamente indispensabile perché i dati raccolti fossero un campione significativo per la ricerca che si intendeva compiere. Fortunatamente, la strategia attuata nella ricerca precedente nel mantenere i contatti con le scuole, la tipologia del rapporto già consolidato e la credibilità raggiunta dal nostro Istituto nel proporre alle scuole progetti sempre significativi, si sono dimostrate un ottimo investimento, poiché già nei primi contatti si è istaurato un clima di collaborazione che ha garantito la fiducia dei dirigenti e dei docenti nel proseguire per una strada avviata che tante attese aveva creato. Indubbiamente, anche e soprattutto altri elementi hanno giocato un ruolo importante a favore dell’adesione delle scuole secondarie di primo grado, oltre naturalmente la credibilità e il riconoscimento dello qualità della proposta di ricerca e lo spessore degli enti coinvolti: -
-
-
-
-
la possibilità di una rilevazione longitudinale dei risultati degli apprendimenti disciplinari, infatti per i tre anni del corso sono stati testati gli stessi studenti: rilevazioni fatte nel 2003 tramite i test PP2 da INVALSI, prove del 2003/2004 nell’ambito del progetto “Dalla differenza, l’equità, misurare gli apprendimenti disciplinari nella scuola dell’autonomia” sul valore aggiunto e la nuova verifica nel 2004/2005 su lettere e su matematica. L’ archiviazione dei dati, come quella realizzata nel progetto precedente, avrebbe permesso, tra l’altro, di verificare alcuni fondamentali aspetti relativi alla misurazione degli apprendimenti in questione. l’attuazione di una misurazione/valutazione degli apprendimenti più “obiettiva” degli usuali voti e giudizi sintetici adottati dagli insegnanti e capace di mettere in evidenza la reale “crescita” dei livelli di competenze di ciascuno studente e della classe intera; la indubbia ricaduta degli esiti scolastici nell’orientamento degli studenti e delle loro famiglie sulle scelte da intraprendere per il proseguimento degli studi nella secondaria di secondo grado; la prospettiva,anche per questa ricerca, di una restituzione, da parte dell’IRRE Lombardia, utile ad una nuova programmazione didattica dell’intero istituto, restituzione finalizzata al miglioramento dell’Offerta Formativa.
113
Queste le premesse che hanno consentito di raccogliere l’adesione di 20 sulle 22 scuole contattate dall’IRRE Lombardia nel dicembre 2004 per offrire loro di proseguire la ricerca. In questa fase iniziale, i dirigenti scolastici e i docenti di questi istituti, come del resto le altre scuole che avevano partecipato alla rilevazione precedente, hanno ricevuto direttamente, in una forma che rispettasse le condizioni imposte dalle norme sulla “privacy”, i risultati dei test delle classi coinvolte l’anno precedente, corredati da alcune indicazioni per la loro lettura e interpretazione così da costituire un riferimento per l’anno in corso e per la ricerca che stava iniziando.
3.6.2 La partecipazione dei docenti Naturalmente, così come nell’abitudine del nostro istituto, abbiamo voluto rendere partecipi i docenti coinvolti più direttamente nella ricerca e, nei limiti del possibile, tutti gli altri interessati agli argomenti connessi, delle motivazioni, degli obiettivi, delle strategie e delle singole operazioni che andavamo ad attivare. In quest’ottica, oltre all’utilizzo di un sito internet appositamente costruito in grado di rendere visibile l’evoluzione delle diverse fasi di ricerca e di mettere a disposizione i materiali di informazione e approfondimento, erano stati previsti in via preventiva previsti due momenti di relazione e confronto perché, da una parte l’operazione evolvesse nel pieno rispetto delle procedure e, dall’altra coinvolgesse i docenti attori e futuri utilizzatori di procedure simili. Questo perché tra gli obiettivi che ci eravamo prefissati c’era quello che gli insegnanti si sentissero essi stessi dei ricercatori e partecipando con sentita motivazione a tutte le azioni previste dalla ricerca prestassero particolare attenzione a quegli aspetti di conduzione delle prove che spesso possono condizionare i risultati di una rilevazione: -
-
somministrazione dei test alle classi volti a rilevare i livelli di competenza raggiunti rispetto agli insegnamenti di matematica e italiano, verificando che la compilazione da parte degli studenti fosse coerente con le indicazioni fornite; compilazione da parte dei docenti dei questionari volti a rilevare sia gli stili di insegnamento, sia l’influenza del contesto organizzativo sugli esiti degli apprendimenti scolastici.
In particolare, il questionario sugli stili di insegnamento ha favorevolmente impressionato i docenti poiché, assieme a quello fornito l’anno scorso su un analisi puntuale degli argomenti svolti, veniva evidenziata la volontà, più volte dichiarata, di cercare di rendere i test degli studenti di un singolo istituto i più aderenti possibili alla pratica quotidiana dell’insegnamento nelle discipline testate,
114
senza peraltro rinunciare agli obiettivi di reale confrontabilità dei risultati ottenuti, tra le scuole. La somministrazione agli insegnanti e agli studenti di questionari che rilevassero indicatori di contesto e di processo era stata prevista fin dalla fase iniziale della ricerca. Infatti, tali questionari erano stati pensati quali strumenti di integrazione delle misure del valore aggiunto degli apprendimenti, al fine di contribuire a riconoscere e a valorizzare la professionalità dei docenti, offrendo indirettamente informazioni circa l’efficacia dei differenti processi motivazionali e didattici attivati, al netto dei dati socio-economici di partenza. In particolare, la somministrazione di questionari di processo era finalizzata a mettere in luce le possibili correlazioni fra i dati di crescita rilevati dall'indagine e i processi formativi messi in atto da scuole e docenti. Pertanto, la possibilità di un approfondimento per verificare se esistessero correlazioni significative tra il valore aggiunto misurato e lo stile di insegnamento o di leadership, o altri elementi relativi al contesto non ancora indagati, si è rivelato essere un aspetto estremamente interessante per i docenti coinvolti nella ricerca che molto spesso si sono dichiarati interessati a momenti di confronto e/o aggiornamento. In quest’ottica, ci siamo dovuti confrontare con una serie di indicazioni che, pur non essendo direttamente collegate con le finalità del lavoro di ricerca, non potevano venir trascurate. I suggerimenti segnalati nel questionario, infatti, sono stati orientati, al di là delle indicazioni sulle modalità di compilazione delle risposte, a verificare l’esistenza di correlazioni tra le variabili di insegnamento strutturato. Sono state messe a confronto le tecniche di approccio con problem solving e problem posing, la lezione frontale, il lavoro per gruppi e, soprattutto, il cosiddetto “rafforzamento degli apprendimenti individuali” per valorizzare le potenzialità degli allievi. Inoltre, ci veniva sottolineata l’importanza di studiare la possibilità di valutare correttamente la crescita degli apprendimenti per sapere che tipo di ricaduta hanno sugli studenti i diversi metodi di approccio alla disciplina (presentazione, esercitazione e verifica) e come incidono alcuni atteggiamenti (esigente, deluso, critico, valorizzatore…) che spesso i docenti attivano nei confronti degli studenti per incentivarli. In ultima analisi quindi i docenti coinvolti nelle attività di rilevazione, rivendicavano anche momenti di formazione sugli argomenti trattati che li rendessero autonomi nel riproporre sistemi di valutazione simili a quelli loro proposti, all’interno dell’istituto di appartenenza. Significativi, in particolare, sono stati i commenti relativi ai quesiti che indagavano: -
il ruolo del dirigente scolastico per “caratterizzare il clima in cui si muovono gli insegnanti”, clima che indubbiamente ha una ricaduta sui comportamenti dei docenti e in ultima analisi sugli apprendimenti degli
115
-
studenti; l’ambiente di lavoro e di collaborazione tra i docenti per procedere in una strategia didattica realmente confrontabile
Ovviamente, questo tipo di fermento ha generato momenti di confronto con i ricercatori IRRE coinvolti dall’iniziativa, ricercatori che spesso sono stati interpellati, non tanto sulla struttura e interpretabilità del questionario specifico, quanto sulla reale disponibilità futura ad affrontare più compiutamente le tematiche relative agli stili di insegnamento/apprendimento e sulle potenzialità legate al tema più generale dei diversi stili cognitivi. Naturalmente, tre anni di sperimentazione tramite test di valutazione non potevano non lasciare un segno negli istituti coinvolti, per cui via via si sono create attese sempre più specifiche sugli strumenti utilizzati per verificare le competenze. I docenti, infatti sia a livello individuale sia a livello di gruppi di lavoro hanno deciso di approfondire le tematiche sull’uso , la costruzione e sulla validazione di prove oggettive di profitto. Così temi come la possibilità di misurare “tutti” gli aspetti delle acquisizioni degli studenti e le differenze tra la valutazione di conoscenze e la capacità di rilevare l’acquisizione di competenze sono divenuti temi della crescita professionale dei docenti che in diversi momenti hanno chiesto indicazioni e bibliografie per approfondire queste tematiche. Da questo punto di vista è apparso chiaro che le attese andavano al di là degli obiettivi del progetto di ricerca in atto, per cui spesso anche gli incontri in cui venivano riportati i dati intermedi e finali delle singole fasi di ricerca risultavano per i docenti insoddisfacenti, non tanto per i risultati ottenuti, ma per la complessità delle argomentazioni teoriche. Tutto ciò ci ha fatto capire, e di questo occorrerà tener conto nelle prossime esperienze di ricerca che coinvolgeranno le scuole, che non è possibile coinvolgere gli istituti scolastici e soprattutto i docenti utilizzandoli solamente come soggetti passivi di una sperimentazione sul campo, anche fornendo loro le più ampie informazioni sulle fasi di lavoro, ma occorrerà affiancare a queste fasi momenti di formazione specifica che permettano ai soggetti di entrare nel merito di ciò che si sta facendo fornendo loro una reale autonomia di lavoro. All’interno di questo “positivo fermento” comunque le operazioni compiute dall’IRRE Lombardia a partire da aprile e terminate, con il ritiro di tutto il materiale relativo alla rilevazione a giugno, sono state organizzate e si sono svolte in modo agile e veloce ma, soprattutto, sono state gestite in modo da generare il minimo impatto negativo per il “normale “svolgimento delle attività didattiche.
3.6.3 Diffusione dei risultati: il sito web Ovviamente, subito dopo le prove l’attesa da parte delle scuole dei dati finali delle si è subito percepita in modo sensibile e quindi, per rispondere tempestivamente alle esigenze di informazione delle scuole, l’IRRE Lombardia, in stretta collaborazione con l’IReR, ha costruito, come già accennato, un sito dedicato a
116
questo progetto di ricerca, sito che alla fine del progetto ha reso disponibile in modo documentato tutto il “percorso” effettuato della equipe tecnico scientifica e dalla scuole: le fasi attraversate, la sintesi delle riunioni di formazione, l’elenco degli istituti che hanno partecipato alla ricerca, la raccolta ragionata dei materiali di approfondimento. Il sito, visibile all’indirizzo: http://www.irre.lombardia.it/valoreaggiunto/va2005 rappresenta la testimonianza del lavoro svolto e il luogo da cui può essere “scaricato” tutto il materiale elaborato.
3.6.4 La restituzione alle scuole Presso l’IRRE Lombardia sono stati organizzati diverse tipologie di incontri, rivolti ai referenti di scuola e ai dirigenti scolastici: -
-
incontri informativi/organizzativi, agli inizi di maggio, per condividere il senso del progetto e presentare sia gli strumenti di rilevazione sia le procedure di somministrazione dei questionari agli studenti; incontri di approfondimento con la partecipazione di relatori di rilevanza nazionale per ottenere contributi teorici significativi in merito alla valutazione degli apprendimenti, e in particolare: o uno a fine maggio, con lo scopo di articolare un primo dibattito tematizzando “l’impatto della valutazione esterna sulle scuole”, elemento di discussione già presente nella ricerca realizzata nel 2003/4 e di importanza strategica per la ricaduta sulla valutazione interna condotta in autonomia dalle Istituzioni scolastiche; o uno a fine giugno, sul tema “utilizzo delle misure di valutazione dei risultati degli studenti all’interno dei processi di autovalutazione della scuola”.
Gli incontri seminariali sono stati apprezzati dagli insegnanti e dai dirigenti scolastici poiché, oltre a “dimostrare” il lavoro che si andava compiendo, sono stati l’occasione per chiarire alcuni aspetti problematici e condividere teorie di carattere pedagogico e docimologico sull’apprendimento/insegnamento delle discipline e, in particolare, di quelle sottoposte a test. Sono state estremamente interessanti, inoltre, anche se il “livello di analisi è spesso apparso un po’ complesso, le opportunità offerte per: -
approfondire i temi riguardanti la valutazione in generale e quella degli insegnamenti specifici, chiarire metodologie di misurazione di carattere statistico affrontare, in sintesi, teorie capaci di orientare e render conto dell’operato degli insegnati
117
Naturalmente il momento e l’argomento più atteso si era quello di “restituzione dei dati” per ciascuna scuola partecipante. Nel gennaio 2006 è stato quindi convocato un incontro, a cui erano stati invitati tutti i referenti e i docenti interessati delle scuole coinvolte nella ricerca, con lo scopo di consegnare i risultati, fornire criteri ed esempi di lettura dei dati e avviare riflessioni e eventuali azioni di miglioramento per quanto riguarda il rapporto insegnamento/apprendimento. Per facilitare questa operazione i dati forniti dal gruppo operativo di ricerca sono stati ristrutturati in modo da permettere analisi e confronti. Infatti ai docenti referenti d’istituto sono stati consegnati: - una busta chiusa, in accordo con le norme della privacy, contenente i risultati, suddivisi per classi, della propria scuola; - un tabulato, prodotto dall’IReR , in cui comparivano i risultati delle prove per le singole classi delle scuole e per ogni scuola dei valori medi rispetto alle classi. Ovviamente gli identificativi delle scuole e delle classi erano stati codificati in modo da non poter essere riconosciuti; - un tabulato che riportava i risultati delle classi codificandoli in decili in modo da permettere un più facile posizionamento delle classe esaminata nel contesto generale. Anche in questo caso gli identificativi erano stati “criptati”. La presenza dei docenti all’incontro, anche se poco numerosa, ha permesso di avviare un dibattito ricco che partiva dal confronto che ogni docente poteva compiere tra la valutazione personale delle proprie classi e i risultati consegnati, verificando se questi realmente aderivano alla realtà o se ne discostavano. Ovviamente le motivazioni del successo o insuccesso nelle prove potevano avere molte e diverse interpretazioni ma la maggior parte delle interpretazioni concordavano con i risultati di molte ricerche internazionali che sempre più evidenziano che è l’insegnante che fa la differenza nella crescita delle competenze, ma che, allo stato attuale delle conoscenze, è assai difficile individuare ciò che rende tale un buon insegnante. Purtroppo, come sappiamo, i modelli di valore aggiunto o di “crescita degli apprendimenti” non possono dare molte indicazioni circa i fattori strategici su cui fare leva per migliore la qualità (cioè gli apprendimenti nelle competenze di base) e possono solo dire per quale classe, o scuola, il valore aggiunto o crescita è sotto la media, in media e sopra la media, al netto delle condizioni in entrata. Un altro aspetto interessante e apprezzato dai docenti ha fatto leva sulla interpretazione dei dati forniti rispetto all’effetto Vygotsky. Ciascun docente ha cercato di verificare sulla propria esperienza e conoscenza delle classi se è possibile trovare una spiegazione teorica nel sopraccitato effetto secondo il quale lo studente bravo messo di fronte a problematiche troppo facili si annoierebbe, e quindi crescerebbe meno di quanto possibile, viceversa i ragazzi meno bravi, messi di fronte a percorsi di apprendimento troppo difficili, si demoralizzerebbero, dando nuovamente adito ad una crescita inferiore alle potenzialità.
118
3.6.5 L'impatto della ricerca A seguito dell’incontro infine, anche se consapevoli che la pressione degli impegni degli istituti è andata via via aumentando, abbiamo richiesto una breve relazione sull’impatto che il lavoro di ricerca ha avuto sulle scuole inviando un sintetico questionario (Allegato 2 Schede di valutazione delle ricadute sulle scuole). In questo caso abbiamo chiesto al referente d’istituto le impressioni rispetto al clima generale in cui è stata condotta la ricerca a scuola: come erano stati accolti i risultati delle prove, se le problematiche avevano suscitato interesse e se c’era interesse a futuri approfondimenti. A nostro avviso, grazie agli esiti di tutto il percorso realizzato, ci sarebbe l’opportunità di gettare le basi per consolidare una ricerca esauriente (specifica e in continuità tra i due cicli scolastici) e affrontarne una di lunga scadenza per: -
monitorare il sistema di valutazione degli apprendimenti dal punto di vista del successo individuale degli studenti; verificare le strategie didattiche adottate dagli insegnanti nella realizzazione dei Piani di Studio Personalizzati nell’ambito della realizzazione del POF di ciascun Istituto Scolastico. Da tutti i dati raccolti ci sono infatti le premesse per ipotizzare una prospettiva più ampia di intervento nella direzione della valutazione degli apprendimenti finalizzata anche all’orientamento.
3.7 L’organizzazione dell’istituzione scolastica La ricerca si è avvalsa di misure di valore aggiunto stimate attraverso una serie di test che hanno fatto uso del modello di Rasch relativamente a matematica (scuole elementari, medie e superiori), lingua (idem) e storia (solo scuole superiori). Pur avendo essa finalità che non riguardavano direttamente il problema dell'organizzazione scolastica, tale problema è tuttavia emerso in maniera implicita nel contesto delle tematiche affrontate, aumentando così la consapevolezza che i dati ricavati dal lavoro svolto possono fornire utili indicazioni e concrete piste di lavoro - che necessitano però di ulteriori e specifici approfondimenti - relativamente a questo tema. Per introdurre adeguatamente il nostro discorso, sembra opportuno mettere subito in evidenza l'importanza che viene ad assumere l’autovalutazione della scuola per scopi di miglioramento interno o rispetto a best practices. Ciò non è peraltro dissimile da quello che fa qualunque organizzazione che opera in condizioni di mercato e che cerca di conseguire un vantaggio competitivo rispetto ai concorrenti, anche se occorre sempre ricordare che questa forma di
119
autovalutazione non rientra meccanicamente in uno schema di puro mercato, dal momento che si deve conciliare la natura del servizio educativo con la necessità di bilanciare autonomia e responsabilizzazione delle scuole stesse. D’altra parte, affinché il processo di autovalutazione incentrato sul valore aggiunto possa innescare un percorso di apprendimento organizzativo, la scuola deve dotarsi di strumenti che la aiutino a gestire la propria performance, individuando i drivers del valore aggiunto e riflettendo su questioni di diversa natura come, ad esempio, il “clima” organizzativo da cui è caratterizzata, l’esercizio di una leadership collegiale, la qualità del curriculum, il coinvolgimento delle famiglie e della comunità, il coordinamento e la motivazione dei docenti, lo stile pedagogico e le opportunità offerte per l’apprendimento, dal momento che risiede proprio in ciò l’utilità maggiore di un sistema di accountability, il quale ha per scopo quello di creare un’architettura di incentivi che sia in grado di innescare un percorso di sviluppo manageriale della scuola incentrato sulla gestione della performance. Le scuole che si dimostrano in grado di leggere il valore aggiunto alla luce dei drivers del valore - e di comunicarlo in un rapporto di autovalutazione - possono perciò produrre importanti conseguenze tra cui promuovere l'evoluzione della gestione della scuola verso un modello di management strategico. Le scuole che sanno allineare i drivers del valore intorno ad una visione strategica, che sanno tradurla in coerenti obiettivi strategici e target di riferimento, che sono in grado di programmare e di destinare le risorse in linea con gli obiettivi, così come di monitorare il grado di raggiungimento degli obiettivi stessi, di correggere e di imparare, sono destinate a “fare la differenza” in quanto capaci di valorizzare al meglio i talenti individuali, le scelte delle famiglie e l’interesse sociale. Occorre, però, tenere sempre presente che i "quasi-mercati" dell’istruzione per poter funzionare efficacemente hanno bisogno non solo di una regolazione sistemica, ma soprattutto di operatori economici maturi, ossia in grado di leggere ed interpretare le dinamiche della domanda, le caratteristiche e le esigenze degli utenti e di individuare i concorrenti e le strategie perseguite. Questo è possibile, però, solo con istituzioni scolastiche orientate strategicamente all’esterno ed in grado di ridisegnare strutture e processi interni capaci di accompagnare il cambiamento. E' bene comunque sottolineare che l'attenzione costante e sistematica nei confronti di tutti gli stakeholder, l'orientamento ai risultati, la gestione basata sui fatti e non sulle percezioni, l'apprendimento, l'innovazione e il miglioramento continuo sono espressioni e metodologie di lavoro che, soprattutto in Italia almeno fino alla seconda metà degli anni ’90 - sembravano aliene al mondo della scuola e rifiutate senza alcuna possibilità di appello. Oggi, invece, questi ideali dell’eccellenza non soltanto hanno cominciato ad entrare nelle routine organizzative di numerose scuole, ma soprattutto alcune tra le istituzioni educative più innovative hanno dimostrato di poter raggiungere pratiche manageriali di tutto rispetto se confrontate con organizzazioni per le quali il tendere all’eccellenza dovrebbe essere scritto nel codice genetico dell’imprenditorialità.
120
Queste osservazioni non devono però farci dimenticare che permangono tuttora limiti oggettivi allo sviluppo di una cultura di performance management all’interno della scuola – sviluppo, peraltro, non certo favorito dalla disponibilità delle risorse finanziarie che rende difficile per una singola istituzione perseguire autonomamente un progetto di performance management -. Come risulta dai casi studiati in proposito, negli Stati Uniti tali iniziative sono state portate avanti a livello di distretti scolastici, mentre in Italia è da attendersi che possano trovare maggiore possibilità di realizzazione anche per iniziativa di reti di scuole. In secondo luogo, la limitata disponibilità di tempo da parte del personale scolastico costituisce un limite forse ancora più importante. In meno di un decennio la scuola si è dovuta confrontare con un ritmo e un livello di cambiamenti prima di allora sconosciuti. La proliferazione delle iniziative, e a volte la confusione, se necessari per sperimentare l’autonomia inoltrandosi per sentieri di innovazione didattica ed organizzativa, hanno creato forte frammentazione e un indubbio sovraccarico delle risorse. Con ciò possiamo osservare che, in presenza di una maggior selezione della distribuzione delle attuali risorse statali nonchè di una domanda di servizi d’istruzione sempre più estesa e variegata, tutte le istituzioni educative sono sottoposte a tensioni di crescita. In queste condizioni, il perseguimento di mission generiche e il rincorrere la domanda senza una chiara definizione di priorità strategiche non sembrano pratiche sostenibili nel lungo periodo. E’ comunque opportuno precisare, a questo punto del discorso, che il concetto di efficacia della scuola va inteso come un concetto relativo che dipende parimenti sia dalla coerenza tra mission e obiettivi (efficacia esterna o sociale), sia dal grado di realizzazione degli obiettivi (efficacia interna o gestionale). Il monitoraggio del piano dell’offerta formativa (POF), centrale in questo nostro discorso, dovrebbe avere ad oggetto proprio la realizzazione della mission istituzionale. Concretamente, ciò avviene a due distinti livelli di responsabilità. Il primo livello attiene all’internalizzazione da parte della scuola delle attese sociali in funzione delle risorse disponibili e dei meccanismi di governance e leadership. Questo livello di responsabilità riguarda gli organi collegiali della scuola consiglio d’istituto e collegio dei docenti – i quali, dando priorità a certi temi strategici rispetto ad altri e definendo gli obiettivi strategici della scuola, dichiarano di farsi carico di certe attese degli stakeholder. Il secondo livello investe la capacità degli attori - il dirigente scolastico in primo luogo, ma anche i docenti, gli studenti, il personale amministrativo - di tradurre in azioni e in risultati i contenuti del patto programmatico che lega la scuola alla società. Nel caso in cui un’istituzione scolastica riuscisse a raggiungere gli obiettivi indicati dal POF, di per sé tale fatto potrebbe non avere molto valore qualora gli obiettivi siano stati definiti a livelli che non incontrano le attese della società. Per raggiungere risultati di motivazione, soddisfazione e produttività del personale (people results) occorre poi agire su alcune determinanti in modo coerente. In primo luogo, occorre una leadership in grado di coinvolgere, ispirare fiducia e spingere il personale all’impegno. In secondo luogo, sono necessarie politiche e strategie basate sull’individuazione delle attese del personale a cui
121
devono aggiungersi dei sistemi di gestione dello stesso (selezione, formazione, carriera, remunerazione, valutazione) adeguati a creare coinvolgimento e sviluppo professionale. Inoltre, non va dimenticato l’aspetto relativo alla partnership e alle risorse (finanziarie, immobili, attrezzature, informazioni) che vanno gestite valorizzando le competenze del personale, tutelando la sicurezza degli ambienti di lavoro e assicurando l’accessibilità alle informazioni e alle conoscenze necessarie all’espletamento dei compiti. Infine, l’assegnamento alle persone di processi secondo le loro competenze, di modo che sappiano coordinarsi con i colleghi, progettare, realizzare e valutare l’efficacia e l’efficienza dei processi, sperimentando e innovando. In questo contesto, non va assolutamente dimenticato che una realizzazione efficace ed efficiente dei processi interni per conseguire la mission, richiede una congrua dotazione di capitale intangibile e tangibile. E’ appena il caso di ricordare, allora, che la dotazione di capitale umano sta alla base delle altre dotazioni di capitale - e per capitale umano intendiamo qui l’insieme di conoscenze e di competenze degli insegnanti e del personale tecnico e amministrativo -. Tuttavia, accanto al capitale umano occorre una dotazione di capitale organizzativo, inteso come l’abilità che ha un’organizzazione nel suo insieme di mobilitare le risorse e sostenere i processi di cambiamento richiesti per perseguire la missione e realizzare la strategia. Questa dotazione riguarda fattori intangibili come i valori culturali in cui si identificano le persone, la leadership ai vari livelli organizzativi, la collegialità ed il professionalismo, l’esistenza di un ambiente di lavoro e di studio sicuro e disciplinato. Un terzo tipo di dotazione di capitale è il capitale sociale, inteso come l’insieme delle relazioni e partnership in cui la scuola è coinvolta e che è in grado di attivare nei confronti di studenti, famiglie, comunità, reti di scuole e altri stakeholder. Infine, la dotazione di capitale finanziario, in senso ampio, comprensivo di tutte le risorse tangibili a disposizione della scuola, nelle quali il capitale finanziario è già investito (capitale fisico) o è in procinto di esserlo in futuro (capitale liquido e liquidabile). Occorre a questo punto notare che, a differenza dei sistemi balanced scorecard applicati dalle imprese - dove troviamo come obiettivi apicali quelli finanziari di redditività e di creazione di valore per gli azionisti -, per la scuola gli obiettivi primari da perseguire sono quelli relativi all'apprendimento degli studenti, misurati sostanzialmente in due ambiti: il primo che consiste nel conseguire la padronanza del curriculum, misurata attraverso specifici test curriculari, e il secondo che consiste nell'essere competitivi nel confronto a livello nazionale. A questi sono poi da aggiungersi anche il perseguimento della capacità della scuola di creare un ambiente di lavoro e di studio sicuro e disciplinato, nonchè la sua capacità di intessere con le famiglie e la comunità relazioni reciprocamente supportive. Il primo aspetto interessa gli stakeholder esterni (in particolare le famiglie, ma anche il personale e gli studenti); ed in effetti, questo punto rappresenta una condizione importante per creare un ambiente di lavoro sereno e produttivo – fatto, questo, che dipende da molti fattori: dalla sicurezza degli immobili, delle attrezzature e dei cibi, sino alle procedure che definiscono la disciplina all’interno della scuola nei rapporti interpersonali e rispetto alle cose -.
122
Il secondo aspetto, invece, viene indirizzato distinguendo gli indicatori di performance relativi alle famiglie e alla comunità. Le iniziative attraverso le quali si può realizzare questo coinvolgimento sono tuttavia comuni; esse riguardano principalmente la comunicazione, la partecipazione e la governance della scuola. Nel momento in cui gli organi della scuola definiscono i piani strategici, essi sanno di dover bilanciare tra la necessità di garantire la continuità delle iniziative avviate in passato, la revisione dei programmi obsoleti e lo start up di nuovi programmi, sempre tenendo conto che spesso il personale, le risorse materiali e quelle finanziarie non sono abbondanti e che le azioni risultano di conseguenza vincolate (d’altra parte, anche nell’ipotesi inverosimile di risorse illimitate, occorrerebbe dare alle risorse la destinazione più produttiva possibile, permanendo il problema economico del massimo beneficio rispetto agli investimenti). I sistemi di misurazione della performance devono aiutare i decisori ad allocare le risorse nel modo più produttivo possibile, traducendo gli obiettivi organizzativi con una metrica idonea a guidare i comportamenti e rivelare il miglioramento continuo verso la direzione di marcia. In questo modo sarà possibile cogliere le connessioni tra obiettivi, allocazione delle risorse e risultati; in altri termini, il management scolastico sarà in grado di dominare le “leve del valore”, cioè i fattori da cui, all’interno di un certo quadro strategico, è possibile attendersi un più elevato ritorno in termini di conoscenze e competenze degli studenti. Tali osservazioni devono necessariamente tenere conto e declinarsi nello specifico assetto del sistema formativo italiano che ha fra i suoi tratti caratteristici quello dell’autonomia delle istituzioni scolastiche. Tale autonomia è stata pensata all’interno del ruolo e delle funzioni dello Stato in considerazione del crescente peso dei vari soggetti sociali, in particolare nell’universo dei servizi utili alla persona. Si tratta, quindi, di un’autonomia di natura funzionale che è stata introdotta dalla c.d. “Legge Bassanini” (legge n. 59/97 “Delega al Governo per il conferimento di funzioni e compiti alle regioni ed enti locali, per la riforma della Pubblica Amministrazione e per la semplificazione amministrativa”), che all’art. 21 stabilisce l'autonomia delle istituzioni scolastiche e degli istituti educativi a livello didattico, organizzativo, di ricerca, sperimentazione e sviluppo – autonomia che, peraltro, si inserisce in un disegno più ampio di riforma dello Stato -. Tuttavia, col passare del tempo diventa sempre più evidente l’insufficienza di questa autonomia di natura funzionale nel far fronte alla necessità che le istituzioni scolastiche segnalano per l’esercizio di una reale autonomia così come prevista dalla stessa “legge Bassanini”. Occorre dunque operare per un passaggio ad una reale autonomia di natura istituzionale. In tale contesto, il piano dell’offerta formativa (POF) dovrebbe costituire perlomeno l’occasione per identificare le priorità strategiche e allocare le risorse finanziarie, concentrando gli sforzi sui temi che sono considerati centrali ed evitando di esaurirsi in un lungo elenco di progetti o, ancora, di risolversi nella proposizione di statistiche sugli aspetti di contesto esterno ed interno (numero di classi, docenti, studenti, ecc.) senza che possa desumersi il collante delle diverse
123
iniziative; in tal caso, infatti, esso altro non segnalerebbe che una mancanza di strategia sottostante alle decisioni che si assumono. In effetti, può nascere il dubbio se esista un’idea di capitale umano su cui viene sviluppato in modo coerente il POF e se la proliferazione e la differenziazione dei progetti, insieme alla loro variabilità nel breve volgere di un anno, siano pensati in modo funzionale ad un ben preciso disegno, perché se manca la focalizzazione strategica non può esserci allineamento organizzativo e la scuola appare quindi letteralmente “tirata” da iniziative individuali, spesso con dispersione delle risorse e dell’energia umana. Ogni dirigente scolastico sa che non si può fare tutto e che il miglioramento deriva dalla volontà di insistere su quelli che in un determinato periodo di vita della scuola vengono identificati come fattori critici di successo. Il POF diventa quindi uno strumento gestionale solo se fa convergere la partecipazione delle varie componenti scolastiche e del territorio su questi fattori critici. Ciò significa che non si può valutare l’efficacia della scuola soltanto in base alla capacità di ben formulare il POF. Senza misurazione dei risultati rispetto agli obiettivi, il POF rischia, infatti, di essere un insieme di desiderata e di risolversi in un inutile rituale organizzativo. Proprio alla luce di quanto detto, la presenza di un sistema di rilevazione come quello testato nella Ricerca fornisce, anche se in maniera indiretta, elementi utili relativamente al tema dell’organizzazione scolastica a diversi livelli, dal momento che esso è in grado di segnalare l’incremento di competenza dello studente e di rivelarsi un indicatore della sua valutazione formativa nel momento in cui viene testato con una certa precisione il percorso compiuto da ogni singolo allievo durante il suo iter scolastico. Tale fatto si dimostra assai utile per l’insegnante il quale, servendosi di test di natura analoga a quelli proposti dalla Ricerca, potrebbe muoversi almeno in due direzioni complementari. La prima consisterebbe nel registrare, attraverso di essi, le proprie azioni didattiche rispetto a quelle degli altri colleghi; la seconda consisterebbe nel poter usufruire di una certa quantità di dati capaci di interagire in ordine alla valutazione dello studente sia sostituendo completamente le verifiche tradizionali (scritte, orali, ecc.) con tali test, sia integrandole con essi. Sempre in questo ambito, un secondo ordine di riflessione riguarda il possibile utilizzo dei dati rilevati con i test compiuti in modo sistematico. Essi, ad esempio, possono limitarsi al solo utilizzo interno, cioè del singolo insegnante, oppure venir offerti all’utilizzo di un gruppo di insegnanti di una stessa unità didattica oppure a quelli di una singola classe. Allo stesso tempo, però, di questi dati si potrebbe farne anche un utilizzo esterno, in particolare mettendoli a disposizione dei genitori degli studenti, allo scopo di permettere a costoro di essere informati costantemente e in modo sistematico del percorso scolastico dei loro figli e dell’incremento di competenze da essi man mano acquisito. Un ulteriore ambito di riflessione stimolato dalla Ricerca, i cui risultati forniscono al proposito un importante punto d’appoggio, concerne la possibilità che il sistema di valutazione possa diventare elemento significativo e parte integrante del sistema dei processi di autovalutazione dell’insegnante, dal momento che le informazioni fornite dal sistema di valutazione gli permettono di capire in termini sufficientemente chiari come egli sta conducendo la sua attività.
124
In questo modo, l’insegnante verrebbe senza dubbio facilitato nel giudicare se stesso nelle varie sfaccettature della sua attività, che coprono una vasta area d’azione che va dal metodo valutativo che egli applica nel suo operare fino al metodo didattico che egli impiega quotidianamente nel suo insegnamento. La misurazione del reale incremento del valore aggiunto sugli studenti, infatti, è in grado di fornire indicazioni puntuali sull’efficacia o meno delle sue scelte didattiche. Occorre inoltre tenere presente anche un ulteriore aspetto della questione, ossia che il valore aggiunto misurato secondo il metodo di Rasch è caratterizzato sia da un alto grado di specificità, sia da un alto grado di universalità: di specificità, in quanto è in grado di monitorare il caso singolo; di universalità, perché in grado di comparare contesti che presentano un grado abbastanza alto di diversità fra di loro (anche in misura superiore al 50%). E’ quindi per tale motivo che può essere inserito in un sistema di autovalutazione secondo diverse flessioni, e più precisamente in relazione al singolo insegnante, oppure in relazione al gruppo di insegnanti di una specifica unità didattica o della singola istituzione scolastica, o ancora ad altri gruppi didattici e ad altre istituzioni scolastiche. L’autovalutazione non è destinata a rimanere un esercizio privo di conseguenze, ma contiene in sé delle potenziali importanti ricadute in grado di modificare la struttura organizzativa allo scopo di fornire una migliore allocazione delle risorse. In questo senso possiamo segnalare alcuni problemi a ciò connessi. Il primo riguarda la formazione delle classi: se, ad esempio, è preferibile che una scuola si indirizzi verso la formazione di classi omogenee oppure, al contrario, se è preferibile la costituzione di classi che non lo sono. Il secondo problema è quello relativo alla allocazione degli insegnanti, ossia se è indifferente che essi siano destinati a una classe piuttosto che a un’altra, oppure se la loro allocazione debba tener conto della natura delle classi stesse. Una terza questione riguarda poi il gruppo didattico. E’ bene che esso permanga nel tempo in virtù delle sue caratteristiche e dell’efficacia dei suoi risultati, oppure questo gruppo può essere sciolto e/o ricomposto a seconda di esigenze organizzative di natura diversa? Un ulteriore elemento di riflessione è poi legato al dettato della legge 53/03 – in particolare l’art. 2, comma d – dove si afferma che “il sistema educativo di istruzione di formazione” italiano “si articola … in un secondo ciclo che comprende il sistema dei licei e il sistema dell’istruzione e della formazione professionale”. Ambedue sono considerati (almeno formalmente) di pari dignità, ma ciascuno caratterizzato da uno profilo in uscita diverso. Al problema di coniugare la pari dignità dei due sistemi insieme alle differenze che li caratterizzano se ne coniuga un altro, ossia quello relativo al sorgere di un costrutto didattico diverso fra i due, essendo essi caratterizzati perlomeno da profonde differenze circa i tempi e le modalità di acquisizione delle competenze. Un ultimo problema che riveste particolare importanza riguarda poi il tema dell’autonomia e si evidenzia attraverso almeno due punti critici. Il primo di questi, letto alla luce delle precedenti riflessioni - e che va chiarito e meglio precisato come elemento specifico - è quello relativo al ruolo del management scolastico, tenuto anche conto che su tale aspetto oggi la riflessione è piuttosto scarsa, soprattutto per ciò attiene alle caratteristiche che esso dovrebbe
125
possedere in un sistema di valutazione inserito in un contesto così come precedentemente descritto. Infatti, tenuto presente che un sistema di rilevazione è in grado di mettere in evidenza la situazione reale di un’istituzione scolastica, poiché capace di segnalare se questa si caratterizza per un certo grado di efficienza o meno, appare immediatamente evidente la ricaduta di tale rilevazione sull’organizzazione dell'istituzione stessa che, probabilmente, si interrogherà in che misura, in che ambito e con quale metodo dovrà incrementare le proprie positività o in che modo e con quali strumenti dovrà far fronte e superare le proprie deficienze. In tale contesto, sarà essenziale porre attenzione al ruolo della leadership, che qui diventa centrale, per meglio precisarne il ruolo, le responsabilità, le potenzialità di azione e di intervento nel contesto dell’istituzione scolastica stessa. Va infine tenuto presente che lo strumento del valore aggiunto può essere un elemento importante in chiave di autonomia delle istituzioni scolastiche. Questo strumento, fatto proprio e applicato congiuntamente da più scuole nell’ottica di una creazione di rete fra di esse, è infatti in grado di permettere alle singole istituzioni scolastiche di uscire da un contesto di autoreferenzialità. Naturalmente le modalità possono essere di diverso tipo. Si può pensare, ad esempio, a un accordo di rete, tanto più efficace quanto più capace di mettere insieme realtà non omogenee sia sotto il punto di vista sociologico sia sotto quello territoriale. Si può pensare, altresì, all’individuazione di prove comuni scelte dalle scuole in rete in quanto capace di facilitare un percorso di qualità perseguito dalle stesse. Si può pensare, infine, all’opportunità di valutare comparativamente la stima del valore aggiunto, in quanto è proprio nella comparazione con altre che l’efficacia di una scuola deve essere valutata. Ma perché il confronto sia omogeneo è però necessario depurare le misure di quei fattori che esulano dal controllo della scuola. Com’è facile comprendere, quelli sopra elencati sono problemi aperti, questioni importanti che non possono essere sottovalutate o passate sotto silenzio. Tra di esse crediamo sia opportuno richiamarne almeno due su tutte. La prima è quella relativa ai due sistemi, quello dei licei e quello dell’istruzione e formazione professionale. Delle loro differenze è stato detto; tuttavia rimane questione ampiamente dibattuta il come vadano individuati i tempi e le modalità di acquisizione delle competenze che derivano da un costrutto didattico diverso fra i due sistemi. La questione, proprio per la sua delicatezza e complessità, necessiterebbe a nostro avviso di un approfondimento sistematico, organicamente costruito in “altezza e profondità” attraverso un’apposita Ricerca, dal momento che intorno a questo problema sono ancora pochi i punti non solo o non tanto di certezza, quanto anche solo di chiarezza e piena comprensione. Una seconda questione che meriterebbe analogo approfondimento è, a nostro avviso, quella riguardante la costituzione di una rete di scuole. Abbiamo ricordato più sopra che la “rete” ci sembra essere uno strumento capace sia di declinare e interpretare opportunamente la cosiddetta scuola dell’autonomia, sia di favorire un’uscita delle singole istituzioni scolastiche da quel (nefasto) contesto autoreferenziale da cui sono abitualmente caratterizzate. Naturalmente, il suo costituirsi implica una serie di problematiche di non poco conto; problematiche
126
sia di natura “esterna”, relative al contesto dei rapporti che andranno a delinearsi fra istituzioni diverse, sia di natura “interna” relative alle ricadute organizzative e didattiche per le singole istituzioni. Anche qui, dunque, vista l’importanza del tema si rende necessaria una sua adeguata esplorazione per individuarne le articolazioni, le possibili caratteristiche, le difficoltà implicite ed esplicite ad esso connesse e le sue indubbie potenzialità ai più diversi livelli.
3.8 Supplemento di indagine sull’effetto del livello iniziale (effetto Vygotskij) Al fine di capire se il livello iniziale avesse una qualche influenza sulla crescita, tale variabile è stata inserita nei modelli esplicativi della crescita medesima. L’effetto appare negativo (cioè gli studenti migliori crescerebbero di meno), tuttavia questo risultato è in gran parte inficiato dal fatto che il livello iniziale è misurato con errore e che lo stesso errore è presente nel residuo del modello con segno meno, da cui la tendenza ad un coefficiente negativo. Per risolvere tale questione si è fatto ricorso a metodi per la correzione degli errori nelle variabili esplicative in ambito di modelli multilivello, messi a punto dal gruppo di ricerca, e basato sul metodo SIMEX per la correzione della distorsione. L’applicazione del modello ai dati conferma che il livello di apprendimento iniziale ha un evidente effetto sul tasso di crescita sia in italiano che in matematica. Una corretta stima del valore aggiunto necessita, quindi, dell’inclusione nel modello di tale variabile non può, quindi, prescindere dalla correzione per gli errori di misura ad essa legati. In particolare, l’effetto del livello di apprendimento iniziale sul tasso di crescita è negativo sia in italiano che in matematica, anche se con un comportamento differenziato nelle classi.
3.8.1. Il modello Rappresentando con ξ tijk il livello di apprendimento al tempo t dello studente i nella classe j della scuola k, le differenze tra ξ tijk − ξ 0ijk rappresentano la crescita intervenuta in ciascun soggetto rispetto al tempo zero. Trattiamo il tasso di crescita (ξ tijk − ξ 0ijk ) / t come variabile di risposta e assumiamo il seguente modello multilivello nullo ξ tijk − ξ 0ijk = α + β ⋅ ξ 0ijk + U k + V jk + Qijk + β jk ⋅ ξ 0ijk + ε tijk , t
Dove α e β sono dei coefficienti, U k ,V jk , Qijk e β jk sono effetti casuali e ε tijk è
un termine di errore. Si assume che i residui e gli effetti casuali seguano una distribuzione normale multivariata, con i residui indipendenti dagli effetti casuali e gli effetti casuali correlati tra di loro solo se appartenenti allo stesso livello
127
(7)
ε tijk ~ N (0, σ ε2 ) ,
⎛⎛0⎞ ⎛ σ 2 ⎛ V jk ⎞ ⎜ ⎟ ~ N ⎜ ⎜⎜ ⎟⎟, ⎜ V ⎜β ⎟ ⎜ ⎝ 0 ⎠ ⎜ σ Vβ ⎝ jk ⎠ ⎝ ⎝
Qijk ~ N (0, σ Q2 ) ,
σ Vβ ⎞ ⎞⎟ ⎟ , σ β2 ⎟⎠ ⎟⎠
U k ~ N (0, σ U2 ) Il modello (1.1) è definito modello nullo perché non prevede variabili esplicative oltre al livello di apprendimento iniziale. Secondo questo modello il tasso di crescita presenta una media generale α a cui si sommano un effetto individuale Qijk , un effetto di classe V jk ed un effetto a livello di scuola U k . Il tasso di crescita dipende, inoltre, dal livello di apprendimento al tempo iniziale ξ 0ijk , secondo un coefficiente che varia a seconda della classe di appartenenza β + β jk . Il modello (1.1) corrisponde al un modello del tipo “gain score” (si veda McCaffrey et al. (2004) per una completa revisione dei modelli valore aggiunto) dove il periodo rispetto al quale si calcola la crescita è tenuto fisso al tempo zero. Il modello nullo può essere raffinato includendo alcune variabili esplicative a livello individuale o di gruppo
ξ tijk − ξ 0ijk t
= α + β ⋅ ξ 0ijk + γ T Wtijk + U k + V jk + Qijk + β jk ⋅ ξ 0ijk + ε tijk ,
dove W rappresenta le variabili osservate e γ è un vettore di coefficienti.
3.8.2. Gli errori di misura Il livello di apprendimento non è una variabile osservabile direttamente. Questo rende necessario l’utilizzo di modelli statistici che, sulla base di test somministrati agli studenti, forniscano una stima del livello di apprendimento in una certa materia. Indicando con Y tale stima ed ipotizzando errori di misura additivi, abbiamo Ytijk = ξ tijk + η tijk ,
(9)
dove η è l’errore di misura. I dati raccolti nella presente ricerca sono stati analizzati con il modello di Rasch che, oltre alla stima delle abilità individuali, fornisce anche una stima della varianza dell’errore di misura commesso σ η (si veda, ad esempio, Fischer e Molenaar, 1995), informazione essenziale al fine di utilizzare tecniche di correzione per l’errore di misura quando si utilizza la variabile in successivi modelli. È ben noto nella letteratura sugli errori di misura (Carroll et al. (1995) e Fuller (1987) forniscono complete revisioni sull’argomento) che la presenza di errore di misura nella variabile di risposta è causa di maggiore incertezza nella stima dei 2
128
(8)
parametri, ma non di distorsione delle stime. La presenza di errore di misura nelle variabili esplicative, invece, è un problema più grave in quanto determina distorsione nella stima dei parametri. Nonostante i modelli per la misura del valore aggiunto prevedano spesso il livello di apprendimento precedente come variabile esplicativa, solo pochi lavori utilizzano tecniche di correzione per l’errore di misura. Questo è probabilmente dovuto al fatto che in letteratura sono pochi i lavori che trattano il problema dell’errore di misura nelle covariate nei modelli multilivello (si vedano Goldstein (1986, 2003), Woodhouse et al. (1996), Zhong et al. (2002), Wang et al. (1998), Buonaccorsi et al. (2000)) e solo Browne et al. (2001) tratta il caso di variabile con errore di misura che entra nella parte casuale del modello. Nel presente lavoro si utilizzerà il metodo SIMEX (Cook and Stefanski , 1994) per la correzione dell’errore di misura nella variabile esplicativa ξ 0ijk , già proposto per i modelli con intercetta casuale da Wang et al. (1998). A tal fine riscriviamo il modello nullo nel modo seguente
ξ tijk t
1⎞ ⎛ = α + ⎜ β + ⎟ ⋅ ξ 0ijk + U k + V jk + Qijk + β jk ⋅ ξ 0ijk + ε tijk , t⎠ ⎝
(10)
per mettere in evidenza che l’errore di misura di ξ 0ijk interessa le variabili esplicative del modello e non la risposta. Consideriamo ora anche l’errore di misura della variabile di risposta. Siamo in presenza di surrogate response (Carroll et al., 1995) quando l’errore di misura nella variabile di risposta non dipende da altre variabili. In questo caso, che pare ragionevole nel nostro lavoro, abbiamo una semplice decomposizione dell’errore del modello nella parte dovuta ad errore di misura e in una parte residuale Ytijk t
η tijk 1⎞ ⎛ = α + ⎜ β + ⎟ ⋅ ξ 0ijk + U k + V jk + Qijk + β jk ⋅ ξ 0ijk + ε tijk + . t⎠ t ⎝
Al fine di un corretto calcolo della quota di varianza da attribuire ai vari livelli è, quindi, necessario determinare la varianza propriamente residua del modello depurata della varianza dell’errore di misura.
3.8.3. I risultati Italiano La tabella 3 riporta le stime dei parametri ottenute per il modello nullo (7) per i livelli di apprendimento in italiano. La varianza delle intercette casuali a livello di classe e a livello individuale non risultavano statisticamente diverse da zero e sono state escluse dal modello.
129
(11)
La quota di varianza a livello di classe rispetto alla varianza totale dipende dal livello di ξ 0ijk considerato perché si tratta di un modello che prevede un coefficiente casuale per questa variabile. La varianza totale, infatti, è data da
σ V2 + ξ 2 σ β2 + 2ξ 0ijk σ Vβ + σ ε2 0 ijk
Mentre la varianza a livello di classe è pari a
σ V2 + ξ 2 σ β2 + 2ξ 0ijk σ Vβ 0 ijk
Tabella 3.1 - Modello nullo. Italiano
Intercetta Livello iniziale
non corretto corretto coefficienti Standard error coefficienti Standard error 0,824 0,037 0,852 0,035 -0,420 0,024 -0,294 0,032
σV
0,297
0,268
σβ
0,155
0,227
ρVβ
-0,107
-0,040
0,661
0,615
σε
Il rapporto tra queste due quantità ci dà la quota di varianza a livello di classe che rappresenta una misura dell’influenza della classe di appartenenza sul tasso di crescita dello studente. Sottraendo alla varianza dell’errore del modello la media delle varianze degli errori di misura nella variabile di risposta, si ottiene la varianza residua; la deviazione standard residua è pari a 0,215. Utilizzando questa come varianza residua la quota di varianza media spiegata dalle classe è pari a 68,3%. È interessante notare che mediamente il livello iniziale ha un effetto negativo sul tasso di crescita. Il coefficiente corretto per l’errore di misura è, infatti, pari a 0.294 ed è significativamente diverso da zero. Tuttavia, è presente un comportamento differenziato tra le classi, messo in evidenza dall’effetto casuale associato a tale variabile. La tabella 4 rappresenta i coefficienti stimati per il modello con le variabili esplicative. Si osserva che i fattori che influiscono positivamente sul tasso di crescita sono: il sesso femmina, il titolo di studio dei genitori, il numero di libri presenti in casa, la convivenza con entrambi i genitori e l’omogeneità della classe.
130
Tabella 3.2 - Modello con variabili esplicative. Italiano non corretto Coeff. Intercetta Livello iniziale Sesso=Femmina Titolo di studio della madre (base=elementare o meno)
Titolo di studio del padre (base=elementare o meno)
Numero di libri (base=sino a 10)
corretto Standard error
Standard error
Coeff.
0,381
0,028
0,609
0,028
-0,452
0,001
-0,331
0,001
0,139
0,001
0,130
0,001
Scuola secondaria inferiore
0,142
0,008
0,101
0,008
Scuola secondaria superiore laurea o più
0,207 0,236
0,009 0,010
0,158 0,184
0,009 0,010
Scuola secondaria inferiore
0,114
0,008
0,086
0,008
Scuola secondaria superiore laurea o più
0,113 0,174
0,008 0,009
0,067 0,119
0,008 0,009
da 11 a25
0,125
0,011
0,041
0,012
da 26 a 100
0,229
0,010
0,122
0,011
da 101 a 200 oltre 200
0,260 0,341
0,010 0,011
0,124 0,203
0,011 0,011
-0,151
0,003
-0,131
0,003
-0,209
0,015
-0,204
0,014
non vive con entrambi i genitori Varianza del livello iniziale a livello di classe
σV σβ ρVβ σε
0,291
0,268
0,145
0,210
-0,138
-0,120
0,659
0,619
Il coefficiente fisso associato al livello iniziale è ancora negativo. La figura 9 rappresenta il coefficiente casuale sommato a quello fisso ed i relativi intervalli di confidenza al 95%. Sia il coefficiente fisso che quello casuale sono corretti per l’errore di misura. Si nota che la maggior parte delle classi si colloca al di sotto dello zero e che alcune di queste sono statisticamente diverse da zero. Solo alcune classi si collocano al di sopra dello zero (situazione che indica tassi di crescita maggiori per gli studenti con livelli iniziali più elevati), ma nessuno di questi è statisticamente significativo. La tabella A.2 in allegato riporta in dettaglio gli effetti casuali stimati per ciascuna classe. La Figura 3.9 rappresenta, invece, le intercette casuali e i rispettivi intervalli di confidenza al 95%, mentre i dati di dettaglio sono riportati in allegato (tabella A.1). Le classi con un intervallo di confidenza completamente al di sopra dello zero sono classi che presentano tassi di crescita superiori alla media e, quindi, classi ad alto valore aggiunto.
131
-1.0
-0.5
0.0
0.5
1.0
Figura 3.9 - Intercette casuali a livello di classe. Italiano
0
20
40
60
80
Classi
-1.0
-0.5
0.0
0.5
Figura 3. 10 - Coefficienti casuali a livello di classe. Italiano
0
20
40
60
80
Classi
Risultati: Matematica In tabella 3.3 sono riportati le stime dei parametri del modello nullo per matematica. Contrariamente a quanto avveniva per italiano, ora risultano significative anche le varianze delle intercette casuali a livello di scuola e di individuo. La varianza totale è ora data da
σ U2 + σ V2 + ξ 2 σ β2 + 2ξ 0ijk σ Vβ + σ Q2 + σ ε2 . 0 ijk
Anche in questo caso sottraiamo alla varianza dell’errore del modello la media delle varianze degli errori di misura della risposta per ottenere la varianza residua ed utilizziamo questa per il calcolo delle quote di varianza. La deviazione
132
standard residua è pari a 0,236. La quota di varianza a livello di scuola, data dal rapporto tra σ U e la varianza totale, è mediamente pari a 24,0%. La quota di varianza a livello di scuola, data dal rapporto tra σ U2 e la varianza totale, è mediamente pari a 24,0%. La quota di varianza a livello di classe è dato dal rapporto tra σ V2 + ξ 02ijk σ β2 + 2ξ 0ijkσ Vβ e la varianza totale, che in media risulta 2
64,5%. Infine la quota di varianza a livello individuale si ottiene come rapporto tra σ Q2 e la varianza totale e mediamente è 0,8%. Come nel caso dell’italiano, il coefficiente del livello iniziale è negativo, ad indicare che in media gli studenti con elevati livelli iniziali crescono di meno. La presenza dell’effetto casuale indica, però, che questo comportamento è differenziato a seconda della classe di appartenenza. Tabella 3.3 - Modello nullo. Matematica. non corretto Coefficienti Intercetta Livello iniziale
σU σV σβ
corretto Standard error
Coefficienti
Standard error
0,896
0,087
1,087
0,090
-0,313
0,025
-0,159
0,032
0,314
0,310
0,314
0,377
0,147
0,205
ρVβ
0,640
0,862
σQ
0,292
0,216
σε
0,675
0,645
La tabella 3.4 riporta i coefficienti stimati per il modello con le variabili esplicative. Anche in questo caso il sesso femmina, il titolo di studio dei genitori e il numero di libri in casa hanno un effetto positivo sull’apprendimento. Si nota, inoltre, una debole evidenza a favore degli insegnanti di sesso maschile (pvalue=0,091). Gli insegnati diplomati al liceo scientifico o in un istituto tecnico presentano tassi di crescita dei proprio studenti più elevati rispetto a quelli con maturità classica e gli insegnanti con ruolo riservato presentano un coefficiente positivo rispetto ai supplenti.
133
Tabella 3.4 - Modello con variabili esplicative. Matematica. non corretto
corretto Standard error
Coeff.
Standard error
Coeff.
Intercetta
-0,119
0,270
0,236
Y0
-0,341
0,033
-0,191
0,274 0,042
Sesso=F
0,083
0,040
0,106
0,040
Scuola secondaria inferiore
0,098
0,128
0,046
0,129
Scuola secondaria superiore laurea o più
0,191 0,158
0,131 0,140
0,130 0,101
0,132 0,139
Scuola secondaria inferiore
0,229
0,115
0,188
0,115
Scuola secondaria superiore laurea o più
0,342 0,362
0,119 0,127
0,280 0,286
0,118 0,127
da 11 a25
0,010
0,143
-0,022
0,140
da 26 a 100
0,218
0,136
0,136
0,135
da 101 a 200 oltre 200
0,238 0,405
0,138 0,140
0,148 0,314
0,136 0,138
-0,244
0,148
-0,264
0,156
Scientifico
0,292
0,120
0,307
0,127
Magistrale
0,267
0,225
0,290
0,230
Tecnico Altro
0,267 0,145
0,155 0,365
0,267 0,123
0,160 0,378
ruolo per concorso
0,128
0,136
0,121
0,138
ruolo riservato Altro
0,315 0,333
0,138 0,198
0,335 0,381
0,140 0,194
σU σV
0,248
0,206
0,400
0,480
σβ
0,187
0,246
ρVβ
0,804
0,877
σQ
0,231
0,148
σε
0,709
0,682
Titolo di studio della madre (base=elementare o meno)
Titolo di studio del padre (base=elementare o meno)
Numero di libri (base=sino a 10)
Sesso insegnante=F Tipo di diploma insegnante (base=classica)
stato giuridico (base=supplente)
Le figure 3.11 e 3.12 rappresentano le intercette casuali stimate, rispettivamente, a livello di scuola e di classe. In allegato (tabelle A.3 e A.4) sono riportati i dati di dettaglio. La tabella A.5, invece, riporta la somma dell’intercetta casuale della scuola e della classe ed i rispettivi intervalli di confidenza. Al fine di una corretta comparazione delle classi, questa ultima tabella è quella più opportuna perché consente un diretto confronto del valore aggiunto complessivo.
134
-0.4
0.0 0.2 0.4 0.6
Figura 3.11 - Intercette casuali a livello di scuola. Matematica.
5
10
15
20
Scuole
-1.5
-0.5 0.0
0.5
1.0
Figura 3.12 - Intercette casuali a livello di classe. Matematica.
0
10
20
30
40
50
60
Classi
-1.0
-0.5
0.0
Figura 3.13 - Coefficienti casuali a livello di classe. Matematica.
0
10
20
30
40
50
60
Classi
La figura 3.13 rappresenta i coefficienti casuali del livello di apprendimento iniziale ai quali è stato sommato l’effetto fisso. La situazione è del tutto analoga al
135
caso dell’italiano: la maggior parte dei coefficienti è negativa con alcuni coefficienti significativamente inferiori a zero, pochi coefficienti sono positivi e nessuno statisticamente maggiore di zero. La tabella A.6 riporta di dati in dettaglio. Questi risultati confermano l’effetto delle condizioni socio-economiche sui livelli di apprendimento già riscontrata in letteratura e si evidenziano alcune altre variabili che influenzano il tasso di crescita. Tra queste la classe di appartenenza (come luogo di apprendimento) che mostra un effetto sulla varianza non spiegata che raggiunge anche il 70-75% se si corregge per l’errore di misura da cui sono affette le variabili. Di particolare interesse la varianza dello stato iniziale per italiano che risulta avere un effetto negativo sul tasso di crescita indicando quindi che le classi più omogenee presentano rendimenti maggiori. Particolarmente interessante il coefficiente dello stato iniziale che in entrambe le materie risulta negativo, anche se con comportamenti differenziati classe per classe. Questo significa che gli studenti in partenza migliori crescono meno dei peggiori. Questo mette in evidenza la necessità di inserire tra le variabili esplicative del modello il livello di apprendimento iniziale e, quindi, di adottare tecniche di correzione per l’errore di misura presente in tale variabile al fine di ottenere stime non distorte del valore aggiunto apportato da ciascuna scuola e classe.
3.9 Rendimento scolastico e genere E’ generalmente noto che il rendimento scolastico delle ragazze, come misurato dalle valutazioni sugli apprendimenti disciplinari effettuate dagli insegnanti, è migliore di quello dei ragazzi. Nella prossima sezione di questo contributo forniremo diverse indicazioni di questo fenomeno, focalizzando l’attenzione sulla scuola secondaria di primo grado. In una ricerca recente (IReR, 2001) emerge però che in quel ordine di scuole parte dei studenti – maschi e femmine - ritiene che gli insegnanti facciano delle preferenze nei confronti delle ragazze. La stessa indagine segnala poi che generalmente i professori non ritengono che le percezioni dei loro studenti siano corrette. La ricerca, in assenza di valutazioni indipendenti sugli apprendimenti disciplinari, pone con chiarezza questa divaricazione di valutazioni ma deve sospendere il giudizio. Un’analisi riferita al sistema scolastico israeliano (Lavy, 2004) consente di approfondire al questione, tramite il confronto tra prove di apprendimento in cui fosse o non fosse nota l’identità ed il genere dell’esaminato. I risultati ottenuti sono molto netti, indicando un effetto differenziale a favore delle ragazze: “The evidence presented in this study does non confirm the commonly held belief that schoolteachers have a grading bias against female students. On the contrary: on the basis of a natural experiment that compared two evaluations of student performance – a blind score and a non-blind score – the bias estimates was clearly against boys”.
136
A partire da queste indicazioni di ricerca, il presente contributo cercherà di verificare se, a parità di livelli di apprendimenti e di altri fattori, emergano elementi sistematici legati al genere nelle valutazioni disciplinari dei docenti. A questo fine verranno utilizzate comparativamente le misure degli apprendimenti nelle prove di italiano e matematica effettuate dagli studenti analizzati nella ricerca - calcolate secondo il metodo di Rasch - a fronte delle valutazioni disciplinari dei loro insegnanti.
3.9.1 Risultati scolastici La migliore performance scolastica della ragazze è un dato ampiamente noto e può essere mostrata utilizzando diversi indicatori, che forniscono indicazioni convergenti. Secondo la Rilevazione Trimestrale delle Forze di Lavoro (MIUR, 2005), nella classe d’età 20-24 anni il 59,5% dei maschi è in possesso di un diploma di scuola media superiore contro il 67,6% delle femmine. Questo divario è il risultato cumulativo di diverse probabilità di conseguire un diploma (calcolata come “diplomati interni per 100 iscritti al 1^ anno 5 anni prima” ), pari al 67,3% per i maschi e al 76,4% per le femmine. Indicazioni di eguale segno vengono fornite dai più recenti dati specifici sulla selezione scolastica (MIUR, 2005). I non promossi per 100 scrutinati sono in Italia l’1,1% nella scuola primaria, il 3,9% nella secondaria di primo grado e il 13,8% nella secondaria di secondo grado. Il tasso di selezione è perciò crescente per ordine di scuola, ma ciò che qui interessa è la sua composizione per sesso. Nelle scuole primarie il numero di non promossi maschi su 100 maschi scrutinati è pari all’1,2% mentre tra le femmine è pari a 0,8%. Nelle secondarie di primo grado i valori sono rispettivamente 5,5% e 2,1%. Nelle secondarie di secondo grado il tasso di selezione dei maschi è del 16,5% mentre quello delle femmine è pari al 10,9%. Pertanto la scuola secondaria di primo grado conferma anche in questo senso la sua natura di snodo fondamentale del sistema scolastico italiano, presentando un rischio relativo di non promozione dei maschi rispetto alle femmine decisamente superiore rispetto al precedente e seguente ciclo di istruzione (1,5 nella scuola primaria, 2,6 in quella secondaria di primo grado, 1,5 nelle superiori). L’analisi del rischio relativo per singolo anno scolastico non smentisce la forma piramidale evidenziata nei dati medi per ordine di scuola, mostrando altresì che il maggiore rischio per i maschi è nel primo e nel secondo anno della scuola secondaria di primo grado, mentre nel terzo anno il valore, pari a 1,5, è allineato a quelli medi della scuola primaria e di quella secondaria di secondo grado. Infine, troviamo una conferma del minore rendimento maschile anche nei risultati finali degli ammessi agli esami di licenza.
137
Tabella 3.5 – Giudizi negli esami di licenza, scuola secondaria di primo grado Lombardia, 2003/2004, MF Lombardia, 1999/2000, MF Lombardia, 1999/2000, M Lombardia, 1999/2000, F
sufficiente buono distinto ottimo totale 38,9 27,4 19,7 14,0 100,0 38,5 29,4 18,8 13,3 100,0 44,3 26,0 17,7 12,0 100,0 32,6 32,9 19,8 14,7 100,0 Fonti: CSA Brescia , IReR
Le stime desunte dalla citata ricerca (IReR, 2001), pur se riferite all’anno scolastico 1999/2000, appaiono del tutto confrontabili con quelle più recenti prodotte dal CSA Brescia (CSA, 2005) , talché l’articolazione dei giudizi per sesso appare rappresentativa dell’attuale situazione regionale. La performance delle ragazze è uniformemente migliore: i dati mostrano una minore percentuale di licenziate con “sufficiente” rispetto ai maschi e una corrispondente maggiore percentuale nelle rimanenti categorie di giudizio.
3.9.2 Fare preferenze I dati sinora prodotti sono del tutto compatibili con un processo di valutazione non influenzato dal genere. La pregevole ricerca dell’IReR citata consente di approfondire la questione. Nella ricerca, che ha interessato studenti di terza media ed i loro insegnanti in 38 scuole medie lombarde, emerge che una parte degli studenti ritiene che gli insegnanti “facciano preferenze” a favore delle ragazze. Specificatamente, ai ragazzi e alle ragazze sono stati posti dei quesiti relativi ai comportamenti degli insegnanti, chiedendo se vengano utilizzati più con le ragazze, più con i ragazzi o in maniera non dipendente dal genere. Alcune delle dimensioni evidenziate nella ricerca sono ricollegabili direttamente al comportamento e al rendimento scolastico effettivo degli alunni e delle alunne – ad esempio le “critiche” o le “punizioni” – mentre il “fare preferenze” denoterebbe di per sé un atteggiamento degli insegnanti ritenuto dagli studenti pregiudizialmente a favore di un sesso piuttosto che di un altro. Come si può verificare nella tabella, il 41,9% degli intervistati (maschi e femmine) ritiene che gli insegnanti “facciano preferenze” a favore delle ragazze. Tabella 3.6 – Percezione del comportamento degli insegnanti da parte degli studenti di terza media
sesso Totale
Femmina Maschio
comportamento insegnanti: fare preferenze di + con le di + con i è indifferente ragazze ragazzi 32,4% 10,0% 57,6% 51,4% 8,6% 39,9% 41,9% 9,3% 48,8% Fonte: nostre elaborazioni su dati IReR
138
Totale 100,0% 100,0% 100,0%
Questa opinione è condivisa, sia pure in misura diversa, dagli intervistati maschi e femmina: in particolare, il 51,4% dei maschi ed il 32,4% delle femmine ritengono che i professori siano parziali a favore delle ragazze. Una percentuale decisamente inferiore ritiene che gli insegnanti facciano preferenze nei confronti dei ragazzi (9,3% nel complesso). Quasi la metà degli studenti comunque ritiene il comportamento degli insegnanti non sia indebitamente influenzato dal genere. Sollecitati dalle ricercatrici rispetto a queste percezioni, gli insegnanti coinvolti in diversi focus group non hanno avuto difficoltà ad ammettere che critiche e punizioni siano rivolte maggiormente ai ragazzi ma hanno negato che i loro comportamenti siano pregiudizialmente parziali a favore delle femmine. “In generale si può dire che gli insegnanti ritrovano in queste opinioni una porzione consistente di realtà, in quanto riconoscono che la critica, e soprattutto la punizione, è diretta a limitare il comportamento in classe dei maschi che si presenta istintivo, irruente e trasgressivo più spesso di quanto non si osservi fra le ragazze. Essi però negano che vi siano gradi diversi di tolleranza (quindi il ‘fare le preferenze’) in senso privilegiato per le femmine.” Le autrici della ricerca riconoscono questo dissidio di valutazione tra studenti ed insegnanti ma, in assenza di elementi di valutazione indipendenti, devono sospendere il giudizio, pur rimarcando una sostanziale mancata consapevolezza da parte degli insegnanti della problematicità degli esiti evidenziati dalla indagine campionaria. “Da parte degli insegnanti è stato riscontrato invece un basso livello di consapevolezza e di tematizzazione delle declinazioni di genere dei propri comportamenti in classe, mentre prevale la difesa dell’agire ‘egualitario’ rispettoso del mandato istituzionale.” Dal punto di vista dell’efficacia scolastica, il fatto che una larga parte dei ragazzi e delle ragazze consideri che i professori non siano imparziali è un problema in sé, al di là del fatto che l’opinione sia fondata o meno, potendo generare sentieri di apprendimento sub-ottimali in risposta ad una (ancorché inesistente) discriminazione. Le risposte al problema invece sono diverse a seconda se si tratti di un puro fantasma di adolescenti che non vogliono fare i conti con la necessità di un serio impegno personale negli studi o se emergano effettivamente dei comportamenti parziali da parte del corpo docente. Nel resto del capitolo, cercheremo di approfondire la questione, nell’ipotesi che il “fare preferenze” possa riflettersi in giudizi di rendimento scolastico che, a parità di livelli di apprendimenti, incorporino in qualche misura una preferenza di genere. L’analisi verrà effettuata con riferimento alla terza media, confrontando i giudizi del primo quadrimestre di italiano e di matematica con gli esiti dei test di maggio 2005 e altre variabili indipendenti.
139
3.9.3 Giudizi di italiano e matematica Un semplice sguardo alla distribuzione dei giudizi di italiano per sesso mostra che, anche nel nostro campione di studenti compresenti nei tre anni, le ragazze ricevono voti migliori in italiano. Tabella 3.7 – Voto primo quadrimestre 2004/2005, italiano, per genere Genere voto primo quadrimestre, 2004/2005, italiano
Totale
maschi 10,1% 43,9%
femmine 4,8% 27,0%
7,4% 35,3%
buono
28,5%
37,2%
32,9%
distinto
16,0%
25,4%
20,8%
1,5%
5,6%
3,6%
100,0%
100,0%
100,0%
insufficiente sufficiente
ottimo Totale
Ben il 10,1% dei maschi risulta insufficiente rispetto a solo il 4,8% mentre il giudizio ottimo viene ricevuto solo dall’1,5% dei maschi contro il 5,6% delle femmine. Questo differenziale globale non è smentito dai valori medi dei risultati della prova di italiano 2005, che nel nostro campione, secondo la scala di Rasch, vale 1,25 per i maschi e 1,57 per le femmine, con una differenza statisticamente significativa. Dividiamo ora la misura di Rasch calcolata in tre classi: studenti con un valore inferiore a 1, studenti compresi tra 1 e 2, studenti con un punteggio superiore a 2. Gli studenti così suddivisi sono relativamente omogenei dal punto di vista del livello degli apprendimenti di italiano e perciò dovremmo attenderci un distribuzione condizionata dei voti in ogni classe sostanzialmente allineata tra i due sessi. In realtà, ciò non accade. A titolo d’esempio, tra gli studenti caratterizzati da una misura di Rasch superiore a 2, ben il 24,2% dei maschi riceve “sufficiente” contro il 13,8% delle femmine; di converso, solo il 4,2% dei maschi riceve “ottimo” contro il 14,9% delle femmine. Consideriamo ora la distribuzione delle votazioni in matematica. Come si può verificare nella tabella 4, le distribuzioni per genere evidenzia differenze più contenute, un dato confermato in termini generali dai valori medi della misura di Rasch di matematica: 1.13 per i maschi, 1,20 per le femmine, con una differenza statisticamente non significativa.
140
Tabella 3.8 – Voto primo quadrimestre 2004/2005, matematica, per genere Genere voto primo quadrimestre, 2004/2005, matematica
Totale
maschi 22,6% 28,8%
femmine 15,3% 29,6%
18,8% 29,2%
buono
23,3%
25,3%
24,4%
distinto
20,2%
24,4%
22,4%
5,1%
5,4%
5,3%
100,0%
100,0%
100,0%
insufficiente sufficiente
ottimo Totale
Anche un’analisi condizionata a gruppi di studenti relativamente omogenei dal punto di vista della misura in matematica, non evidenzia elementi di differenza particolarmente accentuati, con l’eccezione del giudizio di “distinto” tra gli studenti che hanno ottenuto un punteggio superiore a due nel test di matematica (44,8% dei maschi e 56,3% delle femmine).
3.9.4 Un’analisi multivariata Le analisi sinora effettuate indicano un probabile effetto di genere, particolarmente evidente per italiano, ma non consentono di approfondire l'analisi mettendo in relazione le votazioni del primo quadrimestre in italiano e matematica con una pluralità di variabili esplicative, in modo da poter evidenziare il contributo del genere a parità di altri fattori. Considerando la natura delle valutazioni degli insegnanti, è stato stimato, distintamente per italiano e matematica, un modello di regressione ordinale (Proportional Odds Logistic regression ) con l'ambiente statistico R (http://www.rproject.org/), i cui risultati analitici vengono riportati in allegato. L’equazione stimata mette in relazione la probabilità di ottenere un giudizio inferiore od uguale ad un certo livello alle seguenti variabili esplicative: risultati nelle prove di apprendimento di italiano (o matematica) nei tre anni disponibili; generici indicatori di posizione sociale ed economica (Checchi, 2004; Barone, 2005) quali il numero dei libri posseduti dalla famiglia, il titolo di studio del padre, il titolo di studio della madre; fattori che individuano se lo studente è italiano e il suo genere; un effetto fisso di classe che tiene conto della diversa “severità” degli insegnanti. Il valore del coefficiente stimato del genere è pari a 0.89 (0.13) per italiano e 0.49 (0.12) per matematica. Come mostrano gli errori standard in parentesi, entrambi i coefficienti sono significativamente maggiori di zero, indicando un effetto a favore delle ragazze a parità di altre condizioni. A fini esemplificativi, utilizzando il modello stimato, sono state calcolate le probabilità di ottenere un certo giudizio in matematica e italiano a seconda del genere, per una specifica combinazione di valori dei risultati nei testi di apprendimento e delle altre variabili indipendenti.
141
Studenti caratterizzati da performance nei test in ognuno dei tre anni nel 25% superiore hanno secondo il modello stimato una probabilità del 71% di ricevere “distinto” in italiano nel primo quadrimestre 2005 se femmine e del 55% se maschi; solo il 7,4% delle femmine ed il 4,9% riceve invece “ottimo” mentre sono elevate le probabilità di ricevere un giudizio non superiore a “buono” (21,6% per le studentesse; 40,1% per gli studenti). Nelle stesse condizioni, i giudizi di matematica si ripartiscono quasi paritariamente tra “distinto” e “ottimo” (48% e 49,5% rispettivamente) per le studentesse; i maschi con probabilità 58% ricevono “distinto” mentre è inferiore la probabilità di un giudizio uguale a “ottimo” (38%).
3.9.5 Un approfondimento per matematica I risultati delle stime indicano pertanto l'esistenza di un effetto generale a favore delle femmine sia in italiano che in misura minore in matematica. Rammentando che nelle percezioni degli studenti nella citata indagine IReR circa la metà ritiene che i professori non facciano preferenze e che una quota, ancorché numericamente contenuta, faccia preferenze a favore dei ragazzi, è probabile che l'effetto medio evidenziato sia il risultato di effetti possibilmente di segno opposto in classi differenti. In questa sezione del lavoro cercheremo di verificare, con riferimento al solo test di matematica che sappiamo avere un migliore adattamento alle valutazioni espresse dagli insegnanti, se si possano individuare gruppi di classi caratterizzate da valutazioni simili per quanto riguarda la severità degli insegnanti e le preferenze di genere. Per fare questo dovremo stimare un coefficiente di interazione tra l'effetto di genere e la classe. Il modello di interazione stimato, in cui sono considerate separatamente le 77 classi del campione, oltre ad essere di difficile interpretazione per l'elevato numero di coefficienti, non appare essere una descrizione sufficientemente parsimoniosa delle relazioni in gioco . Infatti il criterio di informazione di Akaike (AIC) passa da 2505.3 nel modello senza interazioni a 2544.2 in quello con interazioni tra genere e classe. Si è pertanto ricercato un modello che, aggregando le classi in gruppi più ampi, consentisse una migliore sintesi dei dati secondo il criterio adottato. E' stato così possibile ridurre gli effetti fissi da 77 a 6, con una contestuale sostanziale diminuzione dell'AIC (2403,5). Come si può verificare negli output del modello in allegato, i gruppi di classi individuati si differenziano sia per la severità degli insegnanti nel processo di valutazione che per le preferenze di genere. Relativamente a quest'ultimo aspetto, nel nostro campione gli studenti risulterebbero così allocati: 1. 22,4% in classi in cui il processo di valutazione non appare influenzato dal genere; 2. 44,5% in classi in cui i giudizi esprimono una preferenza per le femmine;
142
3. 18,9% in classi in cui i giudizi esprimono una marcata preferenza per le femmine; 4. 14,2% in classi in cui i giudizi esprimono una marcata preferenza per i maschi. Complessivamente pertanto le percezioni degli studenti di cui alla tabella 2 non vengono smentite dall’analisi indipendente effettuata.
3.9.6 Conclusioni L'analisi statistica ha evidenziato che il “fare preferenze” percepito dagli studenti si sostanzia effettivamente in un effetto sistematico nel processo di attribuzione dei voti a favore delle ragazze a parità di altre condizioni. Abbiamo anche mostrato per matematica che l'effetto medio discende da processi di valutazione molto differenziati, sia relativamente alla severità che alle preferenze di genere. Se si considera che i giudizi periodici rappresentano la principale indicazione di rendimento scolastico a disposizione degli studenti e delle loro famiglie, l'importanza di questo effetto non può essere sottovalutata. Infatti, informazioni distorte potrebbero generare decisioni di investimento in capitale umano meno che ottimali. Sulla natura dell’effetto evidenziato si possono avanzare allo stato attuale solo delle ipotesi, la più probabile è che il voto includa in modo implicito valutazioni soggettive legate al comportamento degli studenti, fornendo così un segnale complessivamente poco trasparente agli studenti stessi e alle loro famiglie. Questa pratica - pur risultando in contrasto con le più recenti indicazioni ministeriali (MIUR, 2004) in cui ai fini della valutazione periodica e annuale vengono chiaramente separati gli apprendimenti dal comportamento (definito come “Grado di interesse e modalità di partecipazione alla comunità educativa della classe e della scuola. Impegno. Relazione con gli altri”) - risulterebbe relativamente diffusa nella scuola italiana: “Il caso dello studente particolarmente “rumoroso” che riceve valutazioni decisamente basse, anche se le sue prestazioni non sono così scadenti, è ben noto alla classe docente” (Benvenuto, 2003). In una sessione di discussione di questi risultati con un gruppo di insegnanti delle scuole medie coinvolti nel processo complessivo di ricerca non si sono evidenziate voci di dissenso rispetto a questa ipotesi, che appare in consonanza con la loro esperienza di lavoro. Un’avvertenza finale è però d’obbligo: gli effetti evidenziati potrebbe derivare in parte da test che non misurino le stesse dimensioni di apprendimento considerate rilevanti dagli insegnanti. Questa interpretazione merita la massima attenzione, ma alcuni elementi indiziari suggeriscono che non sia questo il caso. In primo luogo le prove di apprendimento utilizzate, come argomentato in questo rapporto, sono state predisposte da un gruppo di insegnanti qualificati che ha
143
operato in continuità con una precedente fase di analisi che aveva permesso di individuare le dimensioni di apprendimento ritenute cruciali da un ampio campione di insegnanti lombardi . Inoltre, per matematica emerge un adattamento molto soddisfacente tra test e voti, talché questa interpretazione non appare sostenuta globalmente dai dati raccolti. Si deve poi ricordare che le nostre analisi confermano il risultato di ricerca citato in apertura (Lavy, 2004), ottenuto in un lavoro che ha potuto avvalersi di un vero e proprio un “esperimento naturale” in cui per disegno appaiono essere stati eliminati i fattori di scollamento tra le due misure considerate. In aggiunta, recenti analisi condotte in sistemi scolastici caratterizzati da sistemi di valutazione decentrati come la Svezia (Wikstrom e Wikstrom, 2005) e la Norvegia (Bonesrønning, 2004) evidenziano significativi effetti di “grade inflation” a favore delle studentesse, determinati possibilmente da elementi di comportamento valutati positivamente dagli insegnanti: “There is strong evidence that female students with well-educated parents and students from two-parent families get better grades than other students, all else equal. These results may reflect that the background variables capture student behaviour that is rewarded by teachers, or that the teachers use information about student background to reduce uncertainty related to grading, or that students or parents with these characteristics put pressure on teachers for easy grading” (Bonesrønning, 2004). Quali sviluppi di ricerca per il futuro possono essere avanzati? I limiti concreti di questa prima sperimentazione, che ha coinvolto solo un numero relativamente modesto di scuole in un disegno d’indagine non esplicitamente indirizzato ad approfondire la connessione tra misure obiettive degli apprendimenti e processo di valutazione degli insegnanti, suggeriscono di prevedere per gli anni futuri un significativo programma di ricerca che consenta di approfondire in modo mirato la tematica e quella collegata degli effetti dei giudizi degli insegnanti sui risultati effettivi degli studenti e sulle loro scelte di istruzione successive, trattati in via preliminare in questo rapporto di ricerca.
144
3.10 Investimenti in capitale umano al termine della scuola secondaria di primo grado Tra le informazioni rilevate in questa seconda ricerca troviamo anche quella relativa alla probabile scelta dello studente nei confronti della futura scuola secondaria In particolare è stato chiesto se lo studente intendeva iscriversi ad un liceo oppure ad un istituto d’altro tipo. La scelta del tipo di percorso successivo alle scuole secondarie inferiori è notoriamente una questione molto delicata. Tale scelta costituisce infatti uno dei punti caldi relativamente alla questione dell’orientamento e della precoce divisione che si viene a creare all’età di 14 anni tra coloro che esprimo una tendenza alla continuazione degli studi (scelta liceale) rispetto a quelli che invece manifestano, con la scelta nei confronti di una scuola tecnica o professionale, una maggiore propensione per l’ottenimento di un titolo che li metta in grado di inserirsi ne mondo del lavoro subito dopo la secondaria. Il problema che abbiamo voluto indagare è se questa scelta, oltre a ben noti fattori sociali (l’appartenenza ad una famiglia in cui i genitori hanno certi titoli di studio piuttosto che altri), sia anche influenzata dai livelli di apprendimento finali nelle due discipline fondamentali (Matematica e Italiano), da quelli iniziali alla fine della 5^ elementare e dall’esperienza fatta nel triennio delle scuole secondarie di primo grado, in termini di maggiore o minore crescita degli apprendimenti. Dai dati a disposizione emerge che il 42,23% degli studenti dichiara di essere intenzionato ad iscriversi ad un liceo. Il titolo di studio de genitori sembra essere uno dei fattori determinanti di tale scelta (fig. 3.14) e, come atteso, gli studenti i cui genitori hanno un elevato titolo di studio sono maggiormente stimolati a scegliere un liceo. Proprio questo tipo di relazione evidenzia, a parer nostro, che la scelta nei confronti del liceo prefigura già di per sé una propensione alla prosecuzione degli studi dopo la scuola superiore. E’ tuttavia interessante il fatto che il 25-30% di studenti con genitori laureati non opti per il liceo. In effetti, al di là delle condizioni sociali, appaiono in essere altri fattori più legati alla classe (intesa nel senso di comunità di apprendimento) e ai livelli di apprendimento raggiunti. La figura 3.15 mostra che vi sono classi in cui la stragrande maggioranza dichiara di non volersi iscrivere ad un liceo (nonostante madre e padre siano laureati), mentre si osservano classi in cui accade esattamente l’opposto. Infine la figura 3.16 mostra che gli studenti che hanno scelto il liceo hanno una distribuzione del livello di apprendimento in Matematica, misurato attraverso la metodologia Rasch, molto più spostato in alto rispetto agli altri: in sostanza il liceo viene scelto con maggiore probabilità dai ragazzi più bravi.
145
Figura 3.14 – Quota di studenti che dichiarano di avere scelto il liceo (1) o altro tipo di istituto (0) in base al titolo di studio dei genitori (1 = licenza elementare, 2 = scuola secondaria di primo grado, 3 = scuola superiore, 4 = laurea)
3
4
1
2
3
4
0
liceo
0
2
1
1
titolo di studio del padre
titolo di studio della madre
Figura 3.15 – Distribuzione della quota di studenti che dichiarano di avere scelto il liceo tra le diverse classi
8 6 4 2
frequenze assolute
10
12
quota di studenti che si iscriveranno al liceo per classe
0
liceo
1
0.0
0.2
0.4
146
0.6
0.8
1.0
Figura 3.16 – Box plot della distribuzione del livello di apprendimento in Matematica in 3^ classe delle scuole secondarie di primo grado misurato con il modello di Rasch, secondo la scelta tra liceo (1) e non liceo (0)
Al fine di apprezzare meglio l’entità ed il peso dei vari fattori in gioco sulla scelta del tipo di scuola secondaria, si è provveduto a stimare un modello logit per la probabilità di scegliere il liceo, in cui sono state inserite le diverse variabili esplicative a disposizione. Per quanto concerne quelle relative al background familiare, solo il titolo di studio dei genitori è risultato significativo nello spiegare la diversa propensione alla scelta del liceo. Per quanto riguarda invece le variabili caratterizzanti gli aspetti di carriera, esperienza scolastica e livelli di apprendimento, risultano significative variabili quali il livello finale in 5^ elementare (misurato attraverso il test PP2 nei primi mesi della 1^ classe delle scuole secondarie di primo grado), il livello finale misurato attraverso l’ultimo test somministrato e, cosa molto interessante, anche il valore aggiunto medio di classe, nel senso che gli studenti di classi in cui i livelli di conoscenza sono cresciuti di più presentano una maggiore propensione a scegliere il liceo (questo vale però per la Matematica e non per l’Italiano131). Risulta tuttavia molto importante anche il giudizio che il ragazzo riceve dall’insegnante di Matematica (misurato dai voti dell’ultimo quadrimestre), quasi come se questo costituisse una sorta di “consiglio” per lo studente. Tuttavia qui si deve rilevare che, poiché il voto di Matematica espresso dall’insegnante è molto correlato con la misura di Rasch (che rappresenta una misura oggettiva e comparabile), si è preferito inserire nel modello, non il voto dell’insegnante, ma il residuo di questo voto rispetto ad una regressione in funzione della misura di Rasch. Il significato di questo residuo può essere interpretato come “consiglio dell’insegnante” al netto del livello effettivo di conoscenze del ragazzo. 131
Anche a livello internazionale molte ricerche evidenziano che i livelli di conoscenza in Matematica sono molto più predittivi di altri indicatori riguardo al comportamento scolastico dello stente.
147
Tabella 3.9 – Modello logistico per la probabilità di scelta del liceo. Variabile del modello
coef
se
t-test
p-value
intercetta
-2.53
0.93
-2.73
0.01
misura di rasch 2003 italiano (standardizzata)
0.25
0.11
2.37
0.02
misura di rasch 2003 matematica (standardizzata)
0.31
0.11
2.80
0.01
misura di rasch 2005 italiano (standardizzata)
0.14
0.11
1.29
0.20
misura di rasch 2005 matematica (standardizzata)
0.70
0.12
5.82
0.00
valore aggiunto delle classi in matematica(standardizzato)
0.25
0.10
2.52
0.01
voto matematica (residui di primo livello) (standardizzato)
0.61
0.09
7.02
0.00
voto matematica (intercette casuali)(standardizzato)
0.15
0.10
1.59
0.11
padre con licenza di scuola media
0.31
0.60
0.52
0.61
padre con licenza di scuola media
0.37
0.60
0.62
0.53
padre con laurea
1.35
0.61
2.20
0.03
madre con diploma di maturità
0.73
0.84
0.86
0.39
madre con diploma di maturità
1.53
0.84
1.81
0.07
madre con laurea
2.02
0.86
2.34
0.02
Al fine di capire se nella scelta contino di più le variabili sociali, oppure quelle scolastiche, il modello è stato utilizzando le variabili continue standardizzate, in modo che i coefficienti possano essere immediatamente confrontabili. Dalla tabella 1 emerge che il fatto di collocarsi ad 1 deviazione standard della distribuzione: - dei livelli di apprendimento in italiano nel 2003 (nel test PP2) - dei livelli di apprendimento in matematica nel 2003 (nel test PP2) - dei livelli di apprendimento in matematica nel 2005 (nell’ultimo test) - dei livelli di apprendimento in italiano nel 2005 (nell’ultimo test) - del valore aggiunto in Matematica nella propria classe durante il triennio comporta una somma complessiva dei coefficienti (tutti positivi) pari a 1.65, la quale certamente costituisce una sottostima del vero valore poiché queste variabili sono tutte affette da errore di misura (il che ha l’effetto di ridurre la forza delle correlazioni e il valore assoluto dei coefficienti come visto anche nel modello sul valore aggiunto corretto per l’errore di misura delle variabili esplicative). Se a questo si somma anche il fatto di collocarsi ad 1 deviazione standard della distribuzione dei residui costituiti dal giudizio dell’insegnante (che potrebbero cogliere ad esempio un giudizio globale sulla capacità di studio ed impegno del ragazzo), si giunge a 2.26, coefficiente che risulta di gran lunga superiore all’ 1.35 o 2.02 della dummy relativa la fatto di avere il padre o la madre laureati rispettivamente. In sostanza quindi collocarsi ad 1 deviazione standard nella distribuzione delle variabili scolastiche (apprendimento, esperienza fatta in classe e giudizio sulle qualità dello studente al netto dei livelli di apprendimento) costituisce uno stimolo a scegliere il liceo comparabile a quello dei ragazzi che hanno la madre laureata anziché con la licenza elementare. Se poi il ragazzo si colloca a due deviazioni standard nella distribuzione di tali variabili, questo
148
costituisce uno stimolo addirittura superiore al fatto di avere entrambi i genitori laureati. In buona sostanza, cioè, uno studente di condizioni sociali più basse (dal punto di vista del titolo di studio dei genitori) riceve, da un eventuale livello positivo di apprendimento ed esperienza fatta in classe, uno stimolo alla scelta del liceo, superiore a quello di chi ha i genitori laureati, ma livelli di conoscenza ed esperienze scolastiche non altrettanto positive. Se poi si obiettasse che i livelli di apprendimento elevati sono legati alle condizioni sociali, questa ricerca, con l’elevato effetto classe sulla crescita che è stato confermato dai nuovi dati raccolti, evidenzia che i “giochi” sono del tutto aperti e che la scuola può svolgere un ruolo fortissimo nella mobilità sociale, attraverso la crescita della conoscenza. Quest’ultima non è la solita frase retorica priva di evidenza empirica: i dati ottenuti e gli strumenti di misura della crescita qui messi a punto, evidenziano come la scuola abbia un peso addirittura superiore a quello della classe sociale di appartenenza, ad esempio su scelte cruciali come la scuola superiore. La verità è che anche al figlio di buona famiglia può capitare di essere “sciupato” dall’esperienza scolastica: in una società dove il successo economico dipendesse meno dalle condizioni familiari e più dai livelli di conoscenza, questo determinerebbe un arretramento di questi ragazzi in termini sociali. Qualcuno potrebbe interpretare questo fatto come una funzione di riequilibrio sociale svolta dalla scuola. La questione aperta è se questo fenomeno (frutto delle differenze di qualità della scuola) si possa definire equità?. Anche perché una cosa è il ruolo della scuola sugli apprendimenti, che come qui evidenziato può avere un ruolo di riequilibrio (a condizione che lo studente di condizioni svantaggiate capiti in una classe ad alto tasso di crescita), altra cosa è il ruolo delle competenze nel successo sociale e occupazionale. Non è detto che ad una scuola in grado di riequilibrare le competenze corrisponda un tessuto sociale e economico che valorizza più la competenza della raccomandazione!
3.11 Ulteriori risultati statistici relativi alla prima e seconda annualità della ricerca 3.11.1 Introduzione In quest'ultima parte del rapporto vengono commentati i risultati puntuali derivanti dall’analisi dei dati raccolti nella prima annualità del presente lavoro. Nell’analisi che precede si è concentrata l’attenzione sugli aspetti teorici dei modelli utilizzati per l’analisi e su alcuni risultati generali riguardanti il peso dei fattori socio-economici e della classe nello spiegare la variabilità dei livelli di competenze raggiunti e la loro crescita. Come si è visto, per le competenze logico matematiche (cfr. fig. 3.17),: - i fattori socio-economici spiegano una parte limitata della variabilità dello stato ad un certo istante di tempo (dell’ordine mediamente dell’8.5%);
149
mentre la quota di variabilità spiegata per quanto riguarda la crescita sta attorno al 3%; - la classe spiega oltre il 56% della variabilità residua, sia per quanto riguarda lo stato che per quanto riguarda la crescita. Risultati analoghi si ottengono per quanto riguarda le competenze linguistiche (cfr. fig. 3.17). Figura 3.17 Variabilità del livello e del valore aggiunto nelle competenze linguistiche, spiegata dai fattori socioeconomici e dalla classe 20
% di variabilità del livello Y(t) nelle competenze linguistiche spiegata da fattori socioeconomici
15 10
9.5
5
4 tecpr
3 tecpr
4 liceo
3 liceo
2 tecpr
1 tecpr
2 lic
1 lic
2 minf
1 minf
5 elem
4 elem
0
10
% di variabilità del valore aggiunto nelle competenze linguistiche spiegata da fattori socio-economici
8 6 4
3.7
2 0 Elem
% di variabilità del valore aggiunto nelle competenze linguistiche, non spiegata da fattori socio-economici, dovuta alla classe (coeff. di correlazione intra-classe)
Medie inf
Biennio Liceo
Biennio tecprof
T riennio Liceo
T riennio tecprof
T riennio Liceo
T riennio tecprof
100 80
65.3
60 40 20 0 Elem
Medie inf
Biennio Liceo
Biennio tecprof
100 80 60 40
48.8
20 4 tecpr
3 tecpr
4 liceo
3 liceo
2 tecpr
1 tecpr
2 lic
1 lic
2 minf
1 minf
5 elem
0 4 elem
% di variabilità del livello Y(t) nelle competenze linguistiche, non spiegata da fattori socioeconomici, dovuta alla classe (coeff. di correlazione intraclasse)
Ma qui il peso dei fattori socio-economici è leggermente più rilevante per lo stato, mentre anche in questo caso la parte di variabilità della crescita spiegata da questi fattori è limitata (mediamente il 3.7%). Forte invece il peso della classe nella crescita pari mediamente al 65.3% che produce un aumento del peso della classe nel determinare lo stato da un anno all’altro. Considereremo ora i risultati analitici per ogni livello (scuole elementari, scuole secondarie di primo grado e scuole secondarie di secondo grado). È importante rilevare che le variabili socio-economiche presentano degli errori di rilevazione. In particolare, la variabile “numero di libri” rilevata in anni successivi presenta alcuni scostamenti sugli stessi soggetti nelle diverse rilevazioni. La presenza di tali errori potrebbe attenuare parzialmente l’effetto che la variabile ha sui livelli di apprendimento.
150
3.11.2 Dalla 4° alla 5° elementare Sulla base dei test somministrati in 4° e 5° elementare sono stati ottenuti i risultati riportati nelle tabelle in allegato relative alla scuola elementare. Da queste si desume quanto segue. Competenze linguistiche Il livello medio delle competenze nel primo test è pari a 0.46, mentre nel secondo test è pari a 1.31 con un incremento medio di 0.85. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è molto esigua: si segnalano qui il titolo di studio del padre, della madre ed il numero di libri come variabili più importanti nel determinare lo stato iniziale (in 4° elementare) (oltre il 10%). Tuttavia, poiché tali fattori hanno un ruolo molto limitato nella spiegazione della crescita, che invece è spiegata, per oltre il 60% della variabilità residua, dalla classe, nel secondo test (in 5° elementare) il peso dei fattori socio-economici si riduce in maniera considerevole. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (6) per la crescita (corretti per la varianza dell’errore di misura) evidenziano che: a) solo il titolo di studio del padre e della madre, ed il numero di libri sono significativi nello spiegare il livello al tempo iniziale (18.9% della varianza) b) solo il sesso dello studente, il titolo studio della madre ed il numero di libri hanno (un limitato) effetto sulla crescita (3.4% della varianza), mentre la classe spiega il 63% della variabilità residua; c) solo il sesso dello studente (le femmine presentano competenze leggermente più elevate), il titolo di studio della madre ed il numero di libri sono significativi nello spiegare la variabilità del livello finale, che tuttavia si riduce al 13.9% in virtù del forte effetto della classe sopra evidenziato. Si rileva qui che il numero di studenti in classe è leggermente significativo con un valore di -0.032 nello spiegare la crescita: tuttavia tale effetto risulta esiguo in rapporto all’effetto della classe. Per cui la lezione che si può trarre è che fare leva sulla riduzione del numero di studenti per accrescere gli apprendimenti può produrre miglioramenti molto limitati.
3.11.3 Dalla 1° alla 2° classe della scuola secondaria di primo grado Sulla base dei test somministrati in 1° e 2° classe della scuola secondaria inferiore, sono stati ottenuti i risultati riportati nelle tabelle in allegato relative alla scuola secondaria inferiore.. Da queste si desume quanto segue.
151
Competenze linguistiche Il livello medio delle competenze nel primo test è pari a 0.15, mentre nel secondo test è pari a 1.19 con un incremento medio di 1.04. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è molto esigua: si segnalano qui il titolo di studio del padre, della madre ed il numero di libri come variabili più importanti nel determinare lo stato iniziale (in 1° classe della scuola secondaria inferiore) (tra il 5 ed il 10%). Tuttavia, poiché tali fattori hanno un ruolo molto limitato nella spiegazione della crescita, che invece è spiegata dalla classe per il 40% della variabilità residua, nel secondo test (in 2° classe della scuola secondaria inferiore) il peso dei fattori socio-economici si riduce in maniera considerevole. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (6) per la crescita (corretti per la varianza dell’errore di misura) evidenziano che: -
solo la nazionalità, il titolo di studio della madre ed il numero di libri sono significativi nello spiegare il livello al tempo iniziale (13.6% della varianza); - solo il sesso dello studente, la nazionalità e il fatto di vivere con entrambi i genitori hanno (un limitato) effetto sulla crescita (2.1% della varianza), mentre la classe spiega il 40% della variabilità residua; - solo il sesso dello studente, il fatto di vivere con entrambi i genitori, il titolo di studio della madre ed il numero di libri sono significativi nello spiegare la variabilità del livello finale, che tuttavia si riduce al 10.0% in virtù del forte effetto della classe, sopra evidenziato. Si rileva qui che il numero di studenti in classe non è significativo nello spiegare la crescita e questo è un risultato comune a tutti gli altri livelli con esclusione delle elementari appunto. Competenze logico-matematiche Il livello medio delle competenze nel primo test è pari a -0.48, mentre nel secondo test è pari a 0.92 con un incremento medio di 1.39. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è molto esigua: si segnalano qui il titolo di studio del padre, della madre ed il numero di libri come variabili più importanti nel determinare lo stato iniziale (in 1° classe della scuola secondaria inferiore) (tra il 3 e 6%). Tali fattori hanno un ruolo molto limitato nella spiegazione della crescita, che invece è spiegata, per il 45% della variabilità residua, dalla classe, nel secondo test (in 2° classe della scuola secondaria inferiore) il peso dei fattori socio-economici non aumenta in maniera considerevole. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (6) per la crescita (corretti per la varianza dell’errore di misura) evidenziano che: a) il sesso dello studente, la nazionalità, il vivere con entrambi i genitori, ed il numero di libri sono significativi nello spiegare il livello al tempo iniziale (9.3% della varianza);
152
b) solo il sesso dello studente (le femmine crescono di più dei maschi), ha un significativo ma limitato effetto sulla crescita (2.5% della varianza), mentre la classe spiega il 45% della variabilità residua; c) il sesso dello studente, il vivere con entrambi i genitori, il titolo di studio del padre e della madre, ed il numero di libri sono significativi nello spiegare la variabilità del livello finale, che tuttavia risulta pari al 10.5%.
3.11.4 Dalla 1° alla 2° classe della scuola secondaria di secondo grado Sulla base dei test somministrati in 1° e 2° classe della scuola secondaria superiore sono stati ottenuti i risultati riportati nelle tabelle in allegato relative al biennio della scuola secondaria superiore e alla distinzione licei e non licei.. Da queste si desume quanto segue. Licei: Competenze linguistiche Il livello medio delle competenze nel primo test è pari a 0.61, mentre nel secondo test è pari a 0.55. Poiché non è stato possibile esprimere i due test sulla stessa scala non è possibile calcolare l’incremento. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è più alta che in altri casi: si segnalano nuovamente il titolo di studio del padre, della madre ed il numero di libri come variabili più importanti nel determinare lo stato iniziale (fino al 15%). Nel secondo test il peso dei fattori socio-economici si riduce, evidentemente in ragione di un forte effetto sul valore aggiunto da parte della classe. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (2) per il valore aggiunto (corretti per la varianza dell’errore di misura nella variabile dipendente) evidenziano che: a) il solo il numero di libri è significativo nello spiegare il livello al tempo iniziale (15.8% della varianza); b) solo il sesso dello studente e la nazionalità ha un significativo, ma limitato, effetto sul valore aggiunto (3.2% della varianza), mentre la classe spiega il 66% della variabilità residua; c) il sesso dello studente è l’unica variabile significativa nello spiegare la variabilità del livello finale, che tuttavia risulta pari al 7.2% in forte calo dovuto evidentemente al forte influsso della classe. Tecnici/Professionali: Competenze linguistiche Il livello medio delle competenze nel primo test è pari a 0.16, mentre nel secondo test è pari a 0.81. Poiché non è stato possibile esprimere i due test sulla stessa scala non è possibile calcolare l’incremento. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è esigua: si segnala solo il numero
153
di libri come rilevante determinare lo stato iniziale (fino al 4%). Anche nel secondo test il peso dei fattori socio-economici è limitato. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (2) per il valore aggiunto (corretti per la varianza dell’errore di misura nella variabile dipendente) evidenziano che: c) sesso dello studente, nazionalità e numero di libri sono significative nello spiegare il livello al tempo iniziale (5.8% della varianza); d) le medesime variabili hanno un significativo effetto sul valore aggiunto (5.3% della varianza), mentre la classe spiega il 64% della variabilità residua; e) sempre le stesse variabili sono significative nello spiegare la variabilità del livello finale, con un 6.8%. Biennio: Competenze logico-matematiche Qui è stato possibile esprimere i due test su un’unica scala ma anche tra le due diverse categorie di scuola (Liceo/non liceo). Il livello medio delle competenze nel primo test è pari a -0.43, mentre nel secondo test è pari a 0.82 con un incremento medio di 1.25. La parte di variabilità spiegata dai singoli fattori socioeconomici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è esigua: si segnalano qui il titolo di studio del padre, della madre ed il numero di libri come variabili più importanti nel determinare lo stato iniziale (circa il 10%). Tali fattori hanno un ruolo molto limitato nella spiegazione della crescita, che invece è spiegata, per il 61% della variabilità residua, dalla classe, per cui, nel secondo test, il peso dei fattori socio-economici si riduce. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (6) per la crescita (corretti per la varianza dell’errore di misura) evidenziano che: d) il sesso dello studente, l’avere fratelli e/o sorelle, ed il numero di libri sono significativi nello spiegare il livello al tempo iniziale (10.3% della varianza); e) solo il sesso dello studente (le femmine crescono di più dei maschi), ha un significativo ma limitato effetto sulla crescita (2.9% della varianza), mentre la classe spiega il 61% della variabilità residua; f) solo il numero di libri risulta significativo nello spiegare la variabilità del livello finale, che tuttavia si riduce al 5.9%. Per quanto riguarda la tipologia di istituto (liceo/non liceo) emerge che gli studenti degli istituti tecnici e professionali hanno livelli iniziali più bassi di quelli dei liceali; poiché le due tipologie presentano tassi di crescita non troppo dissimili (anche se leggermente inferiori agli istituti tecnici e professionali) la differenza iniziale tende a mantenersi significativa anche nel secondo periodo.
154
3.11.5 Dalla 4° alla 5° classe della scuola secondaria di secondo grado Sulla base dei test somministrati in 4° e 5° classe della scuola secondaria superiore sono stati ottenuti i risultati riportati nelle tabelle in allegato relative al triennio della scuola secondaria superiore e alla distinzione licei e non licei. Da queste si desume quanto segue. Licei: Competenze linguistiche Il livello medio delle competenze nel primo test è pari a -0.04, mentre nel secondo test è pari a 0.20. Poiché non è stato possibile esprimere i due test sulla stessa scala non è possibile calcolare l’incremento. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è ancora una volta molto bassa: titolo di studio del padre, della madre ed il numero di libri hanno uno scarso ruolo nel determinare lo stato iniziale (max 3.9%). Nel secondo test il peso dei fattori socio-economici si riduce, evidentemente in ragione di un forte effetto sul valore aggiunto da parte della classe. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (2) per il valore aggiunto (corretti per la varianza dell’errore di misura nella variabile dipendente) evidenziano che: -
solo il numero di libri è significativo nello spiegare il livello al tempo iniziale (4.6% della varianza); nessuna variabile socio-economica è significativa nello spiegare il valore aggiunto, mentre la classe spiega il 79% della variabilità residua; solo la nazionalità è significativa nello spiegare la variabilità dello stato finale con uno scarso peso (che addirittura viene stimato in -0.7% evidentemente pari a zero), in forte calo rispetto allo stato iniziale, dovuto evidentemente al rilevante influsso della classe.
Tecnici/Professionali: Competenze linguistiche Il livello medio delle competenze nel primo test è pari a 0.31, mentre nel secondo test è pari a 0.61. Poiché non è stato possibile esprimere i due test sulla stessa scala non è possibile calcolare l’incremento. La parte di variabilità spiegata dai singoli fattori socio-economici, calcolata attraverso il rapporto di correlazione corretto per la varianza degli errori di misura è abbastanza rilevante in questo caso: si segnala ancora il titolo di studio del padre e della madre ed il numero di libri come rilevanti determinare lo stato iniziale (fino al 13%). Anche nel secondo test il peso dei fattori socio-economici è rilevante. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (2) per il valore aggiunto (corretti per la varianza dell’errore di misura nella variabile dipendente) evidenziano che: 1. sesso dello studente, nazionalità, vivere con entrambi i genitori e numero di libri sono significative nello spiegare il livello al tempo iniziale (8.4% della varianza);
155
2. le medesime variabili hanno un significativo effetto sul valore aggiunto (8.1% della varianza), mentre la classe spiega l’80% della variabilità residua; 3. sempre le stesse variabili sono significative nello spiegare la variabilità del livello finale, con un 8.7%. Licei: Competenze logico-matematiche Qui è stato possibile esprimere i due test su un’unica scala. Il livello medio delle competenze nel primo test è pari a -0.79, mentre nel secondo test è pari a 0.36 con un incremento medio di 1.15. La parte di variabilità spiegata dai singoli fattori socio-economici è rilevante (14% circa prt alcuni fattori). Ma di nuovo, tali fattori hanno un ruolo più limitato nella spiegazione della crescita, che invece è spiegata dalla classe, per il 59% della variabilità residua. Nel secondo test, il peso dei fattori socio-economici aumenta considerevolmente. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (6) per la crescita (corretti per la varianza dell’errore di misura) evidenziano che: a) il sesso dello studente, è l’unica variabile significativa nello spiegare il livello al tempo iniziale (6.8% della varianza); b) nessuna variabile socio-economica ha un significativo effetto sulla crescita (0.4% della varianza), mentre la classe spiega il 59% della variabilità residua; c) alcune variabili come il titolo di studio della madre variabili risultano significative nello spiegare la variabilità del livello finale, che cresce al 11.7%. Tecnici e professionali: Competenze logico-matematiche Anche qui è stato possibile esprimere i due test su un’unica scala. Il livello medio delle competenze nel primo test è pari a -0.76, mentre nel secondo test è pari a 0.72 con un incremento medio di 1.48. La parte di variabilità spiegata dai singoli fattori socio-economici è esigua (al massimo il 3% circa. Tali fattori hanno un ruolo ancora più limitato nella spiegazione della crescita, che invece è spiegata, per il 51% della variabilità residua, dalla classe. Nel secondo test, il peso dei fattori socio-economici si riduce come già visto in altre situazioni analoghe. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (6) per la crescita (corretti per la varianza dell’errore di misura) evidenziano che: a) il sesso dello studente, la nazionalità, l’avere fratelli e/o sorelle, ed il titolo di studio della madre sono significativi nello spiegare il livello al tempo iniziale (7.2% della varianza); b) solo la nazionalità e vivere con entrambi i genitori hanno un significativo effetto sulla crescita (4.3% della varianza), mentre la classe spiega il 51% della variabilità residua; c) le stesse variabili risultano significative nello spiegare la variabilità del livello finale, che tuttavia si riduce al 6.4%.
156
Classe 4a: Competenze storiche Nella prima fase dell0indagine è stato somministrato un test di storia le cui misure di Rasch sono state ottenute nella prima fase della ricerca. Il livello medio delle competenze nel test di storia è pari a -.73 con una deviazione standard di 1.42 il che evidenzia una forte variabilità. La parte di variabilità spiegata dai singoli fattori socio-economici è esigua (al massimo il 4% circa). Tali fattori hanno un ruolo ancora più limitato nella spiegazione del valore aggiunto. In particolare i modelli multilivello stimati, che sono del tipo (5) per lo stato, e di tipo (2) per il valore aggiunto (corretti per la varianza dell’errore di misura) evidenziano che: 1. il sesso dello studente, la nazionalità, l’avere fratelli e/o sorelle, il titolo di studio della madre ed il numero di libri sono significativi nello spiegare il livello al tempo iniziale (5.5% della varianza); 2. le stesse variabili hanno un significativo, ma più limitato, effetto sulla crescita (2.7% della varianza), mentre la classe spiega il 31% della variabilità residua. I maggiori fattori influenti sulla crescita sono le competenze linguistiche e logicomatematiche, inoltre anche il tipo di istituto presenta un effetto significativo rispetto alla categoria residuale “Altro scuola” rispetto a Licei e Istituti tecnici e professionali.
3.11.6. Un’ulteriore analisi del triennio delle scuole secondarie di primo grado Sulla base di un terzo test somministrato al terzo anno delle scuole secondarie di primo grado è stato possibile fare il punto sul livello di uscita degli studenti che erano stati sottoposti a test nei due anni precedenti. Sia per le competenze linguistiche che logico-matematiche. I risultati sono i seguenti. Dalle figure 3.18 e 3.19 si desume che la crescita nel primo periodo (dal primo al secondo anno) è superiore alla crescita nel secondo (dal secondo al terzo anno). Sia per le competenze linguistiche che logico-matematiche. Dalle tabelle riportate in allegato si desume che nel primo periodo (dalla prima alla seconda) la crescita nelle competenze linguistiche è pari a 1.10, mentre nel secondo 0.49; nelle competenze matematiche la crescita nel primo periodo è 1.35, mentre nel secondo 0.93.
157
Figura 3.18 - La crescita delle competenze linguistiche nei tre anni delle scuole secondarie di primo grado Valori medi a livello di classe 4
2.5
2 3
M (Y 3 ) - M (Y 2 )
1.5 2
1
0.5
1
0
-0.5
0
0.5
1
1.5
2
2.5
3
0 M(Y1)
-0.5
-1
M(Y2)
M(Y3)
-1
-1.5 -2
M(Y1) - M(Y2)
Note: Il primo grafico riporta per ogni classe in ascissa la crescita media nel primo biennio (dalla 1a alla 2a) e in ordinata la crescita media nel secondo biennio (dalla 2a alla 3a): il punto rosso indica i valori medi sull’intera popolazione oggetto di indagine. Il secondo grafico riporta i livelli medi nei tre anni, a livello di classe: in nero la curva media sull’intera popolazione oggetto di indagine
Crescita non lineare è documentata anche in altri ambiti come ad esempio gli studi australiani da cui sono tratte le figure 2. Nel secondo grafico della figura 2 si nota che, in coincidenza con il passaggio dalla scuola primaria alla secondaria, si ha una forte stasi nella crescita. Capire se questo dipenda dall’età oppure dal fatto che, in vicinanza di un passaggio di livello ci si concentra forse più sugli esami finali per consolidare le competenze acquisite, è questione difficilmente risolvibile senza studi sulla crescita generalizzati.
158
Figura 3.19 - La crescita delle competenze logico-matematiche nei tre anni delle scuole secondarie inferiori Valori medi a livello di classe
3.5
3 2.5
2.5
M (Y 3 ) - M (Y 2 )
2 1.5
1.5 1
0.5
0.5 M(Y1)
M(Y2)
M(Y3)
-0.5
0 0
1
2
3
4
-0.5 -1.5
-1
M(Y1) - M(Y2) -2.5
Note: Il primo grafico riporta per ogni classe in ascissa la crescita media nel primo biennio (dalla 1a alla 2a) e in ordinata la crescita media nel secondo biennio (dalla 2a alla 3a): il punto rosso indica i valori medi sull’intera popolazione oggetto di indagine. Il secondo grafico riporta i livelli medi nei tre anni, a
3.11.7 Il peso dei fattori socio-economici e della classe In ogni caso anche da queste analisi su tre anni emerge un limitato effetto delle variabili socio-economiche sul livello e ancora minore sulla crescita, spiegata invece in massima parte dalla classe. I modelli applicati per analizzare questo tipo di dati sono di tre tipi: a) modelli multilivello del tipo (5) per lo stato; b) modelli multilivello del tipo (6) applicati al periodo dalla prima alla seconda, dalla seconda alla terza e dalla prima alla terza; c) modelli multilivello del tipo (6) relativi a due osservazioni per studente, coincidenti con la crescita nei due periodi. Tutti confermano risultati analoghi in termini di peso dei diversi fattori. In particolare il modello per i due periodi mostra che nel secondo la crescita risulta significativamente inferiore e che esiste una correlazione negativa tra l’effetto della classe nel primo periodo e quello della stessa classe nel secondo: chi cresce molto nel primo periodo tende quindi a crescere meno nel secondo. Per capire quale strategia risulti migliore si è stimato un modello per la differenza tra la terza e la prima osservazione. I modelli riportati in allegato mostrano, sia per le
159
competenze linguistiche che logico-matematiche, migliori risultati in termini di crescita complessiva per le classi in cui la crescita è superiore alla media nel primo periodo. Chi “va lento” nel primo periodo quindi, tende a raggiungere risultati inferiori alla media alla fine del terzo anno. Una sorta di “effetto soffitto” (costituito forse dal programma da svolgere) sembra limitare la crescita degli studenti dalla 2° alla 3° classe della scuola secondaria inferiore. Se tale rallentamento fosse connesso proprio alla prospettiva del passaggio ad altro livello di scuola, sarebbe opportuno indagare se ciò possa risultare positivo o meno per lo sviluppo finale. Certo è che questa potrebbe essere una delle ragioni del basso livello osservato per l’Italia nelle indagini OCSE-PISA. Per verificare questa ipotesi sarebbe necessario analizzare i dati medesimi in rapporto all’età di passaggio alla scuola secondaria.
3.11.8 Fattori di contesto e clima Nel complesso l’effetto della classe spiega il 40-50% della crescita osservata in entrambe le competenze. Pertanto, sulla base dei dati raccolti a livello di classe si è cercato di individuare dei fattori di contesto che potessero spiegare la variabilità osservata. Tra queste le variabili caratterizzanti l’insegnante, lo stile di insegnamento, il clima scolastico. A questo scopo sono state rilevate molte variabili per la cui descrizione si rinvia ad altra parte del rapporto. Qui considereremo solo quelle che sono risultate significative nella spiegazione della crescita. I modelli riportati in allegato mostrano quanto segue. Per quanto riguarda le competenze logico-matematiche è possibile individuare un piccolo gruppo di variabili caratterizzanti l’insegnante (sesso, tipo di diploma di scuola secondaria superiore e voto di laurea) che hanno un’influenza significativa sulla crescita, ma comunque limitata all’ 1.4% della variabilità complessiva della crescita: non sono pertanto variabili fondamentali su cui far leva. Anche perché alcune di queste, come il genere dell’insegnante, pongono delicate questioni di discriminazione ove le si utilizzassero per selezionare gli insegnanti più “efficaci”. Di fatto emerge qui quanto già noto da altri studi internazionali (Goldhaber, 2002), ovvero che gli insegnanti hanno un ruolo determinante nello spiegare la crescita degli alunni, ma non è ancora chiaro quali siano i fattori che rendono un insegnante più efficace di un altro. Certamente l’effetto del tipo di maturità e del voto di laurea farebbero pensare alla possibilità che dei test somministrati agli insegnanti potrebbero risultare molto più rilevanti nello spiegare a crescita degli studenti, come del resto emerge da alcuni studi internazionali (Rowan et al., 2002). Qui ovviamente emerge tutta la rilevanza dell’approccio di Rasch nella costruzione di queste misure poiché, come già visto, la conoscenza della varianza dell’errore di misura è fondamentale per poter calcolare le correlazioni. Per ciò che concerne le variabili di contesto solo un paio di domande sono risultate avere una valenza esplicativa della crescita: la loro introduzione nel modello fa passare la variabilità spiegata dall’1.4% al 9.9%. La prima è quella relativa agli stili di insegnamento: in particolare si cresce mediamente di più dove
160
l’insegnante “riesce a dare anche ai più bravi l’opportunità di crescere”. La seconda è costituita da una domanda la cui interpretazione, purtroppo, è risultata ambigua. La domanda in questione è la seguente: indichi il grado di accordo con la seguente espressione “Il dirigente dà un indirizzo specifico alla scuola”. L’ambiguità deriva dal fatto che non si capisce se chi ha risposto “Sono molto d’accordo” abbia voluto intendere: a. “Nella mia scuola il dirigente dà un indirizzo specifico”; b. “Sono d’accordo sul fatto che il dirigente dia un indirizzo specifico alla scuola”. Comunque, per entrambe le interpretazioni le conseguenze della stima del modello fanno disperare sulla possibilità di individuare fattori di contesto su cui fare leva in maniera generalizzata. Infatti gli insegnanti che hanno dichiarato di “essere molto in disaccordo” con l’espressione “Il dirigente dà un indirizzo specifico alla scuola” sono quelli delle classi che presentano una crescita media più elevata (dell’ordine di 0.60 punti su crescite medi di 1.35 e 0.93 nei due periodi). Per cui le indicazioni che vengono dal modello nel caso delle due interpretazioni sono: -
nelle scuole dove il dirigente dà un indirizzo specifico, la crescita è minore; - nelle classi dove gli insegnanti sono in accordo con tale idea sia ha una crescita minore. Nessuna altra variabile di contesto è risultata significativa (anche nel caso delle competenze linguistiche): se questo fosse in futuro confermato da altri studi, emergerebbe l’inutilità degli sforzi tesi alla individuazione di tali fattori, pur restando sempre la possibilità, da parte di una famiglia, di individuare prontamente, sulla base di grafici come il 2, se la classe o la scuola in cui il proprio figlio è iscritto risulti efficace oppure no ai fini della crescita delle sue competenze.
161
Bibliografia AA.VV. (1974), Pedagogia della valutazione scolastica, La Scuola, Brescia AA.VV. (1995), La qualità nella scuola, in “Annali della Pubblica Istruzione”, n.1-2 AA.VV. (1998), Progetto e Qualità, Studi e documenti degli Annali della Pubblica Istruzione, 84 Aitkin M., Longford N. (1986) Statistical modelling in school effectiveness studies. Journal of the Royal Statistical Society, A, 149 Associazione TreeLLLe (2002), L’Europa valuta la scuola. E l’Italia? Un sistema nazionale di valutazione per una scuola autonoma e responsabile, Quaderno n. 2, novembre 2002 Ballou D., Sanders W., Wright P. (2004) Controlling for Student Background in Value-Added Assessment of Teachers, Journal of Educational and Behavioral Statistics, Vol. 29, n. 1 Carlo Barone (2005), E’ possibile spiegare le disuguaglianze di apprendimento mediante la teoria del capitale culturale?, Polis, 2005 Barzanò G. – Mosca S.- Scheerens J. (2000) (a cura di), L’autovalutazione nella scuola, Bruno Mondadori, Milano D. Bertoni Jovine (1950), La scuola italiana dal 1870 ai nostri giorni, Roma Bezzi C.–Palumbo M. (1998) (a cura di), Strategie di valutazione. Materiali di lavoro, Gramma, Perugia Hans Bonesrønning (2004), Do the Teachers’ Grading Practices Affect Student Achievement?, Education Economics, 12 L. Borghi (1960) J. Dewey e l’educazione americana, La Nuova Italia, Firenze L. Borghi (1961), L’ideale educativo di John Dewey, La Nuova Italia, Firenze Bottani N. – Cenerini A. (2003), Una pagella per la scuola. La valutazione fra autonomia e equità, Trento, Erickson Guido Benvenuto (2003), Mettere i voti a scuola. Introduzione alla docimologia, Carocci editore, Roma Bishop J. H., Woessmann L. (2001), Institutional Effects in a Simple Model of Educational Production. Kiel Working Paper 1085 Bohlig M., Fisher W.P. Jr., Masters, G.N., Bond, T., (1998), Content Validity and Misfitting Items , in ”Rasch Measurement Transactions”, 12-1 R. BOLLETTA in G. BARZANÒ, S. MOSCA, J. SCHEERENS (a cura di), L'autovalutazione nella scuola, Bruno Mondadori, Milano 2000 Bondioli A. – Ferrari M. (2000) (a cura di), Manuale di valutazione del contesto educativo: teorie, modelli, studi per la rilevazione della qualità nella scuola, F. Angeli, Milano Bracci M. (2003) (a cura di), Valutazione e autovalutazione, Armando, Roma Browne W.J., Goldstein H., Woodhouse G. e Yang M. (2001) An MCMC algorithm for adjusting for errors in variables in random slopes multilevel models, Multilevel Modelling Newsletter, 13, 4–10 Buonaccorsi J., Demidenko E. e Tosteson T. (2000). Estimation in longitudinal random effects models with measurement error. Statistica Sinica, 10, 885-903
Calidoni P. (1999), Progettazione, organizzazione didattica, valutazione nella scuola dell’autonomia, La Scuola, Brescia Castoldi M. (2002), Autoanalisi di Istituto: percorsi e strumenti di autovalutazione, Tecnodid, Napoli E. Codignola (1974),Le “scuole nuove” e i loro problemi, La Nuova Italia, Firenze. Coleman J. S. (1975) Methods and Results in the IEA Studies of Effects of School on Learning, Review of Educational Research, vol. 45 R. Conserva (1999) (a cura di ), Il nuovo esame di Stato, Quaderni CIDI, Loescher/Zanichelli, Torino Carroll R.J., Ruppert D. e Stefanski L.A. (1995) Measurement Error in Nonlinear Models, Chapman and Hall, London. Daniele Checchi (2004), Da dove vengono le competenze scolastiche, Stato e Mercato, 2005 C. Coggi – A. M. Notti (2002), Docimologia, Pensa Multimedia, Lecce Cook J. e Stefanski L.A. (1994) A simulation extrapolation method for parametric measurement error models, Journal of the American Statistical Association, 89, 1314–1328 F.E. Crema – E. Gori – D. Vidoni (2002) Alcune riflessioni sullo sviluppo di strumenti di (auto) controllo e di intervento organico nei sistemi formativi, in “Non Profit”, 3.2002, Maggioli ed. Milano Francesca Cristante e Stefania Mannarini (2004), Misurare in psicologia. Il modello di Rasch, Laterza CSA -Centro Servizi Amministrativi di Brescia – Ufficio Scolastico per la Lombardia (2005), Scuola Media, esame di licenza, 2003/2004. I risultati della raccolta dati on-line, Milano M. Dal Pra (1962) (a cura di), L’esame di Stato nella scuola italiana, La Nuova Italia, Firenze E. DAMIANO (1993), L’azione didattica, Armando G. Decollanz (1984), La funzione ispettiva dalla legge Casati ad oggi, Armando, Roma DE GUIJTER E VAN DER KAMP, Statistical test theory for education ad psychology (giugno 2003) (http://icloniis.iclon.leidenuniv.nl/gruijter/) T. De Mauro – P. Legrenzi (1999), Il nuovo esame di maturità, Il Mulino, Bologna F. De Landsheere (1973), Elementi di docimologia, La Nuova Italia, Firenze Maria De Paola e Vincenzo Scoppa (2005), Return to skills, incentives to study and students performance, XX Convegno nazionale AIEL, settembre 2005, www.aiel.it De Rozario P. (2002) Nota sintetica sulle «visite di studio» organizzate dal CEDEFOP sul tema della qualità dell’IFP nel quadro del FORUM sulla qualità dell’IFP, Gruppo tecnico, Febbraio 2002 Domenici G. (2000) (a cura di), La valutazione come risorsa, Tecnodid, Napoli G. Domenici (2005) (a cura di), Le prove semistrutturate di verifica degli apprendimenti, UTET, Torino
164
Dolton P. (2002) Improving Education Quality: How Best to Evaluate Our Schools? A Discussion. Presented at "Taking Account of Accountability: Assessing Politics and Policy Program on Education Policy and Governance Education reform conference", Harvard 2002. http://www.bos.frb.org/economic/conf/conf47/dolton.pdf Edmonds, R.R. (1979). Effective schools for the urban poor. Educational Leadership, 37, 15-24 Fischer G.H. e Molenaar I.W. (Eds.) (1995) Rasch Models: Foundations, Recent Developments, and Applications, Springer, New York Fuller W.A. (1987) Measurement error models, Wiley, New York Gattullo M. (1985), Didattica e docimologia, Armando Editore, Roma Glenn C., de Groof J. (2003) Finding the right balance. Freedom, autonomy and accountability in education, Lemma, Utrecht Goldhaber D. (2002) The Mistery of Good Teaching. Education Next Spring Goldstein H. (1986) Multilevel mixed linear model analysis using iterative generalized least squares, Biometrika, 73, 43–56 Goldstein H. (2003) Multilevel statistical models (Third Edition), Edward Arnold, New York Goldstein H. e Thomas S. (1996) Using examination results as indicators of school and college performance, Journal of the Royal Statistical Society Series A, 159, 149–163 Gori E. (1992) La valutazione dell'efficienza ed efficacia dell'istruzione. Comunicazione invitata alla XXXVI Riunione Scientifica della Società Italiana di Statistica, Pescara 21-24 Aprile 1992 Gori E., Vittadini G. (1999) La valutazione dell’efficienza ed efficacia: definizioni, problemi e metodi, in Qualità e valutazione nei servizi di pubblica utilità, (Gori-Vittadini eds.) ETAS, serie Gestione d’Impresa-Direzione Gori E. (2003) Quali prospettive dalla ricerca sulla qualità e l’ efficacia della scuola per la costruzione di sistemi di Accountability dell’istruzione. Non Profit, 1.2003, Maggioli ed., Rimini Gori E. (2004) L’investimento in Capitale Umano attraverso l’istruzione, in G. Vittadini (a cura di) (2004) Capitale Umano. La ricchezza dell’Europa. Guerini e ass. ed. Gori, E. e M. Battauz (2004), Quali prospettive dalla ricerca sulla qualità e l’efficacia della scuola per la costruzione di sistemi di accountability dell’istruzione, Non Profit, 10, 473-490 Gori E., Plazzi G., Sanarico M. (2005) La valutazione e la misurazione nelle scienze sociali: oggettività specifica, statistiche sufficienti e modello di Rasch, in Non Profit, 2.2005, Maggioli ed., Rimini Gori E., Vidoni D. (2005) Who watches the watchers? The limits of present accountability policies and a possible way out. To appear on the Boston Journal of Education Gori E., Vittadini G. (2005) Sussidiarietà, Valutazione e Capitale Umano, in Non Profit, 2.2005, Maggioli ed., Rimini Guasti L. (1996), Valutazione e innovazione, De Agostini, Novara Hadji C. (1995), La valutazione delle azioni educative, La Scuola, Brescia
165
Hanushek E. A. (2003) The Failure of Input-based Schooling Policies, Economic Journal, Vol. 113, No. 485, February: 64–98 E.A. Hanushek – M.E. Raymond (2002), Improving Educational Quality: How Best to Evaluate Our Schools?, Presented at Education in the 21st Century: Meeting the Challenges of a Changing World Federal Reserve Bank of Boston June 19-21, 2002, in http://www.bos.frb.org/economic/conf/conf47/hanushekraymond.pdf Hanushek E. A., Raymond M. E. (2004) Does School Accountability Lead to Improved Student Performance? http://www.nber.org/papers/w10591, National Bureau of Economic Research Hanushek E. A.; Kimko D. D. (2000) Schooling, Labor-Force Quality, and the Growth of Nations. American Economic Review, Vol. 90, No. 5, December: 1184–208 Heijke et alii (2001), On management skills of young economists, Maastricht Heijke H., Meng C., Ramaekers, G., (2002). An investigation into the role of human capital competences and their pay-off, ROA-RM-2002/3E. Kissane B. V. (1982) The Measurement of Change as the Study of the Rate of Change, Rasch Models for Measurement in Educational and Psychological Research. Education Research and Perspectives. Vol. 9, No. 1 (http://www.rasch.org/erp1.htm) Stefano M. Iacus e Guido Masarotto (2003), Laboratorio di statistica con R, McGraw-Hill, Milano, 2003 IReR (2001), Appartenenza di genere e socializzazione scolastica, Quaderni Regionali di Ricerca, 19 IReR (2004), Dalla differenza, l’equità. Misurare gli apprendimenti disciplinari nella scuola dell’autonomia, Rapporto finale, 2003c009, 2004 Victor Lavy (2004), Do gender stereotypes reduce girl’s human capital outcomes? Evidence from a natural experiment, NBER WP10678 Linacre J. M. (1989) Many-facet Rasch measurement. Chicago: MESA Press Losito B. – Scalera; V. (1999), Il progetto pilota europeo La valutazione della qualità dell’istruzione, Cadmo, 19, pp.9-26 Lunz M.E., Wright B.D., Linacre J.M. (1990) Measuring the Impact of Judge Severity on Examination Scores. Applied Measurement in Education, 3(4), 331345 Daniel F. McCaffrey, J.R. Lockwood, Daniel Koretz, Thomas A. Louis, e Laura Hamilton (2004). Models for value-added modeling of teacher effects. Journal of Educational and Behavioral Statistics, 29, 67-102 Angela Martini (2005), Il rendimento scolastico italiano. Valori nazionali e differenze regionali, Il Mulino, 3 Melchiori R. et al. (2002), Il laboratorio della valutazione, 2 voll., F. Angeli, Milano 2002 Messick S. (1989) Validity. In R. Linn (Ed.), Educational measurement (3rd ed., pp.13-100). Washington, DC: American Council on Education Mill J. S. (1806–73) On Liberty, Chp V. The Harvard Classics. 1909–14 MIUR (1998), Gli ispettori tecnici: una risorsa per l’autonomia delle scuole, Edizioni dell’Orso, Alessandria
166
MIUR (2004), Indicazioni per la valutazione degli alunni e per la certificazione delle competenze nella scuola primaria e scuola secondaria di I grado, Circolare n. 85, 3 dicembre 2004 MIUR (2005) – Direzione Generale per gli Studi e la Programmazione, La scuola in cifre MIUR (2005a)– Direzione Generale per gli Studi e la Programmazione, Indagine campionaria sugli scrutini, gli esami di licenza e gli esami di stato. Anno scolastico 2004/2005 Paletta, A. (2005a), Autovalutazione e gestione strategica delle attività educative relazione al seminario nazionale "La valutazione del sistema di istruzione" Rimini, 3-4/03/2005 Paletta, A. (2005b) Performance measurement for strategic management of schools in International Journal for Education Law and Policy, Special Issue, October, 2005 Pitman, J. (1999), High-Quality Assessment: We are what we believe and do, IAEA Conference, Bled, Slovenia Quadro di riferimento o Framework sulle conoscenze e abilità di PISA 2003 edito da Armando, 2004 Rao C. R. (1958) Some Statistical Methods for Comparison of Growth Curves, Biometrics, 14, 1-17 Rasch G. (1968) Mathematical theory of objectivity and its consequences for model construction. In "Report from the European Meeting on Statistics, Econometrics and Management Sciences", Amsterdam Rasch G. (1977) On Specific Objectivity: An Attempt at Formalizing the Request for Generality and Validity of Scientific Statements, Danish Yearbook of Philosophy, 14, 58-94 Raudenbush S. W. (1995) Hierarchical Linear Models to Study the Effects of Social Context on Development, in Mordechai G. J. (1995) The Analysis of Change, Lawrence Erlbaum Ass., Pub. New Jersey Ribolzi L. – Maraschiello A. – Vanetti R. (2001), L’autovalutazione nella scuola dell’autonomia, La Scuola, Brescia Rogosa D. (1995) Myths and Methods: “Myths About Longitudinal Research” plus Supplemental Questions, in Mordechai G. J. (1995) The Analysis of Change, Lawrence Erlbaum Ass., Pub. New Jersey Rondini R (1995), Per un sistema nazionale di valutazione, Anicia, Roma Rowan B., Correnti R., Miller R. J. (2002) What Large-Scale, Survey Research Tells Us About Teacher Effects On Student Achievement: Insights from the Prospects Study of Elementary Schools, CPRE Research Report Series RR-051, Consortium for Policy Research in Education, http://www.cpre.org/Publications/rr51.pdf Rowe K. (2005) Evidence for the kinds of feedback data that support both student and teacher learning, ACER Pub Saul G., Studley R. (2002) UC and the SAT: Predictive Validity and Differential Impact of the SAT I and SAT II at the University of California, Educational Assessment, Vol. 8, No. 1, Pages 1-26
167
Scheerens J., Bosker R.J. (1997) The Foundations of Educational Effectiveness. Oxford: Pergamon Scheerens, J. (1999). School Effectiveness in Developed and Developing Countries; A Review of the Research Evidence. Washington DC: The World Bank Scurati C. (1993) (a cura di), Valutare gli alunni, gli insegnanti, la scuola, La Scuola, Brescia M.T. SINISCALCO, Risultati della prova opzionale, in Misurare e valutare le competenze linguistiche, cur. CORDA COSTA – VISALBERGHI, La Nuova Italia 1995 R. SHATTUCK (21005), The Shame of the Schools, “The New York Review of Books” (april 7) 2005 Klaas Sijtma and Ivo W. Molenaar (2002), Introduction to Nonparametric Item Response Theory, Sage Pubblications Snijeders T., Bosker R. (1999) Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling, SAGE The Standards for Educational and Psychological Testing ,1985 (APA, AERA, NCME) F. Tenore (1980), La funzione ispettiva nell’amministrazione scolastica, La Scuola, Brescia L. TESIO, Il sistema di misura Functional Independence Measure (FIM) nel controllo di qualità e nella classificazione dei ricoveri riabilitativi e per cronici, in Sistemi classificativi dei pazienti in degenza riabilitativa, a cura di E. CAPODAGLIO E C. PASSERINO, Fondazione Salvatore Maugeri, IRCCS, Pavia 1996 Tessaro F. (1997), La valutazione dei processi formativi, Armando, Roma 1997 Daniele Vidoni e Daniela Notarbartolo (2004), a cura di, Una scuola che funziona, Armando Editore, 2004 F. VAN DIEREN, Enseigner par compétences ou former à travers une discipline: où sont les contradictions ? (http://smf.emath.fr/VieSociete/Rencontres/FranceFinlande-2005/ResumeConferences.html) Wijbrandt H. van Schuur, Mokken scale analysis: Between the Guttman scale and parametric Item Response Theory (2003), Political Analysis, pg. 139-163, 2003 Wang N., Lin X., Gutierrez R.G. e Carroll R. (1998) Bias analysis and SIMEX approach in generalized linear mixed measurement error models, Journal of the American Statistical Association, 93, 249–261 Christina Wikstrom and Magnus Wikstrom (2005), Grade inflation and school competition: an empirical analysis based on the Swedish upper secondary schools, Economics of Education Review, 24, 2005 Woessmann L. (2003) Central Exams as the “Currency” of School Systems: International Evidence on the Complementarity of School Autonomy and Central Exams", CESifo DICE Report 1 (4),46-56 Wright B. D., Stone M. H. (1979) Best Test Design, https://mmm12.boca01verio.com/rascho/btd.htm Woodhouse G., Yang M., Goldstein H. e Rasbash J. (1996) Adjusting for measurement error in multilevel analysis, Journal of the Royal Statistical Society Series A, 159, 201–212
168
Zhong X., Fung W. e Wei B. (2002) Estimation in linear models with random effects and errors-in-variables, Annals of the Institute of Statistical Mathematics, 54, 595–606
169