Determinazione dell'affidabilità di un test: 4 metodi

Ci sono quattro procedure di uso comune per calcolare il coefficiente di affidabilità (a volte chiamato auto-correlazione) di un test. Questi sono: 1. Test-Retest (Ripetizione) 2. Forme alternate o parallele 3. Tecnica divisa a metà 4. Equivalenza razionale.

1. Metodo Test-Retest:

Per stimare l'affidabilità mediante il metodo test-test, lo stesso test viene somministrato due volte allo stesso gruppo di alunni con un intervallo di tempo dato tra le due somministrazioni del test.

I punteggi dei test risultanti sono correlati e questo coefficiente di correlazione fornisce una misura di stabilità, ovvero indica la stabilità dei risultati del test per un periodo di tempo. Quindi è altrimenti noto come misura di stabilità.

La stima dell'affidabilità in questo caso varia in base alla lunghezza dell'intervallo di tempo consentito tra le due amministrazioni. Il metodo di correlazione del momento del prodotto è un metodo significativo per stimare l'affidabilità di due serie di punteggi.

Pertanto, un'elevata correlazione tra due serie di punteggi indica che il test è affidabile. Significa che i punteggi ottenuti in prima somministrazione sono simili ai punteggi ottenuti nella seconda somministrazione dello stesso test.

In questo metodo l'intervallo di tempo gioca un ruolo importante. Se è troppo piccolo per dire un giorno o due, la consistenza dei risultati sarà influenzata dall'effetto di riporto, cioè gli alunni ricorderanno alcuni dei risultati dalla prima alla seconda.

Se l'intervallo di tempo è lungo dire un anno, i risultati non saranno influenzati solo dalla disuguaglianza delle procedure e delle condizioni di test, ma anche dai cambiamenti effettivi negli alunni in quel periodo di tempo.

Il tempo di retention non dovrebbe essere più di sei mesi. Il divario temporale di quindici giorni (2 settimane) fornisce un indice accurato di affidabilità.

vantaggi:

Il metodo di auto-correlazione o test-test, per la stima del coefficiente di affidabilità è generalmente utilizzato. È degno di usare convenientemente in diverse situazioni. Un test di una lunghezza adeguata può essere utilizzato dopo un intervallo di molti giorni tra i test successivi.

svantaggi:

1. Se il test viene ripetuto immediatamente, molti soggetti ricorderanno le loro prime risposte e trascorreranno il loro tempo su un nuovo materiale, tendendo così ad aumentare i loro punteggi, a volte con un buon affare.

2. Oltre agli effetti immediati della memoria, la pratica e la sicurezza indotte dalla familiarità con il materiale influenzeranno quasi certamente i punteggi quando il test viene eseguito per la seconda volta.

3. L'indice di affidabilità così ottenuto è meno accurato.

4. Se l'intervallo tra i test è piuttosto lungo (più di sei mesi), il fattore di crescita e la scadenza influenzeranno i punteggi e tenderanno a ridurre l'indice di affidabilità.

5. Se il test viene ripetuto immediatamente o dopo un breve intervallo di tempo, potrebbe esserci la possibilità di effetto di riporto / effetto di trasferimento / memoria / effetto pratico.

6. Ripetendo lo stesso test, lo stesso gruppo per la seconda volta, rende gli studenti disinteressati e quindi non gli piace partecipare con tutto il cuore.

7. A volte, non viene mantenuta l'uniformità che influisce anche sui punteggi del test.

8. Possibilità di discutere alcune domande dopo la prima somministrazione, che possono aumentare i punteggi alla seconda somministrazione che incidono sull'affidabilità.

2. Metodo alternativo o forme parallele:

La stima dell'affidabilità mediante il metodo della forma equivalente comporta l'uso di due diverse ma equivalenti forme del test. L'affidabilità della forma parallela è nota anche come affidabilità della forma alternativa o affidabilità della forma equivalente o affidabilità della forma comparabile.

In questo metodo vengono utilizzate due forme parallele o equivalenti di un test. Con forme parallele intendiamo che le forme sono equivalenti per quanto riguarda il contenuto, gli obiettivi, il formato, il livello di difficoltà e il valore discriminante degli oggetti, la durata della prova, ecc.

I test paralleli hanno uguali punteggi medi, varianze e inter-relazioni tra gli articoli. Cioè, due moduli paralleli devono essere omogenei o simili sotto tutti gli aspetti, ma non una duplicazione di elementi di prova. Lascia che le due forme siano Form A e Form B.

Il coefficiente di affidabilità può essere considerato come la correlazione del coefficiente tra i punteggi su due forme equivalenti di test. Le due forme equivalenti devono possibilmente essere simili nel contenuto, nel grado, nei processi mentali testati, nel livello di difficoltà e in altri aspetti.

Una forma del test viene somministrata agli studenti e al termine immediatamente un'altra forma di test viene fornita allo stesso gruppo. I punteggi, così ottenuti sono correlati che danno la stima dell'affidabilità. Quindi, l'affidabilità trovata è chiamata coefficiente di equivalenza.

Gulliksen 1950: ha definito test paralleli come test aventi pari mezzi, uguale varianza e parità di inter-relazioni.

Guilford: il metodo di forma alternativo indica sia l'equivalenza del contenuto che la stabilità delle prestazioni.

vantaggi:

Questa procedura presenta alcuni vantaggi rispetto al metodo test-retest:

1. Qui lo stesso test non viene ripetuto.

2. La memoria, la pratica, gli effetti del carryover e i fattori di richiamo sono ridotti al minimo e non influenzano i punteggi.

3. Il coefficiente di affidabilità ottenuto con questo metodo è una misura della stabilità temporale e della coerenza della risposta a diversi campioni di articoli o forme di test. Pertanto, questo metodo combina due tipi di affidabilità.

4. Utile per l'affidabilità dei test di conseguimento.

5. Questo metodo è uno dei metodi appropriati per determinare l'affidabilità dei test educativi e psicologici.

limitazioni:

1. È difficile avere due forme parallele di un test. In certe situazioni (ad esempio a Rorschach) è quasi impossibile.

2. Quando i test non sono esattamente uguali in termini di difficoltà del contenuto, lunghezza, il confronto tra due serie di punteggi ottenuti da questi test può portare a decisioni errate.

3. I fattori di pratica e di riporto non possono essere completamente controllati.

4. Inoltre, la somministrazione di due forme contemporaneamente crea noia. Questo è il motivo per cui le persone preferiscono tali metodi in cui è richiesta una sola somministrazione del test.

5. Le condizioni di prova durante la somministrazione del modulo B potrebbero non essere le stesse. Inoltre, i testicoli potrebbero non essere in uno stato fisico, mentale o emotivo simile a entrambi i tempi di somministrazione.

6. I punteggi dei test di seconda forma del test sono generalmente elevati.

Sebbene le forme parallele di costruzione difficile, cautamente e con cautela ci forniscano ragionevolmente una soddisfacente misura di affidabilità. Per test standardizzati ben fatti, il metodo di forma parallela è solitamente il modo più soddisfacente per determinare l'affidabilità.

3. Metodo diviso a metà o metodo di prova suddiviso in due parti:

Il metodo metà diviso è un miglioramento rispetto ai due metodi precedenti e implica entrambe le caratteristiche di stabilità ed equivalenza. I due metodi sopra discussi di stima dell'affidabilità a volte sembrano difficili.

Potrebbe non essere possibile utilizzare lo stesso test due volte e ottenere forme equivalenti di test. Quindi, per superare queste difficoltà e per ridurre l'effetto memoria e per economizzare il test, è auspicabile stimare l'affidabilità attraverso una singola somministrazione del test.

In questo metodo il test viene somministrato una volta sul campione ed è il metodo più appropriato per i test omogenei. Questo metodo fornisce la coerenza interna dei punteggi di un test.

Tutti gli elementi del test sono generalmente disposti in ordine crescente di difficoltà e somministrati una volta sul campione. Dopo aver amministrato il test è diviso in due parti o metà uguali o simili o uguali o simili.

I punteggi sono disposti o realizzati in due serie ottenute da numeri dispari di articoli e numeri pari di articoli separatamente. Ad esempio, viene amministrato un test di 100 articoli.

I punteggi individuali basati su 50 elementi di numeri dispari come 1, 3, 5, ... 99 e punteggi basati sui numeri pari 2, 4, 6 ... 10 sono disposti separatamente. Nella parte 'A' sono assegnati elementi di numero dispari e la parte 'B' sarà composta da un numero pari di elementi.

Dopo aver ottenuto due punteggi su numeri dispari e pari di elementi del test, viene calcolato il coefficiente di correlazione. È davvero una correlazione tra due metà equivalenti di punteggi ottenuti in una seduta. Per stimare l'affidabilità, viene utilizzata la formula della profezia di Spearman-Brown.

La formula di Spearman-Brown è data da:

in cui r 11 = l'affidabilità dell'intera prova.

r 11/22 = il coefficiente di correlazione tra due mezze prove.

Esempio 1:

Un test contiene 100 elementi. Tutti questi elementi sono disposti in ordine di difficoltà, dal primo al centesimo. Gli studenti rispondono al test e il test viene valutato.

I punteggi sono ottenuti dagli studenti in numero dispari di articoli e il numero pari di articoli è sommato separatamente. Il coefficiente di correlazione trovato tra queste due serie di punteggi è 0.8.

L'affidabilità dell'intero test (o)

Durante l'uso di questa formula, si dovrebbe tenere presente che la varianza delle due parti pari e dispari dovrebbe essere uguale, vale a dire

Se non è possibile, si possono utilizzare le formule di Flanagan e Rulon. Queste formule sono più semplici e non implicano il calcolo del coefficiente di correlazione tra due metà.

vantaggi:

1. Qui non stiamo ripetendo il test o usando la sua forma parallela e quindi il testee non viene testato due volte. In quanto tale, l'effetto carry over o l'effetto pratico non c'è.

2. In questo metodo, le fluttuazioni delle capacità individuali, a causa di condizioni ambientali o fisiche, sono ridotte al minimo.

3. A causa della singola amministrazione del test, le funzioni e i problemi quotidiani non interferiscono.

4. La difficoltà di costruire forme parallele di test viene eliminata.

limitazioni:

1. Un test può essere diviso in due metà uguali in un certo numero di modi e il coefficiente di correlazione in ciascun caso può essere diverso.

2. Questo metodo non può essere utilizzato per stimare l'affidabilità dei test di velocità.

3. Man mano che viene amministrato una volta, gli errori casuali possono influenzare i punteggi delle due metà nello stesso modo e quindi tendono a rendere il coefficiente di affidabilità troppo elevato.

4. Questo metodo non può essere utilizzato in test di potenza e test eterogenei.

Nonostante tutte queste limitazioni, il metodo della metà divisa è considerato il migliore di tutti i metodi di misurazione dell'affidabilità del test, poiché i dati per determinare l'affidabilità sono ottenuti occasionalmente e quindi riducono il tempo, il lavoro e le difficoltà implicati in caso di secondo o amministrazione ripetuta.

4. Metodo di Rational Equivalence:

Questo metodo è anche noto come "Affidabilità Kuder-Richardson" o "Inter-Item Consistency". È un metodo basato su un'unica amministrazione. Si basa sulla coerenza delle risposte a tutti gli articoli.

Il modo più comune per trovare coerenza tra gli oggetti è attraverso la formula sviluppata da Kuder e Richardson (1937). Questo metodo consente di calcolare l'interconnessione tra gli elementi del test e la correlazione di ciascun articolo con tutti gli elementi del test. J. Cronbach lo ha chiamato come coefficiente di consistenza interna.

In questo metodo, si presume che tutti gli articoli abbiano un valore di difficoltà uguale o uguale, la correlazione tra gli articoli sia uguale, tutti gli elementi misurano essenzialmente la stessa abilità e il test è di natura omogenea.

Come il metodo metà diviso, questo metodo fornisce anche una misura della coerenza interna.

La formula più popolare è Kuder-Richardson, ovvero KR-21, che viene fornita di seguito:

q = - p

p = 1 - q

Un esempio ci aiuterà a calcolare p e q.

Esempio 2:

60 studenti hanno fatto un test e 40 di essi hanno dato una risposta corretta a un particolare elemento del test.

p = 40/60 = 2/3

Ciò significa che una parte degli studenti ha dato una risposta corretta a un particolare elemento del test. In cui 20 studenti hanno dato una risposta errata a quell'oggetto.

Quindi q = 20/60 o 1 - 40/60

Per ogni elemento dobbiamo scoprire il valore di p eq, quindi pq viene sommato su tutti gli elementi per ottenere Σpq. Moltiplicate p e q per ogni articolo e somma per tutti gli articoli. Questo dà Σpq.

vantaggi:

1. Questo coefficiente fornisce alcune indicazioni su quanto internamente coerenti o omogenei siano gli elementi dei test.

2. L'equivalenza razionale è superiore alla tecnica della metà divisa in alcuni aspetti teorici, ma la differenza effettiva nei coefficienti di affidabilità rilevati dai due metodi è spesso trascurabile.

3. Il metodo metà-divisione misura semplicemente l'equivalenza, ma il metodo dell'equivalenza razionale misura sia l'equivalenza che l'omogeneità.

4. Metodo economico in quanto il test viene somministrato una sola volta.

5. Non richiede l'amministrazione di due forme equivalenti di test, né richiede dividere i test in due parti uguali.

limitazioni:

1. Il coefficiente ottenuto con questo metodo è generalmente leggermente inferiore ai coefficienti ottenuti con altri metodi.

2. Se gli articoli dei test non sono altamente omogenei, questo metodo produrrà un coefficiente di affidabilità inferiore.

3. Kuder-Richardson e il metodo della metà diviso non sono appropriati per il test della velocità.

4. La diversa formula KR fornisce un indice di affidabilità diverso.