4 Criteri essenziali di una buona prova

Questo articolo getta luce sui quattro criteri essenziali di una buona prova. I criteri sono: - 1. Affidabilità 2. Validità 3. Obiettività 4. Usabilità.

Criterio n. 1. Affidabilità:

Il significato del dizionario di affidabilità è consistenza, dipendenza o fiducia. Una procedura di misurazione è affidabile nella misura in cui la misurazione ripetuta fornisce risultati coerenti per l'individuo.

Un test è considerato affidabile se produce risultati coerenti nella sua successiva somministrazione. Quindi, per affidabilità di un test, intendiamo quanto affidabile o fedele sia il test. Per esprimere in modo generale, se uno strumento di misura misura in modo coerente, è affidabile.

Quando un test è affidabile, i punteggi fatti dai membri di un gruppo su un nuovo test con lo stesso test o con forme alternative dello stesso test differiscono molto poco o per niente dai loro valori originali.

Esempio 1:

Se un testimone dà la stessa affermazione su un problema quando viene chiesto ripetutamente da un avvocato in tribunale, riponiamo fiducia nella sua dichiarazione e la sua affermazione è affidabile.

Esempio 2:

Se un orologio rimane in ritardo di 10 minuti ogni giorno rispetto al periodo Hindustan, allora possiamo dire che l'orologio è uno strumento affidabile.

Esempio 3:

Supponiamo che chiediamo ad Amit di riportare la sua data di nascita. Lo riferisce per essere il 13 luglio 1985. Dopo un intervallo di tempo abbiamo fatto la stessa domanda e lui ha riferito lo stesso vale a dire il 13 luglio 1985.

Potremmo porre la domanda ancora e ancora e se la risposta è la stessa, riteniamo che l'affermazione di Amit sia affidabile.

definizioni:

1. Thorndike:

È la consistenza di un test con cui misura tutto ciò che si suppone debba essere misurato. L'affidabilità del test viene generalmente considerata come il grado in cui il test è esente da errori di compensazione.

2. Gronlund e Linn:

L'affidabilità si riferisce alla consistenza della misurazione, ovvero a quanto consistono i punteggi dei test o altri risultati di valutazione da una misurazione all'altra.

3. Anastasi:

L'affidabilità si riferisce alla consistenza dei punteggi ottenuti dagli stessi individui quando riesaminati con lo stesso test in diverse occasioni o con insiemi diversi di articoli equivalenti o in condizioni variabili di esame.

4. Davis:

Il grado di precisione relativa della misurazione di un set di punteggio del test è definito come affidabilità.

5. Guilford:

L'affidabilità è la proporzione della vera varianza nei punteggi dei test ottenuti.

Dalla discussione di cui sopra è emerso chiaramente che l'affidabilità di un test indica la misura in cui il test produce lo stesso risultato su una somministrazione successiva sulla stessa popolazione. Altre condizioni rimangono costanti, se lo stesso test viene somministrato alla stessa popolazione in due diverse occasioni e i punteggi ottenuti dagli individui in entrambe le occasioni rimangono più o meno gli stessi, il test è ritenuto affidabile.

L'affidabilità di un test cerca di rispondere alle seguenti domande:

(i) Quanto sarebbero simili i punteggi degli alunni, se vengono dati lo stesso test in due diverse occasioni?

(ii) In che modo i punteggi variano se viene selezionato un diverso campione di articoli equivalenti?

(iii) Come sarebbero diversi i punteggi se il test è segnato da un marcatore diverso?

(iv) Come sarebbero diversi i punteggi se il test è segnato dallo stesso marcatore in momenti diversi?

Caratteristiche di affidabilità:

L'affidabilità ha le seguenti caratteristiche:

(i) Una stima di affidabilità si riferisce sempre a qualsiasi tipo particolare di coerenza.

(ii) Si riferisce all'accuratezza o alla precisione di uno strumento di misura.

(iii) L'affidabilità si riferisce ai risultati del test e non al test stesso.

(iv) È il coefficiente di consistenza interna.

(v) L'affidabilità di un insieme di misure è logicamente come la proporzione della varianza che è la vera varianza.

(vi) È la misura dell'errore variabile o errore casuale o errore di misurazione.

(vii) L'affidabilità è una questione di grado. Non esiste in tutto o in parte.

(viii) L'affidabilità non garantisce la validità, la veridicità o la finalità di un test.

(ix) L'affidabilità è una condizione necessaria ma non sufficiente per la validità. La scarsa affidabilità può limitare il grado di validità che si ottiene, ma l'alta affidabilità non fornisce alcuna garanzia per un soddisfacente grado di validità.

(x) L'affidabilità è principalmente di natura statistica nel senso che i punteggi ottenuti in due occasioni successive sono correlati l'uno con l'altro. Questo coefficiente di correlazione è noto come auto-correlazione e il suo valore è chiamato "coefficiente di affidabilità".

Affidabilità ed errori di misura:

Le definizioni di affidabilità possono essere raggruppate in tre sezioni:

(i) empirico,

(ii) Logico, e

(iii) Teorico.

(i) empirico:

Le definizioni empiriche di affidabilità si riferiscono all'estensione della correlazione tra due serie di punteggi sullo stesso test somministrato sullo stesso individuo in diverse occasioni.

(ii) Teorico:

Il significato teorico si riferisce alla coerenza o alla precisione dei punteggi dei test. Significa affidabilità di un punteggio di prova.

(iii) Logico:

Il significato logico di affidabilità si riferisce agli errori di misurazione.

La seguente illustrazione può procedere alla comprensione del concetto di affidabilità e degli errori di misurazione:

Ad esempio il signor Rohit si assicura 52 in un test mentale. Cosa indica 52? Parla della sua vera abilità? È il suo vero punteggio? Rohit potrebbe essersi assicurato 52 per semplice caso. Può succedere che, per puro caso, Rohit conoscesse 52 elementi del test e che gli elementi fossero stati un po 'diversi, non avrebbe garantito questo punteggio.

Tutte queste domande sono legate al fatto che la misurazione coinvolge alcuni tipi di errori, cioè errori personali, costanti, variabili e interpretativi. Questo errore è chiamato errore di misura. Quindi, mentre determiniamo l'affidabilità di un test, dobbiamo prendere in considerazione la quantità di errori presenti nella misurazione.

Quando il coefficiente di affidabilità sarà perfetto (cioè 1, 00) la misurazione diventa accurata ed è esente da ogni tipo di errore. Ma la misurazione in ogni campo comporta alcuni tipi di errori. Pertanto, l'affidabilità non è mai perfetta.

Un punteggio su un test può essere considerato come un indice del punteggio vero più errori di misurazione.

Punteggio totale o Punteggio effettivo ottenuto = Punteggio reale + Punteggio di errore

Se un punteggio ha una grande componente di 'punteggio vero' e un piccolo componente di errore, è alto; e viceversa, se un punteggio di prova ha una piccola componente di componente 'vero punteggio' e grande 'errore', la sua affidabilità è bassa.

Le relazioni tra punteggio effettivo ottenuto, punteggio ed errore reale possono essere espresse matematicamente come segue:

X = X + e

in cui X = punteggio ottenuto per un individuo in un test.

X = punteggio vero dello stesso individuo

e = la variabile (possibilità) errori.

Errori di misura:

Il punteggio reale è la media dei punteggi ottenuti su un numero infinito di forme parallele di un test. Ogni punteggio ottenuto sarà più o meno del punteggio vero. Le deviazioni dei punteggi ottenuti dai punteggi veri sono chiamate "Errori di misura".

A volte gli errori di misurazione possono essere minori e talvolta più. A parità di altre condizioni, minori sono gli errori di misurazione, maggiore è l'affidabilità della misurazione.

Errore standard di misurazione:

Gli errori di misura (cioè la variazione dei punteggi ottenuti dal punteggio reale) saranno distribuiti normalmente e la deviazione standard di queste variazioni (o errori di misura) è definita come "errori di misura standard".

Possiamo trovare l'errore standard di misura (SE di misura) quando viene dato il coefficiente di affidabilità e la deviazione standard della distribuzione.

La formula per calcolare l'errore standard di misurazione è la seguente:

in cui σ sc = SE di un punteggio ottenuto

σ 1 = la deviazione standard dei punteggi dei test

r 11 = il coefficiente di affidabilità della stessa prova.

Esempio 4:

In un gruppo di 300 studenti universitari, il coefficiente di affidabilità di un test Aptitude in matematica è 0, 75, il test M è 80 e l'SD della distribuzione del punteggio è 16. John raggiunge un punteggio di 86. Qual è il SE di questo punteggio ?

Soluzione:

Dalla formula sopra la troviamo

e le probabilità sono circa 2: 1 che il punteggio ottenuto da qualsiasi individuo nel gruppo di 300 non manchi il suo valore reale di oltre ± 8 punti (cioè ± 1 SE sc ). L'intervallo di confidenza .95 per il punteggio reale di John è 86 ± 1, 96 x 8 o da 70 a 102.

Generalizzando per l'intero gruppo di 300 studenti, possiamo aspettarci che circa 1/3 dei loro punteggi siano errori di 8 o più punti e 2/3 di errori inferiori a questo importo.

Criterio n. 2. Validità:

Il significato del dizionario di validità è "ben basato", "efficace", "suono". Si riferisce alla "veridicità". Pertanto, tutto ciò che è veritiero, ben fondato e che serve il giusto scopo è valido.

Ogni test ha determinati obiettivi. È costruito per uno scopo specifico ed è valido per quello scopo. Se un test misura ciò che intende misurare, si dice che sia valido. La validità fornisce un controllo diretto su come il test soddisfa le sue funzioni. La validità è il primo requisito di un test che diventa universale.

L'affidabilità può essere necessaria ma non una sufficiente condizione di validità. Un test non può essere valido a meno che non sia affidabile. Può essere affidabile ma non può essere detto valido. La rilevanza di un test riguarda le misure di prova e il processo delle misure.

In breve, possiamo dire che un test ha lo scopo di servire la funzione di predizione e quindi il suo valore o validità dipende dal grado in cui ha successo nella stima delle prestazioni in alcuni tipi di situazioni di vita reale.

Esempio 5:

Supponiamo che un testimone faccia una dichiarazione davanti al giudice in un tribunale. Se su successivi esami incrociati o interrogazioni incrociate, ripete la stessa affermazione ancora e ancora, quindi deve essere chiamato come testimone affidabile.

Senza dubbio, la sua affermazione potrebbe essere giusta o sbagliata. Quando la sua affermazione è vera, si dice che sia un testimone valido. Ma se la sua affermazione è costantemente sbagliata, sebbene sia affidabile, ma non valido.

Esempio 6:

Se un orologio rimane indietro di 10 minuti rispetto al "tempo standard", si tratta di un intervallo temporale affidabile. Perché dà risultati costanti ogni giorno con 10 minuti veloci. Il nostro scopo è quello di conoscere correttamente l'ora e non potremmo saperlo. Quindi lo scopo non è servito. Quindi non sarà valido come giudicato dal 'tempo standard'.

Pertanto, si è riscontrato che un test può essere affidabile, ma potrebbe non essere valido. Tuttavia, misure o test validi sono sempre affidabili. Un test valido per un determinato scopo potrebbe non essere valido per un altro scopo.

Un test che è stato preparato per misurare l'abilità computazionale degli studenti in matematica può essere valido solo a tale scopo, ma non per misurare il ragionamento matematico. Quindi, la validità si riferisce allo scopo stesso del test.

definizioni:

Anne Anastasi:

Scrive "la validità di un test riguarda ciò che il test misura e quanto bene lo fa".

Rummel:

"La validità di un dispositivo di valutazione è il grado in cui misura ciò che è destinato a misurare".

Freeman:

"Un indice di validità mostra i gradi con cui un test misura ciò che pretende di misurare rispetto al criterio accettato."

LJ Cronbach:

"La validità è la misura in cui un test misura ciò che intende misurare".

EF Lindquist:

La validità è l'accuratezza con cui misura ciò che è destinato a misurare o il grado in cui si avvicina all'infallibilità nel misurare ciò che intende misurare.

Dalla precedente discussione formiamo che la validità si riferisce al "vero scopo del test" e se lo scopo è soddisfatto, il test deve essere considerato valido. Quindi un test per essere valido deve fare il lavoro che voleva fare.

Il concetto di validità di un test, quindi, è principalmente una preoccupazione per l '"onestà di base" del test. L'onestà nel senso di fare ciò che si promette di fare. Per essere precisi, la validità si riferisce al modo in cui uno strumento misura ciò che intende misurare.

Natura della validità:

1. La validità si riferisce alla veridicità o alla finalità dei punteggi dei test, ma non allo strumento stesso.

2. La validità è una questione di grado. Non esiste su base tutto o niente. Uno strumento progettato per misurare una particolare abilità non può dirsi perfettamente valido o non valido affatto. Generalmente è più o meno valido.

3. È una misura di 'errore costante' mentre l'affidabilità è la misura di 'errore variabile'.

4. La validità garantisce l'affidabilità di un test. Se un test è valido, deve essere affidabile.

5. La validità non è di tipi diversi. È un concetto unitario. Si basa su vari tipi di prove.

6. Non esiste una validità generale. Un test è valido per qualche scopo o situazione, ma non è valido per altri scopi. In altre parole, uno strumento è valido per uno scopo particolare o in una situazione particolare; non è generalmente valido.

Ad esempio, i risultati di un test di vocabolario possono essere molto validi per testare il vocabolario, ma potrebbero non essere così validi per testare la capacità di composizione dello studente.

Criterio n. 3. Obiettività:

L'oggettività è la caratteristica più importante di un buon test. È un prerequisito per la validità e l'affidabilità. L'obiettività di un test indica il grado in cui danno punteggi a persone diverse, lo stesso risultato.

CV Buono (1973):

CV Good (1973) definisce l'obiettività nel test "la misura in cui lo strumento è privo di errori personali (pregiudizi personali) che sono soggettività da parte del segnapunti".

Gronlund e Linn (1995):

"L'oggettività di un test si riferisce al grado in cui i marcatori ugualmente competenti ottengono gli stessi risultati."

Pertanto, si può affermare che un test è considerato obiettivo quando consente l'eliminazione dell'opinione personale del segnapunti e il giudizio di bias.

L'oggettività di un test si riferisce a due aspetti:

(i) Obiettività degli articoli, e

(ii) Obiettività del punteggio.

(i) Obiettività degli articoli:

L'oggettività degli oggetti significa che l'oggetto deve richiedere una risposta unica definita. Gli oggetti obiettivi non possono avere due o più risposte. Quando la domanda viene formulata diversamente, si verificherà una differenza nel punteggio.

Per esempio:

"Spiega il concetto di personalità."

Qui i punteggi dati dai marcatori varieranno in larga misura perché la domanda non indica chiaramente la natura della risposta corretta prevista.

Qui il bambino può scrivere qualsiasi cosa pertinente alla domanda. Se la risposta viene valutata da diversi esaminatori, i voti varieranno sicuramente.

Domande ambigue, mancanza di una giusta direzione, domande a doppio barile, domande con doppi negativi, domande di tipo ad ampio saggio ecc. Non hanno obiettività. Quindi, molta attenzione deve essere esercitata mentre si formulano le domande.

(ii) Obiettività del punteggio:

Uno strumento è oggettivo se dà lo stesso punteggio anche quando marcatori diversi segnano l'oggetto. L'obiettività nel punteggio può quindi essere considerata come la coerenza nel punteggio di diversi marcatori.

Molto spesso, nelle situazioni reali, scopriamo che il capriccio oi pregiudizi dei marcatori influenzano la marcatura. Le domande, poste su determinati argomenti per i quali il segnapunti ha un'inclinazione, possono ottenere più voti rispetto alle altre domande.

Questo tipo di temperamento irrazionale nei confronti del sistema di punteggio è una sorta di trattamento soggettivo del programma che, a sua volta, influenza il processo di valutazione. Pertanto, l'obiettività nella valutazione deve essere garantita per una valutazione accurata.

Allo stesso tempo, la soggettività non deve essere condannata e completamente esclusa, in quanto è così che vengono fatte le valutazioni in realtà. La valutazione soggettiva basata su un'osservazione attenta, un pensiero spregiudicato e imparziale e un'analisi logica di situazioni e fenomeni possono anche fornire una valutazione accurata. Questo tipo di soggettività disciplinata può svolgere un ruolo importante anche in una situazione scolastica.

Criterio # 4. Usabilità:

Usabilità: grado in cui lo strumento di valutazione può essere utilizzato con successo dagli utenti del test.

Abbiamo letto ormai i tre criteri principali di un buon test: validità, affidabilità e obiettività. Un'altra caratteristica importante di uno strumento è la sua usabilità o praticabilità. Mentre si selezionano gli strumenti di valutazione, è necessario cercare alcune considerazioni pratiche come la completezza, la facilità di amministrazione e il punteggio, la facilità di interpretazione, la disponibilità di forme comparabili e il costo dei test.

Tutte queste considerazioni inducono un insegnante a utilizzare strumenti di valutazione e tali considerazioni pratiche sono indicate come "usabilità" di uno strumento di valutazione. In altre parole, usabilità significa il grado in cui lo strumento di valutazione può essere utilizzato con successo dall'insegnante e dagli amministratori della scuola.

(i) Comprensibilità:

Gli elementi di prova devono essere privi di ambiguità. La direzione per testare gli oggetti e le altre indicazioni per il test deve essere chiara e comprensibile. Le istruzioni per l'amministrazione e le indicazioni per il punteggio devono essere chiaramente indicate in modo che si possa facilmente capire e seguirle. Inoltre, la procedura di amministrazione del test, interpretazione del punteggio e del punteggio deve essere compresa nella comprensione dell'utente del test.

(ii) Facilità di amministrazione:

Si riferisce alla facilità con cui un test può essere somministrato. Ogni test ha le sue condizioni per l'amministrazione. Durante la selezione di un test, si dovrebbe scegliere uno, da una raccolta di test, che può essere somministrato senza molta preparazione e difficoltà.

un. La facilità di amministrazione include istruzioni chiare e concise per l'amministrazione. Quindi, per poter amministrare facilmente un test, le indicazioni per l'amministratore e la direzione dei gusti dovrebbero essere semplici, chiare e complete.

b. Anche il tempo è un fattore molto importante. Per la massima amministrazione nelle scuole, è consuetudine che un test debba essere effettuato all'interno di un normale periodo di lezione.

(iii) Facilità di punteggio:

Un test per poter essere utilizzato meglio dovrebbe avere la facilità di segnare. La sua chiave di valutazione dovrebbe essere pronta e può essere facilmente valutata. A volte, i posti sono assegnati sul lato destro delle domande per dare risposte.

In alcuni casi le risposte sono fornite su fogli separati. Un test ideale può essere valutato da chiunque o anche da una macchina, che è stata fornita con una chiave di punteggio. A ogni voce del test dovrebbero essere assegnati contrassegni uguali per rendere il punteggio più facile.

Secondo la fattibilità, possono essere forniti dispositivi per il punteggio della mano o dispositivi per il punteggio della macchina.

(iv) Facilità di interpretazione:

Se i punteggi dei test ottenuti possono essere facilmente compresi e interpretati, un test si dice che sia buono. A tale scopo, il manuale di test dovrebbe fornire norme complete per l'interpretazione dei punteggi, come le norme sull'età, le norme sui gradi, le norme percentili e le norme sui punteggi standard. Le norme facilitano l'interpretazione dei punteggi dei test.

(v) Riepilogo del test:

Il test dovrebbe essere gradevole. Questo deve essere buono e attraente. Le lettere non dovrebbero essere inutilmente troppo piccole o troppo grandi. La qualità della carta utilizzata, la tipografia e la stampa, la dimensione delle lettere, la spaziatura, le immagini e i diagrammi presentati, il suo legame, lo spazio per la risposta degli alunni, ecc. Devono essere esaminati.

(vi) Costo del test:

Il test non dovrebbe essere troppo costoso. Il costo dovrebbe essere ridotto nella misura possibile, in modo che possa essere ampiamente utilizzato.