Według Standards for Educational and Psychological Testing1 trafność to „stopień, w jakim dowody i teoria wspierają interpretację wyników testu, które związane są z propozycją zastosowania danego badania”. Zgodnie z podaną definicją trafność symulacyjnych gier wymaga zarówno wskazania, że dokonywana za ich pomocą ocena jest uzasadniona (ocena podparta teorią), jak i przeprowadzenia badań dostarczających empirycznych dowodów, że wyniki testu są adekwatne do przyjętych celów.

Jeśli teoretyczne założenia trafności symulacyjnych gier oparte na Standards for Educational and Psychological Testing są ściśle przestrzegane, to na ich podstawie jest możliwe zdobycie wystarczających dowodów potrzebnych do oceny, w jakim stopniu interpretacje tworzone na podstawie gier symulacyjnych współgrają z ich przeznaczeniem.

Określenie celów badania

Zaproponowana wyżej definicja trafności wskazuje, że nie jest ona właściwością testu, a raczej czymś, co należy ocenić w odniesieniu do zastosowania testu do określonego celu. Z tego też powodu pierwszym krokiem w ocenie stopnia, w jakim symulacyjna gra jest trafna jako narzędzie pomiarowe, jest wyraźne wskazanie celów dokonywanej oceny.
Przypuśćmy np., że symulacyjne gry zakładają mierzenie umiejętności pracy zespołowej kandydatów do pracy. To założenie wskazuje, że przynajmniej jeden cel gry odnosi się do wyniku pracy zespołowej kandydatów, który to z kolei uprawnia nas do wnioskowania lub przewidywania posiadanych przez kandydatów umiejętności pracy w grupie. Z tego też powodu trafność powinna koncentrować się wyraźnie właśnie na tym celu.

Pięć źródeł dowodów trafności

Standards for Educational and Psychological Testing określają pięć źródeł dowodów trafności, „które mogą być zastosowane do oceny proponowanej interpretacji wyników testów w odniesieniu do konkretnych celów”2. Owe źródła oparte są na:
1) treści testu,
2) procesie odpowiedzi,
3) wewnętrznej strukturze,
4) związkach z innymi zmiennymi oraz
5) konsekwencjach wynikających z testowania.
Dowód trafności oparty na treści testu odnosi się do tradycyjnych form sprawdzania trafności treści, takich jak: praktyczne analizy, opinia ekspertów, ocena specyfikacji testu oraz poszczególnych pozycji testowych3. Ten typ dowodu jest szczególnie istotny dla symulacyjnych gier, które są zaprojektowane z myślą o pomiarze zawodowych umiejętności. Jeffrey Chin, Richard Dukes i William Gamson4 ujęli to jako ważne z punktu widzenia trafności pytanie: „Czy zaproponowany model realnego świata jest prawdopodobny?”5. Innymi słowy, chodzi o to, czy treści zaimplementowane w symulacyjnej grze są zgodne z rzeczywiście występującymi zadaniami, które gra próbuje symulować.

Z kolei oparcie trafności na procesie odpowiedzi dotyczy „dowodów dotyczących dopasowania konstruktu ze szczegółowym charakterem działania lub reakcjami osób egzaminowanych”6. Każdy z dowodów może obejmować rozmowy z graczami dotyczące ich reakcji na symulacje, systematyczną obserwację zachowań podczas symulacji, analizę danych dotyczącą czasu reakcji (analizy chronometryczne) i oceny procesu wnioskowania zastosowanego przez egzaminowanych podczas symulacji7. Takie dowody są potrzebne do potwierdzenia, że symulacja mierzy umiejętności, które w zamiarze ma mierzyć.

Trafność dowodu oparta na wewnętrznej strukturze odnosi się do analizy statystycznej pozycji testu oraz cząstkowych danych. Procedura analizowania tych dowodów opiera się na analizie czynnikowej oraz wielowymiarowym skalowaniu. Rzetelność estymacji również może być wykonywana w ramach analizy wewnętrznej struktury i wymaga dowodów, iż wyniki przypisane do graczy są spójne, a każda klasyfikacja oparta na tych wynikach (np. „przeszedł dalej” lub „nie przeszedł dalej”) jest również rzetelna. Analiza zróżnicowania w zakresie pozycji testowych jako wstępna analiza statystyczna służąca do badania błędów w procesie oceny poszczególnych podgrup osób egzaminowanych również należy do kategorii wewnętrznej struktury.

@page_break@

Dowody oparte na związkach między zmiennymi odnoszą się do tradycyjnych form związanych, takich jak diagnostyczne i prognostyczne badanie, a także bardziej wszechstronne badanie dotyczące związku wyniku testu z innymi zmiennymi, takimi jak metoda wielu cech – wielu metod8. Ten typ dowodu trafności jest szczególnie ważny w odniesieniu do symulacyjnych gier, gdyż pokazuje, że wyniki pochodzące z gry są spójne z innymi miarami, jak np. oceny kierowników.

Podsumowując, dowody oparte na konsekwencjach testowania odnoszą się do oceny zamierzonych i niezamierzonych skutków związanych z oceną. Przykłady obejmują badania negatywnego wpływu, ocenę wpływu na wydajność pracowników, a także ocenę skutków badania na kwestie, takie jak motywacja pracowników czy satysfakcja.

Zastosowanie standardów do oceny trafności symulacyjnych gier

Pierwszym krokiem w określaniu trafności symulacyjnej gry jest zdefiniowanie celów pomiaru. Stwierdzenie celu określa, co będzie poddane pomiarowi. Następnie należy zidentyfikować różne rodzaje dowodów, które będą wspierały każdy z wyznaczonych celów. Przez skrzyżowanie celów testowych z pięcioma źródłami dowodów ważności przedstawionych przez American Educational Research Association (AERA) dokonuje się identyfikacji typów trafności. Choć Standards for Educational and Psychological Testing znajdują się na etapie korekty, to definicja trafności, a także pięć źródeł dowodów będą powtórzone w kolejnych jej wersjach.

Proponowane podejście jest zgodne z „podejściem opartym na argumentach” trafności proponowanym przez Michaela Kane’a9 i wspieranym przez AERA w Standards for Educational and Psychological Testing. Ostatecznym celem działania jest zebranie i udokumentowanie wystarczających dowodów na poparcie tezy o zastosowaniu badania na potrzeby konkretnego celu, a także zilustrowanie, że zastosowanie badań lub gry symulacyjnej w tym przypadku ma więcej pozytywnych (np. przewiduje umiejętności potrzebne w danym zawodzie) niż negatywnych efektów (np. prowadzi do stosowania niewłaściwych praktyk promocyjnych).
Biorąc pod uwagę wzrastającą tendencję do wykorzystywania symulacyjnych gier na potrzeby oceny, mam nadzieję, że nastąpi wzrost badań dotyczących trafności symulacyjnych gier. Jedno jest pewne – nie możemy promować stosowania gier symulacyjnych do oceny, chyba że istnieją wystarczające dowody potwierdzające ich wykorzystanie do takich właśnie celów.

Stephen G. Sireci

profesor w Programie Psychometrii i dyrektor Center for Educational Assessment Uniwersytetu Massachusetts Amherst w USA. Był przewodniczącym National Employment Rights Authority oraz członkiem zarządu National Council on Measurement in Education. Pełnił funkcję redaktora naczelnego „The International Journal of Testing” and „The Journal of Applied Testing Technology”. Aktywny członek rządowych komisji doradczych z zakresu pomiaru psychometrycznego oraz American Educational Research Association i American Psychological Association.

Artykuł pochodzi z sierpniowego numeru Personelu Plus

Literatura

1 American Educational Research Association, American Psychological Association, National Council on Measurement in Education, Standards for educational and psychological testing, Washington 1999, s. 9.
2 Tamże, s. 11.
3 L.M. Crocker, D. Miller, E.A. Franks, Quantitative methods
for assessing the fit between test and curriculum. „Applied Measurement in Education” 1989, nr 2, s. 179–194.
4 J. Chin, R. Dukes, W. Gamson, Assessment in simulation and gaming. A review of the last 40 years. „Simulation and Gaming” 2009, nr 40, s. 553–568.
5 Tamże, s. 559.
6 American Educational Research Association, American Psychological Association, National Council on Measurement in Education, Standards for educational and psychological testing, Washington 1999, s. 12.
7 S. Messick, Validity, [w:] R. Linn (red.), Educational measurement, Washington 1989, s. 13–100.
8 D.T. Campbell, D.W. Fiske, Convergent and discriminant validation by the multitrait-multimethod matrix, „Psychological Bulletin” 1956, nr 56, s. 81–105.
9 M.T. Kane, An argument-based approach to validity, „Psychological Bulletin” 1992, nr 112, s. 527–
–535; tenże, Validating the interpretations and uses of test scores, „Journal of Educational Measurement” 2013, nr 50, s. 1–73.