Search results

1

Comparison of Mantel–Haenszel test with IRT procedures for DIF detection and effect size estimation for dichotomous items

100%

Kondratek B., Grudniewska M.

Edukacja

|

2014

|

issue 5(130)

92–111

EN

The article compares two methods used to detect differential item functioning (DIF) of dichotomously scored items: a nonparametric solution based on the Mantel–Haenszel procedure (MH) and a parametric IRT approach with a likelihood ratio test. A Monte Carlo experiment was performed in order to evaluate performance of both statistics in various conditions of DIF uniformity. Results confirmed the theoretical prediction that the MH test has greater statistical power in detecting uniform DIF than the likelihood ratio test and less power than the LR test in cases of non-uniform DIF. Apart of examining statistical power of the test, specific measures of DIF effect size were compared: MH D–DIF and three measures of P–DIF expressed on the item easiness scale.

2

Test Mantel–Haenszel oraz modelowanie IRT jako narzędzia wykrywania DIF i opisu jego wielkości na przykładzie zadań ocenianych dychotomicznie

100%

Kondratek B., Grudniewska M.

Edukacja

|

2013

|

issue 2(122)

34–55

PL

Artykuł porównuje dwie metody wykorzystywane do identyfikacji zróżnicowanego funkcjonowania zadań (DIF) ocenianych dychotomicznie: nieparametryczne rozwiązanie opierające się na statystyce Mantela–Haenszela (MH) oraz podejście bazujące na teście ilorazu funkcji wiarygodności. Porównanie przeprowadzono na gruncie teoretycznym i za pomocą symulacji. Wyniki symulacji potwierdziły przypuszczenie, że podejście opierające się na statystyce MH jest bardziej czułe na jednorodne efekty DIF, jednak traci moc, gdy wielkość DIF zmienia się w zależności od poziomu zmiennej ukrytej mierzonej testem. Oprócz mocy statystycznej analizowano również specyficzne miary wielkości efektu DIF stosowane w obu metodach: miarę MH D – DIF, wykorzystywaną standardowo przez Educational Testing Service do klasyfikacji wielkości DIF, oraz różne miary P – DIF określone na metryce łatwości zadania.

EN

The article compares two methods used to detect differential item functioning (DIF) of dichotomously scored items: a nonparametric solution based on the Mantel–Haenszel procedure (MH) and a parametric IRT approach with a likelihood ratio test. A Monte Carlo experiment was performed in order to evaluate performance of both statistics in various conditions of DIF uniformity. Results confirmed the theoretical prediction that the MH test has greater statistical power in detecting uniform DIF than the likelihood ratio test and less power than the LR test in cases of non-uniform DIF. Apart of examining statistical power of the test, specific measures of DIF effect size were compared: MH D–DIF and three measures of P–DIF expressed on the item easiness scale.

3

IRT i pomiar edukacyjny

100%

Kondratek B., Pokropek A.

Edukacja

|

2013

|

issue 4(124)

42–66

EN

Item response theory (IRT) is a family of statistical tools used to model relationships between item response and student ability. IRT models achieve this by parameterisation of item properties and distribution of the ability variable among students. This article presents a general introduction to the unidimensional IRT model, the most commonly used for dichotomously scored items (1PLM, 2PLM, 3PLM). Polytomously scored items and student ability estimation are also described. This article aims at introducing the reader to the technical aspects of IRT modelling in educational measurement and presents a range of practical applications. The article describes the analysis of complex research designs, test linking and equating, adaptive testing and item mapping as examples.

PL

Pod nazwą „item response theory” kryje się rodzina narzędzi statystycznych wykorzystywanych do modelowania odpowiedzi na rozwiązywane zadania oraz umiejętności uczniów. Modele IRT czynią to poprzez wprowadzenie parametryzacji, która określa: właściwości zadań oraz rozkład poziomu umiejętności uczniów. W artykule przedstawiony zostanie ogólny opis jednowymiarowego modelu IRT, przybliżone zostaną najczęściej stosowane modele dla zadań ocenianych dwupunktowo (2PLM, 3PLM, 1PLM) oraz wielopunktowo (GPCM), a także zarysowana zostanie problematyka estymacji poziomu umiejętności. Artykuł ma za zadanie wprowadzić czytelnika w techniczne szczegóły związane z modelowaniem IRT oraz przedstawić wybrane zastosowania praktyczne w pomiarze edukacyjnym. Wśród zastosowań praktycznych omówiono wykorzystanie IRT w analizie skomplikowanych schematów badawczych, zrównywaniu/łączeniu wyników testowych, adaptatywnym testowaniu oraz przy tworzeniu map zadań.

4

Analiza efektów zastosowania pakietu edukacyjnego „Gramy w piktogramy”

100%

Dąbrowski M., Kondratek B.

Edukacja

|

2015

|

issue 3(134)

141–156

PL

W artykule przedstawiono analizę wyników badania sprawdzającego skuteczność zastosowania pakietu edukacyjnego „Gramy w piktogramy”. Jest on przeznaczony do wspierania rozwoju umiejętności posługiwania się językiem symbolicznym na etapie edukacji początkowej. Ma on na celu uruchomienie procesu zmiany sposobu nauczania matematyki. Badanie zostało przeprowadzone w schemacie eksperymentalnym z pomiarem powtarzanym i grupą kontrolną, przy randomizacji przeprowadzonej oddziałami wewnątrz szkół. Głównym problemem badawczym poddanym analizie była zmiana w poziomie ogólnego wskaźnika umiejętności posługiwania się językiem symbolicznym uczniów, związana z wdrożeniem pomocy dydaktycznej. W analizach wykorzystano modelowanie IRT oraz regresję wielopoziomową. Wyniki wskazują na istotny statystycznie wzrost umiejętności posługiwania się językiem symbolicznym w grupie eksperymentalnej, związany specyficznie z zastosowaniem badanego pakietu edukacyjnego.

EN

The article presents the analysis of data gathered to assess the package “We play pictograms”. The package is intended as support for the development of symbolic language skills by influencing the way teachers teach mathematics during the first years of primary school. The research was conducted using a cluster-randomized repeated measures experimental design with a control group. The main research problem investigated change in the level of relevant student skills, specifically associated with the package. IRT modeling and multilevel regression were employed in the analysis. Results demonstrated significant improvement in the use of symbolic language derived from the package.

5

Zrównywanie wyników testowania. Definicje i przykłady zastosowania

100%

Pokropek A., Kondratek B.

Edukacja

|

2012

|

issue 4(120)

52-71

PL

Dojrzałe systemy testowania oraz większość nowopowstałych zawierają mechanizmy pozwalające na zrównywanie wyników z różnych sesji testowych w celu kontrolowania różnic w poziomie trudności różnych wersji testu. Artykuł przedstawia definicje zrównywania wyników wraz z przeglądem podstawowych planów zbierania danych stosowanych przy zrównywaniu. W celu ukazania podstawowych trendów w metodologii zrównywania testów na świecie przedstawiono 11 przykładowych systemów testowania, w których przeprowadzanie zrównywania jest wpisane w proces konstrukcji i raportowania wyników testu. Każdy test pokrótce omówiono i wskazano mechanizmy umożliwiające zrównywanie. Przegląd testów podzielono na trzy części w zależności od zastosowań badania testowego: narodowe systemy egzaminacyjne (SAT, ACT, PET, SweSAT), międzynarodowe systemy ewaluacyjne (TIMMS, PIRLS, PISA) oraz narodowe systemy ewaluacyjne (NAEP, EQAO, NAPLAN, NABC).

EN

Long established testing systems as well as most modern testing systems employ mechanisms to allow equating of scores from different testing sessions in order to control for differences in test difficulty. This article introduces a detailed definition of the term test equating together with an overview of main equating designs. In order to illustrate the basic trends in applying the methodology of test equating, 11 testing systems from around the world that use equating are presented. Each test is briefly described with special attention paid to the mechanisms for equating that are employed. The testing systems overview is divided into three sections depending on the test system characteristics, high stakes examination systems (SAT, ACT, PET, SweSAT), international evaluation studies (TIMMS, PIRLS, PISA) and national evaluation studies (NAEP, EQAO, NAPLAN, NABC).

6

Zrównanie ekwicentylowe na tle innych metod zrównywania na przykładzie sprawdzianu i egzaminu gimnazjalnego

81%

Wołodzko T., Kondratek B., Szaleniec H.

Edukacja

|

2014

|

issue 3(128)

112–130

PL

Artykuł przedstawia wyniki zrównania ekwicentylowego wyników trzech testów: sprawdzianu oraz części matematyczno-przyrodniczej i części humanistycznej egzaminu gimnazjalnego z lat 2002–2012. W latach 2011–2014 przeprowadzone zostały cztery sesje, podczas których uczniowie z reprezentatywnej próby polskich szkół rozwiązywali arkusze zadań pochodzących ze sprawdzianu w szóstej klasie szkoły podstawowej i egzaminów gimnazjalnych, w warunkach możliwie zbliżonych do rzeczywistej sesji egzaminacyjnej. Dane te posłużyły do oszacowania funkcji zrównujących, które zostały wykorzystane do zrównania wyników rzeczywistych egzaminów. Zrównania przeprowadzone za pomocą metody ekwicentylowej, zrównania liniowego i metod wywodzących się z item reponse theory, dały zbliżone wyniki. Uzyskane rezultaty omówione zostały w kontekście planowania zrównań testów.

EN

The results of equating three exams are presented: (a) primary school exam, (b) lower secondary school mathematics and science exam and (c) the lower secondary school humanities exam from 2002 to 2012 in a study conducted by the Educational Research Institute. During survey session conducted from 2011 to 2014 students from a representative sample of Polish schools took tests containing real items from primary and lower secondary school exams in conditions intended to mirror real exams. The data were used to estimate the equating functions used for real exam scores. Equipercentile equating, linear equating and item response theory based equating methods gave comparable results. The results were discussed in the context of planning for the equating of tests.

7

Results of the 2002–2010 lower secondary school leaving exams on a common scale

71%

Szaleniec H., Grudniewska M., Kondratek B., Kulon F., Pokropek A.

Edukacja

|

2013

|

issue Edukacja. An interdisciplinary approach 1

5–24

EN

The article presents the methodology and results of a survey on equating the lower secondary school examinations from 2002–2010. The survey was carried out by the Student Performance Analysis Unit at the Educational Research Institute. More than 10 000 students were selected for the equating study and information about more than 500 items was used. IRT models were used for equating exams, the results were presented on a latent variable scale and the observed score scale. Using this procedure, it was possible to isolate random difficulty variation between exam papers from specific years and present changes in ability level of students taking the exam. Based on the results, the level of humanities abilities of lower secondary school leavers was stable, whilst maths and science demonstrated a downward trend. Equating was validated by comparison with the results of the international PISA survey. Results for the arts and humanities were consistent with the PISA results for reading literacy. Maths and science, as compared with the PISA survey maths section demonstrated greater divergence.

8

Wyniki egzaminu gimnazjalnego 2002–2010 na wspólnej skali

71%

Szaleniec H., Grudniewska M., Kondratek B., Kulon F., Pokropek A.

Edukacja

|

2012

|

issue 3(119)

9-30

PL

W artykule prezentowane są metodologia oraz rezultaty badania nad zrównaniem wyników egzaminu gimnazjalnego dla lat 2002–2010 przeprowadzonych przez Pracownię Analiz Osiągnięć Uczniów w Instytucie Badań Edukacyjnych. Do badania zrównującego wylosowano ponad 10 tys. uczniów i wykorzystano informacje o ponad 500 zadaniach. Do zrównania wyników egzaminu wykorzystano modele IRT, wyniki przedstawiono na skali zmiennej ukrytej oraz na skali wyników obserwowanych. Dzięki zastosowanej procedurze udało się wyizolować losowe wahania trudności między arkuszami egzaminacyjnymi w poszczególnych latach i przedstawić zmiany w poziomie umiejętności uczniów zdających egzamin gimnazjalny. Na podstawie rezultatów badania można stwierdzić, że poziom umiejętności humanistycznych gimnazjalistów jest stabilny, natomiast poziom umiejętności matematyczno-przyrodniczych wykazał trend spadkowy. W analizie dokonano walidacji zrównywania, porównując przedstawione wyniki z wynikami badania międzynarodowego, porównywalnego w kolejnych cyklach badania PISA. Wyniki dla części humanistycznej wykazują wysoką zbieżność z wynikami PISA dla czytania ze zrozumieniem. W przypadku części matematyczno-przyrodniczej egzaminu, która porównywana była z matematyką w badaniu PISA, zaobserwowano większe różnice pomiędzy rezultatami obydwu badań.

EN

The article presents the methodology and results of a survey on equating the lower secondary school examinations from 2002–2010. The survey was carried out by the Student Performance Analysis Unit at the Educational Research Institute. More than 10 000 students were selected for the equating study and information about more than 500 items was used. IRT models were used for equating exams, the results were presented on a latent variable scale and the observed score scale. Using this procedure, it was possible to isolate random difficulty variation between exam papers from specific years and present changes in ability level of students taking the exam. Based on the results, the level of humanities abilities of lower secondary school leavers was stable, whilst maths and science demonstrated a downward trend. Equating was validated by comparison with the results of the international PISA survey. Results for the arts and humanities were consistent with the PISA results for reading literacy. Maths and science, as compared with the PISA survey maths section demonstrated greater divergence.

Refine search results

8 Edukacja

1 2015

2 2014

3 2013

2 2012

8 Kondratek B.

4 Grudniewska M.

4 Pokropek A.

3 Szaleniec H.

2 Kulon F.

1 Dąbrowski M.

1 Wołodzko T.

Comparison of Mantel–Haenszel test with IRT procedures for DIF detection and effect size estimation for dichotomous items

Test Mantel–Haenszel oraz modelowanie IRT jako narzędzia wykrywania DIF i opisu jego wielkości na przykładzie zadań ocenianych dychotomicznie

IRT i pomiar edukacyjny

Analiza efektów zastosowania pakietu edukacyjnego „Gramy w piktogramy”

Zrównywanie wyników testowania. Definicje i przykłady zastosowania

Zrównanie ekwicentylowe na tle innych metod zrównywania na przykładzie sprawdzianu i egzaminu gimnazjalnego

Results of the 2002–2010 lower secondary school leaving exams on a common scale

Wyniki egzaminu gimnazjalnego 2002–2010 na wspólnej skali