Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 11

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  IRT
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
EN
The article presents the methodology and results of a survey on equating the lower secondary school examinations from 2002–2010. The survey was carried out by the Student Performance Analysis Unit at the Educational Research Institute. More than 10 000 students were selected for the equating study and information about more than 500 items was used. IRT models were used for equating exams, the results were presented on a latent variable scale and the observed score scale. Using this procedure, it was possible to isolate random difficulty variation between exam papers from specific years and present changes in ability level of students taking the exam. Based on the results, the level of humanities abilities of lower secondary school leavers was stable, whilst maths and science demonstrated a downward trend. Equating was validated by comparison with the results of the international PISA survey. Results for the arts and humanities were consistent with the PISA results for reading literacy. Maths and science, as compared with the PISA survey maths section demonstrated greater divergence.
PL
W artykule prezentowane są metodologia oraz rezultaty badania nad zrównaniem wyników egzaminu gimnazjalnego dla lat 2002–2010 przeprowadzonych przez Pracownię Analiz Osiągnięć Uczniów w Instytucie Badań Edukacyjnych. Do badania zrównującego wylosowano ponad 10 tys. uczniów i wykorzystano informacje o ponad 500 zadaniach. Do zrównania wyników egzaminu wykorzystano modele IRT, wyniki przedstawiono na skali zmiennej ukrytej oraz na skali wyników obserwowanych. Dzięki zastosowanej procedurze udało się wyizolować losowe wahania trudności między arkuszami egzaminacyjnymi w poszczególnych latach i przedstawić zmiany w poziomie umiejętności uczniów zdających egzamin gimnazjalny. Na podstawie rezultatów badania można stwierdzić, że poziom umiejętności humanistycznych gimnazjalistów jest stabilny, natomiast poziom umiejętności matematyczno-przyrodniczych wykazał trend spadkowy. W analizie dokonano walidacji zrównywania, porównując przedstawione wyniki z wynikami badania międzynarodowego, porównywalnego w kolejnych cyklach badania PISA. Wyniki dla części humanistycznej wykazują wysoką zbieżność z wynikami PISA dla czytania ze zrozumieniem. W przypadku części matematyczno-przyrodniczej egzaminu, która porównywana była z matematyką w badaniu PISA, zaobserwowano większe różnice pomiędzy rezultatami obydwu badań.
EN
The article presents the methodology and results of a survey on equating the lower secondary school examinations from 2002–2010. The survey was carried out by the Student Performance Analysis Unit at the Educational Research Institute. More than 10 000 students were selected for the equating study and information about more than 500 items was used. IRT models were used for equating exams, the results were presented on a latent variable scale and the observed score scale. Using this procedure, it was possible to isolate random difficulty variation between exam papers from specific years and present changes in ability level of students taking the exam. Based on the results, the level of humanities abilities of lower secondary school leavers was stable, whilst maths and science demonstrated a downward trend. Equating was validated by comparison with the results of the international PISA survey. Results for the arts and humanities were consistent with the PISA results for reading literacy. Maths and science, as compared with the PISA survey maths section demonstrated greater divergence.
EN
Modern approaches to measuring cognitive ability and testing knowledge frequently use multiple-choice items. These can be simply and rapidly scored without problems associated with rater subjectivity. Nevertheless, multiple-choice tests are often criticized owing to their vulnerability to guessing. In this paper the impact of guessing was examined using simulation. Ability estimates were obtained from the two IRT models commonly used for binary-scored items: the two-parameter logistic model and the three-parameter logistic model. The latter approach explicitly models guessing, whilst the former does not. Rather counter-intuitively, little difference was identified for point estimates of ability from the 2PLM and 3PLM. Nevertheless, it should be noted that difficulty and discrimination parameters are severely downwardly biased if a 2PLM is used to calibrate data generated by processes involving guessing. Estimated standard errors for ability estimates also differ considerably between these models.
PL
Artykuł porównuje dwie metody wykorzystywane do identyfikacji zróżnicowanego funkcjonowania zadań (DIF) ocenianych dychotomicznie: nieparametryczne rozwiązanie opierające się na statystyce Mantela–Haenszela (MH) oraz podejście bazujące na teście ilorazu funkcji wiarygodności. Porównanie przeprowadzono na gruncie teoretycznym i za pomocą symulacji. Wyniki symulacji potwierdziły przypuszczenie, że podejście opierające się na statystyce MH jest bardziej czułe na jednorodne efekty DIF, jednak traci moc, gdy wielkość DIF zmienia się w zależności od poziomu zmiennej ukrytej mierzonej testem. Oprócz mocy statystycznej analizowano również specyficzne miary wielkości efektu DIF stosowane w obu metodach: miarę MH D – DIF, wykorzystywaną standardowo przez Educational Testing Service do klasyfikacji wielkości DIF, oraz różne miary P – DIF określone na metryce łatwości zadania.
EN
The article compares two methods used to detect differential item functioning (DIF) of dichotomously scored items: a nonparametric solution based on the Mantel–Haenszel procedure (MH) and a parametric IRT approach with a likelihood ratio test. A Monte Carlo experiment was performed in order to evaluate performance of both statistics in various conditions of DIF uniformity. Results confirmed the theoretical prediction that the MH test has greater statistical power in detecting uniform DIF than the likelihood ratio test and less power than the LR test in cases of non-uniform DIF. Apart of examining statistical power of the test, specific measures of DIF effect size were compared: MH D–DIF and three measures of P–DIF expressed on the item easiness scale.
EN
Item response theory (IRT) is a family of statistical tools used to model relationships between item response and student ability. IRT models achieve this by parameterisation of item properties and distribution of the ability variable among students. This article presents a general introduction to the unidimensional IRT model, the most commonly used for dichotomously scored items (1PLM, 2PLM, 3PLM). Polytomously scored items and student ability estimation are also described. This article aims at introducing the reader to the technical aspects of IRT modelling in educational measurement and presents a range of practical applications. The article describes the analysis of complex research designs, test linking and equating, adaptive testing and item mapping as examples.
PL
Pod nazwą „item response theory” kryje się rodzina narzędzi statystycznych wykorzystywanych do modelowania odpowiedzi na rozwiązywane zadania oraz umiejętności uczniów. Modele IRT czynią to poprzez wprowadzenie parametryzacji, która określa: właściwości zadań oraz rozkład poziomu umiejętności uczniów. W artykule przedstawiony zostanie ogólny opis jednowymiarowego modelu IRT, przybliżone zostaną najczęściej stosowane modele dla zadań ocenianych dwupunktowo (2PLM, 3PLM, 1PLM) oraz wielopunktowo (GPCM), a także zarysowana zostanie problematyka estymacji poziomu umiejętności. Artykuł ma za zadanie wprowadzić czytelnika w techniczne szczegóły związane z modelowaniem IRT oraz przedstawić wybrane zastosowania praktyczne w pomiarze edukacyjnym. Wśród zastosowań praktycznych omówiono wykorzystanie IRT w analizie skomplikowanych schematów badawczych, zrównywaniu/łączeniu wyników testowych, adaptatywnym testowaniu oraz przy tworzeniu map zadań.
Edukacja
|
2014
|
issue 3(128)
95–111
PL
Artykuł powstał w wyniku poszukiwań optymalnego modelu analizy w ramach prowadzonych badań porównywalności oceniania i efektu egzaminatora w zakresie egzaminu maturalnego z języka polskiego i matematyki. W części pierwszej przedstawiono krótko teorię dotyczącą zagadnienia efektu oceniającego (rater effect), odnosząc je do obszaru pomiaru edukacyjnego w Polsce, w którym otrzymało ono nazwę efektu egzaminatora. Skupiono się na zagadnieniu od strony pomiarowej i nie rozważano psychologicznych podstaw oceniania. W drugiej części artykułu przedstawiono wybrane modele analizy tego efektu i wskazano, który model pozwala na oszacowanie największej liczby różnych aspektów efektu egzaminatora. Opisane zostały również symulacje sprawdzające przydatność modelu HRM-SDT do analizy danych z polskiego egzaminu maturalnego.
EN
The article is the result of a search for an optimal model of data analysis in a study on scoring comparability and rater effect in upper secondary school leaving examination in Polish language and mathematics. The first part briefly outlines the theory on rater effect. Mainly the measurement aspect is presented, the psychological bases of the scoring process are not discussed. In the second part selected models of rater effect analysis are described. Amongst them, the hierarchical rater model with signal detection theory is considered as covering the broadest range of different types of rater effect. This model was used in simulations to check its usefulness for data analysis of upper secondary school leaving examination in Poland.
Edukacja
|
2013
|
issue 4(124)
20–41
PL
W artykule przedstawione zostały podstawowe kategorie modeli psychometrycznych, które mogą zostać zastosowane w diagnostycznym pomiarze edukacyjnym. Szczególną uwagę poświęcono nowej dla polskiego pomiaru edukacyjnego kategorii modeli określanej mianem „statystycznych modeli diagnostycznych” lub „kognitywnych modeli diagnostycznych”. W artykule szczegółowo opisany został jeden z modeli diagnostycznych: DINA, a następnie pokazano jego zastosowanie na polskich danych uzyskanych na egzaminie gimnazjalnym w części matematyczno-przyrodniczej. Artykuł pokazuje korzyści płynące z nowego podejścia, jak również problemy związane z jego implementacją dla diagnozy edukacyjnej.
EN
In this article basic types of psychometric models useful in diagnostic educational measurement are presented. Particular attention is paid to a new measurement category for Polish educational psychometric models, referred to as statistical diagnostic models or cognitive diagnostic models. One of the cognitive diagnostic models: DINA was described and applied to Polish examination data (the mathematics part of the upper secondary mathematical-science exam). The article shows the benefits and limitations of the approach as an educational diagnostic measurement.
PL
Istniejące badania empiryczne wskazują, że dziewczynki uzyskują wyższe wyniki w testach czytania i pisania w języku ojczystym w porównaniu do chłopców. Różnice te wahają się od 0,15 do 0,6 odchylenia standardowego, a więc od niewielkiego do znaczącego. Wielkość tego efektu różni się także między krajami, etapami edukacyjnymi i latami. Celem tego badania było oszacowanie wielkości efektu różnic płciowych w wynikach polskich standaryzowanych testów o wysokiej doniosłości, w tym wypadku egzaminu gimnazjalnego z języka polskiego. W badaniu wykorzystano modelowanie Item Response Theory, a następnie oszacowano wielkość efektu różnic płciowych w wynikach, biorąc pod uwagę wrażliwość efektu na typ wykorzystanej statystyki. Wzięto pod uwagę różnice w wariancji wyników w grupie dziewcząt i chłopców, gdyż dotychczasowe badania często pomijały ten fakt, co mogło prowadzić do błędów interpretacyjnych. Wyniki wskazują na znaczący efekt różnic płciowych w wynikach z języka polskiego, większy niż można by się spodziewać na podstawie istniejących badań empirycznych, zarówno w zakresie średniej wielkości efektu, jak i różnic wśród uczniów o najwyższych i najniższych umiejętnościach (krańce rozkładu umiejętności). Rezultaty badania mogą być użyteczne dla nauczycieli i twórców edukacyjnych polityk publicznych, którzy są zainteresowani zapewnieniem realizacji zasady sprawiedliwości i równości w edukacji.
PL
Większość stosowanych w Polsce testów osiągnięć szkolnych pozbawionych jest mocnego uzasadnienia swojej trafności w postaci szczegółowej dokumentacji. Sytuacja ta wpływa negatywnie na rozwój metodologii konstrukcji tych narzędzi. Artykuł stanowi opis zestawu trzech standaryzowanych testów osiągnięć szkolnych TOS3 wykorzystanych w ramach dwóch badań. Testy te służą pomiarowi osiągnięć szkolnych z obszaru edukacji polonistycznej i matematycznej uczniów kończących I etap edukacyjny. W artykule przedstawiono proces konstrukcji testów osiągnięć z wykorzystaniem modelu Rascha (szczególnego przypadku jednoparametrycznego modelu IRT). Udokumentowano także trafność i rzetelność TOS3, wykorzystując wyniki dwóch reprezentatywnych badań (N > 5000). Artykuł pokazuje korzyści wynikające z wykorzystania modelu pomiarowego podczas budowy narzędzi. Opisane doświadczenia mogą być źródłem wskazówek dla twórców przyszłych testów osiągnięć szkolnych w Polsce.
EN
Lack of detailed documentation on the majority of achievements tests used in schools in Poland has been a barrier to adequately establish their validity. This has presented an impediment to the development of such tests in Poland. The article contains the description of a set of three standardised school achievement tests, TOS3, which were used in two separate studies. The TOS3 tests were designed to measure school achievement in language (Polish) and mathematics after the first three years of school. The article describes the development of the tests using the Rasch measurement model (a special case of the 1PL IRT model). The validity and reliability of the TOS3 tests is also documented, based on the results of the two representative studies (N > 5000). The article describes the benefits of a choice of a measurement model at the stage of test development. The described methodology of TOS3 tests development may be of value to creators of future achievement tests in Poland.
PL
Przystosowanie człowieka do środowiska pracy wpływa na szereg zjawisk psychospołecznych, organizacyjnych i ekonomicznych. Trwają badania nad aplikacyjnością tej koncepcji oraz doskonaleniem metod badawczych. W niniejszym opracowaniu dokonano analizy cech warunkujących przystosowanie do środowiska pracy poprzez wykorzystanie metody, pozwalającej na konsolidację danych pochodzących z kilku kwestionariuszy. Dzięki zastosowaniu specjalnie zbudowanego wskaźnika cech ukrytych przy wykorzystaniu modelu GRM (Graded Response Model) porównano wyniki 419 badanych z ustalonym wzorcem optymalnego przystosowania do pracy. Stworzono ranking pracowników. Wskazano również możliwości aplikacyjne badania poprzez opis sposobu wdrożenia wyników w procesie tworzenia strategii ZZL w organizacji.
EN
Work adjustment (WA) is a variable that influences a great variety of psychological, social, organizational, and economic parameters. Research on the applicability of this concept as well as the improvement of the methodology is ongoing. This paper undertakes analyses of qualities prerequisite to work adjustment using a method allowing the consolidation of data derived from several questionnaires. Thanks to the application of a specially formulated latent trait index, based on the Graded Response Model (GRM), a comparison of results from 419 respondents with the optimal WA pattern was made. An employee ranking was established. Also indicated was the potential for implementing these results in developing a HRM strategy in an organization.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.