Buradasınız

TÜRK EĞİTİM VE BİLİMİNDE BİLİMSEL DEVRİM: TESTLER YA DA ÖLÇME ARAÇLARI GÜVENİLİR VE GEÇERLİ DEĞİLDİR

Scientific Revolution in Turkish Education and Science: Tests or Measurement Instruments are not Reliable and Valid

Journal Name:

Publication Year:

Author NameUniversity of AuthorFaculty of Author
Abstract (2. Language): 
Reliability and validity are very often misunderstood. Tests or measurement instruments are not reliable and valid. Because, reliability is a characteristic of scores, as for validity is a property of interpretations and uses of scores. Reliability and validity are population or sample or group dependent concepts. As for reliability coefficients, validity coefficients fluctuate from population to population, from sample to sample as well. It is not correct to use the statements such as “the reliability of the test”, “the validity of the scale”, “the validity of assessment” or “measurement instrument is reliable”. Thus, it is more appropriate to use the term “score reliability” instead of “test reliability”. As to validity claims should be made in relation to specific uses and interpretations of test scores.
Abstract (Original Language): 
Güvenirlik ve geçerlik çok sık yanlış anlaşılmıştır. Testler ya da ölçme araçları güvenilir ve geçerli değildir. Çünkü, güvenirlik, ölçümlerin bir özelliği; geçerlik ise, ölçümlerin kullanımlarının ve yorumlarının bir özelliğidir. Güvenirlik ve geçerlik evren ya da örneklem veya grup bağımlı kavramlardır. Güvenirlik katsayıları gibi geçerlik katsayıları da, evrenden evrene, örneklemden örnekleme değişir. “Testin güvenirliği”, “ölçeğin geçerliği”, “bellilendirmenin geçerliği” veya “ölçme aracı güvenilirdir” gibi ifadelerin kullanılması doğru değildir. Böylelikle, “test güvenirliği” yerine, “ölçüm güvenirliği” kavramının kullanılması çok daha uygundur. Geçerlik iddiaları ise, test ölçümlerinin belirli kullanımları ve yorumlarına ilişkin yapılmalıdır.
116-132

REFERENCES

References: 

AERA, APA & NCME [American Educational Research Association, American Psychological
Association & National Council on Measurement in Education]. (1999). Standards for
Educational and Psychological Testing. Washington, DC: American Educational
Association.
Algina, J. (1992). Reliability of Measurement. In Alkin, M. C. (Ed.), Encyclopedia of
Educational Research, Vol. 3. (Sixth Edition). New York: Macmillan.
Allen, M. J. & Yen, W. M. (1979). Introduction to Measurement Theory. Monterey, California:
Brooks/Cole.
Anastasi, A. & Urbina, S. (1997). Psychological Testing. (Seventh Edition). Upper Saddle
River, New Jersey: Prentice-Hall.
Anastasi, A. (1992). What Counselors Should Know About the Use and Interpretation of
Psychological Tests. Journal of Counseling and Development, Vol. 70, 610-615.
Aycock, T. (1993). It is Incorrect to Say “the Test is Reliable”: A Review of the Literature and
Implications for Research Practice. (ERIC Document Reproduction Service No. ED
355 275).
Bademci, V. (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler
Güvenilir ve Geçerli Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel
Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Gazi Eğitim Fakültesi, Resim-İş
Eğitimi Anabilim Dalı Konferans Salonu, 26 Nisan. [Konferansla ilgili haber için;
Gazi Haber, Nisan 2010, Sayı 104, Sayfa 48-49.]
Bademci, V. (2008). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve
Eğitimde Yeniden Yapılanmayı Sürdürmek: Güvenirlik, Testlerin Bir Özelliği
Değildir. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 22,
50-69. (http://www.esef.gazi.edu.tr/html/yayinlar/22_pdf/22_5.pdf )
Bademci, V. (2007). Ölçme ve Araştırma Yöntembiliminde Paradigma Değişikliği: Testler
Güvenilir Değildir. Ankara: Yenyap Yayınları.
Bademci, V. (2006a). Güvenirliği Doğru Anlamak ve Bazı Klişeleri Yıkmak: Bilinenlerin
Aksine, Cronbach’ın Alfa Katsayısı, Negatif ve –1’den Küçük Olabilir. İnönü
Üniversitesi Eğitim Fakültesi Dergisi, Cilt 7, Sayı 12, 3-26.
(http://web.inonu.edu.tr/~efdergi/arsiv/bademci.pdf )
Bademci, V. (2006b). Tartışmayı Sonlandırmak: Cronbach’ın Alfa Katsayısı, İki Değerli [0,1]
Ölçümlenmiş Maddeler ile Kullanılabilir. Kazım Karabekir Eğitim Fakültesi Dergisi,
Sayı 13, 438-446. (http://edergi.
atauni.edu.tr/index.php/kkefd/article/viewFile/4116/3940)
Bademci, V. (2006c). Paradigma Değişikliği: Testler Güvenilir Değildir. Konferans.
Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı.Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 28 Nisan. [Konferansla
ilgili haber için; Gazi Haber, Nisan 2006, Sayı 66, Sayfa 64.]
Bademci, V. (2005a). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Bir
Reformu Başlatmak: Güvenirlik, Testlerin Bir Özelliği Değildir. Bildiri. Eğitim
Fakültelerinde Yeniden Yapılandırmanın Sonuçları ve Öğretmen Yetiştirme
Sempozyumu. Ankara: Gazi Üniversitesi, Gazi Eğitim Fakültesi, 22-23-24 Eylül.
Bademci, V. (2005b). Testler Güvenilir Değildir: Ölçüm Güvenirliğine Yeterli Dikkat ve
Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel
Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, 33-45.
(http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_c.pdf )
Bademci, V. (2005c). Hakemlerin Değerlendirmelerindeki Hatalar Üzerine: Fisher’in Z
Dönüşümü ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi
Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, 46-75.
(http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_d.pdf )
Bademci, V. (2004). Testin Güvenirliği” veya “Test Güvenilirdir” Diye İfade Etmek Doğru
Değildir. Türk Eğitim Bilimleri Dergisi, Cilt 2, 367–373.
(http://www.tebd.gazi.edu.tr/c2s3.html )
(http://www.tebd.gazi.edu.tr/arsiv/2004_cilt2/sayi_3/367-373.pdf )
Bademci, V. (2002). Türkiye'deki Okullar Ne İşe Yarar? Türkiye'nin Anomi, Yabancılaşma,
Ekonomik Büyüme, Demokratikleşme Sorunlarına Çözüm Önerisi. Konferans.
Düzenleyen: ESEF Öğrenci Bilimsel Faal. Org. Kom. Ankara: G.Ü.Mesleki Eğitim
Fakültesi Konferans Salonu, 30 Mayıs 2002.
Bademci, V. (2001a). Düşünmenin Öğretilmesi ve Öğretimde Kullanılan Yöntemler-Teknikler.
Konferans. Düzenleyen: TÜRMOB. Bursa: Bursa SMMM Odası Konferans Salonu, 9
Kasım 2001.
Bademci, V. (2001b). Türkiye'deki Okullar Ne İşe Yarar? Konferans. Düzenleyen: Ankara Türk
Telekom Anadolu Teknik L. Ankara: Başkent Öğretmenevi Konferans Salonu, 9
Aralık 2001.
Bademci, V. (2000). Türkiye’deki Okullar Ne İşe Yarar? (Birinci Basım). Ankara: Başkent
Basım Yayın Dağıtım.
Barnes, L. L. B., Harp, D. & Jung, W. S. (2002). Reliability Generalization of Scores on the
Spielberger State-Trait Anxiety Inventory. Educational and Psychological
Measurement, Vol. 62, 603-618.
Bernstein, J. (2006). Albert Einstein. Fiziğin Sınırları. (Çev.: Uzunefe Yazgan, Y.). (Birinci
Basım). Ankara: TÜBİTAK.
Beycioğlu, K. (2007). Alfa Güvenirliği ve Eğitim Araştırmaları. Çağdaş Eğitim, 347, 37-42.
Borsboom, D., Romeijn, J-W. & Wicherts, J. M. (2008). Measurement Invariance Versus
Selection Invariance: Is Fair Selection Possible? Psychological Methods, Vol. 13(2),
75-98.
Brennan, R. L. (Ed.) (2006a). Educational Measurement. (Fourth Edition). Westport, CT:
American Council on Education & Praeger.
Brennan, R. L. (2006b). Perspectives on the Evolution and Future of Educational Measurement.
In Brennan, R. L. (Ed.), Educational Measurement. (Fourth Edition). Westport, CT:
American Council on Education & Praeger.
Brennan, R. L. (2001). Generalizability Theory. New York: Springer.
Brookhart, S. M. & Nitko, A. J. (2008). Assessment and Grading in Classrooms. Upper Saddle
River, New Jersey: Pearson/Prentice Hall.
Buhi, E. R. (2005). Reliability Reporting Practices in Rape Myth Research. Journal of School
Health, Vol. 75, 63- 66.
Capraro, R. M. & Capraro, M. M. (2002). Myers-Briggs Type Indicator Score Reliability
Across Studies: A Meta-Analytic Reliability Generalization Study. Educational and
Psychological Measurement, Vol. 62, 590-602.
Cebeci, S. (2006). “The Examination of Guidance and Research Centers’ Administrators’
Conflict Management Strategies with the Perceptions of Self and Teachers”.Unpublished Master’s Thesis. Ankara: Middle East Technical University, The
Graduate School of Social Sciences.
Chartrand, J. M. & Walsh, W. B. (2001). Career Assessment: Changes and Trends. In Leong, F.
T. L. & Barak, A. (Eds.), Contemporary Models in Vocational Psychology. A Volume
in Honor of Samuel H. Osipow. Mahwah, New Jersey: Lawrence Erlbaum.
Crocker, L. & Algina, J. (1986). Introduction to Classical and Modern Test Theory. Fort Worth:
Holt, Rinehart and Winston.
Cronbach, L. J. (1988). Five Perspectives on the Validity Argument. In Wainer, H. & Braun, H.
I. (Eds.), Test Validity. Hillsdale, New Jersey: Lawrence Erlbaum.
Cronbach, L. J. (1982). Designing Evaluations of Educational and Social Programs. San
Francisco: Jossey-Bass.
Cronbach, L. J. (1971). Test Validation. In Thorndike, R. L. (Ed.), Educational Measurement.
(Second Edition). Washington, D. C.: American Council on Education.
Cureton, E. E. (1951). Validity. In Lindquist, E. F. (Ed.), Educational Measurement.
Washington, D. C.: American Council on Education.
Ebel, R. L. & Frisbie, D. A. (1991). Essentials of Educational Measurement. (Fifth Edition).
Englewood Cliffs, New Jersey: Prentice Hall.
Feldt, L. S. & Brennan, R. L. (1989). Reliability. In Linn, R. L. (Ed.), Educational
Measurement. (Third Edition). New York: American Council on Education &
Macmillan.
Frisbie, D. A. (2005). Measurement 101: Some Fundamentals Revisited. Educational
Measurement: Issues and Practice, Vol. 24(3), 21-28.
Gazi Haber (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler
Güvenilir ve Geçerli Değildir. Nisan 2010, Sayı 104, 48-49.
Gage, N. L. (1963). Paradigms for Research on Teaching. In Gage, N. L. (Ed.), Handbook of
Research on Teaching. Chicago: Rand MçNally & Company.
Gray, B. T. (1997). Controversies Regarding the Nature of Score Validity: Still Crazy After All
These Years. (ERIC Document Reproduction Service No. ED 407 414).
Gronlund, N. E. (1998). Assessment of Student Achievement. (Sixth Edition). Boston: Allyn &
Bacon.
Gronlund, N. E. & Waugh, C. K. (2009). Assessment of Student Achievement. (Ninth Edition).
Upper Saddle River, New Jersey: Pearson.
de Gruijter, D. N. M. & van der Kamp, L. J. T. (2008). Statistical Test Theory for the
Behavioral Sciences. Boca Raton, FL: Chapman & Hall / CRC
Guilford, J. P. (1954). Psychometric Methods. (Second Edition). New York: McGraw-Hill.
Guilford, J. P. & Fruchter, B. (1973). Fundamental Statistics in Psychology and Education
(Fifth Edition). New York: McGraw-Hill.
Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.
Guthrie, A. C. (2000). A Review of Coefficient Alpha and Some Basic Tenets of Classical
Measurement Theory. (ERIC Document Reproduction Service No. ED 438 307).
Hambleton, R. K. & Jones, R. W. (1993). Comparison of Classical Test Theory and Item
Response Theory and Their Applications to Test Development. Educational
Measurement: Issues and Practice, Vol. 12 (3), 38-47.
Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of Item Response
Theory. Newbury Park: Sage.
Henson, R. K. (2000). Sacrificing Reliability and Exalting Sampling Error at the Altar of
Parsimony: Some Cautions Concerning Short-Form Test Development. (ERIC
Document Reproduction Service No. ED 447 211).
Hopkins, K. D. (1998). Educational and Psychological Measurement and Evaluation. (Eight
Edition). Boston: Allyn & Bacon.
Hotaman, D. & Yüksel-Şahin, F. (2010). The Effect of Instructors’ Enthusiasm on University
Students’ Level of Achievement. Education and Science [Eğitim ve Bilim], Vol.
35(155), 89-103.
House, E. R. (1977). The Logic of Evaluative Argument. CSE Monograph Series in Evaluation,
No. 7. Los Angeles: Center for the Study of Evaluation.Kane, M. T. (2008). Terminology, Emphasis, and Utility in Validation. Educational Researcher,
Vol. 37(2), 76-82.
Kane, M. T. (2006a). Validation. In Brennan, R. L. (Ed.), Educational Measurement. (Fourth
Edition). Westport, CT: American Council on Education & Praeger.
Kane, M. (2006b). Content-Related Validity Evidence in Test Development. In Downing S. M.
& Haladyna, T. M. (Eds.), Handbook of Test Development. Mahwah, New Jersey:
Lawrence Erlbaum.
Kane, M. (2004). Certification Testing as an Illustration of Argument-Based Validation.
Measurement, Vol. 2(3), 135-170.
Kane, M. T. (2001). Current Concerns in Validity Theory. Journal of Educational
Measurement, Vol. 38, 319-342.
Kane, M. (1996). The Precision of Measurements. Applied Measurement in Education, Vol.
9(4), 355-379.
Kane, M. T. (1992). An Argument-Based Approach to Validity. Psychological Bulletin, Vol.
112(3), 527-535.
Kane, M. T. (1990). An Argument-based Approach to Validation. ACT Research Report Series,
90-13. Iowa City, Iowa: ACT.
Kartal, H. (2009). Öğretmen Adaylarının Uygulama Okullarındaki Zorbalıkla İlgili
Değerlendirmeleri. GÜ, Gazi Eğitim Fakültesi Dergisi, Cilt 29(1), 141-172.
Kartal, E. & Pekkanlı, İ. (2011). Yabancı Dil Öğretmen Adaylarının Anadil ve Yabancı Dilde
İnternet Üzerinden Okuma Alanları ve Sıklıkları. International Journal of Human
Sciences, Vol. 8(1), 1316-1326.
Kieffer, K. M. & Reese, R. J. (2002). A Reliability Generalization Study of the Geriatric
Depression Scale. Educational and Psychological Measurement, Vol. 62, 969-994.
Kieffer, K. M. (1999). Why Generalizability Theory is Essential and Classical Test Theory is
Often Inadequate. In Thompson, B. (Ed.), Advances in Social Science Methodology,
Volume 5. Stamford, Connecticut: JAI.
Korkmaz, A. (2010). “Vahit Bademci’nin Paradigma Değişikliği Üzerine Bir Araştırma:
“Testler Değil, Ölçümler Güvenilirdir” ”. Yayımlanmamış Yüksek Lisans Tezi.
Zonguldak: Zonguldak Karaelmas Üniversitesi, Sosyal Bilimler Enstitüsü.
Kubiszyn, T. & Borich, G. (1993). Educational Testing and Measurement. Fourth Edition. New
York: HarperCollins College Publishers.
Kuhn, T. S. (1995). Bilimsel Devrimlerin Yapısı. (Çev.: Kuyaş, N.). (Dördüncü Baskı). İstanbul:
Alan Yayıncılık.
Langenfeld, T. E. & Crocker, L. M. (1994). The Evolution of Validity Theory: Public School
Testing, the Courts, and Incompatible Interpretations. Educational Assessment, Vol.
2(2), 149-165.
Le, V-N. & Klein, S. P. (2002). Technical Criteria for Evaluating Tests. In Hamilton, L. S.,
Stecher, B. M. & Klein, S. P. (Eds.), Making Sense of Test-Based Accountability in
Education. Santa Monica, CA: RAND.
Linn, R. L. (2002). Validation of the Uses and Interpretations of Results of State Assessment
and Accountability Systems. In Tindal, G. & Haladyna, T. M. (Eds.), Large-Scale
Assessment Programs for All Students: Validity, Technical Adequacy, and
Impletation. Mahwah, New Jersey: Lawrence Erlbaum Associates.
Linn, R. L. (1995). Assessment-Based Reform: Challanges to Educational Measurement.
Princeton, New Jersey: Educational Testing Service.
Linn, R. L. & Gronlund, N. E. (2000). Measurement and Assessment in Teaching. (Eighth
Edition). Upper Saddle River, New Jersey: Pearson.
Linn, R. L. & Miller, M. D. (2005). Measurement and Assessment in Teaching. (Ninth Edition).
Upper Saddle River, New Jersey: Merrill.
Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading,
Massachusetts: Addison-Wesley.
Magnusson, D. (1967). Test Theory. Massachusetts: Addison-Wesley.
McHorney, C. A. (1999). Health Status Assessment Methods for Adults: Accomplishment and
Future Challanges. Annual Review of Public Health, Vol. 20, 309-335.McMillan, J. H. (2007). Classroom Assessment. Principles and Practice for Effective
Instruction. (Fourth Edition). Boston: Allyn and Bacon.
Mehrens, W. A. & Lehmann, I. J. (1991). Measurement and Evaluation in Education and
Psychology. (Fourth Edition). Fort Worth: Harcourt Brace.
Mellenbergh, G. J. (1999). A Note on Simple Gain Score Precision. Applied Psychological
Measurement, Vol. 23, 87-89.
Mellenbergh, G. J. (1996). Measurement Precision in Test Score and Item Response Models.
Psychological Methods, Vol. 1(3), 293-299.
Mellenberg, G. J. & van den Brink, W. (1998). The Measurement of Individual Change.
Psychological Methods, Vol. 3(4), 470-485.
Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences From
Person’s Responses and Performances as Scientific Inquiry into Score Meaning.
American Psychologist, Vol. 50, 741-749.
Messick, S. (1989). Validity. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition).
New York: American Council on Education & Macmillan.
Miller, C. S., Shields, A. L., Campfield, D., Wallace, K. A. & Weiss, R. D. (2007). Substance
Use Scales of the Minnesota Multiphasic Personality Inventory. An Exploration of
Score Reliability Via Meta-Analysis. Educational and Psychological Measurement,
Vol. 67, 1052-1065.
Mji, A. & Onwuegbuzie, A. J. (2004). Evidence of Score Reliability and Validity of the
Statistical Anxiety Rating Scale Among Technikon Students in South Africa.
Measurement and Evaluation in Counseling and Development, Vol. 36, 238-251.
Murhpy, K. R. & Davidshofer, C. O. (2001). Psychological Testing. Principles and
Applications. (Fifth Edition). Upper Saddle River, New Jersey: Prentice Hall.
Nilsson, J. E., Schmidt, C. K. & Meek, W. D. (2002). Reliability Generalization: An
Examination of the Career Decision-Making Self-Efficacy Scale. Educational and
Psychological Measurement, Vol. 62, 647-658.
Nitko, A. J. (2001). Educational Assessment of Students. (Third Edition). Upper Saddle River,
New Jersey: Merrill/ Prentice-Hall.
Norton, D. (2001). Giriş. “Yerleşik Düşünceler: Verip Veriştirmek”. Bouvet, J-F. (Haz.),
Ispanaktaki Demir ve Diğer Yerleşik Düşünceler Üzerine. (Çev.; Atuk, E.). İstanbul:
YKY.
Özsoy, S., Keleş, Ö. & Uzun, N. (2009). Fen Bilgisi Eğitimi Alanında Hazırlanan Yüksek Lisans
Tezlerindeki Yöntem ve İstatistiksel Analiz Hataları. 1. Uluslararası Türkiye Eğitim
Araştırmaları Kongresi. Çanakkale: Çanakkale Onsekiz Mart Üniversitesi, 1-3 Mayıs.
(http://oc.eab.org.tr/egtconf/pdfkitap/pdf/238.pdf) 11 Kasım 2009’da alınmıştır.
Pedhazur, E. J. & Schmelkin, L. P. (1991). Measurement, Design, and Analysis. An Integrated
Approach. Hillsdale, New Jersey: Lawrence Erlbaum.
Reynolds, C. R., Livingston, R. B. & Willson, V. (2009). Measurement and Assessment in
Education. (Second Edition). Upper Saddle River, New Jersey: Pearson.
Rouse, S. V. (2007). Using Reliability Generalization Methods to Explore Measurement Error:
An Illustration Using the MMPI-2 PSY-5 Scales. Journal of Personality Assessment,
Vol. 88(3), 264-275.
Ragan, B. G. & Kang, M. (2005). Reliability: Current Issues and Concerns. Athletic Therapy
Today, Vol. 10(6), 30-33.
Rowley, G. R. (1976). The Reliability of Observational Measures. American Educational
Research Journal, Vol. 13, 51-59.
Sawilowsky, S. S. (2000). Psychometrics Versus Datametrics: Comment on Vacha-Haase’s
“Reliability Generalization” Method and Some EPM Editorial Policies. Educational
and Psychological Measurement, Vol. 60, 157-173.
Sayın, S. (2010). Bilimsel Araştırmalarda Yapılan İstatistiksel ve Yöntembilimsel Hatalar-II:
Grafik, Tablo ve Gösterim Hataları. Türk Eğitim Bilimleri Dergisi, Cilt 8(1), 117-143.
Sayın, S. (2008). Bilimsel Araştırmalarda Yapılan Bazı İstatistiksel ve Yöntembilimsel Hatalar-
III: Güvenirlik Kestirimlerine Yönelik Hatalar. Mehmet Akif Ersoy Üniversitesi
Eğitim Fakültesi Dergisi, Sayı 15, 53-69.Sever, E. (2008). “Öğrenme Stilleri: İlköğretim 6-8. Sınıf Öğrencilerine Yönelik Bir Ölçek
Geliştirme Çalışması”. Yayımlanmamış Yüksek Lisans Tezi. Aydın: Adnan Menderes
Üniversitesi, Sosyal Bilimler Enstitüsü.
Serdar, Z. (2001). Thomas Kuhn ve Bilim Savaşları. (Çev.: Kılıç, E.). İstanbul: Everest.
Sireci, S. G. (2005). Unlabeling the Disabled: A Perspective on Flagging Scores From
Accommodated Test Administrations. Educational Researcher, Vol. 34(1), 3-12.
Sireci, S. G. & Parker, P. (2006). Validity on Trial: Psychometric and Legal Conceptualizations
of Validity. Educational Measurement: Issues and Practice, Vol. 25(3), 27-34.
Stanley, J. C. (1971). Reliability. In Thorndike, R. L. (Ed.), Educational Measurement. (Second
Edition). Washington, D.C.: American Council on Education.
Streiner, D. L. & Norman, G. R. (1995). Health Measurement Scales. (Second Edition). Oxford:
Oxford University Pres.
Suen, H. K. (1990). Principles of Test Theories. Hillsdale, New Jersey: Lawrence Erlbaum.
Superfine, B. M. (2004). At the Intersection of Law and Psychometrics: Explaining the Validity
Clause of No Child Left Behind. Journal of Law & Education, Vol. 33(4), 475-513.
Thompson, B. (Ed.) (2003). Score Reliability. Contemporary Thinking on Reliability Issues.
Thousand Oaks, California: Sage.
Thompson, B. (2001). Significance, Effect Sizes, Stepwise Methods and Other Issues: Strong
Arguments Move the Field. The Journal of Experimental Education, Vol. 70, 80-93.
Thompson, B. & Vacha-Haase, T. (2000). Psychometrics is Datametrics: The Test is Not
Reliable. Educational and Psychological Measurement, Vol. 60, 174-195.
Thorndike, R. L. (1982). Applied Psychometrics. Boston: Houghton Mifflin.
Topdemir, H. G. (2002). Kuhn ve Bilimsel Devrimlerin Yapısı Üzerine Bir Değerlendirme.
Felsefe Dünyası, Sayı 36, 45-62.
Toulmin, S. E. (2003). The Uses of Argument. (Updated Edition). New York: Cambridge.
Toulmin, S. E. (1964). The Uses of Argument. London: Cambridge.
Toulmin, S., Rieke, R. & Janik, A. (1984). An Introduction to Reasoning. New York:
Macmillan.
Traub, R. E. (1994). Reliability for the Social Sciences. Theory and Applications. Thousand
Oaks: Sage.
Traub, R. R. & Rowley, G. L. (1991). Understanding Reliability. Educational
Measurement:Issues and Practice, Vol. 10(1), 37-45.
Tyson, E. H., Dulmus, C. N. & Wodarski, J. S. (2002). Assessing Violent Behavior. In Rapp-
Paglicci, Roberts, A. R. & Wodarski, J. S. (Eds.). Handbook of Violence. New York:
John Wiley & Sons.
Vacha-Haase, T. (1998). Reliability Generalization: Exploring Variance in Measurement Error
Affecting Score Reliability Across Studies. Educational and Psychological
Measurement, Vol. 58, 6-20.
Vacha-Haase, T., Kogan L. R., Tani, C. R. & Woodal, R. A. (2001). Reliability Generalization:
Exploring Variation of Reliability Coefficients of MMPI Clinical Scales Scores.
Educational and Psychological Measurement, Vol. 61, 45-59.
van der Linden, W. J. (2005). Classical Test Theory. In Kempf-Leonard, K. (Ed.), Encyclopedia
of Social Measurement. Oxford: Elsevier.
Vassar, M. & Hale, W. (2009). Reliability Reporting Across Studies Using the Buss Durkee
Hostility Inventory. Journal of Interpersonal Violence, Vol. 24, 20-37.
Victorson, D., Barocas, J., Song, J. & Cella, D. (2008). Reliability Across Studies From the
Functional Assessment of Cancer Theraphy-General (FACT-G) and Its Subscales: A
Reliability Generalization. Quality of Life Research, Vol. 17, 1137-1146.
Wasserman, J. D. & Bracken, B. A. (2003). Psychometric Characteristics of Assessment
Procedures. In Weiner, I. B., Graham, J. R. & Naglieri, J. A. (Eds.), Handbook of
Psychology. Hoboken, New Jersey: John Wiley & Sons.
Witta, E. L. & Daniel, L. G. (1998). The Reliability and Validity of Test Scores: Are Editorial
Policy Changes Reflected in Journal Articles? (ERIC Document Reproduction
Service No. ED 422 366).Worthen, B. R., White, K. R., Fan, X. & Sudweeks, R. R. (1999). Measurement and Assessment
in Schools. (Second Edition). New York: Longman.
Yin, P. & Fan, X. (2000). Assessing the Reliability of Beck Depression Inventory Scores:
Reliability Generalization Across Studies. Educational and Psychological
Measurement, Vol. 60, 201-223.

Thank you for copying data from http://www.arastirmax.com