Curriculum Evaluation


Resume from Curriculum: Foundations, Principles, and Issues by Ornstein and Hunkins

EVALUASI KURIKULUM

A.      Sifat dan Tujuan Evaluasi
Evaluasi adalah proses dimana orang-orang mengumpulkan data dalam rangka untuk membuat keputusan. Definisi dari evaluasi bervariasi. “Penentuan formal kualitas, efektivitas, atau nilai dari program, produk, proyek, proses, tujuan, atau kurikulum” Blaine Worthen dan James Sanders mendefinisikan evaluasi sebagai evaluasi meliputi penyelidikan dan penghakiman metode:
1)     menentukan standar untuk menilai kualitas dan memutuskan apakah standar tersebut harus relatif atau absolut,
2)      mengumpulkan informasi yang relevan,
3)      menerapkan standar untuk menentukan kualitas.
Abbie Brown dan Timotius mendefinisikan evaluasi sebagai proses penjurian, berdasarkan data yang dikumpulkan, tingkat keberhasilan pembelajaran individu, atau efektivitas produk.
Menurut Norbert Seel dan Sanne Dijkstra, evaluasi melengkapi data yang memungkinkan kita untuk membandingkan nilai atau dari dua atau lebih program. Ini memberikan dasar atau basis untuk memilih program atau menentukan apakah mereka harus dilanjutkan.
Daniel Stuff lebeam telah mendefinisikan evaluasi sebagai “proses menggambarkan, memperoleh, dan memberikan informasi yang berguna untuk menilai alternatif keputusan”.
Collin Marsh dan George Willis menunjukkan bahwa evaluasi menembus semua aktivitas manusia.
Pandangan evaluasi sebagai penyelidikan kritis, mempelajari fenomena dalam rangka untuk membuat penilaian informasi. Kenneth Sirotnik dan Jeannie Oakes memperluas konsep  evaluasi. Mereka berpendapat bahwa kita harus menyelidiki asumsi yang mendasari nilai-nilai yang kita pegang, posisi yang kami menganjurkan, dan tindakan yang kita lakukan. Kebanyakan evaluator mempertahankan bahwa meskipun kehadiran dan pentingnya nilai-nilai tidak dapat diabaikan, mereka dapat dianggap hanya dalam konteks tertentu. Kami menilai apakah program mencerminkan nilai-nilai dan jika mereka yang bertanggung jawab dari kurikulum telah membuat nilai-nilai mereka eksplisit. Kemudian kita mengevaluasi apakah tujuan tersebut telah dicapai. Sirotnik dan Oakes menganjurkan jenis penyelidikan kritis yang beberapa telah disebut hermeneutika. Kamus mendefinisikan hermeneutika sebagai “studi tentang prinsip-prinsip metodologis interpretasi”.
Dalam mengambil pendekatan hermeneutik untuk mengevaluasi kurikulum dan efek mereka, seorang evaluator menimbulkan “dalam” pertanyaan untuk nilai program pendidikan ini, layak, dan jasa. Tentu saja, kita mengajukan pertanyaan yang jelas seperti apa siswa belajar. Namun, kami juga mengakui bahwa apa yang siswa telah belajar ditentukan oleh orang-orang baik di dalam dan di luar komunitas langsung. Kami menilai nilai pendapat dari orang-orang yang memutuskan apa yang siswa untuk belajar dan yang menentukan tingkat keberhasilan. Evaluator yang mengambil pendekatan hermeneutik mempertimbangkan seberapa baik program pendidikan cocok menjadi iklim saat ini.

Gambar 1. Proses Penalaran dari Bukti dalam Evaluasi Kurikulum
Sumber: Diadaptasi dari James W. Pellegrino, Naomi Chudowsky, and Robert Glaser, eds., Knowing What Students Know: The Science and Design of Educational Assessment (Washington, DC: National Academy Press, 2001).

Kurikulum mengatur materi pelajaran dalam hal cakupan dan urutan. Dalam pengembangan kurikulum, pendidik harus membuat penilaian evaluatif mengenai nilai materi pelajaran yang sedang dipertimbangkan dan diorganisir serta iklim politik dan sosial di mana kurikulum akan ada. Pendidik mempertimbangkan pertanyaan ini: Bukti apa yang menunjukkan bahwa kurikulum yang direnungkan, direncanakan, dan kemudian disampaikan memiliki nilai, memenuhi kebutuhan siswa dan masyarakat, dan konsisten dengan teori kurikulum?
Teori kognitif menginformasikan kepada kami dalam pengumpulan data kami. Bagaimana siswa memperoleh pengetahuan, membangun makna, dan mengembangkan kompetensi? Model pengajaran yang kognitif dapat membantu guru dalam membentuk pendekatan pengajaran mereka dan mengevaluasi pembelajaran siswa.
Pengamatan mencakup semua cara pengumpulan data. Ini mungkin melibatkan tes tertulis, ulasan pekerjaan siswa (mis., Portofolio mereka), dan melihat siswa saat mereka terlibat dalam tindakan pendidikan tertentu. Pengamatan meliputi kuesioner, daftar periksa, inventaris, jadwal wawancara, dan pertunjukan video. Ini juga mencakup data tentang guru (misalnya, dari pengamatan guru, melihat rekaman video rekaman, analisis rencana pelajaran, dan wawancara).
Pada tahap interpretasi evaluasi kurikulum, pendidik menggunakan asumsi mereka tentang kurikulum dan kognisi. Mereka mengolah data menjadi bukti mengenai keberhasilan kurikulum. Di tingkat kelas, interpretasi cenderung bersifat informal dan kualitatif, termasuk interpretasi mengenai pendekatan pengajaran guru. Di tingkat kabupaten, interpretasi cenderung lebih formal, tetapi masih bisa bersifat kualitatif daripada kuantitatif (menggunakan model statistik). Seringkali, interpretasi tingkat kabupaten bersifat kualitatif dan kuantitatif. Interpretasi secara implisit mengacu pada teori pengujian, model statistik analisis data, dan teori pengambilan keputusan.

A.1  Pertanyaan-Pernyataan
Pertanyaan tentang nilai intrinsik membahas kebaikan dan kesesuaian kurikulum. Ini berkaitan dengan kurikulum yang direncanakan dan kurikulum yang telah selesai (disampaikan). Sebagai contoh, sebuah sekolah akan bertanya apakah kurikulum seni bahasa baru menggabungkan pemikiran terbaik hingga saat ini pada konten seni bahasa dan pengaturan dan penyajian konten itu. Akankah spesialis dalam linguistik, komposisi, tata bahasa, dan komunikasi memberikan nilai tinggi pada kurikulum yang direncanakan? Mengangkat pertanyaan seperti itu bukan masalah sederhana untuk membuat para ahli menganalisis dokumen kurikulum. Orang membawa pandangan filosofis dan psikologis mereka ke pertanyaan tentang nilai intrinsik. Mereka memandang kurikulum dengan tujuan pendidikan yang mereka pandang penting. (Haruskah kita menekankan pemikiran kritis, kewarganegaraan, atau persiapan untuk pekerjaan?) Mereka juga melihat kurikulum dalam hal teori belajar pilihan mereka. (Behavioris, cognitivists, dan humanis memiliki pandangan berbeda tentang konten dan metode presentasi).
Pertanyaan tentang nilai instrumental bertanya, apa kurikulum yang baik, dan siapa audiens yang dituju? Pendidik berurusan dengan bagian pertama dari pertanyaan ini dengan mencoba menghubungkan kurikulum yang direncanakan dengan tujuan dan sasaran yang dinyatakan oleh program. Pertanyaan tentang nilai instrumental juga membahas siswa mana yang mencapai apa yang direncanakan dalam kurikulum dan sejauh mana. Tingkat pencapaian berkaitan dengan standar yang mencerminkan preferensi nilai. Upaya evaluasi harus mengidentifikasi jenis siswa yang cenderung mendapat manfaat paling banyak dari kurikulum yang direncanakan.
Pertanyaan tentang nilai komparatif sering diajukan ketika membandingkan prestasi siswa di berbagai negara, jika bukan kurikulum negara. Saat ini, suara-suara dalam diskusi pendidikan nasional kami menunjukkan bahwa ketika diuji, siswa Amerika tidak dapat dibandingkan dengan siswa di negara lain. Sering dicatat bahwa kedudukan siswa Amerika, khususnya dalam matematika dan sains, tidak dapat dibandingkan dengan baik. Biasanya, dalam perbandingan seperti itu, kami pada dasarnya tidak tertarik pada apa yang sebenarnya diketahui oleh berbagai siswa ini. Kami lebih memperhatikan bagaimana siswa kami membandingkan dengan orang lain. Kami menggunakan data tersebut untuk menentukan peringkat siswa dan untuk menentukan perbedaan antara siswa. Mendasarkan kualitas prestasi siswa kami dalam matematika atau sains hanya pada nomor tes memberi kami informasi evaluatif yang minim. Itu menyangkal kita bukti penting untuk membuat keputusan evaluatif.
Pertanyaan tentang nilai idealisasi membahas cara-cara untuk meningkatkan kurikulum. Penilai seharusnya tidak hanya peduli dengan menentukan apakah yang direncanakan benar-benar terjadi; mereka juga harus melihat data dalam hal cara membuat dan memelihara program sebaik mungkin. Mereka mempertimbangkan informasi tentang bagaimana program bekerja dan bertanya pada diri sendiri apakah ada cara alternatif untuk membuat program lebih baik — misalnya, untuk meningkatkan prestasi siswa atau melibatkan siswa lebih penuh dalam pembelajaran mereka. Pertanyaan tentang nilai idealisasi harus ditanyakan selama penyampaian program baru. Pendidik harus terus-menerus mempertimbangkan kembali bagaimana mereka dapat mengatur konten, materi, metode, dan sebagainya program, sehingga siswa akan mendapat manfaat secara optimal.
Pertanyaan tentang nilai keputusan berkaitan dengan peran vital yang dimainkan oleh empat pertanyaan sebelumnya dalam proses evaluasi. Jika keempat pertanyaan itu telah diatasi, keputusan yang diambil haruslah keputusan yang berkualitas. Evaluator dan pembuat keputusan kurikulum sekarang harus memiliki bukti yang didokumentasikan sedemikian rupa sehingga mereka dapat memutuskan apakah akan mempertahankan, memodifikasi, atau membuang program baru. Namun, pertanyaan tentang nilai keputusan sedang berlangsung. Nilai keputusan yang dibuat sampai saat ini harus dinilai karena kurikulum disampaikan di ruang kelas.

A.2  Definisi Evaluasi
         Blaine Worthen and James Sanders menetapkan evaluasi sebagai penentuan formal dari kualitas, efektifitas, atau nilai dari suatu program, produk, projek, pengamatan kurikulum.
         Menurut Norbert Seel dan Seanne Dijkstra, evaluasi memberikan data yang memungkinkan kami untuk membandingkan nilai dari dua program atau lebih.
         Abbie Brown and Timothy Green menetapkan evaluasi sebagai proses menilai berdasarkan data yang dikumpulkan, tingkat keberhasilan dari pembelajaran individu, atau suatu produk efektifitas.
         Daniel Stufflebeam menetapkan evaluasi sebagai proses menggambarkan, mendapatkan, dan menyediakan informasi yang berguna untuk menilai keputusan alternatif.
Berdasarkan pendapat para ahli, dapat ditarik suatu definisi evaluasi adalah suatu proses identifikasi untuk mengukur/ menilai apakah suatu kegiatan atau program yang dilaksanakan sesuai dengan perencanaan atau tujuan yang ingin dicapai.

A.3  Pengukuran terhadap evaluasi
Fred Kerlinger didefinisikan pengukuran sebagai menugaskan angka ke objek atau peristiwa menurut aturan. Evaluasi memberikan nilai dan makna untuk pengukuran. Sebagai contoh, seorang evaluator mungkin memutuskan bahwa skor jawaban yang benar persen berarti “passing” atau “kinerja yang sukses.” Pengukuran menggambarkan situasi atau perilaku dalam hal numerik. Kami melakukan pengamatan dan kemudian menetapkan nomor ke aspek fenomena yang diamati. Misalnya, guru olahraga dapat diketahui jumlah push-up mahasiswa tidak, atau seorang guru membaca dapat merekam jumlah halaman per jam siswa membaca. Pengukuran memungkinkan pendidik untuk merekam derajat siswa kompetensi. Namun, pendidik harus melakukan sesuatu dengan data yang dikumpulkan.

B.       Pendekatan-Pendekatan Evaluasi
Evaluasi tidak spesifik konten. Prosedur yang sama dapat digunakan untuk mengevaluasi efektivitas kurikulum apapun. Pada dasarnya, evaluasi terdiri dari pengumpulan data dan mengaitkannya dengan tujuan. Dalam menentukan nilai dari rencana kurikulum, pendidik harus bertanya apakah hasil yang diharapkan bernilai kemungkinan biaya pengiriman mereka.

B.1   Saintifik, Pendekatan Modern Untuk Evaluasi
Bagaimana orang menghasilkan pertanyaan dan memproses data dipengaruhi oleh filosofi dan psikologi. Filsafat dan psikologi dibentuk oleh apakah mereka menganggap diri mereka berada di dalam kubu modernis atau postmodernis. Mereka yang mengambil pendekatan behavioris, preskriptif, atau berurutan untuk evaluasi dapat dikelompokkan dalam kubu modernis. Mereka sangat percaya pada presisi sebab-akibat dalam menjelaskan fisika dunia dan ketepatan tindakan mereka dalam berbagai upaya, dalam kasus kami pengembangan, implementasi, dan evaluasi kurikulum dan strategi pengajaran. Para evaluasi pendekatan modernis ini menetapkan perilaku atau konten tertentu yang dipelajari sebagai hasil dari kurikulum dan pengajaran. Mereka lebih suka tujuan yang dinyatakan dengan jelas dan indikator yang tepat apakah siswa mereka telah mencapai hasil yang diinginkan program. Mereka lebih suka menggunakan tes standar untuk mengukur pencapaian tujuan pembelajaran.

B.2   Humanistik, Pendekatan Postmodern Untuk Evaluasi
   Humanis, postmodernis, menghindari tekanan dari pencarian modernitas kebenaran dan kepastian. Mereka menyadari bahwa evaluasi tidak dapat memberikan pendidik dengan hasil yang tepat dari pembelajaran siswa setelah mengalami berbagai kurikulum dan strategi mengajar. Postmodernis Shun menggunakan langkah-langkah ilmiah dan tepat evaluasi. Mereka terlibat dalam “seni interpretasi.”. Mereka menunjukkan bahwa metode mereka melibatkan “komunikasi intersubjektif dan answerability.” evaluator ini menggunakan berbagai bentuk dalam penyelidikan interpretatif. Mereka mengandalkan kurang pada metodologi statistik, lebih memilih metode seperti estetika, etnografi, otobiografi, fenomenologi, literasi kritis, dan berbagai bentuk heuristik. Postmodernis terlibat dalam penyelidikan hermeneutik dan evaluasi, yang mengungkapkan bahwa hakikat kehidupan dan fokus dari pertanyaan kami menghasilkan tidak pasti, tetapi ambiguitas, ketidakpastian, dan risiko.
Beberapa sikap yang bisa kita ambil untuk memulai pelukan kami orientasi postmodernis.perspektif ini berdampak bukan hanya evaluasi kurikulum, tetapi semua tindakan yang diperlukan untuk menghasilkan kurikulum yang dinamis dan energik instruksi: merayakan keraguan kita terlibat dalam tindakan kurikuler; menekankan interaksi kolaboratif dengan pemain kurikulum pokok; dan mengkritisi upaya kami karena kami melanjutkan. Pada dasarnya, Doll menunjukkan bahwa semua peserta dalam keterlibatan kurikuler merangkul gagasan masyarakat berinteraksi dinamis. postmodernis menyadari bahwa hasil tes dan efektivitas kurikulum tertentu dan berbagai pedagogi selalu terbuka untuk beragam interpretasi. Satu terus menerus terlibat dalam diri-kritik dan keraguan. penguasaan pedagogis dan evaluatif presisi adalah ilusi, pada dasarnya tujuan tercapai, seperti tiba di cakrawala duniawi. Kepastian menghindar kita dalam setiap tindakan kita. Ini juga benar mengenai keterlibatan siswa dengan belajar mereka. Secara umum, evaluasi memungkinkan pendidik untuk :
1)      memutuskan apakah akan mempertahankan, merevisi, atau mengganti kurikulum yang ada;
2)      menilai individu (terutama guru dan siswa) dalam hal pengajaran dan pembelajaran; dan
3)      memutuskan apakah organisasi manajerial yang ada dari sekolah dan program harus dipertahankan atau direformasi.
Juga, bagian dari evaluasi berfokus pada lingkungan sekolah dan lingkungan masyarakat di mana sekolah ada.
Richard L. Curwin berpendapat alasan lain untuk terlibat dalam evaluasi. Dia mengutip nilai mempekerjakan evaluasi sebagai sarana memotivasi siswa untuk meningkatkan belajar mereka. Dia menunjukkan banyak pendidik percaya bahwa berhasil mencapai beberapa tujuan pembelajaran mengarah ke motivasi.
Curwin mendefinisikan “keinginan untuk belajar” sebagai motivasi pendidikan. 58 Aspek yang paling penting untuk evaluasi kurikulum tidak  memilah siswa atau guru, tetapi untuk mendorong siswa getaran dan ketekunan dalam belajar mereka dan catatan perjalanan pendidikan mereka.
Evaluasi terjadi pada tingkat yang berbeda. Tapi kami berpendapat bahwa proses terlepas dari tingkat harus melayani tujuan utama, untuk membiarkan siswa dan guru dan bahkan keuntungan masyarakat data yang merangsang pikiran, memotivasi belajar, dan merangsang minat belajar. Juga, evaluasi tidak harus mencegah, tetapi mendorong siswa untuk memainkan permainan belajar, menikmati apa yang mereka tahu dan senang untuk terlibat dalam strategi pengetahuan yang menyelidiki apa yang mereka menyadari bahwa mereka tidak tahu. Evaluasi harus merangsang selera pikiran dan roh. 
Pada tingkat luas, evaluasi berfokus pada distrik seluruh sekolah, sistem pendidikan  negara, atau bahkan sistem nasional (misalnya, berkaitan dengan No Child Left Behind undang-undang). Evaluasi sempit berfokus pada lembaga tertentu, baik secara individu (misalnya, sekolah tinggi tertentu) atau kelompok (misalnya, semua sekolah tinggi dalam sebuah distrik tertentu).
 Pada tingkat yang paling spesifik, evaluasi hadir untuk program tertentu untuk kursus tertentu pada tingkat kelas tertentu. Apa yang dihargai di tingkat yang lebih luas juga harus dihargai pada tingkat sempit. Tidak masuk akal untuk menunjukkan bahwa sekolah-sekolah AS akan dinilai sesuai dengan kriteria tertentu jika sekolah-sekolah di tingkat lokal menolak atau tidak dapat secara layak menerapkan kriteria.

B.3   Ilmiah, Pendekatan Modernis terhadap Humanistik, Pendekatan Postmodernis
Lee Cronbach menempatkan ilmiah, modernis dan humanistik, pendekatan postmodernis di ujung-ujung kontinum evaluasi. Sebenarnya, Cronbach tidak menggunakan istilah modernis dan postmodernis; kami telah membuat penyesuaian ini. Dan kami tidak yakin bahwa kedua pendekatan ini di ujung-ujung sebuah kontinum evaluasi. Sebaliknya, tampak bahwa ilmiah, modernis, bukannya dalam kategori dibandingkan dengan humanistik, postmodernis, yang morphing menjadi cara abad ke-21 baru merenungkan kehidupan, pendidikan dalam kasus.
Modernis melakukan mendukung pendekatan eksperimental untuk evaluasi.
1)    Dua atau lebih kondisi di tempat, setidaknya satu dari mereka menjadi konsekuensi dari intervensi deliberatif.
2)    Orang atau lembaga yang ditugaskan untuk kondisi dengan cara yang menciptakan kelompok setara.
3)    Semua peserta dinilai pada ukuran hasil yang sama.” 61 Mereka menggunakan data, sering dalam bentuk nilai ujian, untuk membandingkan prestasi siswa dalam situasi yang berbeda.
Kebanyakan pendekatan ilmiah untuk evaluasi menarik pada metode yang digunakan oleh para ilmuwan fisik. Tes objektif, ciri dari pendekatan tradisional, masih kendaraan utama dimana pendidik mengumpulkan data. Tentu saja, dengan penelitian lebih lanjut tentang evaluasi, ujian esai dan bentuk lain dari pengumpulan data sedang digunakan dalam kamp ilmiah. Data cenderung kuantitatif, tapi ini berubah. Seringkali keputusan Program didasarkan pada informasi komparatif yang dikumpulkan, tetapi evaluator mulai menyadari kekurangan hanya menggunakan data untuk membandingkan tingkat prestasi siswa. Ini telah melihat sebelumnya.
Catherine Taylor dan Susan Nolen menyebutkan bahwa dalam kamp ilmiah, orang membuat empat asumsi yang, pada kenyataannya, bermasalah:
1)      siswa secara acak ditugaskan untuk sekolah, guru, dan kurikulum;
2)      instruksi identik untuk semua siswa dalam kondisi “pengobatan”;
3)      beberapa siswa akan memiliki pengalaman belajar yang positif dari pengobatan, dan siswa lainnya tidak
4)      tes objektif adalah hakim akurat dan berimbang tentang pembelajaran dan kemampuan siswa
Taylor dan Nolen catatan bahwa pendidik tidak bisa begitu saja menerima asumsi ini untuk alasan berikut:
1)      siswa tidak secara acak ditugaskan untuk kabupaten, sekolah, program, atau guru;
2)      jarang instruksi identik untuk semua siswa, bahkan di sekolah yang sama atau ruang kelas;
3)      (perawatan di ruang kelas tidak tetap konstan; dan
4)      tes tidak memihak.
Penulis ini memperluas mengapa asumsi ini harus ditantang. Geografi kabupaten sekolah dan kebijakan penempatan sekolah tidak didorong oleh keinginan untuk membuat grup acak siswa. Sekolah melayani paling sering siswa dalam suatu wilayah yang hadir. Guru menyadari bahwa mereka individualize strategi pembelajaran dan kegiatan pendidikan, bahkan ketika mengajar kurikulum yang sama. Sebuah kelas kreatif memiliki keragaman besar guru dan tindakan siswa. Juga, guru yang efektif berusaha untuk menjadi seorang pendidik banyak “catatan,” bukan hanya “Johnnyone-catatan.” Guru tahu bahwa tes seperti yang dirancang alamat berbagai siswa kekuatan akademik dan bahkan latar belakang budaya. Siswa yang melakukannya dengan baik pada pilihan ganda tes sering sangat terampil dalam menghafal dan pengakuan. Siswa memiliki berbagai gaya belajar, dan tes biasanya tidak menekankan beberapa gaya belajar.
Berbagai model dipekerjakan di kamp kuantitatif tradisional, sebagian besar tampaknya tidak memiliki nama tertentu. Seperti ini tidak terjadi dengan pendekatan untuk evaluasi kualitatif dan penelitian. Kami membahas lima pendekatan humanistik utama yang telah diidentifikasi: interpretatif, artistik, sistematis, teori didorong, dan kritis-emansipatoris. Sementara kita telah berkerumun pendekatan ini dalam ranah postmodern, kami menyadari bahwa pendukung pendekatan mungkin tidak setuju. Seperti ini terjadi karena postmodernisme dalam keadaan fluks; itu terus muncul; itu terus-menerus terlibat dalam refleksi diri, analisis diri, terus berusaha untuk terlibat ketidakpastian, kekacauan, dan kompleksitas.
1)      Pendekatan interpretif, evaluator menganggap adegan pendidikan dan menafsirkan arti dan makna dari tindakan masyarakat. Perhatian terhadap konteks sosial adalah penting. Evaluator adalah orang-orang yang terlibat langsung dengan kurikulum, khususnya guru dan siswa.
2)      Pendekatan artistik, evaluator terlibat dalam penyelidikan estetika, mengamati kelas dan enactments lain dari kurikulum dan kemudian secara terbuka mengumumkan apa yang baik dan buruk tentang kurikulum. Pendekatan ini bergantung pada intuisi individu diasah oleh pengalaman.
3)      Pendekatan yang sistematis yang paling akrab. Evaluator mencoba untuk seobjektif mungkin dalam deskripsi mereka, menggunakan analisis logis dan mendasarkan penilaian mereka pada kenyataan. Namun, mereka tidak bergantung terutama pada teknik statistik, ciri khas dari pendekatan ilmiah.

B.4   Utilitarian terhadap Pendekatan Intuisionis
Evaluasi dapat diklasifikasikan sebagai utilitarian atau intuisionis. Pendekatan utilitarian erat terkait dengan ilmiah, pendekatan modernis, sedangkan pendekatan intuisionis terkait dengan humanistik, pendekatan postmodernis. evaluasi utilitarian beroperasi sesuai dengan premis bahwa baik terbesar adalah bahwa yang menguntungkan jumlah terbesar dari individu. 79 evaluator utilitarian melihat kelompok besar, seperti seluruh sekolah atau distrik sekolah. Perhatian adalah total pertunjukan kelompok. Program dihakimi oleh bagaimana mereka mempengaruhi populasi siswa sekolah secara keseluruhan. Program yang memungkinkan sebagian besar siswa untuk mencapai tujuan yang dinilai layak kelanjutan. Evaluator intuisionis mengumpulkan data untuk menilai dampak program pada individu atau kelompok-kelompok kecil. Tidak ada satu kriteria mengenai layak. Banyak kriteria yang digunakan untuk menilai layak program. peserta program, bukan di luar evaluator, mempertimbangkan kualitas program. Semua orang yang terkena program ini dapat membuat penilaian tentang hal itu.


B.5   Intrinsik Dibandingkan Pendekatan Payoff
Intrinsik mempelajari konten tertentu termasuk, cara itu diurutkan, akurasi, jenis pengalaman disarankan untuk menangani konten, dan jenis material yang akan digunakan. Mereka berasumsi bahwa jika rencana kurikulum memiliki konten yang akurat dan dasar yang kuat untuk organisasi tertentu, ia secara efektif akan merangsang belajar siswa. Semua evaluator harus terlibat dalam intrinsik evaluasi-yaitu, mereka harus menentukan apakah kurikulum memiliki nilai. Evaluator harus mempertimbangkan tidak hanya seberapa baik kursus atau kurikulum mencapai sasaran dan tujuan, tetapi apakah tujuan-tujuan dan sasaran yang berharga.
Setelah senilai dasar kurikulum telah dinilai, evaluator harus memeriksa efek dari kurikulum disampaikan. Ini adalah evaluasi hasil. Seringkali, hasil secara operasional didefinisikan. Evaluator dapat mempertimbangkan efek kurikulum pada siswa, guru, orang tua, dan, mungkin, administrator. Pendekatan evaluasi ini mungkin melibatkan penilaian mengenai perbedaan antara sebelum dan posttests dan antara eksperimental-kelompok dan tes kontrol-kelompok pada satu atau lebih parameter kriteria. evaluasi hasil menerima perhatian yang besar dari para pendidik karena menunjukkan efek kurikulum pada peserta didik dalam hal tujuan yang dinyatakan.

B.6   Evaluasi Formatif dan Sumatif
Evaluasi formatif juga terjadi selama pengajaran kurikulum baru atau yang sudah ada, dengan fokus pada guru serta siswa. Guru dapat menggunakan evaluasi formatif untuk menilai efektivitas pendekatan pedagogis mereka. Guru harus menyadari bahwa evaluasi formatif bukanlah aktivitas kapan-kapan. Ini adalah gabungan grand cara untuk mengumpulkan dan memanfaatkan data untuk membuat penyesuaian instruksional yang diperlukan untuk belajar siswa yang optimal. Evaluasi tersebut melengkapi umpan balik kepada guru bagaimana pelajaran akan dan bagaimana hal itu mungkin fine-tuned.
Evaluasi formatif juga mengacu pada prosedur yang digunakan oleh siswa untuk menilai taktik pembelajaran mereka serta tingkat pengetahuan mereka. Siswa harus tahu apa yang mereka ketahui dan seberapa baik mereka menggunakan strategi pembelajaran tertentu. Tingkat keterlibatan siswa dalam penilaian formatif tergantung, tentu saja, pada tingkat kematangan mereka. Namun, bahkan siswa di sekolah dasar memiliki beberapa ide untuk apakah mereka memahami sesuatu. Mereka tentu butuh bimbingan guru untuk menentukan cara untuk pendekatan pembelajaran. Kami ingin siswa kami untuk menjadi pembelajar mandiri. Sebagai siswamendapatkan keahlian lebih dalam belajar dan pengetahuan yang lebih  besar, mereka dapat mengasumsikan lebih manajemen dan pemurnian penyesuaian belajar mereka. Sebagai W. James Popham menunjukkan, guru mengambil peran lebih pendukung dalam menyarankan cara untuk belajar lebih efektif.
Evaluasi sumatif bertujuan untuk menilai kualitas keseluruhan kurikulum diproduksi dan kemudian diajarkan. Wilhelmina Savenye, data yang dikumpulkan untuk memastikan layak program baru dan efektivitas. Jika evaluasi formatif telah dilaksanakan dengan hati-hati, evaluasi sumatif harus menunjukkan bahwa program tersebut telah memungkinkan siswa untuk mencapai tujuan kurikulum. evaluasi sumatif seperti menginformasikan pendidik bahwa siswa telah memenuhi sekolah atau standar pendidikan negara. Hal ini juga menunjukkan bahwa guru telah memenuhi standar akuntabilitas minimum.
Brown dan Green mendiskusikan pendekatan untuk evaluasi sumatif yang DL Kirkpatrick dikembangkan pada pertengahan 1990-an. Meskipun Brown dan Green membahas evaluasi sumatif dalam hal desain instruksional, pendekatan Kirkpatrick dapat diterapkan untuk evaluasi kurikulum. Kirkpatrick melukiskan empat tingkat evaluasi sumatif:
1)    Reaksi
Reaksi, berfokus pada pengumpulan data tentang bagaimana siswa bereaksi terhadap program baru. Data menunjukkan tidak hanya jumlah pengetahuan baru yang diperoleh, tetapi juga apakah apa yang diberikan kepada siswa adalah relevan untuk mereka. Apakah kurikulum dan petugas pengalaman baru memenuhi kebutuhan sosial, emosional, dan intelektual siswa? Apakah siswa bereaksi dengan cara diantisipasi? Pada tingkat 1, evaluator mungkin mewawancarai siswa atau merekamenanggapi survei sikap (bukan tes).
2)    Belajar
Evaluator mengumpulkan data tentang apakah siswa telah memperoleh pengetahuan baru, keterampilan, dan teknik yang tersirat dalam tujuan dan sasaran program baru. Untuk mengumpulkan data tersebut, evaluator biasanya mengelola serangkaian pretest dan posttests di berbagai junctures dari kurikulum diimplementasikan.
3)    Transfer
Evaluator menimbulkan pertanyaan tentang apakah individu-individu yang mengalami program baru dapat secara efektif menggunakan keterampilan dan pengetahuan yang baru diperoleh dan apakah sikap mereka telah berubah menjadi lebih baik. Menggunakan berbagai jenis tes, evaluator menentukan apakah siswa menunjukkan bukti dalam kehidupan sehari-hari, situasi kerja, atau sekolah lebih lanjut bahwa mereka menerapkan pengetahuan baru, keterampilan, dan sikap mereka.
4)    Hasil
Hasil, merupakan tantangan besar bagi evaluator. Hasil kurikulum baru dikembangkan mungkin tidak jelas segera, jika pernah. Beberapa sekolah menilai hasil sebagian melalui wawancara keluar dari siswa, yang menunjukkan bagaimana kurikulum baru telah berubah pengetahuan, keterampilan, atau sikap. Evaluasi pada tingkat akhir ini mungkin juga dilakukan melalui kegiatan kelompok fokus. Survei yang diberikan kepada lulusan kurikulum baru juga dapat memberikan data sumatif.

C.      Model-Model Evaluasi
Evaluasi bukanlah konten yang spesifik dan menggunakan strategi yang sama atau serupa, serta dapat digunakan untuk mengevaluasi efektivitas kurikulum apa pun. Namun beberapa pendekatan (saintifik, modernis dan humanistik, postmodernis) dapat memengaruhi asumsi yang dipertimbangkan evaluator ketika menganalisis kurikulum tertentu dan beberapa strategi pedagogis. Asumsi-asumsi ini tertanam dalam filosofis, pendidikan, sosial, dan pandangan dunia. Jadi, untuk sementara strategi yang digunakan dalam penilaian memiliki kesamaan, sementara perbedaan terletak pada dalam kerangka penggunaan model evaluasi saintifik (modernis) dan humanistik (postmodernis).


C.1   Model Saintifik, Modern
Evaluasi formal berskala besar pertama di Amerika Serikat dilaporkan dalam Joseph Rice 1897-1898 studi perbandingan kinerja pengejaan lebih dari 30.000 siswa di sistem sekolah perkotaan. Segera setelah itu, Robert Thorndike berperan penting dalam mengukur perubahan manusia oleh pendidik. Akhirnya, Studi Delapan Tahun (1933-1941) adalah titik balik dalam evaluasi pendidikan, mengantar era modern evaluasi program. Rencana evaluasi Studi Delapan Tahun diselenggarakan dalam tujuh langkah berurutan:
1)      berfokus pada tujuan dan sasaran program,
2)      mengklasifikasikan tujuan,
3)      menentukan tujuan dalam hal perilaku,
4)      menemukan situasi di mana prestasi dapat ditunjukkan,
5)      mengembangkan atau memilih teknik pengukuran,
6)      mengumpulkan data kinerja siswa, dan
7)      membandingkan data dengan tujuan.

C.2.1      Model Kongruensi-Kontingensi Robert Stake
Robert Stake membedakan antara evaluasi formal dan evaluasi informal. Meski mengakui bahwa evaluasi pendidikan terus berlanjut untuk bergantung pada pengamatan kasual, tujuan implisit, norma intuitif, dan penilaian subyektif, dia mencatat bahwa pendidik harus berusaha untuk menetapkan prosedur evaluasi formal. Prosedur formal adalah data yang obyektif dan menyediakan yang memungkinkan deskripsi dan penilaian mengenai program sedang dievaluasi.
Stake menggambarkan tiga kategori data: anteseden, transaksi, dan hasil. Menerapkan organisasi ini hingga saat ini mengevaluasi proses menghasilkan tiga kategori baru: prasyarat, kurikulum, dan hasil. Prasyarat merujuk pada kondisi apa pun yang ada sebelum mengajar dan pembelajaran yang dapat memengaruhi hasil. Prasyarat mencakup status atau karakteristik siswa sebelum pelajaran mereka: bakat mereka, skor prestasi sebelumnya, profil psikologis skor, nilai, disiplin, dan kehadiran. Prasyarat juga termasuk karakteristik guru tersebut sebagai pengalaman, jenis pendidikan, dan peringkat perilaku guru dalam tahunan.
Kurikulum dalam model mengacu pada interaksi yang direncanakan atau berpotensi dipertimbangkan antara siswa dan guru, siswa dan siswa, serta siswa dan narasumber. Kurikulum juga membahas potensi interaksi siswa dengan materi kurikulum dan lingkungan ruang kelas. Pada tahap ini, pendidik memperhatikan bagaimana kurikulum yang direncanakan dipengaruhi oleh alokasi waktu, pengaturan ruang, dan cara berkomunikasi. Perhatian pada dasarnya diarahkan pada proses pengajaran. Dalam tahap perencanaan kurikulum, pendidik merenungkan bagaimana keterlibatannya dianggap benar-benar bermain ketika kurikulum diterapkan dan dievaluasi.
Hasil adalah program yang diharapkan dan kemudian diperoleh dari program tersebut termasuk siswa berprestasi, yaitu sikap dan keterampilan motorik; berdampak pada persepsi guru tentang kompetensi mereka; dan pengaruh pada tindakan administrator. Evaluator juga harus mempertimbangkan hasil jangka panjang dan hasil lainnya yang tidak jelas ketika menarik kesimpulan suatu program. Menurut Stake, hasil pendidikan bersifat langsung dan berjangka panjang, kognitif dan afektif, pribadi dan masyarakat luas. Model evaluasi Stake mencakup desain, pengembangan, dan implementasi kurikulum. Data menjelaskan perbedaan antara apa yang direncanakan dan apa yang sebenarnya terjadi.

Gambar 2. Model Kongruensi-Kontingensi
Gambar 2. Model Kongruensi-Kontingensi
Sumber: Berdasarkan Robert E. Stake, “The Countenance of Educational Evolution,” Catatan Perguruan Tinggi Guru (1967), hlm. 7.

Gambar 2 menunjukkan hubungan yang dibuat dari prasyarat, kurikulum, dan hasil dalam tahap perencanaan. Evaluator mencari informasi empiris dalam kurikulum yang diterapkan. Apakah data mengungkapkan bahwa transaksi didukung secara empiris dalam kurikulum yang diterapkan? Apakah data memuat kasus bahwa hasil yang diperoleh benar-benar konsekuensi dari prosedur yang dipekerjakan selama instruksi? Evaluasi yang efektif menghubungkan prasyarat, kurikulum, dan hasil dalam tahap perencanaan maupun evaluasi.
Model Stake juga menggambarkan hubungan antara apa yang direncanakan dan apa yang ditetapkan dan kemudian dievaluasi. Untuk keselarasan yang lengkap antara rencana dan hasil, semua prasyarat yang diamati, kurikulum, dan hasil harus sama dengan yang dimaksudkan. Meskipun model Stake sangat berguna, tidak mungkin kongruensinya lengkap. Tidak ada korespondensi yang tepat antara beberapa tindakan dan pembelajaran siswa. Di luar sekolah, siswa menemukan materi yang mempengaruhi pemikiran mereka tentang pelajaran tertentu. Transaksi yang tidak diinginkan semacam itu dapat menghasilkan pembelajaran yang dicatat sebagai hasil yang dicapai.

C.2.2      Model Daniel Stufflebeam: konteks, masukan, proses, dan produk
Daniel Stufflebeam memberikan model evaluasi komprehensif yang merupakan kontribusi penting untuk pendekatan pengambilan keputusan. Menurut Stufflebeam, informasi diberikan kepada manajemen untuk pengambilan keputusan. Evaluasi harus mencakup yang berikut ini: menggambarkan informasi apa yang harus dikumpulkan, memperoleh informasi, dan memberikan informasi kepada pihak yang berkepentingan. Stufflebeam menggambarkan empat jenis evaluasi: konteks, masukan, proses, dan produk.
Evaluasi konteks melibatkan mempelajari lingkungan program. Tujuannya adalah untuk mendefinisikan lingkungan yang relevan, menggambarkan kondisi yang diinginkan dan aktual yang berkaitan dengan lingkungan itu, fokus pada kebutuhan yang tidak terpenuhi dan peluang yang terlewat, dan mendiagnosis alasan kebutuhan yang tidak terpenuhi. Evaluasi konteks bukan kegiatan satu kali; terus memberikan informasi secara total operasi dan pencapaian sistem.
Evaluasi masukan memberikan informasi mengenai penggunaan sumber daya. Ini berfokus pada kelayakan. Evaluator menilai kemampuan sekolah untuk melakukan evaluasi. Mereka mempertimbangkan strategi yang disarankan untuk mencapai tujuan program, dan mereka mengidentifikasi cara yang akan digunakan oleh strategi terpilih diimplementasikan. Mereka mungkin mempertimbangkan desain alternatif yang mengarah pada tujuan sambil membutuhkan lebih sedikit sumber daya, lebih sedikit waktu, dan lebih sedikit uang.
Evaluator menilai aspek atau komponen spesifik dari rencana kurikulum. Evaluasi input menjawab pertanyaan-pertanyaan ini:
·           Apakah tujuan dinyatakan dengan tepat?
·           Apakah mereka sesuai dengan tujuan sekolah?
·           Apakah konten sesuai dengan tujuan dan sasaran program?
·           Apakah strategi pembelajaran sesuai?
·           Apakah ada strategi lain yang dapat mencapai tujuan?
·           Apa dasar untuk meyakini bahwa isi dan strategi pengajaran ini akan menghasilkan pencapaian tujuan?
Evaluasi proses membahas keputusan implementasi yang mengendalikan dan mengelola program. Ini digunakan untuk menentukan kesesuaian antara kegiatan yang direncanakan dan aktualisasi. Ini mencakup tiga strategi:
1)        Untuk mendeteksi atau memprediksi cacat dalam desain prosedural atau cacatnya tahap implementasi. Untuk menghadapi cacat program, pendidik harus mengidentifikasi dan terus memantau sumber-sumber potensial kegagalan proyek. Mereka harus menyediakan logistik seluruh operasi dan memelihara saluran komunikasi di antara semua pihak yang terkena dampak.
2)        Memberikan informasi untuk keputusan. Melibatkan keputusan yang harus dibuat oleh manajer proyek selama implementasi proyek. Misalnya, manajer dapat memutuskan bahwa kegiatan dalam-layanan tertentu diperlukan sebelum implementasi program.
3)        Memelihara catatan prosedur yang terjadi. Membahas fitur utama proyek desain—misalnya, konten tertentu yang dipilih, strategi pengajaran baru, atau inovatif sesi perencanaan siswa-guru. Evaluasi proses terjadi selama implementasi. Ini adalah proses uji coba yang dilakukan untuk men-debug program sebelum implementasi di seluruh tempat. Itu memungkinkan evaluator untuk mengantisipasi dan mengatasi kesulitan prosedural.
Evaluasi produk memiliki evaluator yang mengumpulkan data untuk menentukan apakah produk kurikulum terakhir yang sekarang digunakan sesuai dengan yang diharapkan. Sejauh mana tujuannya bertemu? Evaluasi produk menyediakan informasi yang memungkinkan evaluator untuk memutuskan apakah untuk melanjutkan, mengakhiri, atau memodifikasi kurikulum baru. Misalnya, evaluasi produk mungkin memberikan data yang menunjukkan bahwa program sains yang direncanakan untuk siswa sains berbakat telah diizinkan siswa untuk mencapai tujuan program. Program ini kemudian siap diimplementasikan pada sekolah lain di dalam sistem.

C.2   Model Humanistik, Postmodern
Model evaluasi Stake dan Stufflebeam sangat mengandalkan pendekatan kuantitatif-teknis untuk evaluasi.  Model mereka paling berguna untuk mengatasi standar dan akuntabilitas tuntutan abad ini. Mereka tentu menemukan penerimaan dalam ranah ilmu kognitif, psikologi pendidikan, ilmu komputer, dan sekarang ilmu saraf. Selain itu, model ilmiah tersebut sesuai dengan pemikiran pengatur pasar dan juga sebagian besar politisi.
Namun, tampaknya minoritas pendidik percaya bahwa evaluator telah berlebihan berparadigma bahwa "pendidikan sebagai bisnis di pasar". Beberapa pendidik menjadi terfokus dengan mengamati atau mengukur pencapaian “pembelajaran” tertentu. Mereka telah menghabiskan banyak waktu untuk menghasilkan skema evaluatif yang rumit untuk mengukur keberhasilan program.
Dalam menantang skema bisnis ini, beberapa pendidik menganjurkan metode penyelidikan evaluatif yang lebih humanistik (naturalistik) atau postmodernis. Evaluator menyadari sebenarnya belajar yang dijalankan selama ini berantakan. Siswa dan guru adalah aktor yang tidak terduga dalam teater pendidikan. Individu memiliki nilai, kemampuan, minat, kecenderungan, sejarah, budaya, dan bahkan persepsi yang berbeda tentang kenyataan. Tidak ada siswa yang berada di bawah standar. Jadi, para evaluator ini berpendapat untuk pendekatan evaluasi yang lebih holistik, yang memberikan potret terperinci tentang situasi yang sedang terjadi juga dievaluasi.
Laporan evaluasi adalah daftar angka yang lebih sedikit daripada deskripsi tertulis tentang temuan atau kejadian. Pendekatan ini lebih berfokus pada interaksi manusia daripada pada hasil dan lebih pada kualitas daripada kuantitas ruang kelas atau kehidupan sekolah. Evaluator humanistik mempelajari apa yang terjadi di balik kinerja. Penekanannya adalah pada pemahaman interpretatif daripada penjelasan obyektif.
Evaluator modern mungkin hanya bertanya apa yang dipelajari siswa, sedangkan, evaluator postmodernis mempertanyakan nilai pengetahuan yang dipelajari. Evaluator ini menghasilkan pertanyaan yang tidak dapat dijawab dengan final. Pertanyaan mereka menghasilkan tanggapan yang diperkaya bukan dengan kepastian, tetapi dengan “kesulitan, risiko, dan ambiguitas”. Jawaban memicu pada dua pertanyaan dan responden bergantung dari suasana hati dan emosi. Pertanyaan seperti itu tidak cocok untuk model ilmiah, evaluator modernis. Seringkali, evaluator postmodernis meningkatkan pertanyaan dalam pendekatan mereka yang bahkan mungkin tidak berhubungan dengan tujuan pendidikan. Mereka menyadari pentingnya menilai kurikulum yang ada dalam ranah politik, sosial, dan moral. Data harus diproses sebagai signifikansinya. Evaluator humanistik menyadari pertanyaan itu tidak bebas nilai. Bahkan data objektif ada dalam lingkup subjektivitas. Subjektivitas memungkinkan fokus pada yang benar, yang baik, yang indah, yang adil, yang tepat, yang spontan, yang menakjubkan, yang takjub, yang tak terduga, yang imajinatif, yang unik, dan yang emosional.

C.2.1      Model Kecakapan dan Kritik Elliot Eisner
Elliot Eisner merekomendasikan dua model evaluasi humanistik (kecakapan dan kritik) yang sangat menarik dari seni. Kedua model dirancang untuk menghasilkan deskripsi yang kaya tentang kehidupan pendidikan sebagai konsekuensi dari program baru.
Eisner menggambarkan ahli sebagai tindakan pribadi yang terlibat untuk secara pribadi “menghargai kualitas yang merupakan beberapa objek, situasi, atau peristiwa”. Kecakapan memiliki lima dasar dimensi:
1)        Disengaja: evaluasi yang disengaja mengacu pada penilaian pribadi tentang nilai, prestasi, dan nilai kurikulum.
2)        Struktural: evaluasi struktural menilai desain kurikulum dan organisasi sekolah. (Menurut Eisner, ruang bagi pendidik dan siswa mempengaruhi kualitas pengalaman kurikuler).
3)        Kurikuler: evaluasi kurikuler menilai konten khusus kurikulum dan bagaimana mereka diatur dan diurutkan.
4)        Pedagogis: evaluasi pedagogis menilai desain instruksional dan strategi pengajaran. (Apakah pendekatan instruksional sesuai dengan tujuan dan isi kurikulum?).
5)        Evaluatif: evaluasi evaluatif menilai evaluasi itu sendiri. Bagaimana data evaluatif diperoleh? Bagaimana kurikulum dinilai? Adalah tes dan metode evaluasi lainnya yang memberikan gambaran lengkap dan akurat tentang perkembangan siswa.
Sumber data ahli untuk evaluasi banyak sekali. Evaluator mengamati guru di kelas dan mencatat bagaimana mereka berinteraksi dengan siswa. Evaluator juga dapat mewawancarai siswa. Sumber data lain termasuk bahan pengajaran khusus yang digunakan, produk siswa, dan tes buatan guru.
Tidak seperti evaluator yang ahli, evaluator berbagi kritik mereka terhadap kurikulum yang baru dengan terhadap masyarakat. Mereka menafsirkan dan menjelaskan hasil program baru. Kritik evaluasi memerlukan (1) deskripsi, (2) interpretasi, (3) evaluasi, dan (4) tematik. Evaluator (1) menulis laporan yang menggambarkan kurikulum dan lingkungan pendidikan; (2) menafsirkan temuan mereka untuk khalayak — misalnya, dengan menjawab pertanyaan tentang alasan baru kurikulum; (3) upaya untuk menentukan dan mengkomunikasikan nilai pendidikan program baru; dan (4) memastikan dari melihat kurikulum apa tema atau tema muncul. Dalam mempertimbangkan situasi kurikuler tertentu, evaluator kritik berusaha mengekstrapolasi tema umum tentang pembelajaran dan pengetahuan yang bermakna — tema yang dapat memandu pengembangan dan pelaksanaan kurikulum.
Ahli pendidikan harus memiliki pengetahuan tentang kurikulum dan instruksi untuk menentukan apa yang harus diamati, cara melihat, dan bagaimana cara menghargai atau menghargai. Para kritikus yang baik menyadari dan menghargai kehalusan suatu situasi dimana mereka dapat menulis tentang nuansa dengan cara yang membantu orang lain menjadi lebih sadar akan fenomena menjadi pertimbangan.
Eisner akan meminta evaluator terlibat dalam kegiatan kualitatif—misalnya, mengikutsertakan kelas yang mereka amati dan mengajukan banyak pertanyaan tentang kualitas sekolah dan kurikulum. Evaluator yang mengikuti model Eisner terlibat dalam analisis terperinci tentang pekerjaan siswa. Mereka menggunakan film, rekaman video, foto, dan kaset video dari guru dan siswa dalam aksi. Mereka mencatat apa yang dikatakan dan dilakukan, tetapi juga apa yang tidak dikatakan atau dilakukan. Mereka berusaha untuk menggambarkan seni kurikulum dalam aksi.
Eisner menekankan bahwa evaluasi harus mencakup pelaporan kepada publik (orang tua, sekolah, lembaga lokal atau negara, dan sebagainya). Penilai harus mengomunikasikan suasana pendidikan.
Slattery, dalam membahas model kecakapan dan kritik, mencirikan Eisner sebagai seorang figur transisi bergerak menjauh dari modernisme dan menuju postmodernisme. Tujuan Slattery bahwa model Eisner akan didekonstruksi oleh para postmodernis, yang mengungkapkan bukan gagasan yang tepat keahlian atau karya besar tetapi templat menggemakan banyak suara dan subkultur. Jika kita menerima penilaian Slattery mengenai Eisner, kita mungkin harus meletakkan semua model evaluasi postmodernis yang humanis dalam ranah transisi. Kami selanjutnya tidak membalas siapa pun di postmodern alam semesta dapat mengatakan dengan pasti bahwa mereka berada jauh di dalam kosmos postmodern. Untuk kita tidak tahu dimensinya, dan jika kita meliriknya, kita akan menyadari bahwa mereka dinamis dan selalu berubah; mereka kompleks dan tidak dapat diamati.

C.2.2      Model Evaluasi Illuminasi
Pendekatan humanistik, postmodernis lain untuk evaluasi adalah evaluasi iluminatif, kadang-kadang disebut penjelasan. Awalnya dikembangkan oleh Malcolm Parlett dan David Hamilton, pendekatan ini menerangi masalah khusus program dan fitur unik. Untuk menentukan masalah dan fitur ini, kita harus fokus pada lingkungan pendidikan di mana kurikulum dikembangkan dan disampaikan. Kurikulum jarang diimplementasikan dan dipelihara sebagaimana awalnya dikonsep dan dibuat.
Evaluasi iluminatif memungkinkan evaluator untuk melihat program secara total sebagaimana ada dan berfungsi dan untuk mengumpulkan data tentang cara kerjanya. Evaluator menentukan hasil kurikulum yang diajarkan dan mengidentifikasi asumsi yang terbukti dalam penyampaiannya; sikap dan disposisi guru, siswa, dan masyarakat; dan faktor-faktor pribadi dan material yang memfasilitasi atau menghambat program.
Evaluasi iluminatif memiliki tiga langkah: pengamatan, penyelidikan lebih lanjut, dan penjelasan.
1)        Pengamatan. Evaluator mendapatkan gambaran umum program dan menggambarkan konteks di dalamnya kurikulum mana yang disampaikan, dengan mempertimbangkan semua faktor yang mungkin memengaruhi program. Mereka dapat mengumpulkan data tentang pengaturan mata pelajaran sekolah, model pembelajaran, bahan yang digunakan, dan metode evaluasi yang digunakan oleh guru.
2)        Pertanyaan lebih lanjut. Evaluator memisahkan yang penting dari yang sepele dan berusaha menentukan apakah program itu bekerja dan mengapa ia bekerja atau tidak. Mereka mendapatkan fokus yang lebih tajam dari terus memeriksa program dalam tindakan, menghabiskan waktu lama di lapangan. Mereka juga mengumpulkan data dengan memeriksa dokumen sekolah dan portofolio pekerjaan siswa dan dengan mewawancarai atau memberikan kuesioner kepada staf dan orang tua.
3)        Penjelasan. Evaluator yang menggunakan model ini tidak berusaha untuk menghakimi program tetapi untuk memberikan data tentang apa yang terjadi dengan program dan mengapa. Penjelasan disajikan kepada orang-orang yang terkena dampak program, yang kemudian membuat keputusan.
Pendekatan iluminatif bersifat holistik dan subyektif. Interaksi yang diamati tidak rusak turun ke kategori diskrit untuk pengukuran, tetapi dipertimbangkan dalam konteks lingkungan hidup mereka.


C.3   Model Penelitian Tindakan
Penelitian tindakan adalah pendekatan evaluatif yang memadukan ilmiah, modernis dan humanistik, postmodernis. Ini berkaitan dengan modifikasi terus-menerus dari pengalaman pendidikan sehingga pendidikan terbarukan.
Evaluasi penelitian tindakan dibedakan oleh partisipasi langsung dalam kurikulum. Parker Palmer menyatakan bahwa satu-satunya cara untuk mengevaluasi pengajaran dan pembelajaran adalah dengan hadir di dalam lingkungan belajar. Guru adalah pemain kunci dalam evaluasi tindakan-penelitian. Guru mengevaluasi kurikulum dan pengajaran kurikulum. Guru bersedia mengambil risiko dan belajar dengan coba-coba.
Ketika pendekatan penelitian tindakan ditimbang ke arah penelitian, evaluator menyelidiki mengukur hasil tindakan kelas tertentu yang menghasilkan bahwa mereka berharap akan memungkinkan ntuk menggeneralisasi kelompok siswa yang serupa dalam ruang kelas.
Berdasarkan data disarankan pendekatan umum untuk membuat dan mengembangkan kurikulum. Mereka juga mendorong evaluasi diri dengan guru dan memberikan wawasan tentang efek pada guru melakukan penelitian di dalam ruang kelas mereka dan sekolah. Data tersebut menjelaskan bagaimana sikap dan prasangka guru memengaruhi pembelajaran siswa.
Ketika evaluasi penelitian tindakan ditimbang ke arah penilaian, itu tidak berkaitan dengan pendidikan pada umumnya tetapi dengan ruang kelas yang unik dari masing-masing guru. Itu tidak fokus pada pengumpulan data dari mana untuk digeneralisasi ke guru lain, siswa, dan ruang kelas. Itu memprihatinkan dengan menarik seorang guru khusus dalam pemecahan masalah untuk mengoptimalkan pembelajaran siswa tertentu pada waktu tertentu. Data yang dikumpulkan digunakan untuk menentukan apakah akan melanjutkan atau memodifikasi kurikulum tertentu atau pendekatan pengajaran tertentu. Guru terus menyesuaikan materi, pengalaman mengajar, dan pendidikan.
Langkah pertama dalam penyempurnaan ini adalah bagi guru untuk mengidentifikasi apa yang ingin dia capai dengan aspek tertentu dari kurikulum atau pedagogi tertentu dan apa yang ingin siswa capai dari keterlibatan mereka dengan kurikulum. Langkah selanjutnya adalah menentukan caranya untuk memantau kurikulum yang diterapkan. Langkah ketiga adalah menafsirkan data yang dikumpulkan selama pemantauan. Langkah keempat adalah melanjutkan proses penelitian tindakan. Langkah ini dapat dicapai hanya oleh guru yang mengumpulkan data selama pengajaran aktual kurikulum. Guru dapat merekam video pengajaran mereka, meminta kolega mengamati pengajaran mereka, meluangkan waktu dari pengajaran mereka untuk mencatat tindakan dan hasil mereka dalam jurnal, mewawancarai siswa setelah kegiatan pendidikan tertentu, dan tentu saja, menyelenggarakan tes.
Gambar 3 menggambarkan urutan umum dan umpan balik dari penelitian tindakan.

Gambar 3. Urutan Umum / Umpan Balik: Penelitian Tindakan

Sumber: Berdasarkan komentar oleh Collin J. Marsh dan George Willis, Kurikulum: Pendekatan Alternatif, Masalah Yang Sedang Berlangsung, Edisi Ke-4. (Upper Saddle River, NJ: Pearson, 2007).

Dari beberapa macam model evalusi yang telah dijelaskan, berikut ini tabel 1 menyediakan gambaran umum model evaluasi.
Tabel 1. Tabel Tinjauan Umum Model Evaluasi
Model
Penulis
Pendekatan
Realitas
Genaralisasi
Peran Nilai
Kongruensi-Kontingensi
Stake
Saintifik,
Modern
Nyata,
Tunggal
Ya
Bebas
Konteks,
Masukan,
Proses,
Produk
Stufflebeam
Saintifik,
Modern
Nyata,
Tunggal
Ya
Bebas
Kecakapan-Kritik
Eisner
Humanistik,
Postmodern
Holistik,
Berubah
Tidak
Terikat
Illuminasi
Parlett dan
Hamilton
Humanistik,
Postmodern
Holistik,
Berubah
Tidak
Terikat
Penelitian
Tindakan
Wolf
Saintifik &
Humanistik
Holistik,
Berubah
Ya/Tidak
Bebas/
Terikat

D.      Pengujian
Seperti yang dinyatakan William J. Reese, ujian tertulis telah berkembang dengan baik di dalam sistem pendidikan kita. Kompleksitas yang berkembang di dunia kita mendesak kita menanggapi perintah dan memberikan bukti bahwa tindakan pendidikan kita efektif. Kita harus menilai apakah kita menyediakan kurikulum yang relevan dan pedagogi yang efektif untuk memenuhi tidak hanya tuntutan ekonomi, tetapi juga tuntutan sosial. Bahkan, kita sering merasa bahwa masyarakat membuat ultimatum bahwa sekolah-sekolah menghasilkan orang-orang peradaban modern. Tujuan utopis (bersifat khayal) tidak mungkin, bahkan jika kita memulai pendidikan formal anak-anak dari kelahiran. Jika dicoba, kita hanya memiliki minimal 18 tahun dan 22 tahun jika untuk masuk perguruan tinggi. Dan, seperti yang dicatat oleh Reese, bahkan jika orang seperti itu dapat dibina dan dikembangkan dengan gelar tinggi dan studi pascadoktoral, di abad ke-21 tidak ada peluang ekonomi yang terjamin. Selain itu, psikometri belum mengembangkan tes yang mengukur pemahaman seseorang tentang pengetahuan yang belum ditemukan atau dirumuskan. Tes tidak dapat secara akurat mengukur bakat siswa untuk pekerjaan yang belum dibayangkan.
Pengujian, sementara dalam perdebatan, terletak di negara ini dan sekolahnya. Pengujian adalah bisnis besar. Reese mencatat bahwa Layanan Pengujian Pendidikan di Princeton, New Jersey, adalah bisnis "nirlaba" terbesar yang ada. Perusahaan ini mengembangkan lebih dari 50 juta tes setiap tahunnya selama lebih dari 180 negara. Lebih lanjut mengatur pengambilan tes dan skor tes tersebut. Bahkan perusahaan penerbitan pendidikan memasuki pengembangan dan administrasi tes. Juga, ada banyak bisnis yang terlibat dalam bimbingan pendidikan untuk mempersiapkan siswa untuk ujian ini.
Tes ini telah menyebar ke seluruh sejarah kita. Bahkan lebih luas di abad baru ini yang mencoba mendefinisikan hubungan kita dengan pertanyaan tentang kepercayaan, pengetahuan, dan bahkan kenyataan. Kami tampaknya terus menerus siap sebagai masyarakat untuk menyalahkan sekolah ketika masyarakat pada umumnya memiliki masalah. Politisi sering memicu ketidakpercayaan terhadap sekolah dan ketidakpuasan terhadap kualitas kurikulum dan pengajaran. No Child Left Behind diciptakan oleh politisi, bukan pendidik. Nation at Risk adalah kritik politik terhadap sistem pendidikan Amerika. Race to the Top adalah binatang politik yang sebagian besar didasarkan pada mitos tentang sekolah-sekolah Amerika.
David C. Berliner dan Gene V. Glass telah menulis sebuah buku berjudul 50 Myths and Lies yang Mengancam Sekolah Umum Amerika. Mitos 1 adalah tes internasional mengungkapkan bahwa sekolah A.S. menghasilkan pendidikan kelas dua. Perbandingan semacam itu terlalu banyak menjadi skor. Berliner dan Glass juga menunjukkan bahwa Amerika Serikat jauh lebih heterogen daripada negara-negara industri lainnya. Anda memerlukan lebih banyak informasi untuk menentukan siapa yang memiliki sistem sekolah yang lebih baik. Dan, seperti yang mereka katakan, “lebih baik untuk siapa? lebih baik pada kriteria apa? "

D.1  Tes Berisiko Tinggi
Wayne Au menunjukkan bahwa suatu ujian sangat berisiko ketika informasi yang diberikannya digunakan membuat keputusan penting yang berdampak pada semua pemain pendidikan yang terlibat langsung dalam mengajar dan mengelola sekolah. Juga, data dapat mempengaruhi seluruh sekolah dan komunitas itu sendiri. Tes berisiko tinggi menentukan apakah seorang siswa lulus dari sekolah menengah. Tes semacam itu dapat digunakan untuk memutuskan gaji guru dan administrator.
Pendidikan itu mahal. Masyarakat semakin khawatir dengan mendapatkan yang terbaik untuk uang mereka. Masyarakat menuntut sekolah mempertahankan standar akademik yang tinggi. Tentunya, setiap orang menginginkan yang terbaik yang bisa diperoleh. Orang tua menyadari apa yang dipelajari siswa di sekolah akan berkontribusi dalam cara-cara penting untuk kesuksesan masa depan mereka. Sekolah dan pendidikan adalah bagian integral dari permainan kehidupan berisiko tinggi.
Asosiasi nasional spesialis konten dan disiplin telah menciptakan standar yang mempertimbangkan pengetahuan siswa tentang konten, keterampilan, dan prosedur khusus. Standar Dewan Nasional Guru Matematika, Dewan Riset Nasional (yang menetapkan standar sains), Dewan Nasional untuk Studi Sosial, dan Dewan Nasional Guru Bahasa Inggris telah secara signifikan mempengaruhi penilaian. Departemen pendidikan negara bagian, serta sebagian besar distrik sekolah A.S., telah memperhatikan standar-standar ini dan permintaan publik agar dipenuhi. Standar-standar ini disediakan untuk memandu tindakan kurikuler dan pengajaran guru dan memengaruhi tingkat kinerja yang harus ditunjukkan siswa.
Namun, apakah standar yang akan digunakan sebagai panduan. Semakin banyak pendidik menganggap standar bukan sebagai panduan untuk tindakan guru dan siswa, tetapi sebagai kontrol dan peraturan tentang apa yang terjadi terkait dengan kurikulum dan strategi pengajaran. Tes standar dengan taruhan tinggi digunakan sebagai instrumen untuk menentukan seberapa dekat pendidik dan siswa mematuhi standar yang paling sering ditetapkan dari jauh. Jika siswa dan guru kehilangan nilai mereka, mereka akan dihukum. Pelajar mungkin tidak maju atau mendapatkan ijazah, atau guru mungkin tidak punya kontrak diperbaharui. Sekolah bahkan bisa dimatikan.
Au mencatat bahwa dengan penekanan pada pengujian berisiko tinggi, ada penyempitan konten kurikulum. Konten dipilih untuk mencocokkan apa yang ada dalam tes. Subjek penting hanya yang diuji. Subjek yang dianggap tidak penting menerima sedikit penekanan atau dihilangkan. Banyak sekolah telah mengurangi atau menghilangkan bidang pelajaran seperti seni dan musik. Beberapa sekolah bahkan menghilangkan praktik—tidak dalam ujian. Pendidikan jasmani biasanya bukan bagian dari gambar pengujian berisiko tinggi.
Au menyarankan bahwa pengujian dengan risiko tinggi mengontrol tidak hanya konten, tetapi juga cara di mana konten dialami. Pengajaran ke bentuk tes bentuk kurikulum—“organisasi  makna dan tindakan, termasuk urutan di mana [siswa] diperkenalkan ke konten dan bentuk yang dibutuhkan pengetahuan itu sendiri, dalam kurikulum." Aliran organisasi pengetahuan kurang baik sebagai pengetahuan konten dibedah sehingga cocok dengan bagaimana tes berisiko tinggi akan mengukur penguasaan siswa terhadapnya.
Tidak hanya konten yang dibentuk dan diorganisasi untuk mencerminkan apa yang terkandung dalam tes berisiko tinggi, tetapi guru harus melepaskan strategi pengajaran mereka dan menerima pedagogi yang berkorelasi “dengan bentuk pengetahuan dan konten yang terkandung dalam tes berisiko tinggi. ”Beberapa menyatakan bahwa guru meninggalkan apa yang mereka anggap praktik terbaik agar sesuai dengan pendidikan berbasis standar dan untuk dinilai bertanggung jawab.
Standar dari organisasi profesional dan lainnya, baik negeri maupun swasta, sudah pasti meningkatkan pengujian di sekolah negeri. Saat ini, ada banyak kontroversi mengenai kesehatan dan konsekuensi pengujian untuk memenuhi standar tertentu. Apakah kita ingin mempersempit kurikulum? Apakah kita berhasrat untuk membentuk caranya konten kurikulum diatur? Apakah kita ingin membatasi kreativitas guru dengan cara mereka mengatur pengajaran mereka? Akhirnya, apakah kita menginginkan berbagai sumber luar di tingkat lokal, negara bagian, dan bahkan federal untuk menentukan kebijakan sekolah berkenaan dengan kurikulum, instruksi, dan pendekatan untuk evaluasi?
Berdasarkan yang dilakukan, atau setidaknya, bahwa pendidik tidak mampu menandingi permintaan untuk menjadi akuntabel dan efisien. Tentu saja, pendidik memang ingin bertanggung jawab; mereka ingin dalam mendidik siswa secara efektif. Namun, apakah kriteria utama untuk mengevaluasi efisiensi pendidikan adalah jumlah maksimum pengetahuan konten yang dipelajari dalam waktu paling sedikit dan kecepatan di mana keterampilan ditunjukkan dengan tingkat pencapaian yang tinggi? Sebagai Taubman menegaskan, tampaknya pengujian, terutama pengujian berisiko tinggi, adalah sekarang tidak mendefinisikan hanya pendekatan kami untuk pendidikan, tetapi apa yang kami maksud dengan siswa dan guru "mengetahui" dan kompetensi.
Saat ini, semua negara bagian memiliki program pengujian di seluruh negara. Sejumlah besar sekolah memiliki program pengujian di tempat mereka sendiri. Pengujian, tampaknya, hampir merupakan kegiatan pendidikan utama sekolah. Seringkali, seperti yang disarankan sebelumnya, apakah siswa naik ke kelas berikutnya atau lulus tergantung pada apakah mereka lulus atau gagal dalam ujian tertentu. Guru yang siswanya lulus ujian cenderung lebih baik daripada guru yang siswanya gagal. Beberapa orang, seperti yang ditunjukkan sebelumnya, merekomendasikan bahwa gaji guru harus ditentukan oleh kinerja siswa mereka pada tes berisiko tinggi ini. Bayaran untuk kinerja telah menjadi berita selama lebih dari satu dekade. Matthew Springer dan Catherine Gardner mencatat itu Google News melaporkan pada 2010 bahwa rata-rata 4.558 berita per tahun berkaitan dengan gaji guru ditentukan oleh kinerja siswa dalam ujian. Negara-negara seperti Texas, Florida, dan Minnesota telah mengalokasikan lebih dari setengah miliar dolar untuk program pembayaran insentif yang bertujuan memberi penghargaan kepada guru untuk pengajaran "efektif". Pendanaan Dana Insentif Guru federal meningkat empat kali lipat pada tahun 2010. Program Ras ke Atas menekankan pada pembayaran kinerja. Program ini telah mengalokasikan lebih dari $4 miliar untuk upaya ini.
Tampaknya, seperti yang ditegaskan Springer dan Gardner, upah untuk kinerja siap menjadi faktor realitas ketika mengevaluasi efektivitas pendidikan. Karena itu, pendidik dan mereka yang mengadvokasi peningkatan efektivitas pendidikan harus bertanya pada diri sendiri tentang bagaimana kita mendefinisikan kinerja guru dan siswa. Tentu saja, satu skor pada tes taruhan tinggi tidak dapat menjadi satu-satunya indikator penentu. Seperti yang Taubman peringatkan, “dalam mereduksi semua orang dan segala sesuatu menjadi data yang dapat diukur dari skor tes dan catatan kehadiran hingga kinerja pada lembar perilaku, semua detail historis, pribadi, istimewa, dan spesifik konteks tentang orang atau peristiwa dihapus, menciptakan, seperti halnya antropolog Geoffrey C. Bowker menyatakan, "informasi yang paling tidak mungkin yang dapat dibagikan tentang peristiwa, benda, dan orang-orang sambil tetap mempertahankan wacana yang menyenangkan di sekitar mereka."
Telah disebutkan dalam bab sebelumnya bahwa ketika standar ditekankan pada saat menciptakan tujuan, dan sasaran, ada kecenderungan untuk terlibat dalam kegiatan yang membakukan pengalaman pendidikan baik guru maupun siswa. Kami mengutip beberapa peringatan. Taubman menyatakan bahwa dalam menegakkan standar dan standarisasi kurikulum dan pengajaran, kita membahayakan keunikan individu. Dengan menggunakan metrik yang sama untuk mengukur "pencapaian standar," kami memecah semangat dan perilaku manusia menjadi kesamaan yang melintasi batas, baik secara geografis maupun intelektual. Mempekerjakan metrik yang sama mengabaikan bahwa siswa beragam, unik, dan berbeda dalam kemampuan, minat, nilai, kepercayaan, kecemasan, disposisi, dan gaya bahasa.
Pengujian dengan risiko tinggi telah menyebabkan banyak guru membuat permainan sistem—tidak hanya mengajar pada ujian, tetapi juga membimbing siswa dengan contoh soal ujian atau bahkan memaafkan siswa yang mungkin tidak berhasil dalam ujian untuk mendapatkan “hari libur”. Meskipun bermain game sistem mungkin meningkatkan nilai tes, apakah skor semacam itu merupakan bukti pembelajaran berkualitas tinggi? Memang, itulah pertanyaan utama yang berkaitan dengan semua tes, baik yang dibuat guru atau standar. Apa yang dihasilkan skor yang sebenarnya memberitahu Anda Menurut Alfie Kohn, tes, terutama tes standar, memberikan sedikit informasi tentang apa yang benar-benar diketahui dan dapat dilakukan siswa. Tes dapat menunjukkan bahwa beberapa siswa lebih cakap dari yang lain, tapi kami masih belum tahu seberapa mahir setiap siswa mengenai materi pelajaran tertentu. Demikian juga, tes dapat menunjukkan bahwa siswa satu guru memperoleh skor lebih tinggi daripada guru lain, tetapi skor tersebut tidak mencatat dengan ketepatan apa pun apakah satu guru lebih efektif daripada yang lain.
Tampaknya sebagian besar tes yang dilakukan oleh sekolah A.S. mengukur pengetahuan dengan cara yang tidak canggih. Berbagai studi telah menunjukkan bahwa tes ini hanya mengharuskan siswa berpikir secara relatif dangkal. Pada dasarnya, mereka menguji pengetahuan yang dangkal, bukan pemahaman.

D.2  Tes Normal
Tes normal dalam bahasa inggris Norm-Referenced Test (NRT) adalah yang paling umum digunakan. Kinerja seorang siswa pada tes tertentu dibandingkan dengan siswa lain yang merupakan teman sebayanya. Item dalam NRT biasanya membahas area konten yang luas. Para siswa, sebagai sebuah kelompok, menetapkan suatu norma. Siswa dapat dikelompokkan berdasarkan usia, tingkat kelas, etnis, jenis kelamin, lokasi geografis, atau faktor lain yang mudah dikategorikan. Untuk membuat perbandingan di antara para siswa, tes-tes ini harus diberikan kepada para siswa dengan cara dan format yang sama dan pada dasarnya pada waktu yang sama. Cara penilaian tes juga harus sama untuk memberikan data perbandingan yang bermakna.
Tes prestasi terstandar mungkin merupakan NRT yang paling terkenal. Mereka memberikan informasi yang berguna dalam menentukan peringkat masing-masing siswa atau kelompok siswa. Secara khusus, tes-tes ini mengidentifikasi siswa mana yang berhasil dalam pembelajaran mereka dan siswa mana yang mungkin memerlukan remediasi. Apakah siswa yang mengikuti tes ini mengalami kemajuan pada tingkat yang sebanding dengan rekan-rekan mereka? Jika kelompok siswa diuji hanya sekali, hasil tes memiliki nilai yang dipertanyakan untuk mengukur kualitas kurikulum atau pengajaran. Namun, ketika tes tersebut dilakukan setiap tahun pada saat yang sama, maka data uji dapat memberikan informasi yang menggambarkan pola yang mengungkapkan kedua kualitas dan kekurangan dari kurikulum dan strategi pengajaran. Namun, para guru harus menyadari bahwa NRT tidak secara spesifik berhubungan dengan kurikulum tertentu, dan mereka tidak secara efektif mengukur apa telah diajarkan. Mereka tidak menunjukkan apa yang seorang siswa dapat atau tidak dapat melakukan, juga tidak memberikan bukti bahwa seorang siswa mengetahui atau tidak tahu konten tertentu. Selain itu, banyak pendidik gagal untuk menyadari bahwa tes prestasi standar yang berbeda tidak dapat dipertukarkan. Ketika pendidik menggunakan tes tertentu untuk memberi peringkat siswa mereka sehubungan dengan siswa lain yang telah mengambil tes prestasi standar berbeda, peringkat tidak dapat diterima dengan percaya diri. Ketika negara bagian menggunakan tes tersebut untuk membandingkan siswa mereka dengan siswa di negara bagian lain, mereka tidak dapat mencapai kesimpulan yang bermakna mengenai nilai relatif dari kurikulum mereka.
W. James Popham menyalahkan komunitas pendidikan dan masyarakat umum karena mengabaikan sifat tes standar yang digunakan dalam perbandingan kurikulum atau berbagai upaya penelitian pendidikan lainnya. Dia menyatakan bahwa "pemeriksaan yang tidak memadai dari tes yang digunakan dalam penyelidikan kunci sangat menyakitkan setiap kali hasil studi menunjukkan bahwa tidak ada perbedaan yang signifikan antara prestasi siswa dari satu kelompok ke kelompok lain". Dia menunjukkan bahwa pelaporan tidak signifikan perbedaan menghalangi kita dari kesimpulan yang berguna. Tes prestasi terstandarisasi tidak dapat mendeteksi "perbedaan antara siswa yang diajar secara efektif dan siswa yang diajarkan secara tidak efektif”.
Penelitian menunjukkan bahwa tes prestasi terstandarisasi sangat berkorelasi dengan status sosial ekonomi siswa. Korelasi positif yang tinggi ini mengaburkan dampak upaya pendidikan seperti kurikulum yang baru. Terlepas dari keterbatasan ini, pendidik terus menggunakan tes standar untuk menentukan keberhasilan kurikulum dan evaluasi guru efektivitas. Pendidik terus menggunakan tes tersebut untuk memberi peringkat siswa di berbagai sekolah dan untuk menentukan siswa mana yang harus maju atau lulus.

D.3  Tes Kriteria
Alternatif yang paling umum untuk NRT adalah tes kriteria dalam bahasa inggris Criterion-Referenced Test (CRT). CRT dirancang untuk menunjukkan bagaimana seorang siswa melakukan keterampilan atau tugas, atau memahami konsep, sesuai dengan kriteria atau standar yang telah ditentukan. Penampilan keterampilan atau tugas diukur berdasarkan apa yang didefinisikan sebagai standar kecakapan atau prestasi. Kedalaman pemahaman konsep atau konten tertentu diukur dengan standar konten.
Saat ini, banyak dari standar ini dibuat oleh kelompok di luar sekolah (lembaga pendidikan negara atau legislatif negara bagian). Seringkali, standar dipecah menjadi tujuan spesifik, sering dinyatakan dalam istilah perilaku. Misalnya, CRT mungkin memerlukan pelajar untuk mengidentifikasi garis bujur dan garis lintang pada peta atau untuk mengalikan angka dua digit. Deskripsi pembelajaran yang digambarkan dengan baik adalah fitur utama dari tes tersebut. Kekhususan ini memungkinkan pendidik untuk menentukan dengan tepat apa yang diketahui atau tidak diketahui siswa—atau dapat atau tidak dapat dilakukan—sehubungan dengan kurikulum tertentu. Skor pada setiap item menarik minat evaluator. Guru ingin siswa menguasai konten, keterampilan, atau sikap yang dibahas dalam setiap item. Guru dan siswa akan bertahan sampai siswa mengerjakan soal tes dengan benar.
CRT menunjukkan perubahan dalam pembelajaran dari waktu ke waktu (sebaliknya, NRT mengukur pembelajaran pada waktu tertentu). Seperti yang ditunjukkan Taylor dan Nolen, CRT buatan guru yang paling sering adalah diberikan untuk menentukan kemahiran belajar siswa dalam kaitannya dengan standar atau tujuan. Agar CRT menunjukkan penguasaan siswa, kriteria harus sesuai. Sebagian besar pendidik menganggap 80 persen benar sebagai indikasi penguasaan. Mengapa? Kami tidak tahu persis, tetapi 80 persen tampaknya menunjukkan tingkat kinerja yang tinggi. Namun, kita harus mempertimbangkan kesesuaian usia item tes. Kalau tidak, item tes mungkin sangat mudah sehingga setiap orang mendapat skor 80 persen atau lebih tinggi, atau sangat sulit sehingga tidak ada yang melakukannya. Kita juga harus bertanya pada diri sendiri apakah standar 80 persen sesuai untuk semua peserta didik di semua bidang kurikulum. Tingkat penguasaan 80 persen mungkin cukup untuk memahami buku tetapi tidak cukup untuk melakukan percobaan sains. Demikian juga, 80 persen tidak memadai sehubungan dengan latihan akuntansi (yang membutuhkan akurasi 100 persen).
W. James Popham mencatat bahwa ketika pendidik menggunakan tes kriteria, mereka perlu mempertimbangkan apa yang merupakan ukuran butir optimal. Ia mendefinisikan ukuran butir sebagai “luasnya domain kriteria”. Kami akan menambahkan, haruskah semua siswa mencapai butir yang sama atau identik di semua bidang studi di mana kriteria telah diidentifikasi? Dalam meningkatkan pertanyaan ini, Popham melihat kriteria bukan sebagai tingkat kinerja, tetapi kriteria sebagai domain. Dia mencatat bahwa sementara menilai kinerja siswa adalah penting, tujuan kriteria pengukuran yang direferensikan kriteria adalah untuk secara spesifik menggambarkan keterampilan atau pengetahuan yang dinilai. Kami menegaskan bahwa tes ini keduanya menunjukkan tingkat kinerja keterampilan khusus dan konten kurikuler. Popham memperingatkan bahwa jika ukuran butir isi dan keterampilan terlalu sempit atau terlalu luas, itu tidak akan bernilai dalam menilai efektivitas pedagogi atau kurikulum.
Ukuran butir pada dasarnya berkaitan dengan tingkat kekhususan. Jika spesifisitas CRT sangat kuat, seperti disebutkan sebelumnya, hal itu dapat merugikan. Karena tes tersebut membahas tujuan khusus, sebanyak 10 hingga 15 tes mungkin diperlukan untuk mendapatkan gambaran menyeluruh tentang kurikulum.
Nilai utama CRT adalah bahwa mereka adalah kurikulum khusus. Mereka memungkinkan evaluator kurikulum untuk menilai kurikulum baru di sekolah mereka. Evaluator juga dapat menentukan efektivitas ranah pengajaran dan apakah konten dan keterampilan tertentu telah diajarkan. Tes adalah alat yang baik untuk menilai pembelajaran siswa dan pendekatan pedagogis guru.
Tidak mudah untuk menentukan standar kinerja yang dapat diterima. Berapa skor memotong penguasaan seorang pendidik yang objektif, biasanya mengatur skor kelulusan menjadi sewenang-wenang. Mungkin kritik paling serius terhadap CRT adalah bahwa sebagian besar kekurangan informasi mengenai keandalannya. Bahkan, sebagian besar dibangun tanpa memperhatikan keandalan. Namun, CRT memiliki kurikulum validitas: Item biasanya bertepatan dengan tujuan kurikulum. Tabel 2 menyajikan perbandingan NRT dan CRT.

Tabel 2. Perbandingan Tes Normal (NRT) dan Tes Kriteria (CRT)
No
Karakteristik
Tes Normal (NRT)
Tes Kriteria (CRT)
1
Perbandingan dibuat
Skor ke nilai rata-rata grup
Skor ke nilai standar minimum
2
Tujuan
Survei
(tes prestasi)
Penguasaan
(tes kinerja)
3
Validitas
Konten/kriteria/dasar
Konten/
validitas kurikulum
4
Tingkat validitas
Bergantung pada instruksi
Biasanya tinggi
5
Reliabilitas
Biasanya tinggi
Biasanya tidak diketahui
6
Pentingnya Reliabilitas untuk menguji model
Penting
Tidak penting

7
Sifat diukur
Ada dalam berbagai tingkat
Ada atau tidak ada
8
Kegunaan
Diagnosis
Kemampuan umum rendah
Masalah khusus
Estimasi Kinerja
Luas
Spesifik
Dasar untuk pengambilan keputusan
Berapa banyak yang dipelajari
Apa yang telah dipelajari
9
Kesulitan Item
Sedang
Mudah
10
Administrasi
Standar
Variabel
11
Ukuran kelompok diuji
Besar
Kecil
12
Pembatasan konten
Luas
Sempit
13
Keterampilan diuji
Terintegrasi
Terisolasi
14
Pengendalian Konten
Penerbit
Instruktur atau sekolah
15
Kelemahan
Ketidakmampuan personel sekolah untuk
menafsirkan tes di tingkat lokal
Kesulitan membangun tes yang berkualitas
16
Multifungsi
Luas
Terbatas
17
Perbandingan antar sekolah
Tersedia
Belum dikembangkan
18
Distribusi skor
Normal (satu)
Persegi (dua)
19
Rentang skor
Tinggi
Rendah
20
Pengulangan tes jika gagal
Tidak ada (satu test)
Sampai penguasaan terjadi
21
Dasar untuk materi
Pendapat ahli
Kurikulum lokal
22
Kualitas item
Tinggi
Bervariasi, tergantung pada kemampuan
konstruktor uji
23
Uji Coba
Iya
Tidak
24
Dasar kualitas item
Diskriminasi tinggi
Item adalah materi
25
Persiapan siswa
Belajar untuk ujian tidak banyak membantu
Belajar untuk ujian banyak membantu
26
Mengajar untuk menguji
Sulit dilakukan
Didepankan
27
Standar
Rata-rata
Tingkat kinerja
28
Skor
Peringkat, standar nilai, atau jumlah yang benar
Lulus atau gagal
29
Jenis ukuran
Relatif
Mutlak
30
Tujuan


Peringkat siswa
Meningkatkan instruksi
....lanjutan tabel
31
Revisi uji
Tidak memungkinkan
Sering diperlukan
32
Informasi siswa tentang pengujian materi
Sedikit tersedia
Diketahui sebelumnya
33
Motivasi siswa
Menghindari kegagalan
Memungkinkan keberhasilan
34
Kompetisi
Dari siswa untuk siswa
Dari siswa untuk kriteria
35
Domain instruksi
Kognitif
Kognitif atau psikomotor
Sumber: Berdasarkan Allan C. Ornstein and David A. Gilman, “The Striking Contrasts between Norm-Referenced and Criterion-Referenced Tests,” Pendidikan Kontemporer (Musim Panas 1991), halaman 293.

D.4  Tes Subjektif
NRT dan CRT keduanya dikategorikan sebagai tes objektif. Ini pada dasarnya berarti bahwa pertanyaan tes memiliki satu jawaban yang benar. Namun, evaluator kurikulum juga memiliki akses ke tes subyektif (respon yang dibangun). Tes-tes ini memiliki banyak tanggapan yang benar untuk setiap pertanyaan. Untuk alasan ini, mereka jauh lebih sulit untuk dinilai daripada tes objektif. Seringkali, kedalaman atau kreativitas responslah yang menentukan peringkat evaluatif. Tes esai bersifat subyektif. Gaya, wawasan, orisinalitas, penggunaan informasi yang akurat, kekuatan argumen, dan pengetahuan topik adalah kriteria penilaian esai. Jika pendidik ingin menggunakan pertanyaan esai untuk membandingkan siswa atau program, pertanyaan esai yang disajikan harus sama untuk semua siswa.

E.       Penilaian Alternatif
Sejak pertengahan tahun 1980-an, para ahli pendidikan banyak berbicara mengenai kelemahan tes baku yang peranannya semakin dominan dalam system persekolahan. Tes baku yang didasarkan pada prinsip validitas, reliabilitas, keamanan, kemanfaatan dan akurasi suatu pengukuran hasil belajar, semakin luas dipersoalkan karena dianggap sebagai bagian yang terisolir dari proses belajar secara keseluruhan.
Secara sederhana, penilaian alternatif diartikan sebagai pemanfaatan pendekatan non-tradisional untuk member penilaian kinerja atau hasil belajar siswa. Istilah tradisional yang digunkan dalam konteks pengertian diatas terutama adalah tes kertas pensil atau lebih khusus lagi adalah tes baku yang menggunakan perangkat tes objektif. Ada kalanya istilah penilaian alternatif diidentikkan dengan penilaian istilah lain seperti penilaian otentik dan penilaian kinerja. Disebut sebagai penilaian otentik karena penilaian alternatif sengaja dirancang untuk menjamin keaslian dan kejujuran penilaian serta hasilnya terpecaya. Disebut penilaian kinerja, karena siswa diminta menunjukkan penguasaannya tentang bidang ilmu tertentu, menjelaskan dengan kata-kata dan caranya sendiri tentang peristiwa tertentu.
Istilah penilaian alternatif secara luas didefinisikan sebagai metode penilaian apapun yang alternatif untuk kertas tradisional-dan-pensil tes. Memerlukan penilaian alternatif siswa untuk menunjukkan keterampilan dan pengetahuan yang tidak dapat dinilai dengan menggunakan berjangka waktu pilihan ganda atau tes benar-salah. Ini berusaha untuk mengungkapkan siswa berpikir kritis dan evaluasi keterampilan dengan meminta siswa untuk menyelesaikan tugas-tugas terbuka yang sering mengambil lebih dari satu periode kelas untuk menyelesaikan. Sementara pengetahuan berdasarkan fakta masih merupakan komponen pembelajaran yang dinilai, dengan pengukuran bukan satu-satunya tujuan dari penilaian. Alternatif penilaian hampir selalu guru-dibuat dan terkait erat dengan kurikulum yang dipelajari di kelas. Bentuk penilaian biasanya disesuaikan kepada para siswa dan pokok itu sendiri.
Dalam 1990-an, baru ada alternatif cara berpikir tentang belajar dan menilai pembelajaran yang diperlukan. Beberapa ahli seperti Gardner,  Fodor, Sternberg, Perkins, Gruber menunjukkan bahwa individu yang kreatif tidak memiliki mental yang unik modul, tetapi mereka menggunakan apa yang mereka miliki lebih efisien dan fleksibel cara. Seperti individu sangat reflektif tentang kegiatan mereka, mereka menggunakan waktu, dan kualitas produk mereka.
Maka, dapat  disimpulkan fungsi penilaian alternatif adalah sebagai berikut :
1)        Sebagai pemantauan kemampuan dan kinerja siswa . 
2)        Sebagai proses yang melibatkan siswa dan guru dalam melakukan penilaian tentang siswa kemajuan dalam bahasa menggunakan strategi non-konvensional.
3)        Untuk menilai kompetensi, termasuk orang-orang yang melibatkan individu dalam membuat  penilaian diri. 
4)        Sebagai "kemampuan untuk melakukan berbagai occupationally atau profesional yang relevan dengan tugas-tugas komunikatif
5)        Melibatkan siswa dalam pengambilan keputusan tentang mana lembar kerja mereka untuk menilai, dan untuk menjamin bahwa umpan balik disediakan.
Karateristik utama penilaian alternatif tidak hanya mengukur belajar siswa, tapi secara lengkap memberi informasi yang lebih jelas tentang proses pembelajaran. Berikut ialah empat asumsi pokok penilaian kinerja:
1)        Didasarkan pada partisipasi aktif siswa.
2)        Tugas-tugas yang diberikan/dikerjakan oleh siswa merupakan bagian yang tak terpisahkan dari keseluruhan proses pembelajaran.
3)        Penilaian tidak hanya mengetahui posisi siswa dalam proses pembelajaran, melainkan juga untuk memperbaiki proses pembelajaran.
4)        Dengan mengetahui lebih dulu criteria yang digunakan, siswa akan terbuka dan aktif berupaya untuk mencapai tujuan pembelajaran.
Ada banyak cara untuk mengimplementasikan penilaian alternatif, dalam kelas. Walau bagaimanapun penilaian alternative mungkin akan menunjukkan sebagian besar karakteristik ini:
1)      Penilaian ini didasarkan pada tugas-tugas otentik yang menunjukkan kemampuan peserta didik untuk mencapai tujuan komunikasi
2)      Instruktur dan peserta fokus pada komunikasi, bukan pada jawaban yang benar dan yang salah
3)      Membantu peserta didik untuk menetapkan kriteria untuk berhasil menyelesaikan tugas komunikasi
4)      Peserta didik memiliki kesempatan untuk menilai diri mereka sendiri dan rekan-rekan mereka.
5)      Meminta para siswa untuk melakukan, menciptakan atau menghasilkan sesuatu.
6)      Mendorong mahasiswa refleksi diri.
7)      Mengukur hasil signifikansi.
8)      Keran berpikir tingkat tinggi dan keterampilan pemecahan masalah.
9)      Menggunakan tugas-tugas yang mewakili kegiatan instruksional bermakna.
10)  Memanggil aplikasi dunia nyata.
11)  Menggunakan penilaian manusia (bukan mesin) untuk skor.
12)  Memerlukan baru peran instruksional dan penilaian untuk guru.
13)  Memberikan penilaian diri kesempatan bagi siswa.
14)  Menyediakan kesempatan bagi individu maupun kerja kelompok.
15)  Mendorong siswa untuk melanjutkan aktivitas belajar di luar ruang lingkup penugasan.
16)  Eksplisit mendefinisikan kriteria kinerja.
17)  Membuat penilaian sama pentingnya dengan kurikulum dan pengajaran
Penilaian alternatif mengambil banyak bentuk, sesuai dengan sifat keterampilan dan pengetahuan yang sedang dinilai. Siswa biasanya diminta untuk menunjukkan pembelajaran dengan menciptakan sebuah produk, seperti pameran atau presentasi lisan, atau melakukan suatu keterampilan, seperti melakukan sebuah eksperimen atau demonstrasi.
Tiga variasi penilaian alternatif adalah penilaian berbasis kinerja, penilaian autentik, pameran dan penilaian portofolio. Dalam situasi tertentu, lebih dari satu bentuk mungkin terlibat.Sebuah deskripsi singkat dari masing-masing berikut.

E.1        Penilaian Kinerja
Istilah ini mengacu pada berbagai kegiatan penilaian guru yang memberikan kesempatan untuk mengamati siswa menyelesaikan tugas-tugas dengan menggunakan keterampilan yang sedang dinilai. Sebagai contoh, di kelas sains, daripada mengambil tes pilihan ganda tentang eksperimen ilmiah, siswa benar-benar melakukan percobaan laboratorium dan menulis tentang proses dan pilihan-pilihan mereka dalam laporan laboratorium.
Tujuan tugas dalam penilaian unjuk kerja adalah untuk mengetahui apakah yang diketahui siswa dan apakah yang mereka lakukan. Penilaian unjuk kerja bisa dimulai secara perlahan dan teratur. Tidak harus menilai unjuk kerja setiap hari atau tidak dilakukan sama sekali
Akan tetapi karena penilaian unjuk kerja menilai pemahaman siswa, maka lebih baik mengunakan penialaian dengan komentar dari pada nilai numerik. Sebab nilai memberi kesan pada siswa bahwa pekerjaan itu berhasil, sebagian, atau tidak sama sekali. Komentar guru dapat memberikan pandangan pada siswa akan pemahamannya dan merupakan dasar pekerjaan berikutnya. Dua hal yang harus ada dalam penilaian unjuk kerja adalah standar unjuk kerja harus ditetapkan dan tugas unjuk kerja harus ditulis sehingga dapat dievaluasi menggunakan standar yang ditetapkan tersebut.

E.2        Penilaian Autentik
Pendekatan ini mencoba untuk menyambung penilaian dengan dunia nyata. Hal ini membutuhkan siswa untuk menerapkan ketrampilan dan pengetahuan untuk penciptaan produk atau kinerja yang berlaku untuk situasi di luar lingkungan sekolah. Biologi guru dapat menilai siswa memahami proses ilmiah dan kolaborasi dengan meminta siswa mengambil bagian dalam Audubon tahunan pengumpulan dan analisis populasi burung penyanyi lokal. Sebuah kegiatan penilaian autentik oleh siswa yang menunjukkan atau melakukan apa yang telah mereka pelajari. Sebuah pameran mungkin sebuah proyek, esai, secara lisan atau tertulis laporan atau kinerja, portofolio, atau karya seni. Efektif pameran mendefinisikan dasar-dasar belajar dan fokus kurikulum, guru dan siswa.

E.3        Penilaian Portofolio
Penilaian portofolio adalah proses yang berkesinambungan yang melibatkan siswa dan guru dengan memilih sampel karya siswa untuk dimasukkan dalam koleksi, tujuan utamannya adalah untuk kemajuan siswa. Penggunaan prosedur ini meningkat dibidang bahasa, terutama yang berkaitan dengan keterampilan menulis. Hal itu  membuat intuitif akal untuk melibatkan siswa dalam pengambilan keputusan tentang mana lembar kerja mereka untuk menilai, dan untuk menjamin bahwa umpan balik disediakan. Guru dan rekan review merupakan hal penting. Mungkin keuntungan terbesar dari penilaian portofolio adalah bahwa siswa diajarkan untuk menjadi pemikir independen. Penting untuk diingat bahwa portofolio lebih dari folder sederhana mahasiswa bekerja.
Portofolio biasanya terdiri dari pekerjaan yang telah menyelesaikan lebih dari satu periode penilaian atau semester. Guru menggunakan portofolio mengharuskan mahasiswa untuk meninjau pekerjaan mereka dan memilih item yang paling menunjukkan bahwa tujuan pembelajaran telah dipenuhi. Sering kali siswa juga menulis esai merefleksikan apa yang telah mereka pelajari, termasuk proses-proses mereka telah digunakan untuk memenuhi tujuan mereka. Portofolio dapat berbasis kertas, berbasis komputer, atau kombinasi keduanya. Pada akhirnya, mereka harus dinilai terhadap seperangkat kriteria yang telah ditetapkan dan akan memberikan bukti pembelajaran yang telah terjadi dari waktu ke waktu.

Tabel 3. Perbandingan Penilaian Alternatif dan Penilaian Tradisional
Penilaian Alternatif
Penilaian Tradisional
Sampel: eksperimen, debat, portofolio, dan produk siswa.
Sampel: tes pilihan ganda, kecocokan, benar-salah, dan penyelesaian.
Penilaian berdasarkan pengamatan dan subjektif, namun profesional.
Penilaian berdasarkan rekaman objektif dan interpretasi skor.
Fokus pada masing-masing siswa berdasarkan pembelajaran mereka.
Lebih memfokuskan pada skor pribadi siswa daripada kolektif.
Evaluator mampu membuat cerita evaluasi mengenai individu dan kelompok.
Evaluator mampu menyajikan pengetahuan siswa sebagai skor saja.
Evaluasi yang cenderung istimewa.
Evaluasi yang cenderung general.
Memberikan data dengan cara yang memungkinkan instruksional.
Memberikan data dengan cara yang menghambat instruksional.
Memungkinkan siswa untuk berpartisipasi dalam penilaian mereka.
Cenderung menempatkan evaluasi di bawah pengawasan guru atau eksternal.
Sumber: Berdasarkan Dennie Palmer Wolf dan Sean F. Reardon, “Access to Excellence through New Forms of Student Assessment,” dalam Joan Boykoff Baron dan Dennie Palmer Wolf, eds., Penilaian Siswa Berbasis Kinerja: Tantangan dan Kemungkinan, Sembilan Puluh Lima Buku Tahunan Perhimpunan Nasional untuk Studi Pendidikan (Chicago: University of Chicago Press, 1966), hlm. 52–83.

Tabel 3 menyajikan beberapa perbandingan antara penilaian alternatif, penilaian autentik dan penilaian kertas dan pensil tradisional.

F.       Masalah Evaluasi dalam Kehidupan
Evaluasi kurikulum dapat dilihat sebagai proses sosial dan sebagai institusi sosial. Proyek evaluasi yang dikembangkan di Inggris umpamanya, juga di Negara lain, merupakan institusi sosial mempunyai asal-usul, sejarah, struktur serta interest sendiri. Beberaoa karakteristik dari proyek-proyek kurikulum yang telah dikembangkan di Inggris, umpamanya
1)      Lebih berkenaan dengan inovasi daripada kurikulum yang ada
2)      Lebih berskala nasional daripada local
3)      Dibiayai oleh Grant dari luar yang berjangka pendek daripada oleh anggapan tertap
4)      Lebih banyak dipengaruhi oleh kebiasaan penelitian yang bersifat psikometris daripada oleh kebiasaan lama yang berupa penelitian sosial.
Peranan evaluasi kebijaksanaan dalam kurikulum khususnya pendidikan umumnya minimal berkenaan dengan tiga hal, yaitu: Evaluasi sebagai Moral Judgement. Konsep utama dalam evaluasi adalah nilai. Hasil dari suatu evaluasi berisi suatu nilai yang akan digunakan untuk tindakan selanjutnya. Hal ini mengandung dua pengertian, pertama evaluasi berisi suatu skala nilai moral, berdasarkan skala tersebut objek evaluasi dapat dinilai. Kedua, evaluasi berisi suatu perangkat criteria praktis berdasarkan criteria-kriteria tersebut suatu hasil dapat dinilai.
Evaluasi bukan merupakan suatu proses tunggal, minimal meliputi dua kegiatan, pertama mengumpulkan informasi dan kedua menentukan keputusan. Kegiatan yang pertama mungkin juga mengandung segi-segi nilai(terutama dalam memilih sumber informasi dan jenis informasi yang akan dikumpulkan), tetapi belum menunjukkan suatu evaluasi. Dalam kegiatan yang kedua yaitu menentukan keputusan menunjukkan evaluasi, dasar pertimbangan digunakan adalah suatu perangkat nilai-nilai.
Dalam evaluasi kurikulum salah satu hal yang sering menjadi inti perdebatan antara para ahli adalah pemisahan antara pengumpulan dan penyusunan informasi dengan penentuan keputusan.
Pemisahan antara pengumpulan informasi dengan penentuan keputusan merupakan merupakan salah satu karakteristik institusional, hal ini dipengaruhi oleh kebiasaan pemisahan pekerjaan administrator dan peneliti. Dalam pendidikan perbedaan formal tersebut tidak ada, pengumpulan data adalah pengambilan keputusan juga.
Evaluasi dan Penentuan keputusan. Siapa mengambil keputusan dalam pendidikan atau khususnya dalam pelaksanaan kurikulum. Pengambil keputusan dalam pelaksanaan pendidikan atau kurikulum banyak, yaitu: guru, murid, orang tua, kepala sekolah, para inspektur, pengembang kurikulum dll. Siap diantara mereka yang memegang peranan paling besar dalam penentuan keputusan. Pada prinsipnya tiap individu di atas membuat keputusan sesuai dengan porsinya. Besar atau kecilnya peranan keputusan yang diambil seseorang sesuai dengan lingkup tanggung jawabnya seta lingkup masalah yang dihadapinya suatu saat.
Lain halnya dengan keputusan yang diambil oleh seorang guru, ia mengambil keputusan bagi kepentingan seseorang. Demikian juga lingkup keputusan yang diambil oleh kepala sekolah, inspektur, pengembang kurikulum dsb berbeda-beda. Jadi tiap pengambil keputusan dalam proses evaluasi memegang posisi nilai yang berbeda, sesuai dengan posisinya.
Evaluasi dan konsesnsus nilai. Dalam berbagai situasi pendidikan serta kegiatan pelaksanaan evaluasi kurikulum sejumlah nilai-nilai dibawakan oleh orang-orang yang turut terlibat dalam kegiatan penilaian atau evaluasi.
Secara historis konsensus nilai dalam evaluasi kurikulum berasal dari tes mental serta eksperimen. konsensus tersebut berupa  kerangka kerja penelitian, yang dipusatkan pada tujuan khusus, pengukuran prestasi belajar yang bersifat behavioral, penggunaan analisis statistik dari pre test dan post test dll. Model penelitian diatas merupakan suatu social engineering dalam pendidikan. Dalam model penelitian tersebut keseluruhan kegiatan dapat digambarkan dalam suatu flow chart yang merumuskan secara operasional input (pre test) cara-cara serta output (post test).
Model diatas mendapatkan beberapa kritik, tetapi kritik atau kesulitan tersebut yang paling utama adalah dalam merumuskan tujuan khusus yang dapat diterima oleh seluruh partisipan evaluasi kurikulum serta perencanaan kurikulum. Jadi diantara partisipan harus ada persetujuan tentang tujuan-tujuan mana yang paling penting.
Selain harus terdapat konsensus tentang tujuan-tujuan yang ingin dicapai, dalam penggunaan model diatas juga harus ada konsensus tentang siapa diantara partisipan tersebut yang terlibat secar langsung. Tanpa adanya persetujuan tentang hal-hal tersebut maka sukar untuk dapat menyusun flow chart yang definitif. Model sistem approach atau model social engineering bersifat goal based evaluation, karena bertitik tolak dari tujuan-tujuan khusus. Karena model ini mempunyai beberapa keberatan, maka berkembang model evaluasi lain yang lebih bersifat goal free evaluation.
Kontribusi pendidikan bagi pembentukan corak dan kualitas masa depan peradaban umat manusia tidak dapat dipungkiri lagi, apalagi dinafikan. Pendidikan hingga abad modern ini tetap diyakini sebagai tempat strategis untuk membuka wawasan dan memberikan informasi yang paling berharga mengenai makna dan tujuan hidup sebagai norma-norma yang dipegang, membantu generasi muda dalam mempersiapkan berbagai kebutuhan yang esensial untuk menghadapi tantangan perubahan-perubahan di masa depan, menciptakan keseluruhan visi kehidupan individu, masyarakat dan bangsa. Pendidikan merupakan sistem dan cara meningkatkan kualitas hidup manusia dalam segala aspek kehidupan manusia. Pendidikan sebagai usaha sadar yang dibutuhkan untuk menyiapkan anak manusia demi menunjang perannya di masa depan. Demikianlah yang tertulis rapi dalam buku Sanaky “Paradigma Pendidikan Islam Membangun masyarakat Madani Indonesia”.
Ketika melihat konsep beberapa pakar terkait sistem pendidikan yang harusnya dijalankan memang sangat membuat setiap orang seketika takjub. Sebuah teori yang matang dalam memaksimalkan proses pendidikan, mulai dari kurikulum, sarana prasarana, metode pembelajaran, hingga sistem evaluasi. Namun dalam pandangan penulis, yang sudah pernah menempuh sekolah dari Sekolah Dasar hingga Sekolah Menengah, dan sekarang sedang menempuh pendidikan di Pendidikan Tinggi, kontribusi dunia pendidikan dalam menyiapkan generasi muda yang handal masih teramat sangat abstrak.
Terlebih lagi perihal evaluasi pembelajaran yang menjadi wadah pengukuran terkait berhasil atau tidaknya peserta didik menyerap asupan yang diberikan oleh pendidik dalam proses pembelajaran. Evaluasi sangatlah berperan penting dalam memberikan follow up terhadap perkembangan peserta didik, baik dalam aspek kognitif, afektif, ataupun psikomotorik.
Sejauh ini evaluasi yang dijalankan dalam suatu instansi pendidikan atau sekolah-sekolah sangatlah monoton, kalau tidak tes tulis dan tes lisan, paling ya portofolio. Lamanya proses belajar hanya dilihat dari hasil duduk mengerjakan soal dalam waktu yang singkat. Jujur atau tidaknya dalam mengerjakan soal evaluasi tidaklah menjadi hal yang utama. Ketika hal ini dikaitkan dengan Emosional Qustion, sistem penilaian seperti ini sangatlah kurang dibenarkan, seharusnya aspek-aspek itu bersinergi, bukan berdiri sendiri sendiri dan saling melemahkan.
Jika kita melihat realita, kalimat tersebut dapat dibenarkan, yang mana nilai yang tinggi dalam rapor atau ijazah dapat menentukan diterima atau tidaknya sang pemilik nilai dalam melamar pekerjaan. Sehingga bukan menjadi hal yang aneh ketika dalam sekolah atau kuliahnya, peserta didik lebih mengejar nilai akademik yang tinggi dan mengabaikan suatu proses yang baik. Akhirnya pragmatisme menjadi pilihan yang tidak bisa dihindari dalam menggapai masa depan yang diinginkan.
Seharusnya dengan adanya sistem evaluasi ini, pendidik lebih bisa mengarahkan peserta didiknya mencapai hasil belajar yang maksimal, baik dari aspek kognitif, afektif, dan psikomotorik. Evaluasi dapat berperan sebagai wadah antisipasi dan pencegahan akan kegagalan proses pembelajaran.
Dalam memaksimalkan evaluasi pembelajaran memanglah tidak mudah, namun bukan mustahil semua itu bisa dijalankan. Filsuf China mengatakan, tidak ada murid yang buruk, yang ada hanya pendidik yang buruk. Sekilas perkataan filsuf ini memojokkan posisi seorang pendidik, namun disisi lain perkataan ini perlu direnungkan bersama, bahkan menjadi tantangan bagi pendidik atau peserta didik dalam dalam memaksimalkan peran dan fungsinya sebagai orang tua kedua.
Sebenarnya banyak sekali hal-hal yang dapat dilakukan oleh pendidik dalam melaksanakan apa yang disebut dengan evaluasi pembelajaran secara maksimal. Salah satunya, pendidik harus banyak wawasan terkait evaluasi itu sendiri. Karena kesarjanaan seorang pendidik bukanlah menjadi jaminan bahwa ia telah menguasasi semua jenis ataupun komponen dalam sistem evaluasi. Menguasai dan mengembangkan beberapa jenis evaluasi sangat diharapkan dari pendidik yang mengaku dirinya profesional, sehingga evaluasi yang dilaksanakan tidaklah monoton dan stagnan. Karena disadari atau tidak, terkadang pendidik menjalankan suatu proses pembelajaran bukan karena ia mahir dalam hal itu, melainkan karena tidak dikuasainya hal-hal lain yang terkait Akhirnya di sini tidak ada pihak yang akan dirugikan, baik peserta didik maupun lembaga pendidikan itu sendiri.
Selain itu pendidik dapat membentuk hubungan emosional dengan peserta didiknya sebagai pendukung dari segala proses pembelajaran. Karena dalam pandangan penulis, ketika proses pembelajaran disertai dengan hubungan emosional antara pendidik dan peserta didik, proses pembelajaran itu menjadi menyenangkan, dan suasana inilah yang paling diharapkan oleh peserta didik. Kebanyakan siswa terkadang menganggap evaluasi adalah proses yang menyeramkan, dan hubungan emosional penulis kira dapat menghilangkan anggapan itu.

G.      Tantangan Di Abad 21
Peran guru pada kurikulum ini memang berbeda dengan kurikulum lainnya. Jika sebelumnya guru berfungsi hanya sebagai pengajar, maka sekarang mereka harus menjadi fasilitator pembelajaran dengan mengintegrasikan kecakapan abad 21 pada proses pembelajaran bagi peserta didik.
Guru dituntut menciptakan anak didik yang handal ditengah gempuran kepesetan teknologi di era baru abad 21 ini. Apalagi era baru ini hadir dengan standar global dalam bidang koorporasi, produk, layanan, penelitian dan pengembangan global, serta berdampak pada lunturnya nasionalisme dan budaya lokal.
Penerapan kurikulum 2013 diharapkan cita-cita yang terkandung dalam Pembukaan UUD 1945, yaitu mencerdaskan kehidupan bangsa, yang dilanjutkan secara lebih spesifik dalam tujuan pendidikan yang tercantum dalam Undang-Undang Sistem Pendidikan Nasional, No 20 Tahun 2003, terwujud. Dimana pendidikan harus mampu mewujudkan kualitas sumber daya manusia yang beriman dan bertakwa kepada Tuhan Yang Maha Esa, berakhlak mulia, sehat, berilmu, cakap, kreatif, mandiri, demokratis bertanggung jawab, sehingga mampu menjawab tantangan abad 21 dan globalisasi.
Demi menggapai itu semua, guru dilatih agar memahami dan mampu mengembangkan kecakapan abad 21 dalam proses pembelajaran yang meliputi Penguatan Pendidikan Karakter (PPK), kompetensi 4 C dan kecakapan literasi dasar.
Pertama, Peningkatan Kualitas Karakter dilakukan dengan mengimplementasikan program penguatan pendidikan karakter (PPK). Adapun nilai-nilai utama karakter sesuai Peraturan Presiden Nomor 87 Tahun 2017 meliputi nilai religius, nasionalis, mandiri, gotong royong dan integritas.
Kedua Pengembangan Kompetensi 4 C, yang meliputi peningkatan berpikir kritis dan memecahkan masalah (critical thinking and problem solving skills), keterampilan untuk bekerja sama (collaboration skills), kemampuan untuk berkreativitas (creativity skills), dan kemampuan untuk berkomunikasi (communication skills).
Ketiga Literasi Dasar, yang meliputi: Literasi Bahasa dan Sastra, Literasi Numeracy (Berhitung), Literasi Sains, Literasi Digitall, Literasi Keuangan, dan Literasi Budaya dan Kewarganegaraan. Literasi menjadi sarana siswa dalam mengenal, memahami, dan menerapkan ilmu yang didapatkannya di bangku sekolah.
Literasi juga terkait dengan kehidupan siswa, baik di rumah maupun di lingkungan sekitarnya untuk menumbuhkan budi pekerti mulia. Materi untuk menggembleng ratusan ribu guru itu sendiri sudah disiapkan Kemendikbud, tentunya bahannya selaras dengan tujuan. Misalnya untuk jenjang guru SD meliputi materi umum, materi pokok, dan materi penunjang. Materi Umum meliputi unit 1-4 yaitu: Kebijakan dan Dinamika Perkembangan Kurikulum, Penguatan Pendidikan Karakter, Penerapan Literasi dalam Pembelajaran, serta Penyelenggaraan Pelatihan dan Pendampingan. Materi Pokok meliputi:
1)      Analisis, SKL, KI, KD, Indikator, dan Silabus;
2)      Praktik Penyusunan Program Tahunan, Program Semesteran, Pemetaan KD, dan Silabus serta Penyusunan RPP;
3)      Bimbingan Konseling, Bimbingan Psiko Edukasi;
4)      Perencanaan, Pelaksanaaan, Pengolahan dan Pelaporan Hasil Belajar;
5)      Praktik Penyusunan Soal HOTS;
6)      Inspirasi Tayangan Video Pembelajaran; dan
7)      Praktik Pembelajaran (Peer Teaching).
Materi Penunjang berupa Kebijakan Peningkatan Mutu Pendidikan, Tes Awal dan Tes Akhir, serta Penutupan yang berisi Review dan Evaluasi Pelatihan.


SIMPULAN

Evaluasi membahas nilai dan keefektifan materi dan kegiatan kurikuler. Ini berpusat pada tindakan guru dan siswa dalam lingkungan pendidikan, terutama ruang kelas. Saat ini, ada banyak perdebatan mengenai evaluasi, terutama dengan tuntutan bahwa kita harus menilai tindakan guru dan pembelajaran siswa secara lebih efektif. Ada seruan tegas bagi para guru untuk melakukan pendekatan pedagogis agar menjadi lebih efektif, dan bagi siswa untuk mencapai lebih banyak dan untuk mencapai standar yang lebih tinggi sehingga menjadi kompetitif di komunitas dunia.
Banyak pembicaraan tentang evaluasi, mengungkapkan pengujian merupakan "pembelian" oleh banyak orang, bahwa pendidikan adalah "bisnis di dalam pasar" dan bahwa efektivitasnya harus dinilai dengan metrik yang sama dengan yang kita menilai pekerja dan bisnis. Produktivitas, mencapai tujuan bisnis, memenuhi kuota, dan memenuhi harapan pasar adalah semua cara untuk menentukan apakah suatu bisnis memenuhi apa yang telah ditetapkan untuk dilakukan. Sekolah harus melakukan hal yang sama.
Argumen ini pada dasarnya mencerminkan pendekatan ilmiah, modernis untuk evaluasi. Namun, para pendidik terutama di kamp evaluasi post humanis dan postmodernis bahwa sekolah tidak membuat mobil, memproses hipotek, memelihara jagung, atau memproduksi televisi atau elektronik lainnya. Anda dapat menghitung mobil yang diproduksi dalam periode waktu tertentu dan menilai efisiensi dari produksi. Tidak begitu, banyak pendidik berdebat, dengan pembelajaran siswa. Tentu saja, Anda dapat membandingkan skor tes, dan ini tampaknya menjadi metrik utama untuk menentukan efektivitas guru dan jumlah pembelajaran siswa. Namun, banyak yang terlibat dalam evaluasi memperdebatkan pertanyaan ini: Apa yang benar-benar dinyatakan oleh skor tes selain seseorang yang mencapai 95 persen atau berada di stanine kesembilan, dan orang lain mendapat 85 persen dan berada di stanine kedelapan? Dan apa arti perbandingan seperti itu?
Dialog saat ini menunjukkan bahwa evaluasi membahas kegiatan kompleks dalam konteks yang kompleks. Ada banyak sekali suara dalam konteks ini, semua didorong oleh agenda tertentu. Penting bagi kita untuk memiliki pengetahuan tentang kelompok prosedur yang berhubungan dengan orang dan juga program. Banyak dialog mengenai evaluasi tampaknya ada dalam awan ketakutan, kebingungan, ketidaktahuan, pemikiran rabun, dan tentu saja, perenungan yang tercerahkan. Dialog-dialog ini melibatkan individu dan kelompok dari semua garis: pendidikan, sosial, bisnis, politik, dan bahkan agama. Dalam garis-garis ini kita memiliki stratifikasi pandangan, kepercayaan, aspirasi, dan sikap. Dan dalam stratifikasi kita memiliki tingkat kepastian, ketidakpastian, keras kepala, dan toleransi. Ini menjadi keadaan saat ini mengenai evaluasi pendidikan, kita harus sadar bahwa evaluasi tidak hanya menilai pembelajaran, tetapi juga mempromosikan dan memelihara itu.

Komentar

Postingan populer dari blog ini

Landasan Teori Perubahan Wujud Zat

Contoh Proposal Pengadaan Barang

Makalah LK II