پایایی در عمل: روشهای ساده محاسبه ضریب پایایی
دوره طلایی پژوهش
آموزش جامع پژوهش و پروپوزالنویسی علمی برای دانشجویان
پایایی در عمل؛ یعنی چه و چرا باید ضریب آن را محاسبه کنیم؟ فرض کنید برای پژوهشی در زمینهٔ سلامت روان، از یک پرسشنامه برای سنجش «اضطراب» استفاده میکنید. ده بیمار را بررسی میکنید، نمرات را ثبت میکنید، و یک هفته بعد دوباره همان پرسشنامه را اجرا میکنید. نتایج با بار قبل فرق دارد؛ گاهی زیاد، گاهی کم.
سؤال طبیعیتان این است: آیا این تفاوتها بهخاطر تغییر واقعی اضطراب بیماران است، یا ابزار من خودش ناپایدار است؟
پایایی دقیقاً همین را بررسی میکند — یعنی تا چه اندازه میتوان به نتایج ابزار اندازهگیری اعتماد کرد.
در واقع، اگر ابزارتان مثل ساعتی باشد که هر بار زمان متفاوتی نشان میدهد، هیچ نتیجهای—حتی با دقیقترین تحلیل آماری—ارزش علمی نخواهد داشت.
ضریب پایایی عددی بین ۰ تا ۱ است که نشان میدهد ابزار شما چقدر «ثابت و قابل اعتماد» عمل میکند. هرچه این عدد به ۱ نزدیکتر باشد، یعنی ابزار شما در شرایط مشابه، نتایج مشابهتری تولید میکند. به همین دلیل، پژوهشگرها قبل از تفسیر نتایج، ابتدا میپرسند:
«آیا ابزار من واقعاً قابل اعتماد است؟»
در پژوهشهای علوم پزشکی یا روانشناسی، محاسبهٔ ضریب پایایی اولین گام برای اطمینان از این اعتماد است؛ چون وقتی ابزار اندازهگیری ناپایاست، تمام استدلالهای بعدی فرو میریزد.
ضریب پایایی چیست و چه چیزی را نشان میدهد؟
اگر بخواهیم خیلی ساده بگوییم، ضریب پایایی یعنی میزان اعتماد ما به تکرار نتایج یک ابزار پژوهشی. عددی است بین صفر تا یک، درست مثل یک شاخص اطمینان.
هرچه این عدد به ۱ نزدیکتر باشد، یعنی ابزار شما هر بار که در شرایط مشابه استفاده شود، نتیجهای مشابه تولید میکند.
برای مثال، تصور کنید دو پزشک از یک فشارسنج استفاده میکنند. اگر هر دو، در شرایط یکسان، عدد مشابهی ثبت کنند، دستگاه «پایا»ست. اما اگر یکی ۱۱۰ و دیگری ۱۳۰ بنویسد، ضریب پایایی پایین است و این یعنی ابزار اندازهگیری، در انتقال واقعیت، قابل اعتماد نیست.
پژوهشگران برای سنجش این اعتماد، از روشهای آماری استفاده میکنند تا عدد پایایی ابزار خود را پیدا کنند. اما مهمتر از فرمولها، فلسفه پشت این عدد است: ضریب پایایی به شما میگوید که دادههای شما تا چه اندازه از «نویز» یا خطاهای تصادفی جدا هستند.
به زبان سادهتر، اگر نتایج شما مثل صدای رادیویی باشند که گاهی نویز دارد و گاهی شفاف است، ضریب پایایی مشخص میکند چقدر از آنچه شنیدهاید واقعاً صدای داده است، و چقدرش فقط نویز.
در پژوهشهای سلامت و علوم رفتاری، معمولاً معیار تفسیر ضریب پایایی طبق رفرنس ما چنین است:
|
دامنه ضریب پایایی |
تفسیر کیفی |
توضیح |
|---|---|---|
|
> 0.9 |
بسیار عالی |
ابزار تقریباً همیشه نتیجهی مشابه میدهد |
|
0.8 – 0.89 |
خوب |
ثبات نتایج بالا و قابل اعتماد |
|
0.7 – 0.79 |
قابل قبول |
مناسب برای پژوهشهای اولیه یا ابزارهای جدید |
|
0.6 – 0.69 |
ضعیف |
نیاز به بازنگری در طراحی ابزار |
|
< 0.6 |
غیرقابل اعتماد |
ابزار پایا نیست؛ نتایج قابل استناد نیستند |
(برگرفته از: Sarkar et al., 2023, European Chemical Bulletin و Scribbr, 2024)
به همین دلیل است که پژوهشگر پیش از هر تحلیل آماری، نخست به ضریب پایایی نگاه میکند. این عدد ساده به او میگوید آیا اصلاً میتواند به دادههایش اعتماد کند یا نه.
روشهای اصلی محاسبه پایایی (بدون نیاز به فرمولزدگی)
ضریب پایایی فقط یک عدد نیست؛ حاصل مجموعهای از آزمونهاست که هدفشان سنجش «ثبات» ابزار شما در شرایط مختلف است. در عمل، پژوهشگران برای محاسبهٔ پایایی از چند روش شناختهشده استفاده میکنند. بسته به اینکه بخواهند ثبات در زمان، هماهنگی میان سؤالات، یا توافق بین ارزیابها را بسنجند.
۱. روش آزمون–بازآزمون (Test–Retest Reliability)
این روش برای بررسی «پایداری در زمان» به کار میرود. فرض کنید پرسشنامهای برای سنجش میزان استرس طراحی کردهاید. آن را امروز اجرا میکنید و دو هفته بعد دوباره از همان افراد میخواهید پاسخ دهند. اگر پاسخهایشان تقریباً مشابه باشد، ابزار شما پایاست.
در پژوهشها، معمولاً این شباهت با ضریب همبستگی (مثل r) سنجیده میشود. هرچه عدد به ۱ نزدیکتر باشد، یعنی پرسشنامه نتایج مشابهتری در نوبت دوم داده است. اما اگر فاصله زمانی خیلی زیاد شود، ممکن است عوامل دیگری (مثل تجربه، آموزش یا تغییر خلقوخو) بر نتایج اثر بگذارند و پایایی کاهش یابد.
نکته: Test–Retest برای ابزارهایی مناسب است که ویژگیهای ثابت را میسنجند (مثل هوش، قد، یا ویژگی شخصیتی پایدار)، نه متغیرهای زودگذر مثل خلق روزانه.
۲. روش دونیمسازی و همسانی درونی (Split–Half & Internal Consistency)
گاهی نمیخواهیم آزمون را دو بار اجرا کنیم. در عوض، آن را به دو نیمه تقسیم میکنیم (مثلاً سؤالات فرد و زوج.)
اگر نتایج این دو نیمه شبیه هم باشند، یعنی سؤالات با هم سازگارند و ابزار از همسانی درونی خوبی برخوردار است.
برای بهدستآوردن عدد پایایی در این روش، پژوهشگران از روابطی مثل Spearman–Brown یا Cronbach’s Alpha استفاده میکنند. ولی شما لازم نیست فرمول حفظ کنید؛ کافی است بدانید:
«هرچه سؤالات پرسشنامه بیشتر با هم هماهنگ باشند، ضریب آلفا بالاتر است.»
مثلاً اگر آلفای کرونباخ پرسشنامهٔ شما ۰٫۸۵ باشد، یعنی ۸۵٪ از تغییرات پاسخها ناشی از تفاوت واقعی میان شرکتکنندگان است، نه خطای ابزار.
این روش رایجترین شیوه برای سنجش پایایی پرسشنامههاست، بهویژه در مطالعات روانسنجی و پزشکی.
نکته: اگر سؤالات پرسشنامهتان دوگزینهای (بله/خیر) هستند، پایایی با Kuder–Richardson (KR-20 یا KR-21) محاسبه میشود.
اما اگر پاسخها طیفی هستند (مثلاً طیف لیکرت از ۱ تا ۵)، از Cronbach’s Alpha استفاده کنید.
۳. روش توافق بین ارزیابها (Inter–Rater Reliability)
در پژوهشهای بالینی یا رفتاری، ممکن است چند نفر یک پدیده را ارزیابی کنند. مثلاً دو روانپزشک شدت علائم افسردگی را نمرهدهی کنند. اگر نمراتشان با هم تفاوت زیادی نداشته باشد، یعنی ابزار یا مقیاس به اندازهٔ کافی «روشن و استاندارد» بوده که همه آن را یکسان درک کردهاند.
این میزان توافق با شاخصی به نام کاپا (Kappa Coefficient) سنجیده میشود. کاپای ۰٫۶۵ یعنی توافق قابلقبول و اگر بالای ۰٫۸ باشد، تقریباً توافق کامل بین ارزیابها وجود دارد.
نکته: هرجا پای انسان در قضاوت دخیل است، باید پایایی بین ارزیابها سنجیده شود تا مطمئن شویم تفاوتها ناشی از دیدگاه فردی نیست.
|
نوع پایایی |
هدف |
مثال کاربردی |
شاخص عددی متداول |
قابل استفاده برای |
|---|---|---|---|---|
|
آزمون–بازآزمون |
ثبات در زمان |
پرسشنامه استرس |
r (همبستگی پیرسون) |
ویژگیهای پایدار |
|
دونیمسازی / آلفا |
هماهنگی درونی |
پرسشنامه رضایت شغلی |
Cronbach’s α، KR-20 |
سؤالات چندگزینهای |
|
بین ارزیابها |
توافق میان داوران |
ارزیابی بالینی افسردگی |
کاپا |
مشاهدهگران انسانی |
چطور بفهمیم ضریب پایایی ابزار ما قابل قبول است؟
عدد پایایی مثل نمرهٔ اعتماد بین پژوهشگر و ابزارش است. اگر این عدد پایین باشد، یعنی ابزار هر بار چیز متفاوتی میگوید؛
اما اگر خیلی بالا باشد، ممکن است ابزار آنقدر تکراری و یکنواخت باشد که دیگر تفاوتهای واقعی را نبیند.
بهصورت کلی، ضریب پایایی عددی بین ۰ تا ۱ است و هرچه به ۱ نزدیکتر باشد، ثبات ابزار بیشتر است. اما تفسیر این عدد بسته به نوع پژوهش فرق دارد. گاهی پژوهشگری ضریب پایایی ۰.۹۵ گزارش میکند و خوشحال است که ابزارش “کامل” است، اما واقعیت این است که چنین عددی میتواند نشانهٔ تکراری بودن بیش از حد سؤالات باشد. یعنی پرسشنامه عملاً یک سؤال را چند بار با واژههای متفاوت پرسیده است.
در این حالت، ابزار ظاهراً پایاست، ولی محتوای آن غنی نیست.
برعکس، اگر پایایی پایینتر (مثلاً ۰.۷۵) دارید ولی سؤالاتتان ابعاد مختلف پدیده را پوشش میدهند، آن ابزار ممکن است از نظر علمی ارزشمندتر باشد.
به زبان سادهتر:
«پایایی بالا خوب است، اما تنوع هوشمندانه در سؤالات بهتر است.»
چطور در عمل تصمیم بگیریم؟
توجه کنید، این مقیاسها ممکن است در هر مطالعهای متفاوت باشد پس اکتفا به این اعداد نکنید و پژوهش خود را اختصاصی بررسی کنید.
-
اگر ابزار برای تصمیمهای درمانی یا تشخیصی است → ضریب بالای ۰.۹ لازم است.
-
اگر هدف پژوهش اجتماعی یا آموزشی است → عدد ۰.۷ تا ۰.۸ کفایت دارد.
-
اگر ابزار تازه طراحی شده است → عدد ۰.۶۵ به بالا قابل پذیرش است، تا زمانی که اعتبار محتوایی آن تأیید شود.
و همیشه به یاد داشته باشید:
پایایی بالا، فقط زمانی معنا دارد که در کنار روایی (Validity) بررسی شود، ابزاری ممکن است نتایج تکرارشونده بدهد، اما چیزی اشتباه را تکرار کند!
خطاهای رایج در محاسبه و تفسیر پایایی
ضریب پایایی قرار است میزان «اعتماد» را نشان دهد، اما اشتباه در محاسبه یا برداشت نادرست از آن میتواند همان اعتماد را از بین ببرد. در پژوهشهای دانشجویی و حتی برخی مطالعات حرفهای، خطاهای تکرارشوندهای دیده میشود که نتیجهٔ واقعی پژوهش را مخدوش میکند.
۱. فاصلهٔ زمانی اشتباه در آزمون–بازآزمون
بسیاری از پژوهشگران فکر میکنند هرچه فاصله بین دو اجرای آزمون بیشتر باشد، نتیجه دقیقتر است. در حالی که هرچه فاصله طولانیتر شود، احتمال تغییر واقعی در شرکتکنندگان بیشتر میشود و این تغییر، با ناپایداری ابزار اشتباه گرفته میشود.
نمونهٔ واقعی:
در یک پژوهش پرستاری، پرسشنامهٔ اضطراب شغلی با فاصلهٔ دو ماه اجرا شد.
نتایج پایینتر تفسیر شد بهعنوان پایایی ضعیف ابزار، در حالی که در این فاصله واحدهای درمانی پرستاران تغییر کرده بودند و روش اضطراب شغلی آنها تاثیر گذاشته بود!
✅ فاصلهٔ پیشنهادی بر اساس Sarkar et al., 2023: حدود ۲ هفته.
۲. اجرای غیر استاندارد در نوبت دوم
حتی اگر فاصله مناسب باشد، اگر شرایط اجرای آزمون تغییر کند (محیط، زمان روز، نحوه توضیح سؤالات)، نتایج بهصورت فیک متفاوت خواهند شد. در این حالت ابزار متهم میشود، در حالی که مشکل در اجرای پژوهش است.
نکتهٔ کاربردی:
در روش Test–Retest باید تا جای ممکن شرایط محیطی، نحوه توضیح و حتی نور اتاق را یکسان نگه داشت.
۳. اشتباه در انتخاب روش محاسبه
گاهی پژوهشگر برای پرسشنامهٔ طیفی لیکرت (مثلاً «کاملاً مخالفم» تا «کاملاً موافقم») از ضریب KR-20 استفاده میکند،
در حالی که این ضریب فقط برای سؤالات دوگزینهای طراحی شده است.
نتیجه؟ پایایی بهصورت کاذب پایین میآید و ابزار خوب، بد به نظر میرسد.
راهنما:
-
پرسشنامههای دوگزینهای → KR-20 یا KR-21
-
پرسشنامههای چندگزینهای (Likert) → Cronbach’s Alpha
-
ارزیابی داوران → Kappa
۴. تفسیر اشتباه عدد پایایی
خیلی از دانشجویان فکر میکنند «هرچه ضریب بالاتر باشد، بهتر است». اما همانطور که در بخش قبل گفتیم، عدد خیلی بالا (بیش از ۰٫۹۵) گاهی نشاندهندهٔ تکراری بودن بیشازحد سؤالات است. در واقع، ابزار بهجای سنجش ابعاد مختلف پدیده، همان سؤال را چند بار تکرار کرده است.
یادآوری:
پایایی بالا زمانی ارزش دارد که سؤالات در عین همراستایی، جنبههای مختلف یک مفهوم را پوشش دهند.
۵. گزارش ناقص پایایی در مقاله یا پایاننامه
برخی فقط عدد آلفا را مینویسند («آلفا = 0.82») و بس. اما عدد بدون ذکر روش و نوع ابزار، هیچ معنایی ندارد.
گزارش درست باید شامل سه بخش باشد:
-
روش محاسبه (مثلاً Cronbach’s Alpha)
-
نوع ابزار (مثلاً پرسشنامهٔ ۱۵سؤالی ۵گزینهای)
-
مقدار عددی و تفسیر آن (مثلاً α=0.82؛ پایایی خوب)
بیشتر خطاها در محاسبهٔ پایایی از اشتباه در «منطق روش» ناشی میشوند، نه از ضعف ابزار. پژوهشگر باید قبل از اینکه عددی را در نرمافزار ببیند، بداند آن عدد قرار است چه چیزی را بیان کند.
جمعبندی و گام بعدی
ضریب پایایی فقط یک عدد نیست؛ صدایی است که ابزار شما دربارهی خودش میدهد. اگر آن صدا ثابت و شفاف باشد، یعنی ابزار در مسیر درست حرکت میکند. اگر هر بار متفاوت باشد، یعنی هنوز نمیتوانید به آن اعتماد کنید.
پایایی در پژوهش، ستون اعتماد علمی است، پیش از آنکه به نتایج، نمودارها یا تحلیلهای آماری برسیم، باید بدانیم آیا دادههایی که جمع کردهایم، واقعاً پایدار و قابل اتکا هستند یا نه.
محاسبهی ضریب پایایی، در حقیقت نوعی گفتوگو با ابزار پژوهش است. شما از آن میپرسید: «آیا هر بار که از تو استفاده میکنم، همان چیز را میسنجم؟» و ضریب پایایی پاسخش را با عددی بین صفر و یک به شما میگوید.
اما کار در همینجا تمام نمیشود. در گام بعدی باید یاد بگیرید چطور این عدد را بهدرستی در گزارش پژوهش، پایاننامه یا مقالهتان بنویسید.
در آن مرحله، نحوهی گزارش روش محاسبه (آلفا، KR-20، یا کاپا)، نوع ابزار، و تفسیر عدد، به اندازهی خود محاسبه اهمیت دارد.
پس به یاد داشته باشید:
پایایی یعنی ثبات در سنجش، اما روایی یعنی درستی در فهم.
به علم زمانی میشود اعتماد کرد که هر دو در کنار هم باشند.
در مقالهی بعدی در وبسایت علمینو، بهصورت گامبهگام یاد میگیرید که چطور ضریب پایایی را گزارش کنید و از عدد به «بیان علمی» برسید.
منابع
سؤالات متداول
پایایی یعنی میزان ثبات و تکرارپذیری نتایج پژوهش، بهطوریکه اگر مطالعه در شرایط مشابه تکرار شود، نتایج مشابهی بهدست آید.
بسته به نوع ابزار و دادهها، از روشهای مختلفی استفاده میشود: آزمون–بازآزمون برای بررسی ثبات در زمان، دونیمسازی یا آلفای کرونباخ برای هماهنگی درونی سؤالات، ضریب کاپا برای توافق بین ارزیابها. در نرمافزارهایی مثل SPSS یا JASP، این ضرایب بهصورت خودکار محاسبه میشوند.
برای اغلب مطالعات علوم انسانی و پزشکی، ضریب بالاتر از ۰٫۷ قابل قبول است. پایایی ۰٫۸ تا ۰٫۹ خوب و بیش از ۰٫۹ عالی محسوب میشود. اما عدد خیلی بالا (بیش از ۰٫۹۵) ممکن است نشانهی تکراری بودن بیشازحد سؤالات باشد.
هر دو برای پرسشنامههای دوگزینهای استفاده میشوند. KR-20 دقیقتر است و تفاوت سختی سؤالات را در نظر میگیرد، در حالی که KR-21 سادهتر است و فرض میکند تمام سؤالات سختی مشابهی دارند.
آلفای کرونباخ میزان همسانی درونی سؤالات را میسنجد (آیا آیتمهای پرسشنامه با هم هماهنگاند یا نه). اما آزمون–بازآزمون میزان ثبات در طول زمان را بررسی میکند (آیا نتایج در اجرای دوباره مشابهاند یا نه).
SPSS، JASP، R و Python (کتابخانهی pingouin) همگی ابزارهای رایجی برای محاسبهی آلفای کرونباخ، Kappa، یا همبستگیهای Test–Retest هستند. SPSS برای کاربران مبتدی و JASP برای پژوهشگران آموزشمحور پیشنهاد میشود.
بله. ضریب پایایی باید همراه با روش محاسبه و نوع ابزار گزارش شود. نوشتن صرفِ عدد کافی نیست.
کلمات کلیدی:
کامنتها
هیچ کامنتی برای این پست وجود ندارد.
مطالب مرتبط
امتیازدهی
نظر خود را برای ما ارسال کنید
اگر وارد حساب کاربری شوید، فیلدهای نام و ایمیل به طور خودکار پر میشوند.