لوگو گروه آموزشی پژوهشی علمی‌نو

درک آزمون فرضیه، ضرورت استفاده از مقادیر p برای تصمیم‌گیری بالینی مبتنی بر شواهد

تاریخ انتشار: 1404/03/24 - 17:52 |

زمان مطالعه: 36 دقیقه

درک آزمون فرضیه، ضرورت استفاده از مقادیر p برای تصمیم‌گیری بالینی مبتنی بر شواهد
فهرست مطالب

    در عمل بالینی، تصمیم‌گیری پزشکی به‌طور فزاینده‌ای به پزشکی مبتنی بر شواهد متکی است؛ روشی که بر پایه‌ی تحلیل داده‌های آماری و یافته‌های پژوهشی شکل می‌گیرد. در بسیاری از مطالعات، فرضیه‌هایی برای بررسی مطرح شده و نتایج همراه با مقادیر p، فواصل اطمینان، یا هر دو گزارش می‌شوند. این داده‌ها به پژوهشگران کمک می‌کند تا میزان معناداری آماری یا تحقیقاتی نتایج را بسنجند. با این حال، کادر درمان دارای سطوح مختلفی از آشنایی و درک از این مفاهیم هستند. این تفاوت در سطح درک ممکن است بر نحوه‌ی تفسیر درست نتایج پژوهش و در نهایت بر تصمیم‌گیری‌های بالینی اثرگذار باشد.

    درک دقیق مفاهیمی مانند آزمون فرضیه، مقدار p، فواصل اطمینان و تفاوت میان معناداری آماری و بالینی، نقش مهمی در کاربرد صحیح نتایج پژوهش دارد. در غیاب این دانش پایه‌ای، احتمال دارد که تصمیم‌گیری‌های بالینی بیش از حد به تفسیرهای پژوهشگران متکی باشد، نه بر اساس تحلیل مستقل بالینی توسط پزشک یا متخصص. از این رو، آشنایی با این مفاهیم به متخصصان اجازه می‌دهد تا مستقل از نظر آماری بودن یا نبودن نتایج، میزان سودمندی و قابل‌کاربرد بودن آن‌ها در عمل بالینی را بسنجند.

    آزمون فرضیه: مبنای آماری تحقیقات پزشکی

    هر تحقیق علمی باید با یک سؤال پژوهشی روشن آغاز شود؛ پرسشی که شکافی در دانش یا عملکرد بالینی کنونی را هدف می‌گیرد. این سؤال‌ها به درک بهتر روابط میان دو یا چند متغیر کمک می‌کنند. به عنوان مثال:

    سؤال پژوهشی: آیا داروی ۲۳ در درمان بیماری A مؤثر است؟

    چنین سؤال‌هایی هنوز شامل پیش‌بینی دقیق یا فرضیه‌سازی نیستند. برای ورود به مرحله‌ی تحلیل آماری، پژوهشگر باید فرضیه‌ای تدوین کند؛ یعنی بیانیه‌ای از پیش تعیین‌شده که بر اساس دانش موجود یا تجربه بالینی، پیش‌بینی خاصی را درباره‌ی نتیجه‌ی پژوهش مطرح می‌کند. این فرضیه، که به آن فرضیه جایگزین نیز گفته می‌شود، جهت‌گیری مطالعه را تعیین می‌نماید:

    فرضیه پژوهشی: داروی ۲۳ در مقایسه با داروی ۲۲، به شکل معناداری علائم بیماری A را کاهش می‌دهد.

    در مقابل، فرضیه صفر (null hypothesis) بیان می‌کند که تفاوت معناداری میان گروه‌ها وجود ندارد. این فرضیه پایه‌ای است که تا زمانی که داده‌های کافی برای رد آن وجود نداشته باشد، صحیح در نظر گرفته می‌شود.

    جهت آشنایی کامل با فرضیه پژوهش کلیک نمایید.

    نقش مقدار p در تحلیل آماری و اندازه نمونه

    در پژوهش‌های پزشکی، مقدار P value به ما نشان می‌دهد که آیا تفاوت مشاهده‌شده بین دو گروه می‌تواند صرفاً به دلیل شانس یا تصادف باشد یا نه. به بیان ساده، اگر مقدار p خیلی کوچک باشد (مثلاً کمتر از ۰٫۰۵)، احتمال اینکه این تفاوت صرفاً تصادفی باشد کم است و ممکن است تفاوت ناشی از یک اثر واقعی باشد.

    باید توجه داشت که با افزایش تعداد افراد شرکت‌کننده در مطالعه، احتمال دستیابی به نتایج آماری معنادار بیشتر می‌شود. این بدان معناست که در نمونه‌های بسیار بزرگ، ممکن است مقدار p بسیار کوچک شود، حتی اگر تفاوت واقعی میان دو دارو چندان چشمگیر نباشد.

    در تحلیل آماری، ابتدا فرض می‌شود که تفاوتی بین گروه‌ها وجود ندارد — این همان "فرض صفر" (Null Hypothesis) است. تا زمانی که داده‌های کافی برای رد این فرض وجود نداشته باشد، آن را می‌پذیرند.

    اگر نتایج نشان دهد که تفاوت یا رابطه‌ای معنادار وجود دارد، پژوهشگران فرض صفر را رد می‌کنند. اما اگر چنین تفاوتی مشاهده نشود، فرض صفر رد نمی‌شود— به این معنا که نمی‌توان با اطمینان گفت تفاوتی واقعی بین گروه‌ها وجود دارد.

    به همین دلیل، مقدار p نباید تنها ملاک تصمیم‌گیری دربارهٔ اثر یک درمان باشد. بررسی عواملی مانند اهمیت بالینی نتایج، اندازه اثر، و فاصله اطمینان نیز ضروری است تا بتوان تصمیم‌گیری دقیقی انجام داد.

    پژوهشگران باید هنگام نگارش مقاله‌ها به رهنمودهای مجلات علمی در مورد گزارش مقادیر p برای آزمون فرضیه توجه کرده و انسجام درونی مطالب را حفظ کنند. همچنین، در کنار معناداری آماری، بررسی معناداری بالینی برای تعمیم نتایج به محیط واقعی بالینی بسیار مهم است.

    نمونه‌گیری، استنباط آماری و احتمال خطا

    از آنجا که گردآوری داده از کل جامعه هدف در اغلب موارد ممکن نیست، پژوهشگران از نمونه‌گیری برای استنباط آماری استفاده می‌کنند. این فرآیند همواره با احتمال بروز خطا همراه است. در تصمیم‌گیری آماری، دو نوع خطای رایج وجود دارد:

    خطای نوع اول (Type I) و خطای نوع دوم (Type II)

    اگرچه نمی‌توان به‌طور کامل از بروز این خطاها جلوگیری کرد، اما پژوهشگران می‌توانند با طراحی دقیق مطالعه، این احتمال‌ها را به حداقل برسانند. درک درست از این مفاهیم، به پزشکان کمک می‌کند تا از یافته‌های آماری در تصمیم‌گیری‌های درمانی به‌صورت دقیق‌تر و مسئولانه‌تری بهره بگیرند.

    مقادیر p: سنجش احتمال تصادفی بودن نتایج

    در پژوهش‌های پزشکی، مقدار p یکی از ابزارهای مهم برای بررسی نتایج آماری و آزمون فرضیه است. این عدد به ما می‌گوید که آیا نتیجه‌ای که در مطالعه دیده‌ایم ممکن است فقط به خاطر شانس به دست آمده باشد یا نه. به بیان دیگر، مقدار p نشان می‌دهد اگر واقعاً هیچ تفاوت یا اثر واقعی‌ای وجود نداشته باشد، احتمال دیدن چنین نتیجه‌ای چقدر است.

    به‌طور سنتی، اگر مقدار p کمتر از ۰٫۰۵ یا ۰٫۰۱ باشد، نتیجه از نظر آماری معنادار تلقی می‌شود.

    به‌عنوان مثال:

    • بیان اول: داروی ۲۳ در مقایسه با داروی ۲۲ باعث کاهش علائم شد. بیمارانی که داروی ۲۳ دریافت کردند (n=100) به میزان ۲٫۱ برابر کمتر از بیماران داروی ۲۲ دچار علائم بیماری A شدند، p<0.05.

    • بیان دوم: افرادی که داروی ۲۳ دریافت کردند (M = 1.3, SD = 0.7) علائم کمتری نسبت به گروه داروی ۲۲ (M = 5.3, SD = 1.9) داشتند. این تفاوت از نظر آماری معنادار بود، p = 0.02.

    در هر دو مثال، مقدار p کمتر از ۰٫۰۵ است، بنابراین فرض صفر رد می‌شود. پژوهشگران ممکن است مقدار p را به‌صورت تقریبی (مانند p<0.05) یا دقیق (مانند p=0.02) گزارش کنند، اما باید توجه داشت که مقدار p هرگز برابر با صفر نیست.

    با این حال، مقدار p تنها یکی از معیارهای ارزیابی نتایج است و باید در کنار عوامل دیگری مانند اندازه اثر، فاصله اطمینان، و اهمیت بالینی نتایج بررسی شود.
     

    گزارش شفاف مقدار p برای افزایش اعتبار علمی

    در یک پژوهش خوب، مقدار p باید برای همه متغیرهای بررسی‌شده گزارش شود، نه فقط برای نتایجی که «معنادار» به نظر می‌رسند. این کار باعث شفافیت بیشتر می‌شود و از سوءتفاهم‌هایی مثل دست‌چین کردن نتایج یا تفسیر جهت‌دار داده‌ها جلوگیری می‌کند.

    با اینکه مقدار p در تحلیل‌های آماری بسیار رایج است، اما متخصصان آمار از مدت‌ها پیش درباره‌ی محدودیت‌های آن هشدار داده‌اند. مقدار p به‌تنهایی نمی‌گوید اثر مشاهده‌شده چقدر بزرگ یا مهم است.

    به همین دلیل، انجمن آماری آمریکا (ASA) در سال ۲۰۱۶ اعلام کرد که تصمیم‌گیری علمی نباید فقط بر پایه‌ی عبور از یک عدد ثابت مثل ۰٫۰۵ باشد. آن‌ها توصیه کردند که در کنار مقدار p، به عواملی مثل طراحی مناسب مطالعه، دقت اندازه‌گیری‌ها، و کیفیت داده‌ها نیز توجه شود.
     

    ارزش مقدار p به‌تناسب نوع طراحی مطالعه

    در تفسیر نتایج پژوهش‌های پزشکی، نوع طراحی مطالعه بسیار مهم است. برای مثال، مقدار p که از یک کارآزمایی تصادفی دوسوکور به‌دست آمده (که در آن شرکت‌کنندگان و پژوهشگران نمی‌دانند چه کسی چه درمانی دریافت کرده)، قابل‌اعتمادتر است از مقدار p حاصل از یک مطالعه گذشته‌نگر که در آن فقط به سوابق بیماران نگاه شده است. چون در نوع اول احتمال خطا و سوگیری کمتر است.

    از دهه ۱۹۵۰ تا امروز، درباره‌ی دقت و کارایی مقدار p بحث‌های زیادی شده است. از دهه ۱۹۸۰ به بعد، برخی پژوهشگران پیشنهاد کرده‌اند به جای تکیه صرف بر مقدار p، از «فاصله اطمینان» استفاده شود. چون فاصله اطمینان نه‌تنها نشان می‌دهد یک نتیجه از نظر آماری معنادار هست یا نه، بلکه مقدار تقریبی اثر و دامنه‌ی تغییرات آن را هم نشان می‌دهد.

    فاصله اطمینان: ابزاری برای تخمین دقیق‌تر

    فاصله اطمینان (Confidence Interval یا CI) یکی از ابزارهای مهم در آمار پزشکی است. این فاصله، بازه‌ای از عددها را نشان می‌دهد که احتمال می‌دهیم مقدار واقعی یک نتیجه (مثلاً میانگین یا تفاوت بین دو گروه) در آن قرار داشته باشد.

    مثلاً وقتی می‌گوییم «فاصله اطمینان ۹۵٪»، یعنی اگر همین مطالعه را ۱۰۰ بار تکرار کنیم، در ۹۵ مورد از آن‌ها مقدار واقعی درون این بازه خواهد بود.

    فاصله اطمینان اطلاعات بیشتری نسبت به مقدار p به ما می‌دهد. چون نه‌تنها می‌گوید آیا نتیجه معنادار هست یا نه، بلکه نشان می‌دهد اندازه اثر چقدر است و با چه دقتی آن را تخمین زده‌ایم.
     

    مثالی ساده از فاصله اطمینان در پژوهش بالینی

    فرض کنید در یک مطالعه، مشخص شده کسانی که داروی ۲۳ مصرف کرده‌اند، زودتر از کسانی که داروی ۲۲ گرفته‌اند بهبود پیدا کرده‌اند. میانگین تفاوت زمان بهبودی بین دو گروه، ۴.۲ روز بوده است.

    پژوهشگران فاصله اطمینان ۹۵٪ را برای این تفاوت بین ۱.۹ تا ۷.۸ روز گزارش کرده‌اند. این یعنی با احتمال ۹۵٪، اختلاف واقعی زمان بهبودی بین دو دارو در همین بازه قرار دارد.

    چون کل این فاصله بالای صفر است، می‌توان گفت که داروی ۲۳ واقعاً بهتر عمل کرده و تفاوت دیده‌شده به احتمال زیاد تصادفی نیست. این هم از نظر آماری و هم از نظر بالینی می‌تواند معنادار باشد.
     

    عرض فاصله اطمینان و دقت مطالعه

    عرض فاصله اطمینان یعنی فاصله بین عدد پایین و عدد بالای بازه است. این عرض به دو چیز بستگی دارد: اندازه نمونه و میزان خطای اندازه‌گیری.

    هر چه نمونه بزرگ‌تر باشد و خطا کمتر، فاصله اطمینان باریک‌تر و دقیق‌تر خواهد بود. مثلاً:

    فاصله اطمینان بین ۱.۴۳ تا ۱.۴۷ خیلی دقیق‌تر و کوچک‌تر از فاصله بین ۱.۹ تا ۷.۸ است.

    بنابراین، اگر پژوهشگران می‌خواهند نتایجی قابل اعتماد و دقیق ارائه دهند، باید طراحی مطالعه‌شان دقیق باشد و اندازه نمونه مناسبی انتخاب کنند.
     

    تفسیر فاصله اطمینان: فقط یک عدد نیست!

    گاهی اوقات فاصله اطمینان شامل عددی است که نشان‌دهنده عدم وجود اثر است (مثلاً صفر در اختلاف میانگین‌ها، یا یک در نسبت‌ها). در این شرایط، نمی‌توان با قطعیت گفت که حتماً تأثیر وجود دارد یا خیر. به‌طور ساده، فاصله اطمینان به ما می‌گوید که مقدار واقعی اثر ممکن است در بازه‌ای از مقادیر قرار داشته باشد.
     

    مثال:
    فرض کنید یک بیمارستان پروتکل جدیدی برای کاهش زمان انتظار بیماران اجرا می‌کند. پس از اجرا، مشخص می‌شود که میانگین زمان انتظار ۲۵ دقیقه کاهش یافته است، و فاصله اطمینان ۹۵٪ این مقدار بین ۲.۵- و ۴۱ دقیقه است.

    چون فاصله اطمینان شامل صفر هم می‌شود (از ۲.۵- تا ۴۱)، این یعنی احتمال وجود دارد که در بعضی موارد، این پروتکل حتی باعث افزایش زمان انتظار شود. اما چون بیشتر بازه فاصله اطمینان مثبت است (کاهش زمان)، می‌توان حدس زد که در بیشتر موارد پروتکل مفید خواهد بود.

    این نوع تحلیل را معمولاً نمی‌توان فقط با عدد p-value به دست آورد. p-value فقط می‌گوید که آیا اثر مشاهده‌شده تصادفی است یا نه، اما دامنه و بزرگی اثر را به ما نمی‌دهد. به همین دلیل، تفسیر فاصله اطمینان خیلی مهم است.

    چرا باید هم مقدار p و هم فاصله اطمینان را گزارش کنیم؟

    بهترین روش گزارش دادن نتایج این است که هم مقدار p و هم فاصله اطمینان را با هم بیان کنیم. این کار کمک می‌کند که خواننده تصویر کامل‌تری از یافته‌ها داشته باشد:

    • مقدار p نشان می‌دهد که آیا اثر مشاهده‌شده احتمالاً تصادفی بوده یا خیر.

    • فاصله اطمینان نشان می‌دهد که دامنه و دقت اثر چقدر است.

    مثال:
    در یک مطالعه، افرادی که داروی ۲۳ دریافت کردند، پس از ۳ روز هیچ علامتی نداشتند. این زمان، به‌طور معناداری کوتاه‌تر از گروهی بود که داروی ۲۲ گرفتند (p = 0.009). همچنین، میانگین اختلاف در زمان بهبودی بین دو گروه ۴.۲ روز بود (فاصله اطمینان ۹۵٪: ۱.۹ تا ۷.۸ روز).

    این نوع گزارش‌دهی به ما می‌گوید که:

    • آیا اثر واقعاً معنی‌دار است؟ (بر اساس مقدار p)

    • اثر چقدر بزرگ است و چه دامنه‌ای دارد؟ (بر اساس فاصله اطمینان)

    جمع‌بندی
    فاصله اطمینان ابزاری ارزشمند برای تحلیل دقیق‌تر نتایج پژوهشی و آزمون فرضیه است. برخلاف مقدار p که صرفاً وجود یا نبود اثر را نشان می‌دهد، فاصله اطمینان به ما می‌گوید چقدر اثر وجود دارد و با چه دقتی. در نتیجه، در تصمیم‌گیری‌های بالینی و بررسی اعتبار مطالعات، تفسیر دقیق و همه‌جانبه فاصله اطمینان می‌تواند به نتایجی واقع‌گرایانه‌تر و علمی‌تر منجر شود.

    مثال‌:
    p-value = 1
    معنی:
    یافته‌هایت هیچ شواهدی علیه فرض صفر ارائه نمی‌کنند. به عبارتی، داده‌هایت کاملاً مطابق با فرض صفر هستند و اصلاً دلیلی برای رد فرض صفر ندارید.

    مثال:
    فرض کنید می‌خواهید بررسی کنید که آیا قد دانش‌آموزان کلاس A با قد دانش‌آموزان کلاس B تفاوت دارد یا نه. آزمایش انجام می‌دهید و می‌بینید که میانگین قد دقیقاً برابر است، و حتی کوچکترین اختلافی هم وجود ندارد. نتیجه این می‌شود:
    p = 1
    یعنی: هیچ شواهدی برای تفاوت وجود ندارد.

    p-value = 0.05
    معنی:
    احتمال اینکه این نتیجه (یا شدیدتر از آن) به طور تصادفی به دست آمده باشد، ۵٪ است. این یعنی:
    اگر فرض صفر درست باشد، فقط در ۵٪ موارد چنین نتایجی به دست می‌آید.
    چون p < 0.05، معمولاً این نتیجه را معنی‌دار در نظر می‌گیریم و فرض صفر را رد می‌کنیم.

    مثال:
    فرض کنید داروی جدیدی برای کاهش فشارخون آزمایش می‌کنید و بعد از مطالعه متوجه می‌شوید:
    p = 0.05
    این یعنی: احتمال اینکه این کاهش فشارخون فقط به دلیل شانس باشد، ۵٪ است. پس می‌گوییم دارو احتمالاً اثر واقعی دارد، هرچند نتیجه لبه مرز است.

    p-value = 0.001
    معنی:
    احتمال اینکه این نتیجه (یا شدیدتر از آن) به طور تصادفی به دست آمده باشد، فقط ۰.۱٪ است. این خیلی کم است، پس نتیجه بسیار قوی‌تری داریم و شواهد زیادی برای رد فرض صفر داریم.

    مثال:
    فرض کنید یک واکسن جدید طراحی می‌کنی و بعد از مطالعه می‌بینید:
    p = 0.001
    یعنی: احتمال اینکه تفاوت مشاهده‌شده در اثر واکسن فقط شانسی باشد، ۰.۱٪ است.
    این یعنی واکسن خیلی احتمالاً مؤثر است.
     

    اگر می‌خواهید درک عمیق‌تری از تحلیل آماری، تفسیر مقدار p و کاربرد آن در پژوهش‌های بالینی داشته باشید، همین حالا با سایر مقالات آموزشی علمی‌نو همراه شوید یا در دوره‌های تخصصی ما شرکت کنید.

    Hypothesis Testing, P Values, Confidence Intervals, and Significance
    Jacob Shreffler; Martin R. Huecker. | StatPearls

    نظر خود را برای ما ارسال کنید

    اگر وارد حساب کاربری شوید، فیلدهای نام و ایمیل به طور خودکار پر می‌شوند.

    کامنت‌ها

    هیچ کامنتی برای این پست وجود ندارد.