DL3.39 ตรวจสอบประสิทธิภาพตัวแบบการถดถอยลอจิสติก Pseudo R squared Deviance logistic regression model

Поделиться
HTML-код
  • Опубликовано: 12 дек 2024
  • การเรียนรู้ข้อมูลเริ่มต้นที่นี่
    ‪@sangdaobooks‬ RUclips
    sangdaobooks.com/ Website
    การอ้างอิงเอกสาร และ/หรือ RUclips นี้
    ตามรูปแบบ APA7th
    Lecture note:
    Name of author(s). (Year). Title of slides - italicised [Type of format]. Site information eg. Web address, Canva
    RUclips:
    Name of author(s). (Year, Month Day). Title of video - italicised [Video]. Site information eg. RUclips, Web address, Canva
    ****** อ้างอิง lecture note
    แสงดาว วงค์สาย. (2567). ตัวแบบการถดถอยลอจิสติกทวิ. [PowerPoint slides เอกสารประกอบการสอน]. sangdaobooks.com/
    ****** อ้างอิง RUclips
    แสงดาว วงค์สาย. [sangdaobooks] (2567, พฤศจิกายน 5). ตัวแบบการถดถอยลอจิสติกทวิ [Video]. / @sangdaobooks
    ##### RUclips series code
    DL1: Simple linear regression (SLR) การถดถอยเชิงเส้นอย่างง่าย
    DL2: Multiple linear regression (MLR) การถดถอยเชิงเส้นพหุคูณ
    DL3: Binary logistic regression (BLR) การถดถอยลอจิสติกทวิ
    ################################
    การเลือกตัวแบบการถดถอยลอจิสติกโดยใช้เกณฑ์ สถิติทดสอบ และกราฟ
    เกณฑ์ในการเลือกตัวแบบมีทั้งหมด 5 เกณฑ์ ดังนี้
    AIC
    BIC
    residual deviance
    log likelihood
    -2 log likelihood
    โดยการเปรียบเทียบระหว่าง 2 ตัวแบบจะใช้เกณฑ์การตัดสินใจ ดังนี้
    1) หากตัวแบบใดมีค่าสถิติ AIC, BIC, residual deviance, และ/หรือ -2 log likelihood น้อยกว่า ตัวแบบนั้นจะเหมาะสมในการวิเคราะห์ข้อมูลมากกว่าอีกตัวแบบหนึ่ง
    2) หากตัวแบบใดมีค่าสถิติ log likelihood มากกว่า ตัวแบบนั้นจะเหมาะสมในการวิเคราะห์ข้อมูลมากกว่าอีกตัวแบบหนึ่ง
    สถิติทดสอบที่ใช้ในการเลือกตัวแบบการถดถอยลอจิสติกระหว่างตัวแบบเต็มรูปและตัวแบบลดรูป มี 2 สถิติได้แก่
    สถิติทดสอบ G
    สถิติทดสอบ Likelihood ratio test (LRT)
    โดยสถิติทั้งสองแบบมีการแจกแจงไคสแควร์ (chi-squared distribution)
    ดังนั้นเราจึงต้องทราบค่าองศาเสรี (degree of freedom) เพื่อใช้ในการหาค่าความน่าจะเป็นของเหตุการณ์ที่เราสนใจภายใต้การแจกแจงไคสแควร์
    องศาเสรี มีนิยามหลายแบบ เช่น
    ความแตกต่างระหว่างจำนวนพารามิเตอร์ในตัวแบบที่เราต้องการประมาณค่า
    ความแตกต่างระหว่างจำนวนตัวแปรอิสระในตัวแบบ
    ก่อนที่เราจะลงมือคำนวณค่าสถิติที่ได้จากตัวอย่าง เราต้องเข้าใจก่อนว่าสถิติที่เราเลือกใช้กำลังทดสอบสมมติฐานอะไร
    จริงๆ แล้วควรพูดว่าเรากำลังจะทดสอบสมมติฐานอะไร เราควรเลือกสถิติทดสอบให้เหมาะสมกับสมมติฐานที่เราตั้งไว้ โดยสมมติฐานหนึ่งๆ อาจจะมีสถิติทดสอบมากกว่า 1 ตัวให้เราเลือกใช้ก็ได้ การเลือกตัวแบบการถดถอยลอจิสติกก็เช่นเดียวกัน
    การตั้งสมมติฐานเกี่ยวกับการเลือกตัวแบบการถดถอยลอจิสติก
    สมมติฐานว่าง คือ ตัวแบบลดรูปเหมาะสมกับการวิเคราะห์ข้อมูล
    สมมติฐานแย้ง คือ ตัวแบบเต็มรูปเหมาะสมกับการวิเคราะห์ข้อมูล
    ตัวแบบลดรูป (Reduced Model: RM) เป็นตัวแบบที่เป็นส่วนหนึ่งของตัวแบบเต็มรูป (Full Model: FM) จึงเป็นตัวแบบที่เล็กกว่า หรือมีจำนวนตัวแปรอิสระน้อยกว่าตัวแบบเต็มรูป
    เราเรียกตัวแบบลักษณะนี้ว่าตัวแบบที่เป็น nested model
    สำหรับสถิติทดสอบ G
    G statistic = D(RM) - D(FM)
    โดยที่
    D(RM) คือ ค่า residual deviance ที่คำนวณได้จากตัวแบบลดรูป
    D( FM) คือ ค่า residual deviance ที่คำนวณได้จากตัวแบบเต็มรูป
    D(RM) จะมีค่ามากกว่า D(FM) เสมอ เนื่องจากการเพิ่มจำนวนตัวแปรอิสระเข้าไปในตัวแบบจะมีผลให้ residual deviance ลดลงเสมอโดยไม่จำเป็นที่ตัวแปรอิสระที่เพิ่มเข้าไปนั้นจะมีผลต่อการทำนายตัวแปรตอบสนองอย่างมีนัยสำคัญทางสถิติหรือไม่
    ซึ่งนี่จึงเป็นเหตุผลให้เราใช้ค่าสถิติ G (ซึ่งเป็นความแตกต่างระหว่าง residual deviance ของตัวแบบทั้งสองตัวแบบ) ในการทดสอบว่าเรามีความจำเป็นที่ต้องเพิ่มตัวแปรอิสระเข้าไปในตัวแบบหรือไม่ หรือกล่าวอีกนัยหนึ่ง การเพิ่มตัวแปรอิสระเข้าไปในตัวแบบทำให้ residual deviance ลดลงอย่างมีนัยสำคัญเชิงสถิติหรือไม่ ถ้าลดลงอย่างมีนัยสำคัญเราก็เควรเพิ่มตัวแปรอิสระเข้าไป แต่ถ้าลดลงอย่างไม่มีนัยสำคัญเราก็ไม่ควรเพิ่มตัวแปรอิสระเข้าไปในตัวแบบนั่นเอง
    งง ถ้า งง ย้อนกลับไปอ่านย่อหน้าก่อนหน้านี้ค่ะ
    “D(RM) จะมีค่ามากกว่า D(FM) เสมอ เนื่องจากการเพิ่มจำนวนตัวแปรอิสระเข้าไปในตัวแบบจะมีผลให้ residual deviance ลดลงเสมอโดยไม่จำเป็นที่ตัวแปรอิสระที่เพิ่มเข้าไปนั้นจะมีผลต่อการทำนายตัวแปรตอบสนองอย่างมีนัยสำคัญทางสถิติหรือไม่”
    Residual deviance คือ ค่าเฉลี่ยของความแตกต่างระหว่างค่าจริงที่วัดได้จากข้อมูลและค่าทำนายที่คำนวณได้จากสมการถดถอยลอจิสติก
    สำหรับสถิติทดสอบ LRT
    LRT statistic = -2LL(RM) - (-2LL(FM))
    หรือ
    LRT statistic = -2(LL(RM) - LL(FM))
    หรือ
    LRT statistic = +2(LL(FM) - LL(RM))
    โดยที่
    -2LL(RM) คือ -2 เท่าของค่า log likelihood ที่คำนวณได้จากตัวแบบลดรูป
    -2LL( FM) คือ -2 เท่าของค่า log likelihood ที่คำนวณได้จากตัวแบบเต็มรูป
    การตัดสินใจปฏิเสธสมมติฐานว่าง ทำได้ 2 วิธีคือ
    1) การเปรียบเทียบค่าสถิติที่คำนวณได้จากตัวอย่างกับค่าสถิติเชิงทฤษฎีภายใต้การแจกแจงไคสแควร์
    2) การเปรียบเทียบค่าสถิติที่คำนวณได้จากตัวอย่างกับค่าสถิติความน่าจะเป็นเชิงทฤษฎีที่กำหนดตามระดับนัยสำคัญภายใต้การแจกแจงไคสแควร์
    เราจึงนิยมได้ยินการใช้งานอย่างติดปากติดหูว่า
    “ถ้าค่าความน่าจะเป็นของเหตุการณ์ที่เรากำลังทดสอบมีค่าน้อยกว่า 5% เราจะปฏิเสธสมมติฐานว่าง”
    Note:
    *การเลือกตัวแบบการถดถอยลอจิสติกระหว่าง 2 ตัวแบบที่เป็น nested model จะใช้ได้ทั้งเกณฑ์และสถิติทดสอบ
    **การเลือกตัวแบบการถดถอยลอจิสติกระหว่าง 2 ตัวแบบที่เป็น non-nested model จะใช้ได้เฉพาะเกณฑ์การเลือกเท่านั้น

Комментарии •