DL3.39 ตรวจสอบประสิทธิภาพตัวแบบการถดถอยลอจิสติก Pseudo R squared Deviance logistic regression model
HTML-код
- Опубликовано: 12 дек 2024
- การเรียนรู้ข้อมูลเริ่มต้นที่นี่
@sangdaobooks RUclips
sangdaobooks.com/ Website
การอ้างอิงเอกสาร และ/หรือ RUclips นี้
ตามรูปแบบ APA7th
Lecture note:
Name of author(s). (Year). Title of slides - italicised [Type of format]. Site information eg. Web address, Canva
RUclips:
Name of author(s). (Year, Month Day). Title of video - italicised [Video]. Site information eg. RUclips, Web address, Canva
****** อ้างอิง lecture note
แสงดาว วงค์สาย. (2567). ตัวแบบการถดถอยลอจิสติกทวิ. [PowerPoint slides เอกสารประกอบการสอน]. sangdaobooks.com/
****** อ้างอิง RUclips
แสงดาว วงค์สาย. [sangdaobooks] (2567, พฤศจิกายน 5). ตัวแบบการถดถอยลอจิสติกทวิ [Video]. / @sangdaobooks
##### RUclips series code
DL1: Simple linear regression (SLR) การถดถอยเชิงเส้นอย่างง่าย
DL2: Multiple linear regression (MLR) การถดถอยเชิงเส้นพหุคูณ
DL3: Binary logistic regression (BLR) การถดถอยลอจิสติกทวิ
################################
การเลือกตัวแบบการถดถอยลอจิสติกโดยใช้เกณฑ์ สถิติทดสอบ และกราฟ
เกณฑ์ในการเลือกตัวแบบมีทั้งหมด 5 เกณฑ์ ดังนี้
AIC
BIC
residual deviance
log likelihood
-2 log likelihood
โดยการเปรียบเทียบระหว่าง 2 ตัวแบบจะใช้เกณฑ์การตัดสินใจ ดังนี้
1) หากตัวแบบใดมีค่าสถิติ AIC, BIC, residual deviance, และ/หรือ -2 log likelihood น้อยกว่า ตัวแบบนั้นจะเหมาะสมในการวิเคราะห์ข้อมูลมากกว่าอีกตัวแบบหนึ่ง
2) หากตัวแบบใดมีค่าสถิติ log likelihood มากกว่า ตัวแบบนั้นจะเหมาะสมในการวิเคราะห์ข้อมูลมากกว่าอีกตัวแบบหนึ่ง
สถิติทดสอบที่ใช้ในการเลือกตัวแบบการถดถอยลอจิสติกระหว่างตัวแบบเต็มรูปและตัวแบบลดรูป มี 2 สถิติได้แก่
สถิติทดสอบ G
สถิติทดสอบ Likelihood ratio test (LRT)
โดยสถิติทั้งสองแบบมีการแจกแจงไคสแควร์ (chi-squared distribution)
ดังนั้นเราจึงต้องทราบค่าองศาเสรี (degree of freedom) เพื่อใช้ในการหาค่าความน่าจะเป็นของเหตุการณ์ที่เราสนใจภายใต้การแจกแจงไคสแควร์
องศาเสรี มีนิยามหลายแบบ เช่น
ความแตกต่างระหว่างจำนวนพารามิเตอร์ในตัวแบบที่เราต้องการประมาณค่า
ความแตกต่างระหว่างจำนวนตัวแปรอิสระในตัวแบบ
ก่อนที่เราจะลงมือคำนวณค่าสถิติที่ได้จากตัวอย่าง เราต้องเข้าใจก่อนว่าสถิติที่เราเลือกใช้กำลังทดสอบสมมติฐานอะไร
จริงๆ แล้วควรพูดว่าเรากำลังจะทดสอบสมมติฐานอะไร เราควรเลือกสถิติทดสอบให้เหมาะสมกับสมมติฐานที่เราตั้งไว้ โดยสมมติฐานหนึ่งๆ อาจจะมีสถิติทดสอบมากกว่า 1 ตัวให้เราเลือกใช้ก็ได้ การเลือกตัวแบบการถดถอยลอจิสติกก็เช่นเดียวกัน
การตั้งสมมติฐานเกี่ยวกับการเลือกตัวแบบการถดถอยลอจิสติก
สมมติฐานว่าง คือ ตัวแบบลดรูปเหมาะสมกับการวิเคราะห์ข้อมูล
สมมติฐานแย้ง คือ ตัวแบบเต็มรูปเหมาะสมกับการวิเคราะห์ข้อมูล
ตัวแบบลดรูป (Reduced Model: RM) เป็นตัวแบบที่เป็นส่วนหนึ่งของตัวแบบเต็มรูป (Full Model: FM) จึงเป็นตัวแบบที่เล็กกว่า หรือมีจำนวนตัวแปรอิสระน้อยกว่าตัวแบบเต็มรูป
เราเรียกตัวแบบลักษณะนี้ว่าตัวแบบที่เป็น nested model
สำหรับสถิติทดสอบ G
G statistic = D(RM) - D(FM)
โดยที่
D(RM) คือ ค่า residual deviance ที่คำนวณได้จากตัวแบบลดรูป
D( FM) คือ ค่า residual deviance ที่คำนวณได้จากตัวแบบเต็มรูป
D(RM) จะมีค่ามากกว่า D(FM) เสมอ เนื่องจากการเพิ่มจำนวนตัวแปรอิสระเข้าไปในตัวแบบจะมีผลให้ residual deviance ลดลงเสมอโดยไม่จำเป็นที่ตัวแปรอิสระที่เพิ่มเข้าไปนั้นจะมีผลต่อการทำนายตัวแปรตอบสนองอย่างมีนัยสำคัญทางสถิติหรือไม่
ซึ่งนี่จึงเป็นเหตุผลให้เราใช้ค่าสถิติ G (ซึ่งเป็นความแตกต่างระหว่าง residual deviance ของตัวแบบทั้งสองตัวแบบ) ในการทดสอบว่าเรามีความจำเป็นที่ต้องเพิ่มตัวแปรอิสระเข้าไปในตัวแบบหรือไม่ หรือกล่าวอีกนัยหนึ่ง การเพิ่มตัวแปรอิสระเข้าไปในตัวแบบทำให้ residual deviance ลดลงอย่างมีนัยสำคัญเชิงสถิติหรือไม่ ถ้าลดลงอย่างมีนัยสำคัญเราก็เควรเพิ่มตัวแปรอิสระเข้าไป แต่ถ้าลดลงอย่างไม่มีนัยสำคัญเราก็ไม่ควรเพิ่มตัวแปรอิสระเข้าไปในตัวแบบนั่นเอง
งง ถ้า งง ย้อนกลับไปอ่านย่อหน้าก่อนหน้านี้ค่ะ
“D(RM) จะมีค่ามากกว่า D(FM) เสมอ เนื่องจากการเพิ่มจำนวนตัวแปรอิสระเข้าไปในตัวแบบจะมีผลให้ residual deviance ลดลงเสมอโดยไม่จำเป็นที่ตัวแปรอิสระที่เพิ่มเข้าไปนั้นจะมีผลต่อการทำนายตัวแปรตอบสนองอย่างมีนัยสำคัญทางสถิติหรือไม่”
Residual deviance คือ ค่าเฉลี่ยของความแตกต่างระหว่างค่าจริงที่วัดได้จากข้อมูลและค่าทำนายที่คำนวณได้จากสมการถดถอยลอจิสติก
สำหรับสถิติทดสอบ LRT
LRT statistic = -2LL(RM) - (-2LL(FM))
หรือ
LRT statistic = -2(LL(RM) - LL(FM))
หรือ
LRT statistic = +2(LL(FM) - LL(RM))
โดยที่
-2LL(RM) คือ -2 เท่าของค่า log likelihood ที่คำนวณได้จากตัวแบบลดรูป
-2LL( FM) คือ -2 เท่าของค่า log likelihood ที่คำนวณได้จากตัวแบบเต็มรูป
การตัดสินใจปฏิเสธสมมติฐานว่าง ทำได้ 2 วิธีคือ
1) การเปรียบเทียบค่าสถิติที่คำนวณได้จากตัวอย่างกับค่าสถิติเชิงทฤษฎีภายใต้การแจกแจงไคสแควร์
2) การเปรียบเทียบค่าสถิติที่คำนวณได้จากตัวอย่างกับค่าสถิติความน่าจะเป็นเชิงทฤษฎีที่กำหนดตามระดับนัยสำคัญภายใต้การแจกแจงไคสแควร์
เราจึงนิยมได้ยินการใช้งานอย่างติดปากติดหูว่า
“ถ้าค่าความน่าจะเป็นของเหตุการณ์ที่เรากำลังทดสอบมีค่าน้อยกว่า 5% เราจะปฏิเสธสมมติฐานว่าง”
Note:
*การเลือกตัวแบบการถดถอยลอจิสติกระหว่าง 2 ตัวแบบที่เป็น nested model จะใช้ได้ทั้งเกณฑ์และสถิติทดสอบ
**การเลือกตัวแบบการถดถอยลอจิสติกระหว่าง 2 ตัวแบบที่เป็น non-nested model จะใช้ได้เฉพาะเกณฑ์การเลือกเท่านั้น