การวิเคราะห์ถดถอยวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร
การถดถอยเป็นเทคนิคการทำเหมืองข้อมูลที่ใช้ในการคาดการณ์ช่วงของค่าตัวเลข (เรียกอีก อย่าง ว่า ค่าต่อเนื่อง ) โดยให้ข้อมูลที่เฉพาะเจาะจง ตัวอย่างเช่นการถดถอยอาจถูกใช้เพื่อทำนายต้นทุนของผลิตภัณฑ์หรือบริการโดยให้ตัวแปรอื่น ๆ
การถดถอยถูกใช้ในหลายอุตสาหกรรมสำหรับการวางแผนธุรกิจและการตลาดการพยากรณ์ทางการเงินการสร้างแบบจำลองด้านสิ่งแวดล้อมและการวิเคราะห์แนวโน้ม
การถดถอย Vs. การจัดหมวดหมู่
การถดถอยและการ จำแนก เป็นเทคนิคการทำเหมืองข้อมูลที่ใช้ในการแก้ปัญหาที่คล้ายคลึงกัน แต่มักสับสน ทั้งสองใช้ในการวิเคราะห์คำทำนาย แต่การถดถอยถูกนำมาใช้เพื่อทำนายค่าตัวเลขหรือค่าต่อเนื่องในขณะที่การจัดหมวดหมู่กำหนดข้อมูลให้เป็นหมวดหมู่ที่ไม่ต่อเนื่อง
ตัวอย่างเช่นการถดถอยจะใช้เพื่อคาดการณ์มูลค่าบ้านตามที่ตั้งตารางฟุตราคาขายล่าสุดราคาของบ้านที่คล้ายกันและปัจจัยอื่น ๆ การจำแนกประเภทจะเป็นไปตามลำดับถ้าคุณต้องการจัดบ้านให้เป็นหมวดหมู่เช่นการเดินเล่นขนาดของล็อตหรืออัตราอาชญากรรม
ประเภทของเทคนิคการถดถอย
แบบถดถอยที่ง่ายที่สุดและเก่าแก่ที่สุดคือการถดถอยเชิงเส้นที่ใช้ในการประมาณความสัมพันธ์ระหว่างสองตัวแปร เทคนิคนี้ใช้สูตรทางคณิตศาสตร์ของเส้นตรง (y = mx + b) ในแง่ธรรมดานี่ก็หมายความว่าให้กราฟกับ Y และแกน X ความสัมพันธ์ระหว่าง X และ Y เป็นเส้นตรงที่มีค่าผิดปกติเพียงเล็กน้อย ตัวอย่างเช่นเราอาจสันนิษฐานได้ว่าการเพิ่มขึ้นของประชากรการผลิตอาหารจะเพิ่มขึ้นในอัตราเดียวกัน - ต้องใช้ความสัมพันธ์เชิงเส้นที่แข็งแกร่งระหว่างสองร่าง เพื่อให้เห็นภาพนี้ให้พิจารณากราฟที่แกน Y จะติดตามการเพิ่มจำนวนประชากรและแกน X จะติดตามการผลิตอาหาร เมื่อค่า Y เพิ่มขึ้นค่า X จะเพิ่มขึ้นในอัตราเดียวกันทำให้ความสัมพันธ์ระหว่างเส้นตรงเป็นเส้นตรง
เทคนิคขั้นสูงเช่นการถดถอยพหุคูณทำนายความสัมพันธ์ระหว่างตัวแปรหลายตัวแปรตัวอย่างเช่นความสัมพันธ์ระหว่างรายได้การศึกษาและสถานที่ที่เราเลือกอาศัยอยู่หรือไม่? การเพิ่มตัวแปรอื่น ๆ จะเพิ่มความซับซ้อนในการทำนาย มีหลายรูปแบบของเทคนิคการถดถอยหลาย ได้แก่ มาตรฐานลำดับชั้น setwise และ stepwise แต่ละที่มีการประยุกต์ใช้ของตัวเอง
ณ จุดนี้สิ่งสำคัญคือต้องทำความเข้าใจกับสิ่งที่เรากำลังพยายามทำนาย (ตัวแปรที่ขึ้นต้นหรือที่ คาดการณ์ไว้ ) และข้อมูลที่เราใช้ในการทำนาย (ตัวแปรอิสระหรือ predictor ) ในตัวอย่างของเราเราต้องการทำนายตำแหน่งที่หนึ่งเลือกที่จะมีชีวิตอยู่ (ตัวแปร คาดการณ์ ) ที่ให้รายได้และการศึกษา (ทั้งตัวแปร ทำนาย )
- การถดถอยพหุคูณแบบมาตรฐานจะ พิจารณาตัวแปรทำนายทั้งหมดในเวลาเดียวกัน ตัวอย่างเช่น 1) ความสัมพันธ์ระหว่างรายได้กับการศึกษาคืออะไร (predictors) และการเลือกละแวกใกล้เคียง (คาดการณ์) และ 2) ในระดับใดที่แต่ละตัวทำนายมีส่วนร่วมกับความสัมพันธ์นั้น?
- การถดถอยพหุคูณแบบขั้นตอน ตอบคำถามที่ต่างกันทั้งหมด อัลกอริทึมการถดถอยแบบขั้นตอนจะวิเคราะห์ว่าตัวพยากรณ์ใดที่ใช้ดีที่สุดในการทำนายทางเลือกของพื้นที่ใกล้เคียงซึ่งหมายความว่าโมเดลแบบขั้นตอนจะประเมินลำดับความสำคัญของตัวแปรทำนายและจากนั้นจะเลือกชุดย่อยที่เกี่ยวข้อง ปัญหาการถดถอยประเภทนี้ใช้ "ขั้นตอน" เพื่อพัฒนาสมการถดถอย เมื่อมีการถดถอยแบบนี้ตัวทำนายทั้งหมดอาจไม่ปรากฏในสมการถดถอยสุดท้าย
- การถดถอยเชิงลำดับชั้น เช่น stepwise เป็นกระบวนการลำดับ แต่ตัวแปร predictor จะถูกป้อนลงในแบบจำลองในลำดับที่กำหนดล่วงหน้าซึ่งกำหนดไว้ล่วงหน้าเช่นอัลกอริทึมไม่ได้มีชุดสมการเพื่อกำหนดลำดับในการ ป้อนตัวทำนาย นี้ใช้บ่อยที่สุดเมื่อบุคคลสร้างสมการถดถอยมีความรู้ความเชี่ยวชาญของเขตข้อมูล
- สมการถดถอยเชิง Setwise ยังคล้ายกับ stepwise แต่วิเคราะห์ชุดของตัวแปรมากกว่าตัวแปรแต่ละตัว