注册 登录
编程论坛 Python论坛

线性回归怎么选择因变量

frefly0203 发布于 2022-12-22 16:49, 620 次点击
最近在学习机器学习方面的东西。有很多疑问无法解决。
1.比如进行线性回归时,假如有n组某一个因变量。怎么才能从这n组因变量中选出合适的m组因变量进行计算,是基于什么原因舍弃其它因变量的?
2.我看到一些实例是将某一个因变量与自变量作图,比如散点图之类,查看这一个因变量与自变量之间是否有线性关系等。但是,如果将所有因变量单独与自变量作图都会找到他们之间的关系,比如线性或其它关系。是基于什么原则来筛选这些因变量的?

哪位老师给详细解答一下,或是给一个相关知识的链接,谢谢各位!!!
1 回复
#2
dengligsh2023-02-03 15:14
因变量的选择是基于假设生成模型(assumptions of the generative model)和统计显著性(statistical significance)两个方面进行考虑的。

假设生成模型: 首先,必须假设因变量与自变量之间存在一定的关系,而这种关系可以是线性、非线性、高次等多种关系。因此,我们必须选择具有比较显著的因变量,并且假设它们与自变量之间的关系满足预期的生成模型。

统计显著性: 其次,必须考虑因变量与自变量之间的统计显著性,即它们之间的关系是否统计显著。一般来说,我们使用卡方检验(Chi-square test)、T检验(T-test)、F检验(F-test)等多种方法来评估因变量与自变量之间的统计显著性。如果因变量与自变量之间的关系不统计显著,则舍弃这一因变量。

通过考虑上述两个方面,我们就可以选择合适的因变量。如果您想了解更多关于机器学习的知识,可以参考机器学习的相关教科书,也可以参考网络上的资料。
1