
美国居民收入的预测...docx
62页论文题目:美国居民收入的预测组别姓名学号学院专长短号长号本部建模写作编程组别:研究生评阅情况(评阅专家填写):评阅1.评阅2.评阅3.美国居民收入的预测摘要从居民众多的信息中判别居民年收入问题具有很高的社会实际应用意义,本题主要就是找出判别居民收入是否超过50K的具有一定可信度的检验方法对于此,我们建立了基于spss的Fisher判别模型、基于MATLAB的BP神经网络模型和主成分分析模型问题一和问题二都是判别问题,本文比较了基于SPSS的Fisher判别算法和BP神经网络算法,通过比较,BP神经网络做判别分析的准确性更高问题一和问题二的区别就在于样本数据的维度问题,问题一只需要考虑连续型数据样本,问题二需要考虑所有的数据信息,因此需要将类别型属性数据进行数值化处理通过我们选取的BP神经网络的判别模型,问题一的判别准确度检验的结果如下:训练样本的准确度测试样本的准确度平均值85.7%76.5%对附录三200个居民样本数据的预测结果如下:年收入统计人数总和占比>50k5929.5%<=50k14170.5%总和200100%统计的人数总和相对应的居民样本可见正文表5-2对于问题二的判别准确度的检验结果:训练样本的准确度测试样本的准确度平均值87%83.03%问题二中的判别模型对附录三200个居民样本数据的预测结果如下:年收入统计的人数总和占比>50k5628%<=50k14472%总和200100%有表中的问题一和问题二中对于判别模型准确度检验,以及对附录三的预测结果比较得知,我们建立的判别模型具有较高的可信度。
对于问题三中主成分的提取问题,我们运用SPSS的主成分因子分析得到了与居民年收入相关度较高的8个指标,依次是:hours-per-week、relationship、capital-gain、native-country、education、fnlwgt、occupation、workclass这8项关键因素为了验证这8个关键因素的正确性,我们保留附录三中这8个主成分样本数据进行年收入的预测,得到的结果:年收入统计的人数总和占比>50K5829%<=50K14271%对比可知,我们提取出来的8个主成分具有较强的代表性关键字:Fisher判别,BP神经网络,主成分分析,SPSS1.问题重述1.1 问题的背景随着社会经济与科学技术的不断发展,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段通过一些居民相关的信息测算估计居民年收入对于政府机构、慈善机构客观较真实的了解人民的收入情况、生活水平具有很强的实践意义,从而更好的实行惠民政策1.2 需要解决的问题本题给出的一组从美国1994年人口普查数据库抽取出来的数据,其中包含了年龄,工种,学历,职业,人种以及年收入等相关信息,我们需要通过对所给属性数据进行分析处理,通过正确的判别方法,对已知样本数据进行训练测试,基于此再对附录三给出的数据相关信息判断居民收入是否超过五万美元进行预测分析。
由于所给的数据信息中,除了连续型数据之外,还有类别数据,据此我们需要进行前期的数据处理问题一:根据附录二中的数据,只考虑连续型属性,提出判别美国居民年收入是否超过5万美元的方法,并检验你提出方法的正确性按照所提出的方法,判断附录三中的200个居民的年收入是否超过5万美元问题二:考虑所有属性(包括连续型属性和类别型属性),提出判别美国居民年收入是否超过5万美元的方法,并检验你提出方法的正确性按照所提出的方法,判断附录三中的200个居民的年收入是否超过5万美元问题三:在第二问的基础上,判断各属性的重要程度,选取几个重要属性,重新建模并于原模型进行对比2. 问题分析问题一:在所给信息中,首先只需考虑连续型属性(即age,fnlwgt, education-num, captical, hours-per-week这五个属性 ),判断这些属性和年收入之间的关系,提出年收入超过50K的判别方法,并检验该判别方法的正确性得到具备一定可信度的判别方法后,再对附录三中的200个居民数据的年收入是否超过50K做出检验判别问题二:问题二不同于问题一的地方在于,问题一只考虑了所给信息中部分是连续型属性的信息,问题二就要考虑所给的全部信息情况,找出这些所有信息和年收入超过50K的判别关系,依然对所得判别方法进行正确性的检验,再对附录三中的200个居民年收入是否超过50K进行判别分析。
问题三:通过前面两问的分析解答,我们可以得到只分析部分数据和分析全部数据对结果判别的正确率的影响,那样我们可以接着判断各个属性的重要程度,找出影响判别的重要因素,建立新的模型与原模型进行比较分析,看是否能在保证正确率的情况下,精简对年收入是否大于50K的判断信息的收集工作3.基本假设与符号说明3.1 基本假设(1)假设所给信息均真实有效(2)所给数据非主观挑选,具有一般性(3)所给数据信息与居民收入有一定的相关性,可以用来判别居民的收入情况3.2 符号说明符号符号说明BP神经网络的输出的与实际输出样本之间的误差平方和BP神经网络的学习速率 神经元的阀值原始样本数据标准后的样本数据4.数据处理和分析4.1 美国居民收入信息的统计根据题目的附录二中给出的居民收入大于或者小于等于50K的其他众多个人信息,我们做了一些统计整理,首先统计了男女的分布情况,如下表:表4-1:居民收入按性别统计情况性别 收入>50K占比率<=50K占比率男(1)9528.02%24471.98%女(0)4829.81%11370.19%分析统计所给数据我们知道,男性有339个,其中收入大于50K的有95人,占比28.02%;女性有161个,其中收入大于50K的有48人,占比29.81%。
表4-2:居民收入和教育年限的统计情况收入教育年限>50K占比率<=50K占比率>平均值(10年)48男1327.08%127男3527.56%女3572.92%女9272.44%<=平均值(10年)95男6063.16230男7833.91%女3536.84女15266.09%由表4-2简单的统计数据可知居民年收入和居民受教育年限的关系,发现教育年限与收入的关系并不呈强烈的显著相关性这与问题三中主成分分析中教育年限的相关系系数基本符合4.2 美国居民收入信息的收据处理4.2.1数据处理 附录二中有capital-gain(正数), capital-loss(正数)两项针对资产投资是正收益还是负收益的情况,我们用excel 将两项进行相减处理合并,所得正数即为资产投资所得的盈利,负数则为资产投资的损失值4.2.2 缺失数据的处理 我们对附录二所给的数据进行分析发现,所给的属性特征中有35个标识“?”的数据缺失对于缺失数据的处理方法有以均值替代、众数替代、K最近距离邻发、组合完整化方法以及直接剔除等方法要根据实际情况的需要进行灵活的方法选择,本题中考虑到样本数量基数大有500个,35个缺失数据只占7%相对较小,所以我们在问题一做判别建模分析中直接用剔除缺失数据的处理方法进行了数据判别分析,得出了判别模型后,再对附录三200个居民样本数据的预测处理上,为了保证样本数据的完整性我们对于缺失的数据进行的是以众数替代缺失值。
4.2.3 对类别型数据的数值型处理因为所给的数据中还有很多是类别属性的信息(race, sex, relationship, marital-status, Occupation, education, workclass, native-country)所以我们需要进行数值化处理,相应的处理标识见下表(具体数值见附录十三):表4-3:类别属性数据的数值化处理所在列名称原始值赋值Income<=50K0>50K1RaceWhite0Asian-Pac-Islander1Amer-Indian-Eskimo2Other3Black4sexMale0Female1workclassPrivate1Self-emp-not-inc2Self-emp-inc3Federal-gov4Local-gov5State-gov6Without-pay7Never-worked8…….5 问题一的解答问题一要求提出判别美国居民收入方法,并检验提出方法的正确性.该问题属于判别问题,解决此类问题的方法有判别分析法和网络神经系统等,我们选择用spss方法和BP神经网络建立模型求解为了检验提出方法的正确性,我们选取附录二中任意300组数据进行训练,利用其余200组数据进行检测。
首先,我们用SPSS判别工具建立判别模型5.1模型一的建立: 基于SPSS的 Fisher判别5.1.1 Fisher判别的基本原理Fisher判别法由Fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,该判别方法对总体的分布不做任何要求各类在维特征空间里的样本均值向量: , (5.1-1)通过变换映射到一维特征空间后,各类的平均值为:, (5.1-2)映射后,各类样本“类内离散度”定义为:, (5.1-3)显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好因此,定义Fisher准则函数: (5.1-4)使最大的解就是最佳解向量,也就是Fisher的线性判别式5.1.2求解从的表达式可知,它并非的显函数,必须进一步变换已知:,, 依次代入,有:, (5.1-5)所以: (5.1-7)其中: (5.1-8)是原维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,越大越容易区分。
将和代入(5.1-3)式中: (5.1-9)其中:, (5.1-10)因此: (5.1-11)显然: (5.1-12)称为原维特征空间里,样本“类内离散度”矩阵是样本“类内总离散度”矩阵为了便于分类,显然越小越好,也就是越小越好将上述的所有推导结果代入表达式:可以得到:其中,。












