您所在位置：网站首页 > 学术论文 > 其它学术论文 > 机器学习算法介绍整理

机器学习算法介绍整理.docx

4页

卖家[上传人]：pu****.1

文档编号：522327314

上传时间：2022-11-27

文档格式：DOCX

文档大小：590.62KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 4 举报版权申诉马上下载

文本预览

下载提示

常见问题

机器学习有三种主要类型的机器学习：监督学习、非监督学习和强化学习监督学习一组标记数据计识别每种标记的新样本监督学习的两种主要类型是分类和回归在分类中，机器被训练成将一个组划分为特定的类分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器在回归中，机器使用先前的（标记的）数据来预测未来天气应用是回归的好例子使用气象事件的历史数据（即平均气温、湿度和降水量），你的天气应用程序可以查看当前天气，并在未来的时间内对天气进行预测无监督学习数据是无标签的由于大多数真实世界的数据都没有标签，这些算法特别有用无监督学习分为聚类和降维聚类用于根据属性和行为对象进行分组这与分类不同，因为这些组不是你提供的聚类的一个例子是将一个组划分成不同的子组（例如，基于年龄和婚姻状况），然后应用到有针对性的营销方案中降维通过找到共同点来减少数据集的变量大多数大数据可视化使用降维来识别趋势和规则强化学习使用机器的个人历史和经验来做出决定强化学习的经典应用是玩游戏与监督和非监督学习不同，强化学习不涉及提供"正确的"答案或输出相反，它只关注性能这反映了人类是如何根据积极和消极的结果学习的很快就学会了不要重复这一动作。

同样的道理，一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间然后，国际象棋的这一基本教训就可以被扩展和推断出来，直到机器能够打（并最终击败）人类顶级玩家为止回归算法这可能是最流行的机器学习算法，线性回归算法是基于连续变量预测特定结果的监督学习算法另一方面， Logistic回归专门用来预测离散值这两种（以及所有其他回归算法）都以它们的速度而闻名，它们一直是最快速的机器学习算法之一心最近邻算法（有监督算法，分类算法）也称为KNNKNN用于分类，比较数据点的距离，并将每个点分配给它最接近的组给一个新的数据时，离它最近的k个点中，哪个类别多，这个数据就属于哪一类 K表示K个邻居，不表示距离，因为需要求所有邻居的距离，所以效率低下优点：可以用来填充缺失值，可以处理非线性问题调优方法：K值的选择，k值太小，容易过拟合应用：样本数少，特征个数较少，kNN更适合处理一些分类规则相对复杂的问题，在推荐系统大量使用KNN (K Nearest Neighbor);决策树算法将一组"弱"学习器集合在一起，形成一种强算法，这些学习器组织在树状结构中，相互分支一种流行的决策树算法是随机森林算法。

在该算法中，弱学习器是随机选择的，这往往可以获得一个强预测器根据一些feature （特征）进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上a. 只接受离散特征，属于分类决策树b. 条件熵的计算H（Label |某个特征）这个条件熵反映了在知道该特征时，标签的混乱程度，可以帮助我们选择特征，选择下一步的决策树的节点c. Gini和entropy的效果没有大的差别，在scikit learn中默认用Gini是因为Gini指数不需要求对数，计算量少d. 把熵用到了集合上，把集合看成随机变量e. 决策树：贪心算法，无法从全局的观点来观察决策树，从而难以调优f. 叶子节点上的最小样本数，太少，缺乏统计意义从叶子节点的情况，可以看出决策树的质量，发现有问题也束手无策优点：可解释性强，可视化缺点：容易过拟合（通过剪枝避免过拟合），很难调优，准确率不高g. 二分类，正负样本数目相差是否悬殊，投票机制h. 决策树算法可以看成是把多个逻辑回归算法集成起来根节点；表示有5个斯:「娥后我计算条件gini,我发现取第0个特征是離特征「对于这第0个特征r祭件 gini 值是 0.48贝叶斯算法，基于Bayes理论，最流行的算法是朴素Bayes，它经常用于文本分析。

例如，大多数垃圾邮件过滤器使用贝叶斯算法，它们使用用户输入的类标记数据来比较新数据并对其进行适当分类聚类算法的重点是发现元素之间的共性并对它们进行相应的分组，常用的聚类算法是k-means聚类算法（无监督算法，聚类算法，随机算法）在k-means中，分析人员选择簇数（以变量k表示），并根据物理距离将元素分组为适当的聚类每个都与三个初始值计算距离，然后归类到离它最近的初始值所在类别分好类后，计算每一类的平均值，作为新一轮的中心点a. 最常用的无监督算法b. 计算距离方法：欧式距离，曼哈顿距离c. 应用：去除孤立点，离群点（只针对度量算法）；可以离散化d. 最常用归一化预处理方法f. k-means设置超参数k时，只需要设置最大的k值g. k-means算法最终肯定会得到稳定的k个中心点，可以用EM（Expectation Maximum）算法解释h. k-means算法k个随机初始值怎么选？多选几次，比较，找出最好的那个i. 调优的方法：1. bi-kmeans方法（依次"补刀"）j. 调优的方法：2.层次聚类（逐步聚拢法）k=5找到5个中心点，把中心点喂给k-means初始中心点不同，收敛的结果也可能不一致。

k. 聚类效果怎么判断？用SSE误差平方和指标判断，SSE越小越好，也就是肘部法则的拐点处也可以用轮廓系数法判断，值越大，表示聚类效果越好，簇与簇之间距离越远越好，簇内越紧越好l. k-means算法最大弱点：只能处理球形的簇（理论）（spont） a* C9iq2 =S ［寸2HUJ =百：事先确定常数「常數储味•展牌的鑒类类另燉-首先随机选定初!冶点为质心,并删计算每一?祥本与6 质心之间的榔蚯f这里为戏式距离）r将样本点归別晁榔口的裘中，按希r爭新计耳每2匸石U*£IL：个类的质「氓即为类中心）,車缸这祥的过:幄,坯fl质心不再改变,磁就确宦了毎个样本 a所加的类别I宓每个芙的质心.由于每次都翌计■所有的样本与帶一个质心之间的相似度，故在尢觇橈的数上，匕血测血法飾收翎1度t腋慢* "深度学习是一类机器学习，基于生物神经网络的结构，目的是模仿人脑的思维过程，经常用于图像和语音识别深度学习采用神经网络模型并对其进行更新它们是大、且极其复杂的神经网络，使用少量的标记数据和更多的未标记数据神经网络和深度学习有许多输入，它们经过几个隐藏层后才产生一个或多个输出这些连接形成一个特定的循环，模仿人脑处理信息和建立逻辑连接的方式。

支持向量机要将两类分开，想要得到一个超平面，最优的超平面是到两类的margin达到最大，margin 就是超平面与离它最近一点的距离a. SVM算法是介于简单算法和神经网络之间的最好的算法b. 只通过几个支持向量就确定了超平面，说明它不在乎细枝末节，所以不容易过拟合，但不能确保一定不会过拟合可以处理复杂的非线性问题c. 高斯核函数d. 缺点：计算量大纏’¥删陌妊'輕毅彈强墜职T離:J\AS。

点击阅读更多内容