
毕业论文范文——证券交易数据的聚类分析.doc
24页证券交易数据的聚类分析本科毕业论文(科研训练、毕业设计)题 目:证券交易数据的聚类分析姓 名:学 院:信息科学与技术学院系:自动化系专 业:自动化专业年 级: 学 号: 指导教师(校内): 职称: 指导教师(校外): 职称: 年 月 日证券交易数据的聚类分析[摘 要] 本文利用股票交易历史数据,运用直接匹配的方法对中国A股市场的股票进行短期走势聚类分析本文分多组进行多次匹配实验,以寻求最优的历史数据匹配时间长度此外,本文进行了多组测试实验用以测试分类效果,并提出同簇遗传率作为衡量指标实验结果表明,对于短期历史交易数据匹配而言,匹配条件数越多,效果越好[关键词] 数据挖掘 匹配 历史数据 同簇遗传率Cluster Analysis of Stock Transactions[Abstract] Utilizing historical data on stock transactions,this paper try to do a cluster analysis about the short-term trend of stocks on Chinese stock market,by direct matching method.In order to calculate the optimal cycle of historical data to match,this paper repeat groups of experiments.In addition,we also conduct experiments to test the classification effect,and propose a measure—same-cluster heritability at the same time.Experimental results show that,for the short-term historical data matching,the matching condition number,the better.[Key Words] data mining match historical data same-cluster heritability目 录引言 1第一章 背景知识 21.1 数据挖掘 21.2 聚类分析 31.3 股票走势技术分析指标 3第二章 实验设计 52.1 实验问题提出背景 52.2 数据来源 62.3 实验方案 7第三章 实验结果与分析 10结论 18致谢语 19参考文献: 20引言当前,我国经济高速发展,证券市场也伴随着国民经济的蓬勃发展蒸蒸日上,在我国经济建设中扮演着不可或缺的角色。
在证券市场中,每天都有大量的交易数据产生,这些数据蕴藏着许多重要的信息若能挖掘这些历史数据,发现其变化规律,从而制定相应策略,则能减少投资风险,获得更高的收益如今,应用数据挖掘等各类技术对股票走势进行预测的研究众多,绝大部分研究工作都是利用各种模型与算法预测大盘、板块或者个股未来的走势实际投资中,经常出现某些股票具有相似的走势这些走势相似的股票,可能有相同的题材概念或其他隐藏着未被发现的某些内在联系随着证券市场的发展,上市公司的数量也在不断增长,截止2014年03月14日,中国沪深两市A股总数已达2516支,采用手工去寻找这些走势相似的股票是不现实的因此,如何运用计算机技术自动发现走势相似的股票,为投资者提供决策参考,已成为一个很有实际价值的工作本文就是围绕这个主题展开的,我们采用直接匹配方法进行聚类分析去发现走势相似的股票簇,提出同簇遗传率度量这些股票簇在未来仍保持相似走势的概率大小实验结果显示,我们的方法是有效的,能自动发现走势相似且具有较好同簇遗传率的股票簇本文总共分为三章,具体的结构安排如下:第一章是背景知识的介绍,首先介绍了数据挖掘的概念和方法,其次介绍了聚类分析的基本概念,在本章的末尾还介绍了本文所要用到的部分股票走势技术分析相关知识;第二章是实验设计部分,分别对实验问题提出的背景、实验数据来源和实验具体的方案与实施进行了详细介绍;第三章是实验结果与分析,本章对实验结果进行测试并利用图表进行分析。
文章最后是结论和展望部分第一章 背景知识1.1 数据挖掘数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[[]吕成哲,赵晓明,王起伟. 浅谈数据挖掘理论[J]. 中国西部科技(学术),2007,02:39-42.]数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在信息的模式,帮助决策者调整市场策略,减少风险,做出正确的决策数据挖掘的分析方法主要包括分类分析、回归分析、聚类分析、相关性分析和关联规则分析等数据挖掘过程包括很多处理阶段,其一般流程主要有以下四个阶段:(1) 明确目标:确定数据挖掘的目标是十分重要的一步,挖掘的最后结果是不可预测但探索的问题应是有预见的;(2) 数据准备:数据准备包含数据选取和数据预处理两个部分数据选取的目的是根据用户的需要从原始数据库中抽取部分数据[[]郑日军. 数据挖掘综述[J]. 科协论坛(下半月),2008,10:82.];数据预处理主要是进行噪声消除、去除重复数据、进行数据类型转换等等;(3) 数据挖掘:这个阶段包括确定挖掘的目标,根据任务要求选择合适的算法并执行算法进行挖掘的过程;(4) 结果解释和评价:对挖掘结果进行评价,若知识不满足用户需求,则重复上述过程调整算法重新挖掘。
对于符合需求的结果,还需进行处理、分析,对挖掘的知识进行解释,以一种用户易于理解的方式进行呈现供用户所用数据挖掘过程的步骤如图1所示:图 1 数据挖掘过程的步骤[[]林香. 证券分析中数据挖掘模型的研究及应用[D].厦门大学,2007. -[]顾忠伟. 灰色挖掘及其在证券分析中的应用研究[D].浙江大学,2003]1.2 聚类分析聚类(Clustering)分析是数据挖掘技术的重要组成部分,它是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程[[]陈学进. 数据挖掘中聚类分析的研究[J]. 计算机技术与发展,2006,09:44-45+49.]与数据挖掘的另一个分析方法——分类分析不同,进行聚类前并不知道将要划分成几个组和什么样的组,它不依赖于预先定义好的类,不需要训练集聚类要求在不同群组的数据之间差距越大、越明显越好,而每个群组内部的数据之间要尽量相似,差距越小越好[[]喻彪,骆雯,赖朝安. 数据挖掘聚类算法研究[J]. 现代制造工程,2009,03:141-145.]目前聚类算法众多,主要分为分裂方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法几个大类[[]汤效琴, 戴汝源. 数据挖掘中聚类分析的技术方法[J]. 微计算机信息, 2003, 19(1): 3-4.],包含K-MEANS算法(K平均)、BIRCH算法(平衡迭代规则和聚类)等常用算法[[]孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1): 48-61.]。
1.3 股票走势技术分析指标股票走势技术分析是以股票价格作为主要研究对象,以预测股价波动趋势为目的,从股价变化的历史图表入手,对股票市场波动规律进行分析的方法总和[[] 开盘价:该股票在给定周期内的交易活动中第一笔交易的成交单价2) 收盘价:该股票在给定周期内的交易活动结束前最后一笔交易的成交单价3) 最高价:该股票在给定周期内的交易活动中产生的最高单价4) 最低价:该股票在给定周期内的交易活动中产生的最低单价5) K线:K线是根据该股票的开盘价、收盘价、最高价、最低价绘制出的通常,根据计算周期,k线可分为日K线、周K线、月K线以及年K线当收盘价高于开盘价时,开盘价在下方收盘价在上方,两者之间的长方柱用红色或者空心表示,此为阳线;当收盘价低于开盘价时,则开盘价在上方收盘价在下方,两者之间的长方柱用黑色或者实心表示,此为阴线在阴阳线的上影线最高点为最高价,下影线的最低点为最低价,如图2所示:最高价收盘价开盘价最低价阳线最高价开盘价收盘价最低价阴线图 2 K线示例图(6) 涨跌幅:该股票本周期的收盘价和前一周期收盘价之差与前一周期收盘价的百分比,用来对涨跌情况进行描述7) 振幅:该股票在给定周期内的交易活动中最高价和最低价之差的绝对值与前一周期收盘价的百分比,该指标一定程度上表示了股票的活跃程度。
8) 换手率:该股票在给定周期内市场中对其转手买卖的频率,是反映该股票流通性强弱的指标之一9) 成交量:该股票在给定周期内交易成交的数量,是反映该股票活跃度的重要指标10) 移动平均线(MA)[[]谷雁. 基于道氏趋势理论的证券分析预报软件的研究[D]. 大连理工大学, 2007.]:将该股票在一段周期内的价格平均值连成的曲线,显示了股价的历史波动情况常见的指标包括MA5、MA10、MA15、MA20,分别表示该股票的5日均价、10日均价、15日均价和20日均价第二章 实验设计2.1 实验问题提出背景在证券市场实际投资中,经常出现某些股票具有相似的走势这些走势相似的股票,可能有相同的题材概念或其他隐藏着未被发现的某些内在联系通过查阅历史资料,不难发现走势相似的案例例如,在2007年第三季度,沙隆达A(000553)和汇鸿股份(600981)两只股票的走势极其相似,本文将2007年第三季度两只股票的涨跌幅数据通过MATLAB绘制出对比图,如图3所示从图中可以看出,在第三季度将近七十个交易日里,两只股票走势曲线近乎可以重叠从题材上看,通过东方财富股吧[[] ]我们了解到,沙隆达集团是化工集团而汇鸿股份是外贸公司其主要的业务并没有化工相关行业,看不出任何端倪。
在后期的数据分析中发现,这段时间内两只股票买卖金额排名前五的席位上常出现相同的券商投资公司,这基本可以确定这两只看似毫无关联的股票走势相似是机构投资者有心栽培而非巧合图 3 沙隆达A、汇鸿股份走势对比图对于上述两只股票的情况并非个例,如图4中恒宝股份(002104)和鲁泰A(000726)在2007年10月08日至2007年11月30日40个交易日的走势,这两只表面上没有任何关联的股票同样出现了走势十分相似的情况,通过技术分析。
