
提高数据处理能力动员报告.doc
12页提高现代数据解决意识与解决能力的动员报告阮吉寿南开大学数学科学学院信息与概率系摘要计算机的飞速发展变化了我们的生活的方方面面我们面对的是越来越多的数据向这些堆积成山的数据挖掘信息,就是直接或间接地为社会的各行各业发明财富数学的个人英雄主义时代即将过去,解决现实社会中的实际问题是学问的必然回归这需要现代数据解决技术不识字是文盲,不懂现代科学技术是科盲,这些都已经成为了共识不懂现代数据解决技术会是什么呢?固然就是“数盲”试想,见到一堆数据什么也看不出来,这与旧社会连自己的名字都读不懂的文盲有何异?当今社会,充斥了数据有多大的数据解决能力,就会带来多大的财富现代的解决数据的学问,不能停留在少数专家学者的论文和书斋里,这样主线适应不了庞大的市场需求现代数据解决技术不仅需要我们的学生来传承,更需要她们将其发扬光大学习、掌握、创新现代数据解决措施是时代的规定,也是提高综合素质的最佳模式娴熟地掌握现代数据解决技术,是应当从大学本可开始抓起前言数据是一种广泛内涵的名词,在多数人的大脑中形成的固定的概念是以某些观测到的数字的集合按照现代的观点来看,数据从类型上至少可以分为如下三大类:1. 字符串形式储存的数据(人类语言类文章,计算机语言,DNA序列,蛋白质序列,…)2. 数值形式储存的数据(数列,矩阵,表格,…)3. 声音与图像形式储存的数据(录音带,图像,基因芯片,…)因此,自从有了人类以来,人类就在自觉不自觉地与数据打交道。
但是,有些数据解决的能力是与生俱来的,例如,听与说母语是生存本能所决定的特别在混合居住地区,诸多人可以不上学就能懂得好几种语言(这是上天的恩赐,而不代表个人天赋)在数学人的眼中,上述所有数据,都可以转化为数值型的数据因此人类早就开始了数据解决,只是没有像今天这样专门以报告形式提出来不是吗?信息论,信号学,数值代数,概率记录,机器学习,计算机软件,图像解决,数据挖掘等等,哪一种不是应数据解决的需求而产生的?至少可以说,哪一种不对数据解决有用?固然,从难易限度来分,数据解决的能力可以按如下比例划分:l 大概50%数据解决能力对于绝大部分人是与生俱来的例如,辨别颜色,辨别声音,简朴交流思想,数数,简朴分类等等l 大概30%数据解决能力对于绝大部分人是要后天通过科普学习才干掌握的例如,驾车,修理,推销,投保,理财,广告,装璜,算术,网页浏览,收发电子邮件,短信,文字编辑等等l 大概15%数据解决能力对于绝大部分人是要后天通过刻苦学习才干掌握的例如,语义分析,信息论,信号分析,数值代数,概率记录,机器学习,计算机软件,图像分析,密码学,数据挖掘等等l 大概5%的数据解决能力对于绝大部分人是学也学部会的,这就是发明数据解决工具的能力。
掌握此能力就是此行业的顶级专家她们是根据实际需求,随着科学技术和结识世界的知识体系不断增大而实时地发明出或者普及相应的数据解决技巧现代数据解决的概况所谓现代数据解决,我们将之界定为1980年代至目前的,基于计算机科学的所有数据解决措施具有浓重的计算特性,因此也不妨成为计算数据解决(computational data processing)大体可以划分为如下几种大的板块:l 数据挖掘(Data Mining)l 嵌入技术(Embedology)l 数据融合(Data Fusion)l 随机图理论(Random Graph)l 机器学习 (Machine Learning)所有内容,无不基于很强的数学背景知识,特别是线性代数、频谱分析、信息论概率论,记录,随机过程我们如下以简要地按历史顺序将代表性的措施列举出来上述图形仅仅是现代数据解决中的部分内容的关系示意图,我们不也许将所有内容立体呈现出来下面就上述5个小题继续展开1. 数据挖掘理解数据挖掘,理解线性代数与数据挖掘的关系的最佳文献是Lars Elden 刊登的重要文献题为: Numerical Linear algebra in data mining,我(Math Review义务评论员)在写评论时予以了该文高度的赞赏(将刊登),原评论如下: This paper offers a best mode to extract all “nodes” and “edges” from the huge benchmark set of the 118 literatures scattered in many fields and over about a 70-year period, and set up all important concepts within a highest quality atlas (a paper of 58 pages) that leads the beginners (even for the experienced researchers) perfectly to understand what the data-mining is, and what the important roles are played by linear algebra. This paper itself is one kind of the highest-level text-mining/ text-summarization. It still makes my eyes brightly although I assumed that I had understood what data mining is before I read this paper. As well as, the writing style of this paper is excellent too, so, I have a little bit shame for that I have no the good writing ability to write down this review. So many important algebra methods and algorithms used in several areas of data mining are integrated by the author on three lines (i.e., rank reduction, low-rank approximation, and eigenvalue/singular value problems) with the same root (i.e. Wedderburn algorithm). Using Wedderburn rank reduction procedure as the clue, the author fishes out at least 22 important algebra methods/algorithms as follows: SVD, TSVD, GSVD, PCA, PCR, PLS, LBD, PLS, LSI, LDA, Perron-Frobenius theorem, Eckart-Young optimality, thin QR decomposition, agglomerative clustering, multiple-dimensional scaling, k-means methods, self-organizing maps, bipartite graph, spectral clustering methods, last squires problem, tangent distance, etc. What the meanings of these concepts are? What the connections among these concepts are? We may find the novel style to state them from this paper. This paper will be interested in for comprehensive readers who are mathematicians or not. Synchronously, this paper offers many examples involving handwritten digit classification, information retrieval, search engines, web search engines, Google PageRank, query matching, term-weighting scheme, latent semantic indexing, stemmed Medline collection, text summarization, etc, all of these will let mathematical readers get more unexpected feelings expediently. In contrast, for researchers working for Internet/computational sciences, they may be interested in these relationships among these numerical linear algebra methods mentioned above too, although they may not like to complement all proofs mathematically.In conclusion, this paper will be cited by more researchers and it has comprehensive readers. I wish the readers may also find this feeling that they would like to keep this paper as the good reference. 2.嵌入术。
在生活中,很早就诞生了想看看地下是什么,人体内是什么的欲望例如,神话中孙悟空能钻进人体内,也有能钻入地下潜行的土行狲现实中现代医学技术给出了B-超,CT,地质勘探技术,已经基本完毕了此心愿当我们看到B-超图像或代表地下矿藏分布的大屏幕时,没有人会怀疑是假的在数学中,流形中的运动轨迹就看不到,与否也有如此的一种大屏幕来显示呢?对于掌握了数学语言的人来说,欧几里德空间乃至Hilbert空间,就是我们的大屏幕于是诞生了嵌入术嵌入术虽然雏形诞生较早(H. Whitney 与F. Takens分别给出),但提出嵌入术的概念是Tim Sauer 在1991年的记录物理杂志上初次提出的嵌入术不仅自成体系,并且也对于其他方向有着不可或缺的奉献,数据挖掘,数据融合,机器学习等提供营养发展嵌入术,或者巧妙使用嵌入术,对于解决复杂系统问题是十分有利的3. 数据融合(Data Fusion)简朴地说,数据融合就是将来源于多种数据源的既非独立,也非完备信息乃至模糊的数据信息在合适的措施下将它们融合在一起得出一种更清晰的信息这是解决复杂系统问题引起的数据解决需求而产生的特点是,解决措施仁者见仁,智者见智虽有措施可循,但又可以不拘格局。
中国古老的盲人摸象的故事也告诉我们,如果对于大象事先有先验知识,将所有各自摸到的信息汇总,就有也许融合出大象的信息,否则很难代表性的参照文献为。
