
数据科学的简单认识.doc
2页数据科学的简单认识目录研究范式的新认识——从“第三范式”到“第四范式2007年,图灵奖获得者JimGray提出了科学研究的第四范式——数据密集型科学发现(Data-intensiveScientificDisc他看来,人类科学研究活动已经历过三中不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式”第四范式,即“数据密集型科学发现范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象数据科学的四范式第一范式:几千年前记录和描述自然现象的经验科学第二范式:数百年前利用模型归纳总结过去记录的现象的理论科学第三范式:〜〜过去数十年〜〜利用科学计算机对复杂现象进行模拟仿真的计算科学第四范式:计算机将模拟仿真,进行分析总结,得到理论,即数据密集型科学数据重要性的新认识——从“数据资源”到“数据资产”在大数据时代,数据不仅是一种“资源”,而更是一种重要的“资产”因此,数据科学应把数据当做“一种资产来管理”,而不能仅仅当做“资源”来对待。
也就是说,与其他类型的资产相似,数据也具有财务价值,且需要作为独立实体进行组织与管理我们传统的方法论往往是“基于知识”的,即从“大量实践(数据)”中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题因此,传统的问题解决思路是“问题-知识-问题”,即根据问题找“知识”,并用“知识”解决“问题”然而,数据科学中兴起了另一种方法论——“问题-数据-问题”,即根据问题找“数据”,并直接用数据(不需要把“数据”转换成“知识”的前提下)解决问题对数据分析的新认识——从统计学到数据科学在传统科学中,数据分析主要以数学和统计学为直接理论工具但是,云计算等计算模式的出现以及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响,主要有:1、随着数据获取、存储与计算能力的提升,我们可以很容易获得统计学中所指的“总体”中的全部数据,且可以在总体上直接进行计算——不再需要进行“抽样操作”2、在海量、动态、异构数据环境中,人们更加关注的是数据计算的“效率”而不再盲目追求其“精准度”例如,在数据科学中,广泛应用“基于数据的”思维模式,重视对“相关性”的分析,而不是等到发现“真正的因果关系”之后才解决问题。
在大数据时代,人们开始重视相关分析,而不仅仅是因果分析对计算智能的新认识——从复杂算法到简单算法“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”一一只要对大数据的进行简单查询就可以达到“基于复杂算法的智能计算的效果”为此,很多学者曾讨论过一个重要话题一一“大数据时代需要的是更多数据还是更好的模型(moredataorbettermodel)?”机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种“算法”,但应用效果并不理想近年来,Google翻译等工具改变了“实现策略”,不再仅靠复杂算法进行翻译,而对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率对决策方式的新认识——从目标驱动型决策到数据驱动型决策传统科学思维中,决策制定往往是“目标”或“模型”驱动的一一根据目标(或模型)进行决策然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”数据科学数据化(Datafication)数据柔术(DataJiu-Jitsu)数据改写(DataMunging)数据打磨(DataWrangling)数据洞见(DataInsights)数据分析式思维模式(Data-AnalyticThinking)数据驱动(Data-driven)数据密集型(Data-Intensive)应用数据空间(DataSpace)最好的时代,最坏的时代最好的时代:大数据带来大价值医疗大数据一一看病更高效金融大数据——理财利器零售大数据一一最懂消费者交通大数据一一畅通出行大数据还在教育、政府、体育、环境保护等等各行各业都有广泛的应用。
最坏的时代:大数据暗藏大隐患对于消费者或者互联网所谓的“用户”来说,大数据的意思就是尽可能地搜集跟终端消费者相关的隐私,然后进行营销我们每天似乎就像生活在一个没有隐私,没有安全感的社会之中我们的一言一行,一举一动都有可能造成我们个人信息的泄露所以,在享受大数据给我们的生活带来的各种便捷服务的同时,我们也不得不牺牲一定的利益,为这种“享受”付出一定的“代价”数据挖掘、数据分析与数据统计“数据分析”需要人工建模,“数据挖掘”自动完成数学建模,“数据统计”则是把模糊估计变得准确而定量可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量举个简单的例子:有一些人总是不及时向电信运营商缴费,如何发现它们?数据挖掘:通过编写机器学习聚类算法发现无法通过观察图表得出的深层次原因发现家住在五环以外的人,由于居住环境偏远没有时间上营业厅缴费结论就需要多设立一些营业厅或者自助缴费点数据分析:通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析,发现很多人都习惯在收到欠费通知以后再缴费结论就是提前发放短信提醒数据统计:通过统计学推理方法组成样本的试验单元进行参数估计和假设检验,我们发现不及时缴钱人群里的贫困人口占82%。
所以结论是收入低的人往往会缴费不及时结论就需要降低资费数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体数据分析”的重点是观察数据,“数据挖掘”的重点是从数据中发现“知识规则”KDD(KnowledgeDiscoverinDatabase),数据统计的重点是参数估计和假设检验数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。












