电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

python数据分析--精选文档

32页
  • 卖家[上传人]:人***
  • 文档编号:477685683
  • 上传时间:2022-10-10
  • 文档格式:DOC
  • 文档大小:71.50KB
  • / 32 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、python数据分析(pandas)几年后发生了。在使用SAS工作超过5年后,我决定走出自己的舒适区。作为一个数据科学家,我寻找其他有用的工具的旅程开始了!幸运的是,没过多久我就决定,Python作为我的开胃菜。 我总是有一个编写代码的倾向。这次我做的是我真正喜欢的。代码。原来,写代码是如此容易! 我一周内学会了Python基础。并且,从那时起,我不仅深度探索了这门语言,而且也帮助了许多人学习这门语言。Python是一种通用语言。但是,多年来,具有强大的社区支持,这一语言已经有了专门的数据分析和预测模型库。 由于Python缺乏数据科学的资源,我决定写这篇教程来帮助别人更快地学习Python。在本教程中,我们将讲授一点关于如何使用Python进行数据分析的信息,咀嚼它,直到我们觉得舒适并可以自己去实践。目录1. 数据分析的Python基础o 为什么学Python用来数据分析o Python 2.7 v/s 3.4o 怎样安装Pythono 在Python上运行一些简单程序2. Python的库和数据结构o Python的数据结构o Python的迭代和条件结构o Python库3. 在

      2、Python中使用Pandas进行探索性分析o 序列和数据框的简介o 分析Vidhya数据集贷款的预测问题4. 在Python中使用Pandas进行数据再加工5. 使用Python中建立预测模型o 逻辑回归o 决策树o 随机森林让我们开始吧1.数据分析的Python基础为什么学Python用来数据分析 很多人都有兴趣选择Python作为数据分析语言。这一段时间以来,我有比较过SAS和R。这里有一些原因来支持学习Python: 开源免费安装 极好的在线社区 很容易学习 可以成为一种通用的语言,用于基于Web的分析产品数据科学和生产中。 不用说,它仍然有几个缺点: 它是一种解释性的语言,而不是编译的语言,因此可能占用更多的CPU时间。然而,由于它节省了程序员的时间(由于学习的方便),它可能仍然是一个很好的选择。Python 2.7 v/s 3.4 这是关于Python的一个最具争议的话题。你可能总是不能避免遇到,尤其是如果你是一个初学者。这里没有正确/错误的选择。它完全取决于具体情况和你的需要。我会尝试给你一些建议,以帮助你做出明智的选择。为什么选择Python 2.71. 极好的社区支持

      3、!这是你在初期需要的东西。Python 2发行于2000年末,已经被使用超过15年。2. 很多第三方库!虽然许多库已经提供了3.X的支持,但仍然有大量的模块只工作在2.X。如果你计划将Python用于具体的应 用,如Web开发这种高度依赖外部模块的,你选择2.7可能会更好。3. 3.X版本的一些特性有向后兼容性,可以使用2.7版本。为什么选择Python 3.41. 更整齐和更快!Python开发者修正了一些固有的问题和小缺点,以此为未来建立一个强大的基础。这些可能不是很相关,但最终会很重要。2. 这是未来!2.7是2 .X族发布的最后一个版本,并且最终每个人都要转移到3.X版本。Python 3在过去5年已经发布的稳定版本,并将继续。 没有明确的赢家,但我想,底线是,你应该专注于学习Python语言。版本之间的转换应该只是一个时间问题。敬请期待,不久的将来一个专门对比Python 2.X和3 X的文章!怎样安装Python有两种方法安装Python 你可以直接从项目网站下载Python,然后单独安装你想要的组件和库 或者,你可以下载并安装一个包,它附带了预装的库。我建议您下载Anac

      4、onda。另一种选择是 Enthought Canopy Express。第二种方法提供了一个避免麻烦的安装,因此我会推荐给初学者。这种方法是你必须等待整个包进行升级, 即使你只是对一个单一的库的最新版本感兴趣。它应该不重要,直到和除非,直到和除非,你正在做的尖端统计研究。选择开发环境 一旦你已经安装了Python,选择环境可以有很多种选择。这里是3个最常见的选择: 终端/基于Shell IDLE(默认环境) iPython notebook 类似于R的markdown 而环境权取决于你的需要,我个人更喜欢iPython notebook一点 。它提供了许多良好的功能,编写代码的同时还可以用于记录,你可以选择在上面运行代码块(而不是一行一行的执行)。我们在整个教程中将使用Ipython 环境热身:跑第一个Python程序 你可以使用Python作为一个简单的计算器来开始:有一些事情需要注意: 你可以在你的终端/ CMD键入“IPython notebook”来启动IPython notebook,这取决于你的工作在操作系统 你可以通过简单地点击上面截图中的名字来对IPython not

      5、ebook命名 界面显示In*代表输入和Out*代表输出。 你可以通过按“Shift + Enter”或“ALT + Enter”来执行代码,如果你后面还想插入一行。 在我们深入挖掘如何解决问题之前,让我们退后一步,了解Python的基本知识。当我们知道数据结构和迭代和条件结构是形成任何语言的关键。在Python中,这些包括列表、字符串、元组、字典、for循环,while循环,if-else等等,让我们来看看下面的因素。2 .在Python上运行一些简单程序Python的数据结构 以下是Python中使用的一些数据结构。你应该熟悉他们,以便恰当的使用它们。 列表列表是在Python中最通用的数据结构。列表可以这样简单的定义:就是在方括号中一系列用逗号来分隔的值。列表可能包含不同类型的项,但它们通常都有相同类型的。Python列表是可变的,列表中的单个元素是可以改变的。 这里是一个快速的例子,定义了一个列表,然后访问它: 字符串字符串可以简单的使用单引号()、双引号(”)或三引号()来定义。字符串封闭三引号()中可以跨越多行的代码,在文档字符串中是很常用的(记录功能的Python方式)。

      6、作为一个转义字符。请注意,Python中的字符串是不可变的,所以你不能改变字符串的部分。 元组元组由一系列由逗号分隔的值表示。元组是不可变的,输出的用括号包围,目的是嵌套结构可以被正确处理。此外,尽管元组是不可变的,但它们可以在必要是含有可变数据。 因为元组是不可变的,不可改变的,他们相对列表来说可以处理的更快。因此,如果你的清单是不可能改变的,你应该使用元组,而不是列表。 字典字典是键:值对一个无序集合,要求键是唯一的(在一个字典里)。一对大括号创建一个空的字典: 。Python的迭代和条件结构 和大多数语言一样,Python也有一个FOR循环,这是最广泛使用的迭代方法。它有一个简单的语法: 这里的“Python的迭代可以是列表、元组或其他先进的数据结构,我们将在后面的章节中探讨。让我们来看看一个简单的例子,确定一个数字的因子。 来看看条件语句,它们是用来基于条件执行代码片段。最常用的结构是if-else,有以下语法: 例如,如果我们想打印出某个数字n是偶数还是奇数: 既然你熟悉了Python的基础,我们来更近一步。如果你像完成以下任务:1. 乘2矩阵2. 求二次方程的根3. 绘制条

      7、形图和直方图4. 建立统计模型5. 访问网页 如果你想从零开始写代码,它将是一场噩梦,你使用Python不会超过2天!但不要担心这些。值得庆幸的是,有许多预定义的库,我们可以直接导入到我们的代码,使我们的生活很容易。例如,考虑我们刚才看到的因子的例子。我们可以一步就完成: 当然,为了这样我们需要导入的math库。让我们探索下一个不同的库。Python库 在开始我们的学习Python之旅之前,让我们先一步,了解一些有用的python库。第一步显然是要学会将它们导入到我们的环境中。在Python中有以下几种方法: 在第一种方式中,我们已经为math库定义了一个别名m。现在我们可以使用数学库的各种功能(例如阶乘, 通过引用别名m.factorial() 。 第二方式,你需要导入math的整个命名空间,你可以直接使用factorial(),而不用提到math。提示:谷歌推荐您使用第一种方式导入库,因为您将知道函数来自何处。 下面是一个库列表,你将在任何科学计算和数据分析中用到: NumPy代表数值Python。NumPy最强大的功能是n维数组。该库还包含基本的线性代数函数,傅里叶变换,高级的随

      8、机数功能,以及集成其他低级语言如Fortran,C和C+的工具。 SciPy代表科学的Python。SciPy是基于NumPy的。它是最有用的库之一,具有各种高层次的科学和工程模块,如离散傅立叶变换,线性代数,优化和稀疏矩阵。 Matplotlib用于绘制各种各样的图表,从直方图到线图,再到热图。你可以在IPython notebook中使用PyLab(IPython notebookPyLab = inline)以此使用这些绘图功能的inline。如果你忽略inline选项, PyLab 会将IPython notebook环境转换成类似于Matlab的环境。你也可以使用 Latex命令将math库添加到您的绘图中。 Pandas对于结构化数据操作和控制。它广泛用于数据再加工和数据准备。Pandas说最近一直在推动对Python Python的使用数据科学家共同体的工具。 Scikit Learn机器学习库。建立在NumPy、SciPy和matplotlib的基础上,这个库包含了机器学习和统计模型包括分类、回归、聚类和降维等很多有效的工具。 Statsmodels用于统计建模。sta

      9、tsmodels是一个Python模块,允许用户探索数据,估计统计模型,并进行统计检验。一个广泛的描述性统计,统计检验的列表。绘图功能,和结果统计可用于不同类型的数据和每个估计。 Seaborn用于统计数据的可视化。Seaborn是Python中用来绘制让人喜欢的并能提供大量信息的统计图形库。它是基于matplotlib。Seaborn旨在使可视化成为探索和理解数据的核心部分。 Bokeh创建交互式图、仪表盘和现代Web浏览器上的数据应用。它允许用户生成的优雅和简洁的d3.js风格的图形。此外,在非常大的或流媒体数据集上,它具有高性能的交互性的能力。 Blaze扩展NumPy和Pandas的分布式和流媒体数据集。它可以用来访问来自多种来源的数据,包括bcolz,MongoDB,SQLAlchemy,Apache Spark, PyTables等等,结合Bokeh,Blaze可以作为一个非常强大的工具,用于对大规模数据创建高效的的可视化和仪表板。 Scrapy用于网络爬虫。它是用于获取特定数据模式的一个非常有用的框架,。它可以通过开始的一个网站主页的网址,然后通过挖掘网页内的网站收集信息。 SymPy用于符号计算。它具有广泛的功能,从基本的符号运算到微积分,代数,离散数学和量子物理学。另一个有用的功能是将计算的结果格式化为LaTeX码的能力。 Requests用于访问网络。它的工作原理类似于Python标准库urllib2,但是更容易编码。但对于初学者,你会发现和urllib2细微的差别,Requests可能更方便。 其它

      《python数据分析--精选文档》由会员人***分享,可在线阅读,更多相关《python数据分析--精选文档》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.