hive功能简单介绍

资源ID：57569501 资源大小：17.34KB 全文页数：6页
资源格式： DOCX 下载积分：0金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要0金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

hive功能简单介绍

hivehive 功能简单介绍功能简单介绍Hive 提供了类 SQL 语法的功能，可通过它来检索 Hadoop 存储数据，查询操作是基于MapReduce 来完成的Hive 功能1.通过 select 语句查询指定 column 的数据2.通过 where 语句过滤查询条件3.通过 group by 语句将查询结果进行分组4.执行 join 查询操作使用写有 Join 操作的查询语句时有一条原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生 OOM 错误的几率。inner join：SELECT sales.*, things.* FROM sales JOIN things ON (sales.id = things.id);outer join：SELECT sales.*, things.* FROM sales LEFT OUTER JOIN things ON (sales.id = things.id);SELECT sales.*, things.* FROM sales RIGHT OUTER JOIN things ON (sales.id = things.id);SELECT sales.*, things.* FROM sales FULL OUTER JOIN things ON (sales.id = things.id);semi join：等同于 in 函数SELECT * FROM things LEFT SEMI JOIN sales ON (sales.id = things.id);相当于 sql 语句：SELECT * FROM things WHERE things.id IN (SELECT id from sales);map join：Join 操作在 map 阶段完成，不再需要 reduce 操作，因此 map join 不能结合 RIGHT OUTER JOIN 和 FULL OUTER JOIN 使用(需要 reduce 进行聚合)SELECT /*+ MAPJOIN(things) */ sales.*, things.* FROM sales JOIN things ON (sales.id = things.id);*前提：在 join 字段，join 左边的记录集合(sales)是 join 右边(things)的子集*，例如：sales things1 12 23 34.5.管理数据库表格(create,drop,alter)6.将查询结果保存到其他 Table通过 insert 语句：INSERT OVERWRITE TABLE targetPARTITION (dt='2010-01-01')SELECT col1, col2FROM source;注意：和关系数据库不同，insert 操作不是追加记录，而是将新的记录覆盖掉以前的记录，因此 OVERWRITE 关键字是必须的。787 棋牌 http:/www.ff787.com通过 CTAS 语句：CREATE TABLE targetASSELECT col1, col2 FROM source;7.将查询结果保存到 HDFSINSERT OVERWRITE DIRECTORY '/path' SELECT.8.将查询结果保存到本地目录INSERT OVERWRITE LOCAL DIRECTORY 'path' SELECT.9.自定义 MapReduce 脚本用于查询使用 Hive 需注意：查询出的数据可能会有延迟不能对数据执行更新和删除操作Hive is not designed for online transition processing and does not offer real-time queries and row levelupdates.it is best used for batch jobs over large sets of immutable dataHive 数据模型按照粒度由粗到细，Hive 数据可划分成如下几个单元DataBase、Tables:概念同关系数据库其中 Table 又分为 managed table 和 external table删除 external table 的时候，只会删除表格的元数据信息，而不会删除表格的数据删除 managed table 的时候，元数据和数据都会删除Partitions:当表格数据量较大时，可对表格进行分区处理(Partition)，便于局部数据的查询操作，如按时间分区、按地域分区等，将具有相同性质的数据存储到同一磁盘块上，从而加快查询效率。Buckets:Table 所存储的数据进行分区(Partition)之后，每个 Partition 还可划分成更细的粒度以水平切片的方式进行存储，被划分后的数据单元称为 Bucket 或 Clusterbucket 多用于提高 map-join 的效率a mapper working on a bucket of the left table only needs to load the corresponding buckets of the right table to perform the joinHive 语法DDL(1)、定义表格：CREATE TABLE page_view(viewTime INT, userid BIGINT,page_url STRING, referrer_url STRING,friends ARRAY, properties MAP, #1ip STRING COMMENT 'IP Address of the User') #2COMMENT 'This is the page view table'PARTITIONED BY(dt STRING, country STRING) #3CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS #4ROW FORMAT DELIMITED #5FIELDS TERMINATED BY '1'COLLECTION ITEMS TERMINATED BY '2'MAP KEYS TERMINATED BY '3'STORED AS SEQUENCEFILE; #6注释：1.Hive 的字段类型包括私有类型(Primitive Type)和复杂类型(Complex Type)其中，私有类型包括：TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOUBLE和 STRING 天地棋牌 http:/www.dadiqipaigw.cn复杂类型包括：Structs、Maps 和 Arrays，通常为私有类型的集合2.通过 COMMENT 关键字为表格和字段添加注释3.通过 PARTITIONED BY 关键字为表格分区4.通过 CLUSTERED BY 关键字将 PATITION 划分成 BUCKET5.定义每条记录的存储格式，包括：字段之间如何分隔；集合字段中的元素如何分隔；Map 的 key 值如何分隔6.指定存储格式为 Hadoop 的 SequenceFile(2)查看表结构DESCRIBE tablename;(3)修改表格为表格添加字段ALTER TABLE pokes ADD COLUMNS (new_col INT);(4)删除表格DROP TABLE tablename;DML(1)、导入数据导入操作，只是将文件复制到对应的表格目录中，并不会对文档的 schema 进行校验从 HDFS 导入 638 棋牌 http:/www.rodlg.comLOAD DATA INPATH 'data.txt' INTO TABLE page_view PARTITION(date='2008-06-08', country='US')从本地导入，并覆盖原数据LOAD DATA LOCAL INPATH 'data.txt' OVERWRITE INTO TABLE page_view PARTITION(date='2008-06-08', country='US')Hive 体系结构hiveserverhiveserver 启动方式：hive -service hiveserverHiveServer 支持多种连接方式：Thrift、JDBC、ODBC

注意事项

本文（hive功能简单介绍）为本站会员（m****）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。