电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

一次数据分析的全过程

  • 资源ID:56435088       资源大小:30.36KB        全文页数:5页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

一次数据分析的全过程

一次数据分析的全过程一次数据分析的全过程源数据就是个日志文本信息2008/1/11 02:14:33:181 181 00001c68 SeqID 418370 ToBack()=TRUE Len=154 MsgID=x00000202 2008/1/11 02:14:33:181 181 00001c68 SeqID 418370 ToFront()=TRUE Len=260 MsgID=x08000202 BEIP=192.168.1.162 BEPort=220492008/1/11 03:05:42:330 330 00004110 SeqID 418370 ToBack()=TRUE Len=154 MsgID=x00000202 2008/1/11 03:05:42:346 346 00004110 SeqID 418370 ToFront()=TRUE Len=261 MsgID=x08000202 BEIP=192.168.1.163 BEPort=22049要的结果是统计一下,各时段对应的超时毫秒的数量理论上也不复杂,能找出数据规律,进行分组统计而已,但问题在于:首先统计是上下文相关的,即通过上下文的数据相计算才能获取到相应的指标其次如何判断上下文的场景,根据几组字段判断都有问题,即得不到唯一的标示原来想着应该是轻而易举的事情,先把数据导入 oracle 吧有日期有时间,需要把文本的日期时间处理成 oracle 的 date 类型,可偏偏 date 类型不支持毫秒运算,第一个问题出来了,依赖于日志中已有的毫秒进行上下文计算又有一定的问题。移动电玩城 http:/www.44226.net先统计了再说吧select b.hours,case when overlap90ms'end tt,count(*)from(select a.f,a.d from(select k,a,b,f,d,g,c,LAG(c, 1, 0) OVER (partition by f,d ORDER BY B,g) lastc,LAG(b, 1, 0) OVER (partition by f,d ORDER BY B,g) lastb,case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0 then c - LAG(c, 1, 0) OVER (ORDER BY tt)else c - LAG(c, 1, 0) OVER (ORDER BY tt)+1000 end aafrom test6 t) awhere a.g='ToFront()=TRUE' and a.aa>90 )order by f,d,b,g) bgroup by b.hours,case when overlap90ms'end结果统计出来了,结果非预期的,又对几条数据进行了统计和明细的对比,发现确实有些小问题,可问题出在哪里,也说不清楚。为了解释清楚这个问题,还是对数据加上行号吧,再次进行对比,发现数据的位置变化了,和原本的日志顺序是不一样的。棋牌评测网 http:/www.77884.net为了解决这个问题,还是用 rownum 加上表数据生成到另外一张测试表吧,再去看看行号和日志的顺序是否能够对应,却发现日志的插入顺序和行号是不一致的!又问了下同事,业务逻辑到底是怎样的,答曰:日志中上下文的顺序是很严格的看来需要彻底解决行号问题了。又在 Excel 中做了一下测试,Excel 做测试很容易,先获取上条记录的毫秒信息,再进行排序,再把数据进行筛选,然后再进行分组判断,最后进行交叉表的生成。对应大数据量来说,Excel 的拖拉显然就满了很多,其次还需要函数、排序、复制数据,总的来说还是比较耗时的。还是想想怎么解决行号问题吧,确保行号就是数据的原始顺序,首先加了一个sequence,后来又在该表中增加了一个触发器,然后把数据重新导入一遍create or replace trigger trigger_test6before insert on test6for each rowdeclarebeginselect tt.nextval into :new.tt from dual;end trigger_test6;再去验证数据的顺序,这次才算正常了数据正常了,业务逻辑就简单多了,只需要把最内核的部分修改一下,按行号排序即可select rr,k,a,b,f,d,g,c,LAG(c, 1, 0) OVER (ORDER BY tt) lastc,LAG(b, 1, 0) OVER (ORDER BY tt) lastb from test6 t统计完成后,再拷贝到 Excel 中进行数据透视表转换,再把表格数据拷贝出来,加一些美观信息即可。该件事情还是没有得到完美解决主要是毫秒的处理,理论上是时间的直接相减即可,可由于 Oracle 的 date 类型无法直接处理,只能采用日志中的毫秒字段进行相减了,碰到相减为负的,则再加回来 1000,多少有些问题。天地棋牌 http:/www.dadiqipaigw.cn再其次,oracle 导入时的数据顺序有问题,不过我想也许是我自己还没找解决问题的根本原因吧。

注意事项

本文(一次数据分析的全过程)为本站会员(m****)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【一次数据分析的全过程】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.