好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

WEB日志的作用和缺陷.doc

6页
  • 卖家[上传人]:平***
  • 文档编号:18512325
  • 上传时间:2017-11-15
  • 文档格式:DOC
  • 文档大小:74.34KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站国内最具权威的市场调研门户网站之一WEB 日志的作用和缺陷Avinash Kaushik 将 点 击 流 数 据 的 获 取 方 式 分 为 4 种 :log files、 web beacons、 JavaScript tags 和 packet sniffers, 其 中 包 嗅 探器 ( packet sniffers) 比 较 不 常 见 , 最 传 统 的 获 取 方 式 是 通 过 WEB 日 志 文 件( log files) ; 而 beacons 和 JavaScript 是 目 前 较 为 流 行 的 方 式 , Google Analytics 目 前 就 是 采 用 beacons+JavaScript 来 获 取 数 据 的 , 我 们 可 以 来 简 单看 一 下 传 统 的 网 站 日 志 和 beacons+JavaScript 方 式 各 自 的 优 缺 点 :WEB 日 志 文 件优 势 : 简 单 方 便 , 不 需 要 修 改 网 页 代 码 , 可 以 自 定 义 日 志 格 式 ; 较 多 的 现 成的 日 志 分 析 工 具 的 支 持 ( AWStats、 Webalizer 等 ) ; 获 取 网 络 爬 虫 数 据 的 唯 一途 径 ; 可 以 收 集 底 层 数 据 供 反 复 的 分 析 。

      缺 陷 : 数 据 的 质 量 较 低 , 网 站 日 志 包 含 所 有 日 志 数 据 , 包 括 CSS、 图 片 、脚 本 文 件 的 请 求 信 息 , 所 以 过 滤 和 预 处 理 来 提 升 数 据 质 量 必 不 可 少 ; 页 面 缓 存 导致 浏 览 无 日 志 记 录 , 这 个 是 比 较 致 命 的 beacons+JavaScript优 势 : 只 需 要 在 页 面 代 码 中 操 作 , 不 需 要 配 置 服 务 器 ; 数 据 的 获 取 有 较 高 的可 控 性 , 可 以 只 在 需 要 统 计 的 页 面 植 入 代 码 ; 能 够 获 取 点 击 、 响 应 等 数 据 ; 不 需 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站国内最具权威的市场调研门户网站之一要 担 心 缓 存 等 的 影 响 , 数 据 的 准 确 度 较 高 ; 可 用 第 三 方 cookie 实 现 多 网 站 跟 踪比 较 缺 陷 : 当 浏 览 器 禁 止 接 收 图 片 或 者 禁 用 JS 时 , 都 可 能 导 致 数 据 获 取 的 失 败 ;只 在 应 用 服 务 层 操 作 , 无 法 获 取 后 台 的 数 据 ; 对 图 片 、 文 件 等 请 求 信 息 的 获 取 难度 相 对 较 大 ; 过 多 地 JS 可 能 导 致 页 面 性 能 的 下 降 , 虽 然 这 方 面 的 影 响 一 般 可 以忽 略 。

      无 论 通 过 何 种 方 式 , 最 终 数 据 都 是 通 过 日 志 文 件 来 记 录 的 , 只 是 通 过 JS 可 以 更容 易 控 制 想 要 获 取 的 数 据 , 并 通 过 在 URL 带 参 数 的 方 式 记 录 到 日 志 文 件 中 共 解 析和 统 计 所 以 底 层 的 数 据 形 式 无 非 就 是 记 录 在 日 志 文 件 中 的 那 几 项 , 在 WEB 日志 格 式 一 文 中 , 已 经 对 网 站 日 志 的 类 型 和 组 成 做 了 基 本 的 介 绍 , 这 里 就 再 来 解 析下 WEB 日 志 中 各 项 对 网 站 数 据 分 析 的 作 用 , 以 及 存 在 的 不 确 定 性 和 缺 陷 WEB 日 志 中 各 项 的 作 用根 据 WEB 日 志 的 组 成 , 下 面 来 介 绍 下 各 项 在 网 站 数 据 统 计 和 分 析 中 的 作 用 其 中 IP 一 般 在 为 记 录 cookie 的 情 况 下 被 用 于 识 别 唯 一 用 户 的 标 准 , 标 识 符 和 授权 用 户 一 般 情 况 下 都 为 空 , 而 日 期 时 间 标 识 日 志 生 成 的 时 间 戳 , 是 一 个 必 备 信 息 。

      请 求 ( request)请 求 类 型 比 较 少 会 被 用 于 统 计 , 只 有 少 数 的 统 计 表 单 提 交 情 况 是 会 被 用 到 ,而 版 本 号 对 统 计 来 书 基 本 是 无 用 的 请 求 的 资 源 一 般 跟 域 名 ( domain, 一 般 在 包 含 子 域 名 需 要 分 开 统 计 , 或 者 多个 站 点 的 日 志 被 收 集 到 同 一 日 志 服 务 器 是 , 会 在 网 站 日 志 里 面 自 定 义 加 入 域 名 信息 以 区 分 ) 一 起 决 定 本 次 请 求 的 具 体 资 源 , 页 面 点 击 、 图 片 获 取 或 者 其 他 当 然 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站国内最具权威的市场调研门户网站之一在 URL 后 面 加 入 一 些 自 定 义 的 参 数 可 以 获 得 一 些 特 殊 的 统 计 数 据 , Google Analytics 就 是 通 过 这 种 方 式 实 现 session 和 cookie 的 定 义 和 获 取 的 。

      状 态 码 ( status)状 态 码 比 较 常 被 用 于 一 些 请 求 响 应 状 态 的 监 控 , 301 页 面 重 定 向 或 者 404错 误 , 统 计 这 些 信 息 可 以 有 效 地 改 进 页 面 的 设 计 , 提 高 用 户 体 验 传 输 字 节 数 ( bytes)也 比 较 少 被 用 到 , 可 以 判 断 页 面 是 否 被 完 全 打 开 , 文 件 是 否 已 被 读 取 , 操 作是 否 被 中 断 但 在 动 态 页 面 无 法 判 断 来 源 页 面 ( referrer)referer 涉 及 的 统 计 较 为 常 见 , 一 般 是 统 计 访 问 的 来 源 类 型 、 搜 索 引 擎 、 搜索 关 键 字 等 ; 同 时 也 是 点 击 流 中 串 连 用 户 访 问 足 迹 的 依 据 用 户 代 理 ( agent)识 别 网 络 爬 虫 ; 统 计 用 户 的 系 统 、 浏 览 器 类 型 、 版 本 等 信 息 , 为 网 站 开 发 提供 建 议 , 分 析 各 类 浏 览 器 的 使 用 情 况 和 出 错 概 率 等 。

      session 和 cookie关 于 session 和 cookie, 可 以 参 考 session 和 cookie 的 辨 析 session 被用 于 标 识 一 个 连 续 的 访 问 , 用 户 统 计 visits 这 个 度 量 ; 而 cookie 主 要 用 于 用户 识 别 , 也 是 统 计 Unique Visitor 的 依 据 另 外 还 有 一 种 特 殊 的 网 站 日 志 , 即 记 录 服 务 器 的 提 示 、 警 告 及 错 误 信 息 , 这类 日 志 可 以 被 用 于 分 析 用 户 的 错 误 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站国内最具权威的市场调研门户网站之一日 志 的 不 准 确 性WEB 日 志 在 技 术 层 面 的 获 取 方 式 及 各 类 外 部 因 素 的 影 响 使 基 于 网 站 日 志 的 数 据分 析 会 存 在 许 多 的 不 准 确 性 , 下 面 来 介 绍 下 WEB 日 志 中 那 些 项 目 可 能 造 成 数 据的 不 准 确 , 以 及 造 成 这 些 缺 陷 的 原 因 。

      客 户 端 的 控 制 和 限 制由 于 一 些 浏 览 网 站 的 用 户 信 息 都 是 有 客 户 端 发 送 的 , 所 以 用 户 的IP、 Agent 都 是 可 以 人 为 设 置 的 ; 另 外 cookie 可 以 被 清 理 , 浏 览 器 出 于 安 全 的设 置 , 用 户 的 可 以 在 访 问 过 程 中 限 制 cookie、 referrer 的 发 送 这 些 都 会 导 致用 户 访 问 数 据 的 丢 失 或 者 数 据 的 不 准 确 , 而 这 类 问 题 目 前 很 难 得 到 解 决 缓 存浏 览 器 缓 存 、 服 务 器 缓 存 、 后 退 按 钮 操 作 等 都 会 导 致 页 面 点 击 日 志 的 丢 失 及referrer 的 丢 失 , 目 前 主 要 的 处 理 方 法 是 保 持 页 面 信 息 的 不 断 更 新 , 可 以 在 页 面中 添 加 随 机 数 当 然 如 果 你 使 用 的 JavaScript 的 方 法 , 那 么 就 不 需 要 担 心 缓 存的 问 题 跳 转一 些 跳 转 导 致 referrer 信 息 的 丢 失 , 致 使 用 户 的 访 问 足 迹 中 断 无 法 跟 踪 。

      解 决 方 法 是 将 referer 通 过 URL 重 写 , 作 为 URL 参 数 带 入 下 一 页 面 , 不 过 这 样会 是 页 面 的 URL 显 得 混 乱 代 理 IP、 动 态 IP、 局 域 网 ( 家 庭 ) 公 用 IP 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站国内最具权威的市场调研门户网站之一IP 其 实 准 确 性 并 不 高 , 现 在 不 止 存 在 伪 IP, 而 且 局 域 网 共 享 同 一 公 网IP、 代 理 的 使 用 及 动 态 IP 分 配 方 式 , 都 可 能 使 IP 地 址 并 不 是 与 某 个 用 户 绑 定的 , 所 以 如 果 有 更 好 的 方 法 , 尽 量 不 要 使 用 IP 来 识 别 用 户 session 的 定 义 与 多 cookie不 同 的 网 站 对 session 的 定 义 和 获 取 方 法 可 能 差 异 , 比 如 非 活 动 状 态session 的 失 效 时 间 、 多 进 程 同 时 浏 览 时 sessionid 的 共 享 等 , 所 以 同 一 个 网 站中 session 的 定 义 标 准 必 须 统 一 才 能 保 证 统 计 数 据 的 准 确 。

      cookie 的 不 准 确 一方 面 是 由 于 某 些 情 况 下 cookie 无 法 获 取 , 另 一 方 面 是 由 于 一 个 客 户 端 可 以 有 多个 cookie, 诸 如 chrome、 Firefox 等 浏 览 器 的 cookie 存 放 路 径 都 会 与 IE 的cookie 存 放 路 径 分 开 , 所 以 如 果 你 是 用 不 同 的 浏 览 器 浏 览 同 一 网 站 , 很 有 可 能 你的 cookie 就 是 不 同 的 停 留 时 间停 留 时 间 并 不 是 直 接 获 取 的 , 而 是 通 过 底 层 日 志 中 的 数 据 计 算 得 到 的 , 因 为所 有 日 志 中 的 时 间 都 是 时 刻 的 概。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.