好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

AWK使用手册2.doc

84页
  • 卖家[上传人]:re****.1
  • 文档编号:546100608
  • 上传时间:2023-12-25
  • 文档格式:DOC
  • 文档大小:292KB
  • / 84 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第1章 前言有关本手册 :这是一本awk学习指引, 其重点着重于 :l        awk 适于解决哪些问题 ?l        awk 常见的解题模式为何 ?为使读者快速掌握awk解题的模式及特性, 本手册系由一些较具代表性的范例及其题解所构成; 各范例由浅入深, 彼此间相互连贯,范例中并对所使用的awk语法及指令辅以必要的说明. 有关awk的指令, 函数,...等条列式的说明则收录于附录中, 以利读者往后撰写程序时查阅. 如此编排, 可让读者在短时间内顺畅地学会使用awk来解决问题. 建议读者循着范例上机实习, 以加深学习效果. 读者宜先具备下列背景 :[a.] UNIX 环境下的简单操作及基本概念.例如 : 文件编辑, 文件复制 及 管道, 输入/输出重定向 等概念[b.] C 语言的基本语法及流程控制指令.(awk 指令并不多, 且其中之大部分与 C语言中之用法一致, 本手册中对该类指令之语法及特性不再加以繁冗的说明, 读者若欲深究,可自行翻阅相关的 C 语言书籍)第2章 awk概述为什么使用awkawk 是一种程序语言. 它具有一般程序语言常见的功能.因awk语言具有某些特点, 如 : 使用直译器(Interpreter)不需先行编译; 变量无类型之分(Typeless), 可使用文字当数组的下标(Associative Array)...等特色. 因此, 使用awk撰写程序比起使用其它语言更简洁便利且节省时间. awk还具有一些内建功能, 使得awk擅于处理具数据行(Record), 字段(Field)型态的资料; 此外, awk内建有pipe的功能, 可将处理中的数据传送给外部的 Shell命令加以处理, 再将Shell命令处理后的数据传回awk程序, 这个特点也使得awk程序很容易使用系统资源.由于awk具有上述特色, 在问题处理的过程中, 可轻易使用awk来撰写一些小工具; 这些小工具并非用来解决整个大问题,它们只扮演解决个别问题过程的某些角色, 可藉由Shell所提供的pipe将数据按需要传送给不同的小工具进行处理, 以解决整个大问题. 这种解题方式, 使得这些小工具可因不同需求而被重复组合及重用(reuse); 也可藉此方式来先行测试大程序原型的可行性与正确性, 将来若需要较高的执行速度时再用C语言来改写.这是awk最常被应用之处. 若能常常如此处理问题, 读者可以以更高的角度来思考抽象的问题, 而不会被拘泥于细节的部份.本手册为awk入门的学习指引, 其内容将先强调如何撰写awk程序,未列入进一步解题方式的应用实例, 这部分将留待UNIX进阶手册中再行讨论. 如何取得awk一般的UNIX操作系统, 本身即附有awk. 不同的UNIX操作系统所附的awk其版本亦不尽相同. 若读者所使用的系统上未附有awk,可透过 anonymous ftp 到下列地方取得 :phi.sinica.edu.tw:/pub/gnuftp.edu.tw:/UNIX/gnuprep.ai.mit.edu:/pub/gnu awk如何工作为便于解释awk程序架构, 及有关术语(terminology), 先以一个员工薪资档(emp.dat ), 来加以介绍.A125 Jenny 100 210A341 Dan 110 215P158 Max 130 209P148 John 125 220A123 Linda 95 210文件中各字段依次为 员工ID, 姓名, 薪资率,及实际工时. ID中的第一码为部门识别码. "A","P"分别表示"组装"及"包装"部门.本小节着重于说明awk程序的主要架构及工作原理, 并对一些重要的名词辅以必要的解释. 由这部分内容, 读者可体会出awk语言的主要精神及awk与其它语程序言的差异处. 为便于说明, 以条列方式说明于后.名词定义l        数据行: awk从数据文件上读取数据的基本单位.以上列文件emp.dat为例, awk读入的第一笔数据行是 "A125 Jenny 100 210"第二笔数据行是 "A341 Dan 110 215"一般而言, 一个 数据行就相当于数据文件上的一行资料. (参考 : 附录 B 内建变量"RS" )l        字段(Field) : 为数据行上被分隔开的子字符串.以数据行"A125 Jenny 100 210"为例,第一栏 第二栏 第三栏 第四栏 "A125" "Jenny" 100 210一般是以空格符来分隔相邻的字段. ( 参考 : 附录 D 内建变量"FS" )第3章 如何执行awk于UNIX的命令行上键入诸如下列格式的指令: ( "$"表Shell命令行上的提示符号)$awk 'awk程序' 数据文件文件名则awk会先编译该程序, 然后执行该程序来处理所指定的数据文件.(上列方式系直接把程序写在UNIX的命令行上)awk程序的主要结构:awk程序中主要语法是 Pattern { Actions}, 故常见之awk 程序其型态如下 :Pattern1 { Actions1 }Pattern2 { Actions2 }......Pattern3 { Actions3 } Pattern 是什么 ?awk 可接受许多不同型态的 Pattern. 一般常使用 "关系表达式"(Relational expression) 来当成 Pattern.例如:x > 34 是一个Pattern, 判断变量 x 与 34 是否存在大于的关系.x == y 是一个Pattern, 判断变量 x 与变量 y 是否存在等于的关系.上式中 x >34 , x == y 便是典型的Pattern.awk 提供 C 语言中常见的关系运算符(Relational Operators) 如>, <, >=, <=, ==, !=此外, awk 还提供 ~ (match) 及 !~(not match) 二个关系运算符(注一).其用法与涵义如下:若 A 为一字符串, B 为一正则表达式(Regular Expression)A ~ B 判断 字符串A 中是否 包含能匹配(match)B表达式的子字符串.A !~ B 判断 字符串A 中是否 不包含能匹配(match)B表达式的子字符串.例如 :"banana" ~ /an/ 整个是一个Pattern.因为"banana"中含有可以匹配 /an/ 的子字符串, 故此关系式成立(true),整个Pattern的值也是true.相关细节请参考 附录 A Patterns, 附录 E Regular Expression(注一:) 有少数awk论著, 把 ~, !~ 当成另一类的 Operator,并不视为一种 Relational Operator. 本手册中将这两个运算符当成一种 Relational Operator. Actions 是什么?Actions 是由许多awk指令构成. 而awk的指令与 C 语言中的指令十分类似.例如 :awk的 I/O指令 : print, printf( ), getline...awk的 流程控制指令 : if(...){..} else{..}, while(...){...}...(请参考 附录 B --- "Actions" ) awk 如何处理 Pattern { Actions } ?awk 会先判断(Evaluate) 该 Pattern 的值, 若 Pattern 判断后的值为true (或不为0的数字,或不是空的字符串), 则 awk将执行该 Pattern 所对应的 Actions.反之, 若 Pattern 之值不为 true, 则awk将不执行该 Pattern所对应的 Actions. 例如 : 若awk程序中有下列两指令50 > 23 {print "Hello! The word!!" }"banana" ~ /123/ { print "Good morning !" }awk会先判断 50 >23 是否成立. 因为该式成立, 所以awk将印出"Hello! The word!!". 而另一 Pattern 为 "banana" ~/123/, 因为"banana" 内未含有任何子字符串可 match /123/, 该 Pattern 之值为false, 故awk将不会印出 "Good morning !" awk 如何处理{ Actions } 的语法?(缺少Pattern部分)有时语法 Pattern { Actions }中, Pattern 部分被省略,只剩 {Actions}.这种情形表示 "无条件执行这个 Actions". awk 的字段变量awk 所内建的字段变量及其涵意如下 :字段变量 含义$0 一字符串, 其内容为目前 awk 所读入的数据行.$1 $0 上第一个字段的数据.$2 $0 上第二个字段的数据.... 其余类推 读入数据行时, awk如何更新(update)这些内建的字段变量?当 awk 从数据文件中读取一个数据行时, awk 会使用内建变量$0 予以记录.每当 $0 被改动时 (例如 : 读入新的数据行 或 自行变更 $0,...) awk 会立刻重新分析 $0 的字段情况, 并将 $0 上各字段的数据用 $1, $2, ..予以记录. awk的内建变量(Built-in Variables)awk 提供了许多内建变量, 使用者于程序中可使用这些变量来取得相关信息.常见的内建变量有 :内建变量 含义NF (Number of Fields) 为一整数, 其值表$0上所存在的字段数目.NR (Number of Records) 为一整数, 其值表awk已读入的数据行数目.FILENAMEawk 正在处理的数据文件文件名. 例如 : awk 从资料文件 emp.dat 中读入第一笔数据行"A125 Jenny 100 210" 之后, 程序中:$0 之值将是 "A125 Jenny 100 210"$1 之值为 "A125"$2 之值为 "Jenny"$3 之值为 100$4 之值为 210$NF 之值为 4$NR 之值为 1$FILENAME 之值为 "emp.dat" awk的工作流程 :执行awk时, 它会反复进行下列四步骤.    1. 自动从指定的数据文件中读取一个数据行.   2. 自动更新(Update)相关的内建变量之值. 如 : NF, NR, $0...   3. 依次执行程序中所有 的 Pattern { Actions } 指令.   4. 当执行完程序中所有 Pattern { Actions } 时, 若数据文件中还有未读取的数据, 则反复执行步骤1到步骤4.awk会自动重复进行上述4个步骤, 使用者不须于程序中编写这个循环 (Loop). 打印文件中指定的字段数据并加以计算awk 处理数据时, 它会自动从数据文件中一次读取一笔记录, 并会将该数据切分成一个个的字段; 程序中可使用 $1, $2,... 直接取得各个字段的内容. 这个特色让使用者易于用 awk 编写 reformatter 来改变量据格式.[ 范例 :] 以文件 emp.dat 为例, 计算每人应发工资并打印报表.。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.