Kettle - 数据清理之字符串清理

实验数据

城市区号表

image-20221020192332164

数据存在的问题

  1. ID字段前后存在空白字符
  2. CODE为区号,有的记录没有以0开始,有的记录中存在非零字符
  3. CITY字段大小写未统一,全部修改为大写字母,去掉前面的缩写。

转换设计

image-20221020193059238

自定义常量步骤

元数据如下,具体数据见实验数据。

image-20221020193026424

字符串操作步骤

image-20221020193451281

  1. ID列去掉前后空白字符
  2. CODE列只保留数字
  3. CITY列转为大写

字符串替换步骤

image-20221020193636187

剪切字符串步骤

image-20221020193746206

清理结果

image-20221020193827056