kettle - 数据清理之使用Java代码清理
Kettle - 数据清理之使用Java代码清理实验数据实验目的转换设计
kettle - 数据清理之使用JavaScript脚本清理
Kettle - 数据清理之使用JavaScript脚本清理实验数据1234567891011121314DROP TABLE IF EXISTS `book_borrow`;CREATE TABLE `book_borrow` ( `BookID` varchar(10) DEFAULT NULL, `Student` varchar(10) DEFAULT NULL, `BorrowDate` datetime DEFAULT NULL, `ReturnDate` datetime DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8;-- ------------------------------ Records of book_borrow-- ----------------------------INSERT INTO `book_borrow` VALUES ('001', '张三', '2022-04-01 00:00:00', '2022-...
kettle - 数据清理之公式清理
Kettle - 数据清理之公式清理实验数据实验目的转换设计
kettle - 数据清理之使用正则表达式清理
Kettle - 数据清理之使用正则表达式清理实验数据实验目的转换设计
Scala数据结构
Scala 数据结构数组Array1final class Array[T](_length: Int) extends java.io.Serializable with java.lang.Cloneable 数组是可变的可索引集合,数组内容可变。 构造指定长度的空数组12scala> val arr = new Array[String](4)arr: Array[String] = Array(null, null, null, null) 显示指定类型12scala> val nums = Array[Int](1,2,3)nums: Array[Int] = Array(1, 2, 3) 隐式推断类型123scala> val subjects = Array("Hadoop","HBase","Spark")subjects: Array[String] = Array(Hadoop, HBase, Spark)//注意字符串不要使用单引号 多维数组12scala> var...
Scala基本数据类型、输入输出、控制结构
基本数据类型与字面量Scala的数据类型包括:Byte、Char、Short、Int、Long、Float、Double和Boolean(注意首字母大写) 和Java不同的是,在Scala中,这些类型都是“类”,并且都是包scala的成员,比如,Int的全名是scala.Int。对于字符串,Scala用java.lang.String类来表示字符串。 变量 var与val是指变量的指向是不是可变的。 操作符操作符算术运算符:+、-、* 、/、%; 关系运算符:>、<、==、!=、>=、<= 逻辑运算符:&&、||、!; 位运算符:&、|、^、~; 赋值运算符:=及其与其它运算符结合的扩展赋值运算符,例如+=、%= 操作符优先级算术运算符 > 关系运算符 > 逻辑运算符 > 赋值运算符 其他在Scala中操作符就是函数,比如: 5+3 的本质是 5.+(3) 只有一个参数的函数,都可以使用中缀表达式的方式调用; 比如: 输出[1,5)之间的正整数可以使用函数 1.until(5) ,中缀表达式形式可写为: 1 un...
kettle - 数据清理之字段清理
kettle - 数据清理之字段清理拆分字段成多行实验数据 预览结果 拆分字段实验数据与拆分字段成多行使用同一份实验数据 步骤配置 实验结果 合并字段实验要求合并 城市A, 城市B, 城市C, 城市D为一列,列名命名为城市列表。 实验数据上一个步骤的输出数据 步骤配置 实验结果 字段选择实验要求 Sex列重命名为性别,并移动到Name后 删除Age列 Birth列的日期格式调整为yyyy-MM-DD Salary列保留两位小数 实验数据 步骤配置Sex列重命名为性别,并移动到Name后 删除Age列 Birth列的日期格式调整为yyyy-MM-DD 且 Salary列保留两位小数 实验结果
kettle - 数据清理之字符串清理
Kettle - 数据清理之字符串清理实验数据城市区号表 数据存在的问题 ID字段前后存在空白字符 CODE为区号,有的记录没有以0开始,有的记录中存在非零字符 CITY字段大小写未统一,全部修改为大写字母,去掉前面的缩写。 转换设计 自定义常量步骤元数据如下,具体数据见实验数据。 字符串操作步骤 ID列去掉前后空白字符 CODE列只保留数字 CITY列转为大写 字符串替换步骤 剪切字符串步骤 清理结果
Kettle - 基于快照的CDC
Kettle - 基于快照的CDC 源数据表student_cdc 建表语句见文章尾部。 快照表student_cdc_snap1(由源数据表复制得到) 第一次数据同步 student_cdc_sync 2000 Years Later1234INSERT INTO student_cdc (姓名,性别,班级,年龄,成绩,身高,手机,插入时间,更新时间)VALUES('赵六','男','1701','16','78','170','123456781234',DATE_SUB(CURDATE(), INTERVAL 1 DAY),DATE_SUB(CURDATE(), INTERVAL 1 DAY));update student_cdc set 成绩=82 where 学号=1;delete from student_cdc where 学号=2 源数据表student_cdc 拍摄第二张快照,如下: 快照表student_cd...
HBase架构、数据读写、Region管理、集群管理
HBase基本架构Meta表Meta表位置通过zkCli.sh 查看 Meta 表位置 123456789101112131415[zk: localhost:2181(CONNECTED) 0] get /hbase/meta-region-server�regionserver:16020��ܻ>6�rPBUF node3�}�����0 cZxid = 0x900000029ctime = Tue Apr 26 11:45:39 CST 2022mZxid = 0x900000029mtime = Tue Apr 26 11:45:39 CST 2022pZxid = 0x900000029cversion = 0dataVersion = 0aclVersion = 0ephemeralOwner = 0x0dataLength = 58numChildren = 0 Meta表结构123456hbase(main):058:0> desc 'hbase:meta'Table hbase:meta is ENABLED ...