学习大数据

Created2022-11-03|Kettle

Kettle - 数据清理之使用Java代码清理实验数据实验目的转换设计

Created2022-11-03|Kettle

Kettle - 数据清理之使用JavaScript脚本清理实验数据1234567891011121314DROP TABLE IF EXISTS `book_borrow`;CREATE TABLE `book_borrow` ( `BookID` varchar(10) DEFAULT NULL, `Student` varchar(10) DEFAULT NULL, `BorrowDate` datetime DEFAULT NULL, `ReturnDate` datetime DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8;-- ------------------------------ Records of book_borrow-- ----------------------------INSERT INTO `book_borrow` VALUES ('001', '张三', '2022-04-01 00:00:00', '2022-...

kettle - 数据清理之公式清理

Created2022-11-03|Kettle

Kettle - 数据清理之公式清理实验数据实验目的转换设计

kettle - 数据清理之使用正则表达式清理

Created2022-11-03|Kettle

Kettle - 数据清理之使用正则表达式清理实验数据实验目的转换设计

Scala数据结构

Created2022-10-26|Scala

Scala 数据结构数组Array1final class Array[T](_length: Int) extends java.io.Serializable with java.lang.Cloneable 数组是可变的可索引集合，数组内容可变。构造指定长度的空数组12scala> val arr = new Array[String](4)arr: Array[String] = Array(null, null, null, null) 显示指定类型12scala> val nums = Array[Int](1,2,3)nums: Array[Int] = Array(1, 2, 3) 隐式推断类型123scala> val subjects = Array("Hadoop","HBase","Spark")subjects: Array[String] = Array(Hadoop, HBase, Spark)//注意字符串不要使用单引号多维数组12scala> var...

Scala基本数据类型、输入输出、控制结构

Created2022-10-26|Scala

基本数据类型与字面量Scala的数据类型包括：Byte、Char、Short、Int、Long、Float、Double和Boolean（注意首字母大写）和Java不同的是，在Scala中，这些类型都是“类”，并且都是包scala的成员，比如，Int的全名是scala.Int。对于字符串，Scala用java.lang.String类来表示字符串。变量 var与val是指变量的指向是不是可变的。操作符操作符算术运算符：+、-、* 、/、%；关系运算符：>、<、==、!=、>=、<= 逻辑运算符：&&、||、!；位运算符：&、|、^、~; 赋值运算符：=及其与其它运算符结合的扩展赋值运算符，例如+=、%= 操作符优先级算术运算符 > 关系运算符 > 逻辑运算符 > 赋值运算符其他在Scala中操作符就是函数，比如： 5+3 的本质是 5.+(3) 只有一个参数的函数，都可以使用中缀表达式的方式调用；比如：输出[1,5)之间的正整数可以使用函数 1.until(5) ，中缀表达式形式可写为： 1 un...

kettle - 数据清理之字段清理

Created2022-10-20|Kettle

kettle - 数据清理之字段清理拆分字段成多行实验数据预览结果拆分字段实验数据与拆分字段成多行使用同一份实验数据步骤配置实验结果合并字段实验要求合并城市A, 城市B, 城市C, 城市D为一列，列名命名为城市列表。实验数据上一个步骤的输出数据步骤配置实验结果字段选择实验要求 Sex列重命名为性别，并移动到Name后删除Age列 Birth列的日期格式调整为yyyy-MM-DD Salary列保留两位小数实验数据步骤配置Sex列重命名为性别，并移动到Name后删除Age列 Birth列的日期格式调整为yyyy-MM-DD 且 Salary列保留两位小数实验结果

kettle - 数据清理之字符串清理

Created2022-10-20|Kettle

Kettle - 数据清理之字符串清理实验数据城市区号表数据存在的问题 ID字段前后存在空白字符 CODE为区号，有的记录没有以0开始，有的记录中存在非零字符 CITY字段大小写未统一，全部修改为大写字母，去掉前面的缩写。转换设计自定义常量步骤元数据如下，具体数据见实验数据。字符串操作步骤 ID列去掉前后空白字符 CODE列只保留数字 CITY列转为大写字符串替换步骤剪切字符串步骤清理结果

Kettle - 基于快照的CDC

Created2022-10-15|Kettle

Kettle - 基于快照的CDC 源数据表student_cdc 建表语句见文章尾部。快照表student_cdc_snap1（由源数据表复制得到）第一次数据同步 student_cdc_sync 2000 Years Later1234INSERT INTO student_cdc (姓名,性别,班级,年龄,成绩,身高,手机,插入时间,更新时间)VALUES('赵六','男','1701','16','78','170','123456781234',DATE_SUB(CURDATE(), INTERVAL 1 DAY),DATE_SUB(CURDATE(), INTERVAL 1 DAY));update student_cdc set 成绩=82 where 学号=1;delete from student_cdc where 学号=2 源数据表student_cdc 拍摄第二张快照，如下：快照表student_cd...

HBase架构、数据读写、Region管理、集群管理

Created2022-10-14|HBase

HBase基本架构Meta表Meta表位置通过zkCli.sh 查看 Meta 表位置 123456789101112131415[zk: localhost:2181(CONNECTED) 0] get /hbase/meta-region-server�regionserver:16020��ܻ>6�rPBUF node3�}��0 cZxid = 0x900000029ctime = Tue Apr 26 11:45:39 CST 2022mZxid = 0x900000029mtime = Tue Apr 26 11:45:39 CST 2022pZxid = 0x900000029cversion = 0dataVersion = 0aclVersion = 0ephemeralOwner = 0x0dataLength = 58numChildren = 0 Meta表结构123456hbase(main):058:0> desc 'hbase:meta'Table hbase:meta is ENABLED ...