学习大数据

学习大数据

kettle - 数据清理之使用Java代码清理
Created2022-11-03|Kettle
Kettle - 数据清理之使用Java代码清理实验数据实验目的转换设计
kettle - 数据清理之使用JavaScript脚本清理
Created2022-11-03|Kettle
Kettle - 数据清理之使用JavaScript脚本清理实验数据1234567891011121314DROP TABLE IF EXISTS `book_borrow`;CREATE TABLE `book_borrow` ( `BookID` varchar(10) DEFAULT NULL, `Student` varchar(10) DEFAULT NULL, `BorrowDate` datetime DEFAULT NULL, `ReturnDate` datetime DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8;-- ------------------------------ Records of book_borrow-- ----------------------------INSERT INTO `book_borrow` VALUES ('001', '张三', '2022-04-01 00:00:00', '2022-...
kettle - 数据清理之公式清理
Created2022-11-03|Kettle
Kettle - 数据清理之公式清理实验数据实验目的转换设计
kettle - 数据清理之使用正则表达式清理
Created2022-11-03|Kettle
Kettle - 数据清理之使用正则表达式清理实验数据实验目的转换设计
Scala数据结构
Created2022-10-26|Scala
Scala 数据结构数组Array1final class Array[T](_length: Int) extends java.io.Serializable with java.lang.Cloneable 数组是可变的可索引集合,数组内容可变。 构造指定长度的空数组12scala> val arr = new Array[String](4)arr: Array[String] = Array(null, null, null, null) 显示指定类型12scala> val nums = Array[Int](1,2,3)nums: Array[Int] = Array(1, 2, 3) 隐式推断类型123scala> val subjects = Array("Hadoop","HBase","Spark")subjects: Array[String] = Array(Hadoop, HBase, Spark)//注意字符串不要使用单引号 多维数组12scala> var...
Scala基本数据类型、输入输出、控制结构
Created2022-10-26|Scala
基本数据类型与字面量Scala的数据类型包括:Byte、Char、Short、Int、Long、Float、Double和Boolean(注意首字母大写) 和Java不同的是,在Scala中,这些类型都是“类”,并且都是包scala的成员,比如,Int的全名是scala.Int。对于字符串,Scala用java.lang.String类来表示字符串。 变量 var与val是指变量的指向是不是可变的。 操作符操作符算术运算符:+、-、* 、/、%; 关系运算符:>、<、==、!=、>=、<= 逻辑运算符:&&、||、!; 位运算符:&、|、^、~; 赋值运算符:=及其与其它运算符结合的扩展赋值运算符,例如+=、%= 操作符优先级算术运算符 > 关系运算符 > 逻辑运算符 > 赋值运算符 其他在Scala中操作符就是函数,比如: 5+3 的本质是 5.+(3) 只有一个参数的函数,都可以使用中缀表达式的方式调用; 比如: 输出[1,5)之间的正整数可以使用函数 1.until(5) ,中缀表达式形式可写为: 1 un...
kettle - 数据清理之字段清理
Created2022-10-20|Kettle
kettle - 数据清理之字段清理拆分字段成多行实验数据 预览结果 拆分字段实验数据与拆分字段成多行使用同一份实验数据 步骤配置 实验结果 合并字段实验要求合并 城市A, 城市B, 城市C, 城市D为一列,列名命名为城市列表。 实验数据上一个步骤的输出数据 步骤配置 实验结果 字段选择实验要求 Sex列重命名为性别,并移动到Name后 删除Age列 Birth列的日期格式调整为yyyy-MM-DD Salary列保留两位小数 实验数据 步骤配置Sex列重命名为性别,并移动到Name后 删除Age列 Birth列的日期格式调整为yyyy-MM-DD 且 Salary列保留两位小数 实验结果
kettle - 数据清理之字符串清理
Created2022-10-20|Kettle
Kettle - 数据清理之字符串清理实验数据城市区号表 数据存在的问题 ID字段前后存在空白字符 CODE为区号,有的记录没有以0开始,有的记录中存在非零字符 CITY字段大小写未统一,全部修改为大写字母,去掉前面的缩写。 转换设计 自定义常量步骤元数据如下,具体数据见实验数据。 字符串操作步骤 ID列去掉前后空白字符 CODE列只保留数字 CITY列转为大写 字符串替换步骤 剪切字符串步骤 清理结果
Kettle - 基于快照的CDC
Created2022-10-15|Kettle
Kettle - 基于快照的CDC 源数据表student_cdc 建表语句见文章尾部。 快照表student_cdc_snap1(由源数据表复制得到) 第一次数据同步 student_cdc_sync 2000 Years Later1234INSERT INTO student_cdc (姓名,性别,班级,年龄,成绩,身高,手机,插入时间,更新时间)VALUES('赵六','男','1701','16','78','170','123456781234',DATE_SUB(CURDATE(), INTERVAL 1 DAY),DATE_SUB(CURDATE(), INTERVAL 1 DAY));update student_cdc set 成绩=82 where 学号=1;delete from student_cdc where 学号=2 源数据表student_cdc 拍摄第二张快照,如下: 快照表student_cd...
HBase架构、数据读写、Region管理、集群管理
Created2022-10-14|HBase
HBase基本架构Meta表Meta表位置通过zkCli.sh 查看 Meta 表位置 123456789101112131415[zk: localhost:2181(CONNECTED) 0] get /hbase/meta-region-server�regionserver:16020��ܻ>6�rPBUF node3�}�����0 cZxid = 0x900000029ctime = Tue Apr 26 11:45:39 CST 2022mZxid = 0x900000029mtime = Tue Apr 26 11:45:39 CST 2022pZxid = 0x900000029cversion = 0dataVersion = 0aclVersion = 0ephemeralOwner = 0x0dataLength = 58numChildren = 0 Meta表结构123456hbase(main):058:0> desc 'hbase:meta'Table hbase:meta is ENABLED ...
1…8910…14
avatar
QuZheng
Articles
133
Tags
99
Categories
27
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka基本使用2026-03-15
Flink Hello World2026-03-14
Flink Stream Connect2026-03-14
Flink Stream Union2026-03-14
Flink Introduction2026-03-14
Categories
  • Flink12
  • Flume1
  • HBase9
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
Tags
Phoenix 相关Jar包 MongoDB使用 源码安装Nginx Flink Stream Connect HBase Source Code Linux网络管理 Partitioner Flink Table API Hadoop Java DataInput/DataOutput Linux文件管理 Linux基础知识 Spark环境部署 Python在线编程环境 源码安装Redis 免密登录 Flink Broadcast Windows Dev Env Linux进程管理 防火墙设置 Linux Quartz WordCount Linux基础命令 Tools 大数据项目 Linux系统配置 MapReduce VIM文本编辑器 JavaEE Jpyuter Notebook Kafka Redis Web Framework HDFS综合操作实验 GroupBy Python 乱码
Archives
  • March 2026 17
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 36
Website Info
Article Count :
133
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4