学习大数据

学习大数据

Scala基本数据类型、输入输出、控制结构
Created2022-10-26|Scala
基本数据类型与字面量Scala的数据类型包括:Byte、Char、Short、Int、Long、Float、Double和Boolean(注意首字母大写) 和Java不同的是,在Scala中,这些类型都是“类”,并且都是包scala的成员,比如,Int的全名是scala.Int。对于字符串,Scala用java.lang.String类来表示字符串。 变量 var与val是指变量的指向是不是可变的。 操作符操作符算术运算符:+、-、* 、/、%; 关系运算符:>、<、==、!=、>=、<= 逻辑运算符:&&、||、!; 位运算符:&、|、^、~; 赋值运算符:=及其与其它运算符结合的扩展赋值运算符,例如+=、%= 操作符优先级算术运算符 > 关系运算符 > 逻辑运算符 > 赋值运算符 其他在Scala中操作符就是函数,比如: 5+3 的本质是 5.+(3) 只有一个参数的函数,都可以使用中缀表达式的方式调用; 比如: 输出[1,5)之间的正整数可以使用函数 1.until(5) ,中缀表达式形式可写为: 1 un...
Scala数据结构
Created2022-10-26|Scala
Scala 数据结构数组Array1final class Array[T](_length: Int) extends java.io.Serializable with java.lang.Cloneable 数组是可变的可索引集合,数组内容可变。 构造指定长度的空数组12scala> val arr = new Array[String](4)arr: Array[String] = Array(null, null, null, null) 显示指定类型12scala> val nums = Array[Int](1,2,3)nums: Array[Int] = Array(1, 2, 3) 隐式推断类型123scala> val subjects = Array("Hadoop","HBase","Spark")subjects: Array[String] = Array(Hadoop, HBase, Spark)//注意字符串不要使用单引号 多维数组12scala> var...
kettle - 数据清理之字符串清理
Created2022-10-20|Kettle
Kettle - 数据清理之字符串清理实验数据城市区号表 数据存在的问题 ID字段前后存在空白字符 CODE为区号,有的记录没有以0开始,有的记录中存在非零字符 CITY字段大小写未统一,全部修改为大写字母,去掉前面的缩写。 转换设计 自定义常量步骤元数据如下,具体数据见实验数据。 字符串操作步骤 ID列去掉前后空白字符 CODE列只保留数字 CITY列转为大写 字符串替换步骤 剪切字符串步骤 清理结果
kettle - 数据清理之字段清理
Created2022-10-20|Kettle
kettle - 数据清理之字段清理拆分字段成多行实验数据 预览结果 拆分字段实验数据与拆分字段成多行使用同一份实验数据 步骤配置 实验结果 合并字段实验要求合并 城市A, 城市B, 城市C, 城市D为一列,列名命名为城市列表。 实验数据上一个步骤的输出数据 步骤配置 实验结果 字段选择实验要求 Sex列重命名为性别,并移动到Name后 删除Age列 Birth列的日期格式调整为yyyy-MM-DD Salary列保留两位小数 实验数据 步骤配置Sex列重命名为性别,并移动到Name后 删除Age列 Birth列的日期格式调整为yyyy-MM-DD 且 Salary列保留两位小数 实验结果
Kettle - 基于快照的CDC
Created2022-10-15|Kettle
Kettle - 基于快照的CDC 源数据表student_cdc 建表语句见文章尾部。 快照表student_cdc_snap1(由源数据表复制得到) 第一次数据同步 student_cdc_sync 2000 Years Later1234INSERT INTO student_cdc (姓名,性别,班级,年龄,成绩,身高,手机,插入时间,更新时间)VALUES('赵六','男','1701','16','78','170','123456781234',DATE_SUB(CURDATE(), INTERVAL 1 DAY),DATE_SUB(CURDATE(), INTERVAL 1 DAY));update student_cdc set 成绩=82 where 学号=1;delete from student_cdc where 学号=2 源数据表student_cdc 拍摄第二张快照,如下: 快照表student_cd...
Java环境变量CLASSPATH的作用
Created2022-10-14
Java环境变量CLASSPATH的作用环境变量环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数,如:临时文件夹位置和系统文件夹位置等。 环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。例如Windows和DOS操作系统中的path环境变量,当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到PATH中指定的路径去找。用户通过设置环境变量,来更好的运行进程。[百度百科]http://t.csdn.cn/YSHrP) CLASSPATH 在D:\myclass\目录中创建一个Java文件; 123456public class Dog{public static void main(String [] args){ System.out.println(Dog.class.getSimpleName()+": 666, you found me! "); }} 使用j...
HTML基础
Created2022-10-14
HTML基础 Hello World123456789101112131415161718<!DOCTYPE html><html><head> <meta charset="utf-8"> <title>Hello World</title></head><body> <h1>我的第一个标题</h1> <p>我的第一个段落。</p> <a href="http://www.baidu.com">这是一个链接</a></body></html> 元素 内容 属性 属性总是以名称/值对的形式出现,比如:name=”value”。 HTML基础注释BEGIN 源码 1<!-- 注释: --> END 标题BEGIN HTML 标题(Heading)是通过 - ...
Hive
Created2022-10-14|Hive
前置条件安装MySQL (参考Linux文档)配置MySQL123456789mysql> CREATE DATABASE hive; mysql> USE hive; -- 创建名为hive、主机为lhost、密码123456的用户;mysql> CREATE USER 'hive'@'localhost' IDENTIFIED BY '123456';-- 第二段授权该hive用户对hive数据库所有表拥有全部权限,且允许从任意主机(%)访问,密码同样为123456。mysql> GRANT ALL ON hive.* TO 'hive'@'localhost' IDENTIFIED BY '123456'; mysql> GRANT ALL ON hive.* TO 'hive'@'%' IDENTIFIED BY '123456'; mysql> FLUSH...
HBase架构、数据读写、Region管理、集群管理
Created2022-10-14|HBase
HBase基本架构Meta表Meta表位置通过zkCli.sh 查看 Meta 表位置 123456789101112131415[zk: localhost:2181(CONNECTED) 0] get /hbase/meta-region-server�regionserver:16020��ܻ>6�rPBUF node3�}�����0 cZxid = 0x900000029ctime = Tue Apr 26 11:45:39 CST 2022mZxid = 0x900000029mtime = Tue Apr 26 11:45:39 CST 2022pZxid = 0x900000029cversion = 0dataVersion = 0aclVersion = 0ephemeralOwner = 0x0dataLength = 58numChildren = 0 Meta表结构123456hbase(main):058:0> desc 'hbase:meta'Table hbase:meta is ENABLED ...
HBase Thrift
Created2022-10-14|HBase
前期准备 https://thrift.apache.org/docs/install/centos.html Git clone失败,可以跳过,直接下载源码包。 下载源码包https://www.apache.org/dyn/closer.cgi?path=/thrift/0.16.0/thrift-0.16.0.tar.gz 编译安装12345(python37) [zhangsan@node0 thrift-0.16.0]$ cd /opt/bigdata/thrift/(python37) [zhangsan@node0 thrift-0.16.0]$ cd thrift-0.16.0(python37) [zhangsan@node0 thrift-0.16.0]$ ./bootstrap.sh(python37) [zhangsan@node0 thrift-0.16.0]$ ./configure(python37) [zhangsan@node0 thrift-0.16.0]$ make 1234[root@node0 thrift-0.16.0]# ma...
1…789…12
avatar
QuZheng
Articles
118
Tags
84
Categories
26
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka2026-03-09
第2章 数仓基础环境搭建2026-03-09
第1章 教育大数据分析项目介绍2026-03-09
SSH无密登录配置2026-03-08
Python2023-11-19
Categories
  • Flume1
  • HBase8
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
  • Linux16
Tags
Spark GraphFrames 大数据项目 Linux系统配置 HBase伪分布式 YARN LayUI Linux网络管理 Serializable 源码安装Nginx Python在线编程环境 HBase架构 Linux RPM软件包安装 Quartz Combiner HBase数据读写 HDFS综合操作实验 基于JSP的学生信息管理系统 HBase集群管理 HBase Shell Spark DataFrame Spark SQL Spark环境搭建 源码安装Redis Partitioner Serialize anaconda Linux用户管理 基于Spring-MyBatis的学生信息管理系统 Python JavaEE开发相关软件 Kafka环境搭建 字符集 VIM文本编辑器 Socket Linux文件权限 相关Jar包 Linux打包解压 MyEclipse激活 Spring Windows Dev Env
Archives
  • March 2026 4
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 35
Website Info
Article Count :
118
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4