学习大数据

学习大数据

Linux进程管理
Created2023-01-14|Linux
进程管理静态监控 - psps - report a snapshot of the current processes. 报告当前进程的快照。 -e​ Select all processes. Identical(完全相同的) to -A. -f​ Do full-format listing. 123456789101112[zhangsan@localhost ~]$ ps -efUID PID PPID C STIME TTY TIME CMDroot 1 0 0 01:36 ? 00:00:05 /usr/lib/systemd/systemd --switched-root --syroot 2 0 0 01:36 ? 00:00:00 [kthreadd]root 4 2 0 01:36 ? 00:00:00 [kworker/0:0H]root 6 2 0 ...
Linux磁盘管理
Created2023-01-14|Linux
磁盘管理VMWare中扩展磁盘容量虚拟机设置VMWare - 菜单栏 - 虚拟机 - 设置 注意:该步骤需要将系统关机,如有快照,需要删除快照。 系统可用空间为宿主机D盘的可用空间。 扩展磁盘容量 扩展成功 扩展成功 这种方式是增大原来sda盘的大小。 磁盘管理 新增结果 添加分区 分区命名 添加分区成功 VMWare中新增磁盘 添加磁盘 系统中重新分区 fdisk - manipulate disk partition table。 [məˈnɪpjuleɪt] 操纵 扩充磁盘查看注意新增加的磁盘是下面的 sdb [zhangsan@localhost ~]$ ls /dev/sd* /dev/sda /dev/sda1 /dev/sda2 /dev/sda3 /dev/sda4 /dev/sdb 磁盘管理123456789101112131415[zhangsan@localhost ~]$ su rootPassword: # 使用磁盘管理工具fdisk[root@localhost zhang...
Linux用户管理
Created2023-01-14|Linux
用户管理查看当前登录用户1# whoami 查询用户信息123# 查询用户信息[root@localhost ~]# id zhangsanuid=1000(zhangsan) gid=1000(zhangsan) groups=1000(zhangsan) 切换用户12# Switch usersu zhangsan : 切换为张三用户 12# Switch usersu - zhangsan : 切换为张三用户,并进入张三的用户目录 用户添加删除 - root以下命令使用root账号操作 1234567891011121314151617181920212223# 增加用户lisi[root@Honor ~]# useradd lisi # 增加用户 lisi 注意:此处‘#’号表示root权限,当前登录用户为root[root@Honor ~]# passwd lisi # 为新增用户lisi设置密码Changing password for user lisi.New password:BAD PASSWORD: The password is shorter...
Spark
Created2023-01-14|PySpark
Spark Term Meaning Application User program built on Spark. Consists of a driver program and executors on the cluster. Application jar A jar containing the user’s Spark application. In some cases users will want to create an “uber jar” containing their application along with its dependencies. The user’s jar should never include Hadoop or Spark libraries, however, these will be added at runtime. Driver The process running the main() function of the application and creating the Sp...
PySpark RDD综合案例
Created2023-01-14|PySpark
RDD 综合案例基于物品的协同过滤123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105import osfrom pyspark import SparkContext, SparkConfimport pandas as pdfrom scipy import statsfile_path = ""def set_spark_context(env): global file_path sparkConf = SparkConf() sparkConf.setAppName("movie_recommend") if env == 'local&#x...
Linux软件安装 - RPM
Created2023-01-14|Linux
RPM包安装rpm命令是RPM软件包的管理工具。 RPM有多种基本的模式:它们是安装、查询、验证、删除等。 安装模式:rpm –i 查询模式:rpm -q 验证模式:rpm –V或 -verify 删除模式:rpm –e –nodeps 如果该RPM包的安装依赖其它包,即使其它包没装,也强迫安装。 安装Oracle JDK上传rpm安装包略。 安装JDK123[root@node1 ~]# lltotal 112652-rwxrw-rw-. 1 zhangsan zhangsan 115315748 Nov 22 04:19 jdk-8u311-linux-x64.rpm 使用rpm -i 安装jdk1234567891011[root@node1 ~]# rpm -i jdk-8u311-linux-x64.rpm warning: jdk-8u311-linux-x64.rpm: Header V3 RSA/SHA256 Signature, key ID ec551f03: NOKEYUnpacking JAR files... tools.jar... p...
Sqoop
Created2023-01-13|Sqoop
文档https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html 安装略 配置12HIVE_CONF_DIR=/opt/bigdata/sqoop/defaultcp /opt/bigdata/hive/default/lib/hive-common-2.3.9.jar /opt/bigdata/sqoop/default/lib/ 将 mysql-connector-java.jar 放入$SQOOP_HOME/lib目录。 准备数据在MySQL中创建DataBase: emp 执行SQL文件导入数据: emp.sql 使用基础命令列出所有数据库1[zhangsan@node0 default]$ bin/sqoop list-databases --connect jdbc:mysql://localhost:3306 --username root --password 123456 列出数据库中的表1[zhangsan@node0 default]$ bin/sqoop list-tables --connec...
Spark ML
Created2022-12-01|Spark
Spark ML数据预处理数据降维12345678910111213141516val data = Array( Vectors.sparse(5, Seq((1, 1.0), (3, 7.0))), Vectors.dense(2.0, 0.0, 3.0, 4.0, 5.0), Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0))val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")df.show()val pca = new PCA() .setInputCol("features") .setOutputCol("pcaFeatures") .setK(3) .fit(df)val result = pca.transform(df).select("pcaFeatures")result.show(false) 二值化123456789101112val data...
kettle - Kettle作业设计
Created2022-11-18|Kettle
Kettle作业设计实验目标统计数据库course表中课程名称为空,课时数为零的记录数。 输入数据 1 大数据导论 基础课 4 张三 2020/3/1 0:00 64 2 Hadoop大数据技术 专业课 4 李四 2020/3/2 0:00 64 3 分布式数据库原理与应用 专业课 4 张三 2020/3/3 0:00 64 4 数据导入与预处理应用 专业课 4 李四 2020/3/4 0:00 0 5 数据挖掘技术与应用 专业课 4 王五 2020/3/5 0:00 64 6 专业课 4 赵六 2020/3/6 0:00 64 7 大数据应用开发语言 专业课 4 张三 2020/3/7 0:00 64 8 大数据分析与内存计算 专业课 4 张三 2020/3/8 0:00 64 9 专业课 4 王五 2020/3/9 0:00 64 10 专业课 4 赵...
Scala面向对象编程
Created2022-11-06|Scala
Scala面向对象编程类类定义定义一个计数器类,可以对计数器增加某值,也可以获取计数器当前值。 常规方式Counter.scala 123456789101112131415161718192021222324252627282930313233package cn.studybigdata.scala//1. 类定义class Counter { //2. 字段定义,默认公有 var value = 0 //3. 方法定义 def increment(num: Int): Unit = { value = value + num } def current(): Int = { return value }}object Counter { def main(args: Array[String]): Unit = { //4. 对象创建 val counter = new Counter() //5. 字段set,get counter.va...
1…789…14
avatar
QuZheng
Articles
133
Tags
99
Categories
27
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka基本使用2026-03-15
Flink Hello World2026-03-14
Flink Stream Connect2026-03-14
Flink Stream Union2026-03-14
Flink Introduction2026-03-14
Categories
  • Flink12
  • Flume1
  • HBase9
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
Tags
Phoenix 相关Jar包 MongoDB使用 源码安装Nginx Flink Stream Connect HBase Source Code Linux网络管理 Partitioner Flink Table API Hadoop Java DataInput/DataOutput Linux文件管理 Linux基础知识 Spark环境部署 Python在线编程环境 源码安装Redis 免密登录 Flink Broadcast Windows Dev Env Linux进程管理 防火墙设置 Linux Quartz WordCount Linux基础命令 Tools 大数据项目 Linux系统配置 MapReduce VIM文本编辑器 JavaEE Jpyuter Notebook Kafka Redis Web Framework HDFS综合操作实验 GroupBy Python 乱码
Archives
  • March 2026 17
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 36
Website Info
Article Count :
133
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4