学习大数据

Created2022-03-23|PySpark

PySpark Machine Lerning初始化SparkSession1234567from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark Machine Lerning basic example") \ .config("spark.some.config.option", "some-value").master("local[*]") \ .getOrCreate() 管道 123456789101112131415161718192021222324252627282930313233343536373839from pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.feature ...

PySpark RDD

Created2022-03-23|PySpark

RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable(不可变的), partitioned collection(集合) of elements that can be operated o in parallel. This class contains the basic operations available on all RDDs, such as map, filter, and persist. In addition, PairRDDFunctions(类) contains operations available only on RDDs of key-value pairs, such as groupByKey and join; DoubleRDDFunctions contains operations available only on RDDs of Doubles; SequenceFileRDDF...

PySpark GraphFrames

Created2022-03-23|PySpark

Spark GraphFrames 官方文档：https://graphframes.github.io/graphframes/docs/_site/quick-start.html 源码：https://github.com/graphframes/graphframes 练习：https://docs.databricks.com/_static/notebooks/graphframes-user-guide-py.html 安装Pip安装graphframes库1(python37) PS C:\Users\Qingyuan_Qu> pip3 install graphframes Java依赖包在线下载 12# 默认会下载到用户目录的`.ivy`文件夹内。(python37) PS C:\Users\Qingyuan_Qu> pyspark --packages graphframes:graphframes:0.8.2-spark2.4-s_2.11 spark-packages.org 1https://spark-packages.or...

PySpark Streaming

Created2022-03-23|PySpark

Hello World12345678910111213from pyspark import SparkConffrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif __name__ == '__main__': conf = SparkConf().setMaster("spark://node0:7077").setAppName("HelloWorld") sc = SparkContext(conf=conf) ssc = StreamingContext(sc, 1) stream = ssc.socketTextStream("localhost", 9999) stream.pprint() ssc.start() ssc.awaitTermination() Data1234567891011121314151617181920212...

HBase集群管理

Created2022-03-23|HBase

HBase集群管理新增Hadoop节点Master slaves新增node4 配置分发( hosts, slaves ) node4启动DataNode和NodeManager 12[zhangsan@node4 default]$ sbin/hadoop-daemon.sh start datanode[zhangsan@node4 default]$ sbin/yarn-daemon.sh start nodemanager 刷新节点状态1[zhangsan@node1 ~]$ hdfs dfsadmin -refreshNodes 负载均衡123456# 设置负载均衡带宽[zhangsan@node1 ~]$ hdfs dfsadmin -setBalancerBandwidth bytes# 磁盘使用率阈值，单位为百分比。此命令会产生一个进程，并在logs目录输出日志；负载均衡完毕，进程结束。# -threshold# 默认值:10%。该值确保每个DataNode上的磁盘使用率与集群整体使用率的差距不超过10%。[zhangsan@node1 ~]$ st...

ZooKeeper

Created2022-03-23|ZooKeeper

ZooKeeper 环境部署官方文档 https://zookeeper.apache.org/doc/rx.y.z/index.html 下载地址 https://archive.apache.org/dist/zookeeper/zookeeper-x.y.z/ 安装目录 /opt/bigdata/zookeeper 部署规划 node0单节点； node1 node2 node3 配置为zookeeper集群。 Standalone模式下载使用xftp上传安装包或者通过wget等工具在线下载。 12345[zhangsan@node0 ~]$ cd /opt/bigdata/zookeeper/# 此处使用wget在线下载# 3.5.7[zhangsan@node0 zookeeper]$ wget https://archive.apache.org/dist/zookeeper/zookeeper-3.5.7/apache-zookeeper-3.5.7-bin.tar.gz 解压123456789101112[zhangsan@node0 bigdata]$...

HBase集群管理

Created2022-03-23|HBase

HBase集群管理新增Hadoop节点Master slaves新增node4 配置分发( hosts, slaves ) node4启动DataNode和NodeManager 12[zhangsan@node4 default]$ sbin/hadoop-daemon.sh start datanode[zhangsan@node4 default]$ sbin/yarn-daemon.sh start nodemanager 刷新节点状态1[zhangsan@node1 ~]$ hdfs dfsadmin -refreshNodes 负载均衡123456# 设置负载均衡带宽[zhangsan@node1 ~]$ hdfs dfsadmin -setBalancerBandwidth bytes# 磁盘使用率阈值，单位为百分比。此命令会产生一个进程，并在logs目录输出日志；负载均衡完毕，进程结束。# -threshold# 默认值:10%。该值确保每个DataNode上的磁盘使用率与集群整体使用率的差距不超过10%。[zhangsan@node1 ~]$ st...

DataNode工作机制与实操案例演示

Created2022-01-15|Hadoop

一、引言 Hadoop HDFS简介分布式文件系统概述 HDFS架构：NameNode与DataNode DataNode的重要性数据存储与访问的关键角色数据完整性与高可用性的保障二、DataNode工作机制启动与注册 DataNode启动后向NameNode注册注册成功后，周期性向NameNode上报块信息心跳机制心跳周期（默认每3秒一次）心跳返回结果：NameNode的命令（如复制、删除数据块）心跳超时处理（默认10分钟+30s无心跳则认为节点不可用）数据存储与管理数据块以文件形式存储在磁盘上每个数据块包括数据文件和元数据文件（包含长度、校验和、时间戳）三、实操案例演示假设已有Hadoop集群环境确认DataNode节点状态 1. DataNode启动与注册1.1 新增DataNode节点配置文件 hosts配置（all） ssh免密登录（master–> node4） slaves新增node4（all）启动DataNode和NodeManager1[zhangsan@node4 default]$ ...

Hadoop HDFS

Created2022-01-15|Hadoop

块大小默认块大小版本大小 1.x 64MB 2.x/3.x 128MB 本地 32MB 根据硬盘速度配置块大小硬盘类型硬盘速度建议Block大小普通机械硬盘 100MB/s 128MB 固态硬盘（普通） 300MB/s 256MB 固态硬盘（高级） 600MB/s 512MB 文件实际占用Linux文件系统的空间当一个文件小于128MB时，占用Linux文件系统多少存储空间？答：占用实际的磁盘存储，而不是Block大小。 https://blog.csdn.net/m0_67391120/article/details/126599677 NameNode与DataNode DataNode启动时，向NameNode汇报本节点中托管的Block的情况，此后，默认每6小时汇报一次。 DataNode启动后，每3s向NameNode发送一次心跳信号，当NameNode在 10分钟+30s 未收到心跳信号时，认为DataNode挂掉。 DataNode默认超时时间： Timeout &#...

HDFS综合操作实验：安全模式管理与集群监控

Created2021-01-15|Hadoop

一、实验目标掌握HDFS的格式化操作及其影响。熟练使用hdfs dfsadmin命令查看集群状态和网络拓扑。理解并实践HDFS的安全模式（Safe Mode），观察其对文件操作的影响。综合运用HDFS文件上传、下载、查看等基础命令。二、实验环境已配置好的Hadoop集群（包含Namenode和至少一个Datanode）。学生已登录到Namenode节点（例如 node1）。三、实验步骤步骤 1：环境准备与HDFS格式化 (热身) 停止Hadoop服务：为确保环境干净，先停止所有Hadoop相关服务。 1234stop-all.sh # 或者分别停止# stop-dfs.sh# stop-yarn.sh 格式化Namenode：执行格式化命令，清空HDFS的元数据。 1hdfs namenode -format 验证格式化结果：进入dfs.name.dir（由hadoop.tmp.dir配置决定）的current目录，查看是否生成了新的fsimage等文件。 123# 路径可能因配置而异，请根据实际情况修改cd /opt/bigdata/hadoop/defau...