PySpark Machine Learning
PySpark Machine Lerning初始化SparkSession1234567from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark Machine Lerning basic example") \ .config("spark.some.config.option", "some-value").master("local[*]") \ .getOrCreate() 管道 123456789101112131415161718192021222324252627282930313233343536373839from pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.feature ...
PySpark RDD
RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable(不可变的), partitioned collection(集合) of elements that can be operated o in parallel. This class contains the basic operations available on all RDDs, such as map, filter, and persist. In addition, PairRDDFunctions(类) contains operations available only on RDDs of key-value pairs, such as groupByKey and join; DoubleRDDFunctions contains operations available only on RDDs of Doubles; SequenceFileRDDF...
PySpark GraphFrames
Spark GraphFrames 官方文档:https://graphframes.github.io/graphframes/docs/_site/quick-start.html 源码:https://github.com/graphframes/graphframes 练习:https://docs.databricks.com/_static/notebooks/graphframes-user-guide-py.html 安装Pip安装graphframes库1(python37) PS C:\Users\Qingyuan_Qu> pip3 install graphframes Java依赖包 在线下载 12# 默认会下载到用户目录的`.ivy`文件夹内。(python37) PS C:\Users\Qingyuan_Qu> pyspark --packages graphframes:graphframes:0.8.2-spark2.4-s_2.11 spark-packages.org 1https://spark-packages.or...
PySpark Streaming
Hello World12345678910111213from pyspark import SparkConffrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif __name__ == '__main__': conf = SparkConf().setMaster("spark://node0:7077").setAppName("HelloWorld") sc = SparkContext(conf=conf) ssc = StreamingContext(sc, 1) stream = ssc.socketTextStream("localhost", 9999) stream.pprint() ssc.start() ssc.awaitTermination() Data1234567891011121314151617181920212...
HBase集群管理
HBase集群管理新增Hadoop节点Master slaves新增node4 配置分发( hosts, slaves ) node4启动DataNode和NodeManager 12[zhangsan@node4 default]$ sbin/hadoop-daemon.sh start datanode[zhangsan@node4 default]$ sbin/yarn-daemon.sh start nodemanager 刷新节点状态1[zhangsan@node1 ~]$ hdfs dfsadmin -refreshNodes 负载均衡123456# 设置负载均衡带宽[zhangsan@node1 ~]$ hdfs dfsadmin -setBalancerBandwidth bytes# 磁盘使用率阈值,单位为百分比。此命令会产生一个进程,并在logs目录输出日志;负载均衡完毕,进程结束。# -threshold# 默认值:10%。该值确保每个DataNode上的磁盘使用率与集群整体使用率的差距不超过10%。[zhangsan@node1 ~]$ st...
ZooKeeper
ZooKeeper 环境部署 官方文档 https://zookeeper.apache.org/doc/rx.y.z/index.html 下载地址 https://archive.apache.org/dist/zookeeper/zookeeper-x.y.z/ 安装目录 /opt/bigdata/zookeeper 部署规划 node0单节点; node1 node2 node3 配置为zookeeper集群。 Standalone模式下载使用xftp上传安装包或者通过wget等工具在线下载。 12345[zhangsan@node0 ~]$ cd /opt/bigdata/zookeeper/# 此处使用wget在线下载# 3.5.7[zhangsan@node0 zookeeper]$ wget https://archive.apache.org/dist/zookeeper/zookeeper-3.5.7/apache-zookeeper-3.5.7-bin.tar.gz 解压123456789101112[zhangsan@node0 bigdata]$...
HBase集群管理
HBase集群管理新增Hadoop节点Master slaves新增node4 配置分发( hosts, slaves ) node4启动DataNode和NodeManager 12[zhangsan@node4 default]$ sbin/hadoop-daemon.sh start datanode[zhangsan@node4 default]$ sbin/yarn-daemon.sh start nodemanager 刷新节点状态1[zhangsan@node1 ~]$ hdfs dfsadmin -refreshNodes 负载均衡123456# 设置负载均衡带宽[zhangsan@node1 ~]$ hdfs dfsadmin -setBalancerBandwidth bytes# 磁盘使用率阈值,单位为百分比。此命令会产生一个进程,并在logs目录输出日志;负载均衡完毕,进程结束。# -threshold# 默认值:10%。该值确保每个DataNode上的磁盘使用率与集群整体使用率的差距不超过10%。[zhangsan@node1 ~]$ st...
DataNode工作机制与实操案例演示
一、引言 Hadoop HDFS简介 分布式文件系统概述 HDFS架构:NameNode与DataNode DataNode的重要性 数据存储与访问的关键角色 数据完整性与高可用性的保障 二、DataNode工作机制 启动与注册 DataNode启动后向NameNode注册 注册成功后,周期性向NameNode上报块信息 心跳机制 心跳周期(默认每3秒一次) 心跳返回结果:NameNode的命令(如复制、删除数据块) 心跳超时处理(默认10分钟+30s无心跳则认为节点不可用) 数据存储与管理 数据块以文件形式存储在磁盘上 每个数据块包括数据文件和元数据文件(包含长度、校验和、时间戳) 三、实操案例演示 假设已有Hadoop集群环境 确认DataNode节点状态 1. DataNode启动与注册1.1 新增DataNode节点配置文件 hosts配置(all) ssh免密登录(master–> node4) slaves新增node4(all) 启动DataNode和NodeManager1[zhangsan@node4 default]$ ...
Hadoop HDFS
块大小默认块大小 版本 大小 1.x 64MB 2.x/3.x 128MB 本地 32MB 根据硬盘速度配置块大小 硬盘类型 硬盘速度 建议Block大小 普通机械硬盘 100MB/s 128MB 固态硬盘(普通) 300MB/s 256MB 固态硬盘(高级) 600MB/s 512MB 文件实际占用Linux文件系统的空间当一个文件小于128MB时,占用Linux文件系统多少存储空间? 答:占用实际的磁盘存储,而不是Block大小。 https://blog.csdn.net/m0_67391120/article/details/126599677 NameNode与DataNode DataNode启动时,向NameNode汇报本节点中托管的Block的情况,此后,默认每6小时汇报一次。 DataNode启动后,每3s向NameNode发送一次心跳信号,当NameNode在 10分钟+30s 未收到心跳信号时,认为DataNode挂掉。 DataNode默认超时时间: Timeout ...
HDFS综合操作实验:安全模式管理与集群监控
一、实验目标 掌握HDFS的格式化操作及其影响。 熟练使用hdfs dfsadmin命令查看集群状态和网络拓扑。 理解并实践HDFS的安全模式(Safe Mode),观察其对文件操作的影响。 综合运用HDFS文件上传、下载、查看等基础命令。 二、实验环境 已配置好的Hadoop集群(包含Namenode和至少一个Datanode)。 学生已登录到Namenode节点(例如 node1)。 三、实验步骤步骤 1:环境准备与HDFS格式化 (热身) 停止Hadoop服务:为确保环境干净,先停止所有Hadoop相关服务。 1234stop-all.sh # 或者分别停止# stop-dfs.sh# stop-yarn.sh 格式化Namenode:执行格式化命令,清空HDFS的元数据。 1hdfs namenode -format 验证格式化结果:进入dfs.name.dir(由hadoop.tmp.dir配置决定)的current目录,查看是否生成了新的fsimage等文件。 123# 路径可能因配置而异,请根据实际情况修改cd /opt/bigdata/hadoop/defau...