学习大数据

学习大数据

PySpark Machine Learning
Created2022-03-23|PySpark
PySpark Machine Lerning初始化SparkSession1234567from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark Machine Lerning basic example") \ .config("spark.some.config.option", "some-value").master("local[*]") \ .getOrCreate() 管道 123456789101112131415161718192021222324252627282930313233343536373839from pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.feature ...
PySpark RDD
Created2022-03-23|PySpark
RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable(不可变的), partitioned collection(集合) of elements that can be operated o in parallel. This class contains the basic operations available on all RDDs, such as map, filter, and persist. In addition, PairRDDFunctions(类) contains operations available only on RDDs of key-value pairs, such as groupByKey and join; DoubleRDDFunctions contains operations available only on RDDs of Doubles; SequenceFileRDDF...
PySpark GraphFrames
Created2022-03-23|PySpark
Spark GraphFrames 官方文档:https://graphframes.github.io/graphframes/docs/_site/quick-start.html 源码:https://github.com/graphframes/graphframes 练习:https://docs.databricks.com/_static/notebooks/graphframes-user-guide-py.html 安装Pip安装graphframes库1(python37) PS C:\Users\Qingyuan_Qu> pip3 install graphframes Java依赖包 在线下载 12# 默认会下载到用户目录的`.ivy`文件夹内。(python37) PS C:\Users\Qingyuan_Qu> pyspark --packages graphframes:graphframes:0.8.2-spark2.4-s_2.11 spark-packages.org 1https://spark-packages.or...
PySpark Streaming
Created2022-03-23|PySpark
Hello World12345678910111213from pyspark import SparkConffrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif __name__ == '__main__': conf = SparkConf().setMaster("spark://node0:7077").setAppName("HelloWorld") sc = SparkContext(conf=conf) ssc = StreamingContext(sc, 1) stream = ssc.socketTextStream("localhost", 9999) stream.pprint() ssc.start() ssc.awaitTermination() Data1234567891011121314151617181920212...
HBase集群管理
Created2022-03-23|HBase
HBase集群管理新增Hadoop节点Master slaves新增node4 配置分发( hosts, slaves ) node4启动DataNode和NodeManager 12[zhangsan@node4 default]$ sbin/hadoop-daemon.sh start datanode[zhangsan@node4 default]$ sbin/yarn-daemon.sh start nodemanager 刷新节点状态1[zhangsan@node1 ~]$ hdfs dfsadmin -refreshNodes 负载均衡123456# 设置负载均衡带宽[zhangsan@node1 ~]$ hdfs dfsadmin -setBalancerBandwidth bytes# 磁盘使用率阈值,单位为百分比。此命令会产生一个进程,并在logs目录输出日志;负载均衡完毕,进程结束。# -threshold# 默认值:10%。该值确保每个DataNode上的磁盘使用率与集群整体使用率的差距不超过10%。[zhangsan@node1 ~]$ st...
ZooKeeper
Created2022-03-23|ZooKeeper
ZooKeeper 环境部署 官方文档 https://zookeeper.apache.org/doc/rx.y.z/index.html 下载地址 https://archive.apache.org/dist/zookeeper/zookeeper-x.y.z/ 安装目录 /opt/bigdata/zookeeper 部署规划 node0单节点; node1 node2 node3 配置为zookeeper集群。 Standalone模式下载使用xftp上传安装包或者通过wget等工具在线下载。 12345[zhangsan@node0 ~]$ cd /opt/bigdata/zookeeper/# 此处使用wget在线下载# 3.5.7[zhangsan@node0 zookeeper]$ wget https://archive.apache.org/dist/zookeeper/zookeeper-3.5.7/apache-zookeeper-3.5.7-bin.tar.gz 解压123456789101112[zhangsan@node0 bigdata]$...
HBase集群管理
Created2022-03-23|HBase
HBase集群管理新增Hadoop节点Master slaves新增node4 配置分发( hosts, slaves ) node4启动DataNode和NodeManager 12[zhangsan@node4 default]$ sbin/hadoop-daemon.sh start datanode[zhangsan@node4 default]$ sbin/yarn-daemon.sh start nodemanager 刷新节点状态1[zhangsan@node1 ~]$ hdfs dfsadmin -refreshNodes 负载均衡123456# 设置负载均衡带宽[zhangsan@node1 ~]$ hdfs dfsadmin -setBalancerBandwidth bytes# 磁盘使用率阈值,单位为百分比。此命令会产生一个进程,并在logs目录输出日志;负载均衡完毕,进程结束。# -threshold# 默认值:10%。该值确保每个DataNode上的磁盘使用率与集群整体使用率的差距不超过10%。[zhangsan@node1 ~]$ st...
DataNode工作机制与实操案例演示
Created2022-01-15|Hadoop
一、引言 Hadoop HDFS简介 分布式文件系统概述 HDFS架构:NameNode与DataNode DataNode的重要性 数据存储与访问的关键角色 数据完整性与高可用性的保障 二、DataNode工作机制 启动与注册 DataNode启动后向NameNode注册 注册成功后,周期性向NameNode上报块信息 心跳机制 心跳周期(默认每3秒一次) 心跳返回结果:NameNode的命令(如复制、删除数据块) 心跳超时处理(默认10分钟+30s无心跳则认为节点不可用) 数据存储与管理 数据块以文件形式存储在磁盘上 每个数据块包括数据文件和元数据文件(包含长度、校验和、时间戳) 三、实操案例演示 假设已有Hadoop集群环境 确认DataNode节点状态 1. DataNode启动与注册1.1 新增DataNode节点配置文件 hosts配置(all) ssh免密登录(master–> node4) slaves新增node4(all) 启动DataNode和NodeManager1[zhangsan@node4 default]$ ...
Hadoop HDFS
Created2022-01-15|Hadoop
块大小默认块大小 版本 大小 1.x 64MB 2.x/3.x 128MB 本地 32MB 根据硬盘速度配置块大小 硬盘类型 硬盘速度 建议Block大小 普通机械硬盘 100MB/s 128MB 固态硬盘(普通) 300MB/s 256MB 固态硬盘(高级) 600MB/s 512MB 文件实际占用Linux文件系统的空间当一个文件小于128MB时,占用Linux文件系统多少存储空间? 答:占用实际的磁盘存储,而不是Block大小。 https://blog.csdn.net/m0_67391120/article/details/126599677 NameNode与DataNode DataNode启动时,向NameNode汇报本节点中托管的Block的情况,此后,默认每6小时汇报一次。 DataNode启动后,每3s向NameNode发送一次心跳信号,当NameNode在 10分钟+30s 未收到心跳信号时,认为DataNode挂掉。 DataNode默认超时时间: Timeout &#...
HDFS综合操作实验:安全模式管理与集群监控
Created2021-01-15|Hadoop
一、实验目标 掌握HDFS的格式化操作及其影响。 熟练使用hdfs dfsadmin命令查看集群状态和网络拓扑。 理解并实践HDFS的安全模式(Safe Mode),观察其对文件操作的影响。 综合运用HDFS文件上传、下载、查看等基础命令。 二、实验环境 已配置好的Hadoop集群(包含Namenode和至少一个Datanode)。 学生已登录到Namenode节点(例如 node1)。 三、实验步骤步骤 1:环境准备与HDFS格式化 (热身) 停止Hadoop服务:为确保环境干净,先停止所有Hadoop相关服务。 1234stop-all.sh # 或者分别停止# stop-dfs.sh# stop-yarn.sh 格式化Namenode:执行格式化命令,清空HDFS的元数据。 1hdfs namenode -format 验证格式化结果:进入dfs.name.dir(由hadoop.tmp.dir配置决定)的current目录,查看是否生成了新的fsimage等文件。 123# 路径可能因配置而异,请根据实际情况修改cd /opt/bigdata/hadoop/defau...
1…121314
avatar
QuZheng
Articles
133
Tags
99
Categories
27
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka基本使用2026-03-15
Flink Hello World2026-03-14
Flink Stream Connect2026-03-14
Flink Stream Union2026-03-14
Flink Introduction2026-03-14
Categories
  • Flink12
  • Flume1
  • HBase9
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
Tags
Phoenix 相关Jar包 MongoDB使用 源码安装Nginx Flink Stream Connect HBase Source Code Linux网络管理 Partitioner Flink Table API Hadoop Java DataInput/DataOutput Linux文件管理 Linux基础知识 Spark环境部署 Python在线编程环境 源码安装Redis 免密登录 Flink Broadcast Windows Dev Env Linux进程管理 防火墙设置 Linux Quartz WordCount Linux基础命令 Tools 大数据项目 Linux系统配置 MapReduce VIM文本编辑器 JavaEE Jpyuter Notebook Kafka Redis Web Framework HDFS综合操作实验 GroupBy Python 乱码
Archives
  • March 2026 17
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 36
Website Info
Article Count :
133
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4