HDFS 快照管理实训实验
一、实验目标 掌握如何启用和禁用 HDFS 目录的快照功能。 学会创建、重命名和删除 HDFS 快照。 理解如何利用快照进行数据恢复。 掌握如何查看快照列表和比较不同快照之间的差异。 二、实验环境 已搭建好的 Hadoop 集群(伪分布式或完全分布式均可)。 已启动 HDFS 服务。 一个用于操作的 HDFS 用户(例如 zhangsan)。 三、实验步骤步骤一:环境准备与启用快照 创建实验目录和文件:在 HDFS 上为本次实验创建一个专用的目录(例如 /snapshot_test),并在其中创建一个初始文件。 12345678# 在 HDFS 上创建目录hdfs dfs -mkdir /snapshot_test# 创建一个名为 initial_data.txt 的文件并写入内容echo "This is the initial data." | hdfs dfs -put - /snapshot_test/initial_data.txt# 查看目录内容,确认文件创建成功hdfs dfs -ls /snapshot_test 启用目录快照功能:使用 ...
Hadoop_YARN
YARN概览 HDFS在两个版本中都存在; MapReduce是Hadoop v1中唯一的Execution Engine; YARN框架提供的Work Scheduling与正在执行的Work类型无关; Hadoop v2上的所有的Execution Engine都作为YARN应用程序实现。 Hadoop v2支持任何Execution Engine,包括MapReduce的端口,该端口现在是一个YARN应用程序。 为什么选择YARN MapReduce是batch-based,不适合 real-time, near-real-time, Graph, Iterative数据处理; Hadoop v1限制了运行其他框架,YARN使MapReduce以外的工作也能够在Hadoop集群上执行; Hadoop v1 的JobTracker存在并发问题,一个Hadoop Cluster的限制在3000-4000个节点。 YARN的目标是能够扩展到10000个节点; YARN允许在同一个集群中同时运行不同版本的MapReduce; YARN是一个分布式调度器,负责以下...
Java DataInput/DataOutput入门实训
1. 实训目标 理解 DataInput 和 DataOutput 接口的作用和设计理念。 掌握 DataInputStream 和 DataOutputStream 这两个核心实现类的使用。 学会使用 DataInput / DataOutput 进行基本数据类型的读写操作。 理解数据持久化和网络传输中序列化的基本概念。 2. 核心概念DataInput 和 DataOutput 是 Java I/O 中的一对接口,位于 java.io 包,核心作用是定义**“结构化数据的读写规范”——即如何读取/写入 Java 基本数据类型(如 int、float、boolean)和字符串,且保证数据的跨平台兼容性**。 1. 为什么需要这两个接口?底层字节流(如 InputStream/OutputStream)只能读写 byte 数组,无法直接操作基本数据类型: 比如要写一个 int(4 字节)到文件,直接用 OutputStream 需手动把 int 拆成 4 个 byte; 不同操作系统的字节序(大端/小端)不同,手动拆分可能导致...