学习大数据

Created2021-01-15|Hadoop

一、实验目标掌握如何启用和禁用 HDFS 目录的快照功能。学会创建、重命名和删除 HDFS 快照。理解如何利用快照进行数据恢复。掌握如何查看快照列表和比较不同快照之间的差异。二、实验环境已搭建好的 Hadoop 集群（伪分布式或完全分布式均可）。已启动 HDFS 服务。一个用于操作的 HDFS 用户（例如 zhangsan）。三、实验步骤步骤一：环境准备与启用快照创建实验目录和文件：在 HDFS 上为本次实验创建一个专用的目录（例如 /snapshot_test），并在其中创建一个初始文件。 12345678# 在 HDFS 上创建目录hdfs dfs -mkdir /snapshot_test# 创建一个名为 initial_data.txt 的文件并写入内容echo "This is the initial data." | hdfs dfs -put - /snapshot_test/initial_data.txt# 查看目录内容，确认文件创建成功hdfs dfs -ls /snapshot_test 启用目录快照功能：使用 ...

Hadoop_YARN

Created2021-01-15|Hadoop

YARN概览 HDFS在两个版本中都存在； MapReduce是Hadoop v1中唯一的Execution Engine； YARN框架提供的Work Scheduling与正在执行的Work类型无关； Hadoop v2上的所有的Execution Engine都作为YARN应用程序实现。 Hadoop v2支持任何Execution Engine，包括MapReduce的端口，该端口现在是一个YARN应用程序。为什么选择YARN MapReduce是batch-based，不适合 real-time, near-real-time, Graph, Iterative数据处理； Hadoop v1限制了运行其他框架，YARN使MapReduce以外的工作也能够在Hadoop集群上执行； Hadoop v1 的JobTracker存在并发问题，一个Hadoop Cluster的限制在3000-4000个节点。 YARN的目标是能够扩展到10000个节点； YARN允许在同一个集群中同时运行不同版本的MapReduce； YARN是一个分布式调度器，负责以下...

Java DataInput/DataOutput入门实训

Created2021-01-15|Hadoop

1. 实训目标理解 DataInput 和 DataOutput 接口的作用和设计理念。掌握 DataInputStream 和 DataOutputStream 这两个核心实现类的使用。学会使用 DataInput / DataOutput 进行基本数据类型的读写操作。理解数据持久化和网络传输中序列化的基本概念。 2. 核心概念DataInput 和 DataOutput 是 Java I/O 中的一对接口，位于 java.io 包，核心作用是定义**“结构化数据的读写规范”——即如何读取/写入 Java 基本数据类型（如 int、float、boolean）和字符串，且保证数据的跨平台兼容性**。 1. 为什么需要这两个接口？底层字节流（如 InputStream/OutputStream）只能读写 byte 数组，无法直接操作基本数据类型：比如要写一个 int（4 字节）到文件，直接用 OutputStream 需手动把 int 拆成 4 个 byte；不同操作系统的字节序（大端/小端）不同，手动拆分可能导致...