学习大数据

学习大数据

HDFS 快照管理实训实验
Created2021-01-15|Hadoop
一、实验目标 掌握如何启用和禁用 HDFS 目录的快照功能。 学会创建、重命名和删除 HDFS 快照。 理解如何利用快照进行数据恢复。 掌握如何查看快照列表和比较不同快照之间的差异。 二、实验环境 已搭建好的 Hadoop 集群(伪分布式或完全分布式均可)。 已启动 HDFS 服务。 一个用于操作的 HDFS 用户(例如 zhangsan)。 三、实验步骤步骤一:环境准备与启用快照 创建实验目录和文件:在 HDFS 上为本次实验创建一个专用的目录(例如 /snapshot_test),并在其中创建一个初始文件。 12345678# 在 HDFS 上创建目录hdfs dfs -mkdir /snapshot_test# 创建一个名为 initial_data.txt 的文件并写入内容echo "This is the initial data." | hdfs dfs -put - /snapshot_test/initial_data.txt# 查看目录内容,确认文件创建成功hdfs dfs -ls /snapshot_test 启用目录快照功能:使用 ...
Hadoop_YARN
Created2021-01-15|Hadoop
YARN概览 HDFS在两个版本中都存在; MapReduce是Hadoop v1中唯一的Execution Engine; YARN框架提供的Work Scheduling与正在执行的Work类型无关; Hadoop v2上的所有的Execution Engine都作为YARN应用程序实现。 Hadoop v2支持任何Execution Engine,包括MapReduce的端口,该端口现在是一个YARN应用程序。 为什么选择YARN MapReduce是batch-based,不适合 real-time, near-real-time, Graph, Iterative数据处理; Hadoop v1限制了运行其他框架,YARN使MapReduce以外的工作也能够在Hadoop集群上执行; Hadoop v1 的JobTracker存在并发问题,一个Hadoop Cluster的限制在3000-4000个节点。 YARN的目标是能够扩展到10000个节点; YARN允许在同一个集群中同时运行不同版本的MapReduce; YARN是一个分布式调度器,负责以下...
Java DataInput/DataOutput入门实训
Created2021-01-15|Hadoop
1. 实训目标 理解 DataInput 和 DataOutput 接口的作用和设计理念。 掌握 DataInputStream 和 DataOutputStream 这两个核心实现类的使用。 学会使用 DataInput / DataOutput 进行基本数据类型的读写操作。 理解数据持久化和网络传输中序列化的基本概念。 2. 核心概念DataInput 和 DataOutput 是 Java I/O 中的一对接口,位于 java.io 包,核心作用是定义**“结构化数据的读写规范”——即如何读取/写入 Java 基本数据类型(如 int、float、boolean)和字符串,且保证数据的跨平台兼容性**。 1. 为什么需要这两个接口?底层字节流(如 InputStream/OutputStream)只能读写 byte 数组,无法直接操作基本数据类型: 比如要写一个 int(4 字节)到文件,直接用 OutputStream 需手动把 int 拆成 4 个 byte; 不同操作系统的字节序(大端/小端)不同,手动拆分可能导致...
1…1314
avatar
QuZheng
Articles
133
Tags
99
Categories
27
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka基本使用2026-03-15
Flink Hello World2026-03-14
Flink Stream Connect2026-03-14
Flink Stream Union2026-03-14
Flink Introduction2026-03-14
Categories
  • Flink12
  • Flume1
  • HBase9
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
Tags
Phoenix 相关Jar包 MongoDB使用 源码安装Nginx Flink Stream Connect HBase Source Code Linux网络管理 Partitioner Flink Table API Hadoop Java DataInput/DataOutput Linux文件管理 Linux基础知识 Spark环境部署 Python在线编程环境 源码安装Redis 免密登录 Flink Broadcast Windows Dev Env Linux进程管理 防火墙设置 Linux Quartz WordCount Linux基础命令 Tools 大数据项目 Linux系统配置 MapReduce VIM文本编辑器 JavaEE Jpyuter Notebook Kafka Redis Web Framework HDFS综合操作实验 GroupBy Python 乱码
Archives
  • March 2026 17
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 36
Website Info
Article Count :
133
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4