学习大数据第2章 数仓基础环境搭建 Back to Home

第2章 数仓基础环境搭建

Created2026-03-09|Updated2026-03-10|bigdata-edu
|Post Views:

2.1 VMware Workstation

现在VM官网要求注册后才能下载。

2.2 SSH客户端工具

如 Xshell、Xftp、PowerShell等;安装过程略。

Xshell, Xftp

2.3 CentOS 7 下载

本文选择 Minimal版本。

2.4 Linux系统配置

2.5 节点克隆与免密登录

  • Hostname修改

  • IP修改

  • Hosts修改

  • SSH免密登录

2.6 MySQL安装

只需要在一个节点安装,比如node1。

2.7 Hadoop完全分布式

2.8 Zookeeper副本模式

2.9 Kafka安装

2.10 集群所有进程查看脚本

Author: QuZheng
Link: https://www.studybigdata.com/edu-bigdata/chapter-02-environment/
Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
环境搭建Linux系统配置大数据项目
Previous
第1章 教育大数据分析项目介绍
1.1 在线教育 1.2 数据种类**业务数据:就是各行业在处理事务过程中产生的数据。比如用户在网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。**业务数据通常存储在MySQL、Oracle等数据库中。 用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。 ​ 爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。 1.3 数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。 1.4 数据仓库建模的意义数据模型就是数据组织和存储方...
Next
Kafka
安装部署集群规划 node1 node1 node1 zk zk zk kafka kafka kafka 集群部署官方下载地址​ http://kafka.apache.org/downloads.html 解压安装包1[zhangan@node1 software]$ tar -zxvf kafka_2.12-3.0.0.tgz -C /opt/bigdata/kafka/ 创建软连接1[zhangan@node1 kafka]$ ln kafka_2.12-3.0.0/ default 修改配置文件12[zhangan@node1 default]$ cd config/[zhangan@node1 config]$ vim server.properties 输入以下内容: 12345678910111213141516171819202122232425262728#broker的全局唯一编号,不能重复,只能是数字。broker.id=0#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.io.th...
Related Articles
2026-03-09
第1章 教育大数据分析项目介绍
1.1 在线教育 1.2 数据种类**业务数据:就是各行业在处理事务过程中产生的数据。比如用户在网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。**业务数据通常存储在MySQL、Oracle等数据库中。 用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。 ​ 爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。 1.3 数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。 1.4 数据仓库建模的意义数据模型就是数据组织和存储方...
2023-01-14
Linux系统配置
用户配置 设置root用户密码; 添加普通用户,用户名为自己姓名全拼,如:zhangsan; 配置IP 输入ip addr 查看网卡ip地址,可以看到网卡ens33没有分配到ip。 查看VMWare子网 你配置的静态IP需要为192.168.179.x ,其中 2<x<128。此处我们设置静态IP为192.168.179.100, 编辑网卡ens33对应的配置文件vi /etc/sysconfig/network-scripts/ifcfg-ens33 重启网络服务 systemctl restart network ​ 此时网卡ens33的ip地址为 192.168.179.100 为方便复制代码,后续步骤,最好使用ssh客户端操作。 更换软件源CentOS 7 系统在 2024 年 6 月 30 日结束了官方维护,这意味着:官方提供的 mirrorlist.centos.org 等源地址已经停止服务,无法解析或获取软件包。你的系统里原来的 yum 源配置文件(CentOS-Base.repo)指向的是这些失效地址,所以...
2023-01-15
Hadoop环境部署-完全分布式
完全分布式 官方文档 https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/ClusterSetup.html https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-common/ClusterSetup.html 节点克隆与免密登录将预配置好的机器克隆:机器名为node1, node2, node3,根据VM网络信息配置合适IP地址,比如。 IP node1 192.168.179.101 node2 192.168.179.102 node3 192.168.179.103 Hostname修改略。 IP修改略。 配置hosts/etc/hosts (对三个节点都做如下配置) 123456127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost ...
2023-01-15
Hadoop环境部署-伪分布式
伪分布式 官方文档 https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 免密登录未配置免密登录通过ssh工具登录node0的时候,会让你输入密码。 12345678[zhangsan@node0 ~]$ ssh node0The authenticity of host 'node0 (192.168.179.100)' can't be established.ECDSA key fingerprint is SHA256:1+3DDeEwkWu0zRO1RoxISbQoKTSgZ56QO3Rl4XXteTw.ECDSA key fingerprint is MD5:92:c9:cd:4a:b8:07:29:ff:3d:25:1c:45:db:8b:5f:dc.Are you sure you want to continue connecting (yes/n...
2023-01-15
Hadoop环境部署-单机
单机 官方文档 https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation 安装下载1wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 复制到安装目录1[zhangsan@node0 ~]$ cp hadoop-2.7.3.tar.gz /opt/bigdata/hadoop/ 解压12[zhangsan@node0 ~]$ cd /opt/bigdata/hadoop/[zhangsan@node0 hadoop]$ tar -zxf hadoop-2.7.3.tar.gz 创建软连接12345[zhangsan@node0 hadoop]$ ln -s hadoop-2.7.3 default[zhangsan@node0 hadoop]$ lllrwxrwxrwx. 1 zhangsan...
avatar
QuZheng
Articles
118
Tags
84
Categories
26
Follow Me
Announcement
This is my Blog
Contents
  1. 1. 2.1 VMware Workstation
  2. 2. 2.2 SSH客户端工具
  3. 3. 2.3 CentOS 7 下载
  4. 4. 2.4 Linux系统配置
  5. 5. 2.5 节点克隆与免密登录
    1. 5.1. Hostname修改
    2. 5.2. IP修改
    3. 5.3. Hosts修改
    4. 5.4. SSH免密登录
  6. 6. 2.6 MySQL安装
  7. 7. 2.7 Hadoop完全分布式
  8. 8. 2.8 Zookeeper副本模式
  9. 9. 2.9 Kafka安装
  10. 10. 2.10 集群所有进程查看脚本
Recent Posts
Kafka2026-03-09
第2章 数仓基础环境搭建2026-03-09
第1章 教育大数据分析项目介绍2026-03-09
SSH无密登录配置2026-03-08
Python2023-11-19
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4