1.1 在线教育

image-20260308093706693

1.2 数据种类

**业务数据:就是各行业在处理事务过程中产生的数据。比如用户在网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。**业务数据通常存储在MySQL、Oracle等数据库中。

image-20260308094219362


用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。

image-20260308094226547

爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。


1.3 数据仓库概念

数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。

数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。

image-20260308095052503


1.4 数据仓库建模的意义

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。

高性能:良好的数据模型能够帮助我们快速查询所需要的数据。

低成本:良好的数据模型能减少重复计算,实现计算结果的复用,降低计算成本。

高效率:良好的数据模型能极大的改善用户使用数据的体验,提高使用数据的效率。

高质量:良好的数据模型能改善数据统计口径的混乱,减少计算错误的可能性。


1.5 项目需求分析

  • 用户行为数据采集平台搭建

  • 业务数据采集平台搭建

  • 数据仓库维度建模

  • 用户、商品、地区等在线教育核心主题

1.6 项目架构

image-20260308104027292


1.7 软件版本

Software 版本
VMware Workstation Pro 17
CentOS 7 minimal
JDK 1.8.0
MySQL 5.7.16
ZooKeeper 3.5.7
Hadoop 3.1.3
Flink 1.16.1
Kafka 2.12-3.0.0
Hbase 2.0.5
Phoenix 5.0.0-HBase-2.0
Flume 1.9.0
Maxwell 1.29.2
ClickHouse 20.4.5.36