学习大数据

学习大数据

Flink CDC
Created2026-03-14|Flink
xxxxxxxxxx     org.apache.phoenix    phoenix-spark    5.0.0-HBase-2.0                        org.glassfish            javax.el            xml 示例数据示例数据库123456-- 创建数据库CREATE DATABASE IF NOT EXISTS flink_cdc_demo DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;USE flink_cdc_demo; 示例数据表1234567-- 创建用户表CREATE TABLE IF NOT EXISTS users ( id INT AUTO_INCREMENT PRIMARY KEY COMMENT '用户ID', username VARCHAR(50) NOT NULL COMMENT '用户名', phone VARCHAR(20) COMMENT ...
Flink ClickHouse
Created2026-03-14|Flink
pom123456789101112131415<dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clickhouse-jdbc</artifactId> <version>0.3.2</version> <exclusions> <exclusion> <groupId>com.fasterxml.jackson.core</groupId> <artifactId>jackson-databind</artifactId> </exclusion> <exclusion> <groupId>com.fasterxml.jackson.core</groupId> ...
Flink Broadcast
Created2026-03-14|Flink
一、Flink Broadcast(广播流)核心概念Flink 的 Broadcast(广播流)是一种特殊的流合并方式,用于将配置/规则/维度数据(小体量、低频更新)广播到所有并行子任务中,让每个任务都能访问到这些全局数据,常与普通数据流结合实现动态规则匹配、维度补全等场景。 核心特点: 广播流(Broadcast Stream):被广播的流,数据会复制到所有并行实例; 普通流(Data Stream):业务数据流,每个并行实例处理自己分片的数据; 结合方式:通过 connect + BroadcastProcessFunction 实现双流结合,广播流数据会存入 BroadcastState(可共享的状态)。 二、Broadcast 完整代码示例以下示例实现「规则广播流 + 业务数据流」的结合: 广播流:动态更新的过滤规则(比如过滤掉包含特定关键词的消息); 业务流:普通字符串消息流; 核心逻辑:用广播的规则过滤业务流数据。 1234567891011121314151617181920212223242526272829303132333435363...
第1章 教育大数据分析项目介绍
Created2026-03-09|bigdata-edu
1.1 在线教育 1.2 数据种类**业务数据:就是各行业在处理事务过程中产生的数据。比如用户在网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。**业务数据通常存储在MySQL、Oracle等数据库中。 用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。 ​ 爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。 1.3 数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。 1.4 数据仓库建模的意义数据模型就是数据组织和存储方...
第2章 数仓基础环境搭建
Created2026-03-09|bigdata-edu
2.1 VMware Workstation现在VM官网要求注册后才能下载。 2.2 SSH客户端工具如 Xshell、Xftp、PowerShell等;安装过程略。 Xshell, Xftp 2.3 CentOS 7 下载本文选择 Minimal版本。 2.4 Linux系统配置2.5 节点克隆与免密登录 Hostname修改 IP修改 Hosts修改 SSH免密登录 2.6 MySQL安装只需要在一个节点安装,比如node1。 2.7 Hadoop完全分布式2.8 Zookeeper副本模式2.9 Kafka安装2.10 集群所有进程查看脚本
Kafka环境搭建
Created2026-03-09|kafka
集群规划 node1 node1 node1 zk zk zk kafka kafka kafka 集群部署官方下载地址​ http://kafka.apache.org/downloads.html 解压安装包1[zhangan@node1 software]$ tar -zxvf kafka_2.12-3.0.0.tgz -C /opt/bigdata/kafka/ 创建软连接1[zhangan@node1 kafka]$ ln kafka_2.12-3.0.0/ default 修改配置文件12[zhangan@node1 default]$ cd config/[zhangan@node1 config]$ vim server.properties 输入以下内容: 12345678910111213141516171819202122232425262728#broker的全局唯一编号,不能重复,只能是数字。broker.id=0#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.io.thread...
SSH无密登录配置
Created2026-03-08|Linux
SSH无密登录配置Linux免密登录核心基于非对称加密(公钥/私钥) 机制,简单说就是「把公钥存在目标服务器,用本地私钥做身份验证」,全程无需输入密码。 核心原理 本地(node1)生成一对密钥(公钥+私钥); 1[zhangsan@node1 .ssh]$ ssh-keygen -t rsa 将(node1)公钥放到要免密登录的目标Linux服务器(node2)上(~/.ssh/authorized_keys); 1[zhangsan@node1 .ssh]$ ssh-copy-id node2 node1登录node2时, 1[zhangsan@node1 .ssh]$ ssh node2 本地用私钥加密一段随机信息发给服务器,服务器用已保存的公钥解密,验证通过后直接登录,全程无密码交互。 核心验证流程Linux免密登录本质是SSH协议的公钥认证方式,替代了默认的密码认证,交互流程极简: 本地发起请求:客户端(本地)向目标服务器发送SSH登录请求,告知要使用公钥认证; 服务器挑战验证:服务器从本地公钥存放目录(~/.ssh/authorized_k...
Python
Created2023-11-19|Python
Python 计算机组成 数据:存储器(RAM、Cache); 计算:运算器ALU(算术运算、逻辑运算) Python概述版本Python 2 与 Python3 查看Python版本12PS C:\Users\Qingyuan_Qu> python -VPython 3.11.2 开发环境 官方Python IDEL Anaconda3 VS Code PyCharm … … 编程规范 代码缩进:分支、循环、函数、类定义、异常处理、With语句等。注意代码块和函数体的缩进,一般以4个空格为一个缩进单位,或直接一个Tab制表符; 导入模块顺序:标准库、扩展库、自定义库;避免导入整个库,最好用到啥导啥; 不要写过长语句; 扩展库安装卸载 命令 说明 举例 pip list pip install package[==version] pip uninstall packagename[==version] 安装Jupyter Notebook1pip install jupyte...
LaTeX
Created2023-11-04|Tools
VS Codemiktex1https://miktex.org/ VS Code 插件1LaTeX Workshop Perl1https://strawberryperl.com/ perl插件直接在Windows Console里面执行下面命令 CPAN是Perl官方站点的一个“军火库”,里面有上百万的 Perl 模块,用来支撑 Perl 强大的功能,从生物工程到天文计算,从宏观世界到原子力学,无所不有。 12345sudo cpan Log::Log4perlsudo cpan Log::Dispatchsudo cpan YAML::Tinysudo cpan File::HomeDirsudo cpan Unicode::GCString
Python文件操作案例
Created2023-10-28|Python
文件操作练习背景当前4-3目录中存放了一个Markdown文档和存放相关图片的pic目录,目录结构如下: 12345678910114-3:│-实验手册_5090_1656_18231.md│└─pic 1698495425238.png a.png clip_image004.png clip_image006.png c.jpg clip_image010.png sdfs.png 需求可以看到markdown 文档中插入了较多的图片,图片名字命名不规范,需要根据图片在文档中出现的先后顺序对pic目录中的图片进行重命名。 代码具体代码如下: 123456789101112131415161718192021222324252627282930313233343536373839404142434445import osimport rerootdir = os.chdir(f"D:\数据预处理\最终版\最终版-图片名称修正")os.chdir("4...
123…14
avatar
QuZheng
Articles
133
Tags
99
Categories
27
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka基本使用2026-03-15
Flink Hello World2026-03-14
Flink Stream Connect2026-03-14
Flink Stream Union2026-03-14
Flink Introduction2026-03-14
Categories
  • Flink12
  • Flume1
  • HBase9
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
Tags
Phoenix 相关Jar包 MongoDB使用 源码安装Nginx Flink Stream Connect HBase Source Code Linux网络管理 Partitioner Flink Table API Hadoop Java DataInput/DataOutput Linux文件管理 Linux基础知识 Spark环境部署 Python在线编程环境 源码安装Redis 免密登录 Flink Broadcast Windows Dev Env Linux进程管理 防火墙设置 Linux Quartz WordCount Linux基础命令 Tools 大数据项目 Linux系统配置 MapReduce VIM文本编辑器 JavaEE Jpyuter Notebook Kafka Redis Web Framework HDFS综合操作实验 GroupBy Python 乱码
Archives
  • March 2026 17
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 36
Website Info
Article Count :
133
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4