Kafka
安装部署集群规划 node1 node1 node1 zk zk zk kafka kafka kafka 集群部署官方下载地址 http://kafka.apache.org/downloads.html 解压安装包1[zhangan@node1 software]$ tar -zxvf kafka_2.12-3.0.0.tgz -C /opt/bigdata/kafka/ 创建软连接1[zhangan@node1 kafka]$ ln kafka_2.12-3.0.0/ default 修改配置文件12[zhangan@node1 default]$ cd config/[zhangan@node1 config]$ vim server.properties 输入以下内容: 12345678910111213141516171819202122232425262728#broker的全局唯一编号,不能重复,只能是数字。broker.id=0#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.io.th...
第2章 数仓基础环境搭建
2.1 VMware Workstation现在VM官网要求注册后才能下载。 2.2 SSH客户端工具如 Xshell、Xftp、PowerShell等;安装过程略。 Xshell, Xftp 2.3 CentOS 7 下载本文选择 Minimal版本。 2.4 Linux系统配置2.5 节点克隆与免密登录 Hostname修改 IP修改 Hosts修改 SSH免密登录 2.6 MySQL安装只需要在一个节点安装,比如node1。 2.7 Hadoop完全分布式2.8 Zookeeper副本模式2.9 Kafka安装2.10 集群所有进程查看脚本
第1章 教育大数据分析项目介绍
1.1 在线教育 1.2 数据种类**业务数据:就是各行业在处理事务过程中产生的数据。比如用户在网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。**业务数据通常存储在MySQL、Oracle等数据库中。 用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。 爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。 1.3 数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。 1.4 数据仓库建模的意义数据模型就是数据组织和存储方...
SSH无密登录配置
SSH无密登录配置Linux免密登录核心基于非对称加密(公钥/私钥) 机制,简单说就是「把公钥存在目标服务器,用本地私钥做身份验证」,全程无需输入密码。 核心原理 本地(node1)生成一对密钥(公钥+私钥); 1[zhangsan@node1 .ssh]$ ssh-keygen -t rsa 将(node1)公钥放到要免密登录的目标Linux服务器(node2)上(~/.ssh/authorized_keys); 1[zhangsan@node1 .ssh]$ ssh-copy-id node2 node1登录node2时, 1[zhangsan@node1 .ssh]$ ssh node2 本地用私钥加密一段随机信息发给服务器,服务器用已保存的公钥解密,验证通过后直接登录,全程无密码交互。 核心验证流程Linux免密登录本质是SSH协议的公钥认证方式,替代了默认的密码认证,交互流程极简: 本地发起请求:客户端(本地)向目标服务器发送SSH登录请求,告知要使用公钥认证; 服务器挑战验证:服务器从本地公钥存放目录(~/.ssh/authorized_k...
Python
Python 计算机组成 数据:存储器(RAM、Cache); 计算:运算器ALU(算术运算、逻辑运算) Python概述版本Python 2 与 Python3 查看Python版本12PS C:\Users\Qingyuan_Qu> python -VPython 3.11.2 开发环境 官方Python IDEL Anaconda3 VS Code PyCharm … … 编程规范 代码缩进:分支、循环、函数、类定义、异常处理、With语句等。注意代码块和函数体的缩进,一般以4个空格为一个缩进单位,或直接一个Tab制表符; 导入模块顺序:标准库、扩展库、自定义库;避免导入整个库,最好用到啥导啥; 不要写过长语句; 扩展库安装卸载 命令 说明 举例 pip list pip install package[==version] pip uninstall packagename[==version] 安装Jupyter Notebook1pip install jupyte...
LaTeX
VS Codemiktex1https://miktex.org/ VS Code 插件1LaTeX Workshop Perl1https://strawberryperl.com/ perl插件直接在Windows Console里面执行下面命令 CPAN是Perl官方站点的一个“军火库”,里面有上百万的 Perl 模块,用来支撑 Perl 强大的功能,从生物工程到天文计算,从宏观世界到原子力学,无所不有。 12345sudo cpan Log::Log4perlsudo cpan Log::Dispatchsudo cpan YAML::Tinysudo cpan File::HomeDirsudo cpan Unicode::GCString
Python文件操作案例
文件操作练习背景当前4-3目录中存放了一个Markdown文档和存放相关图片的pic目录,目录结构如下: 12345678910114-3:│-实验手册_5090_1656_18231.md│└─pic 1698495425238.png a.png clip_image004.png clip_image006.png c.jpg clip_image010.png sdfs.png 需求可以看到markdown 文档中插入了较多的图片,图片名字命名不规范,需要根据图片在文档中出现的先后顺序对pic目录中的图片进行重命名。 代码具体代码如下: 123456789101112131415161718192021222324252627282930313233343536373839404142434445import osimport rerootdir = os.chdir(f"D:\数据预处理\最终版\最终版-图片名称修正")os.chdir("4...
PaddlePaddle Jupyter NoteBook
网址https://aistudio.baidu.com/aistudio/projectoverview/public?topic=1 创建项目 启动环境 Hello World
Web Framework
Django官网案例https://docs.djangoproject.com/zh-hans/4.2/intro/ 投票程序自定义一个投票问题: 自定义一个问题Question,如:为他/投一票(仅供娱乐) 将学生信息表.xlsx导入作为Choice 1234567891011121314151617181920212223242526import sqlite3import pandas as pd# 链接数据库conn = sqlite3.connect("db.sqlite3")cursor = conn.cursor()# 查询数据cursor.execute('select * from polls_choice')students = pd.read_excel("20-3.xlsx") # 读取学生信息表students_list = []for stu in students["姓名"]: #对姓名列操作,组合成三元组 (姓名,投票数,所属问题ID) rec...
JavaEE FAQ
HttpServlet报错目前为止,导入的jar包有三种来源; jre中自带的jar包 tomcat lib目录中的jar包 WEB-INF/lib目录手动导入的jar包 AnswerHttpServlet类是在Tomcat的jar包中定义的,当你的HttpServlet报错。 没有配置Tomcat引起的 你的项目绑定了A电脑上的Tomcat,现在你又在B电脑上接着做项目,没有绑定B电脑的Tomcat; 第一种情况,在项目上右键 properties --> targeted runtime --> tomcat 第二种情况,项目上右键Build Path --> Configure Build Path -->Libraries --> Server Runtime --> Edit --> 绑定本机的Tomcat Configure Build Path Libraries 如在此选项卡看不到Tomcat,则 选择 Add Library 如Tomcat提示 unbound,则点击Edit,重新绑定本机的Tomcat ...