学习大数据

学习大数据

Kettle - Kettle连接Hadoop
Created2022-03-23|Kettle
Kettle连接HadoopLinux软件包1yum -y install redhat-lsb hdfs-site.xml1234<property> <name>dfs.permissions.enabled</name> <value>false</value></property> 复制Hadoop配置文件到Kettle core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml 1data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh61 主对象树中配置HadoopCluster 复制文件到HDFSLocal到HDFS MapReduceMapReduce Mapper MapReduce Reduce MapReduce
Kettle - 基于日志的CDC
Created2022-03-23|Kettle
Kettle - 基于日志的CDC数据准备student_cdc123456789101112131415161718192021DROP TABLE IF EXISTS `student_cdc`;CREATE TABLE `student_cdc` ( `学号` int(255) NOT NULL AUTO_INCREMENT, `姓名` varchar(255) DEFAULT NULL, `性别` varchar(255) DEFAULT NULL, `班级` varchar(255) DEFAULT NULL, `年龄` varchar(255) DEFAULT NULL, `成绩` varchar(255) DEFAULT NULL, `身高` varchar(255) DEFAULT NULL, `手机` varchar(255) DEFAULT NULL, `插入时间` varchar(255) DEFAULT NULL, `更新时间` varchar(255) DEFAULT NULL, PRIMARY KEY (`学号`)) ENGINE...
MongoDB使用
Created2022-03-23|MongoDB
MongoDB1. 简介略。 2. 导入、导出、查询数据导入导出数据需要安装mongo database tools,并把$Tools/bin目录加入PATH。 1https://www.mongodb.com/try/download/database-tools 准备示例数据(MongoDB Cloud)DEPLOYMENT -> Database -> Browse Collections -> load a Sample Dataset https://www.mongodb.com/docs/atlas/sample-data/#std-label-load-sample-data BSON操作粒度为DataBase或Collection。 导出数据(cloud)cloud.mongodb.com 12345PS C:\Users\Qingyuan_Qu> mongodump --uri "mongodb+srv://cluster0.0excx.mongodb.net/sample_supplies" --username...
MongoDB Python API
Created2022-03-23|MongoDB
MongoDB Python API安装1pip install pymongo 导入1from pymongo import MongoClient 连接MongoDB Server1client = MongoClient('localhost', 27017) 列出所有数据库1client.list_database_names() 创建/选择数据库如果post_db不存在,则自动新建此数据库。 1post_db = client.get_database('post_db') 列出库内所有的集合1post_db.list_collection_names() 新建/选择集合如果post_collection不存在,则新建此集合。 1post_collection = post_db.get_collection('post_collection') 插入一条文档1234import datetimepost = {"author": 'zh...
MongoDB部署
Created2022-03-23|MongoDB
Windows下载https://www.mongodb.com/try/download/community install-mongodb-on-windowshttps://www.mongodb.com/docs/manual/tutorial/install-mongodb-on-windows/ Install mongoshhttps://www.mongodb.com/try/download/shell 连接MongoDBhttps://www.mongodb.com/docs/mongodb-shell/connect/#std-label-mdb-shell-connect 默认端口27017 连接本地Server12345PS C:\Users\Qingyuan_Qu> mongoshCurrent Mongosh Log ID: 62708c7078e29ade98bc9a22Connecting to: mongodb://127.0.0.1:27017/?directConnection=true&server...
MySQL密码重置
Created2022-03-23|MySQL
1. 无密码登录配置修改MySQL配置文件my.ini (C:\ProgramData\MySQL\MySQL Server 5.7\my.ini ) 追加如下行: 1skip-grant-tables = true 作用是使其再次启动时跳过授权表,也就是不用密码就可以登录。 2. 重新启动MySQL 第一种方法:可通过命令重启(cmd需要使用管理员执行) 123C:\WINDOWS\system32>net stop mysql57MySQL57 服务正在停止.MySQL57 服务已成功停止。 第二种方法:可通过 【控制面板 - 系统安全 - 管理工具 - 计算机管理 - 服务和应用程序 - 服务 - MySQL57 - 重启服务】 ,手动重启MySQL服务。 这时,不用密码就可以登录MySQL了。 2. 更换密码123456789C:\Program Files\MySQL\MySQL Server 5.7\bin>mysql -uroot -pEnter password:# 让你输入密码的时候,不用理它,直接回车。# 选择mysql库mysql>...
Spark环境搭建(四)Spark开发环境搭建
Created2022-03-23|Spark
Spark环境搭建(四)Spark开发环境搭建 Windows练习环境Hadoop解压完Hadoop后,使用该网站中的bin目录替换掉原来的bin目录。 1https://github.com/cdarlint/winutils 环境变量 HADOOP_HOME PATH 将 HADOOP_HOME/sbin 及 HADOOP_HOME/bin 目录追加到PATH变量后。 Spark SPARK_HOME PATH 将 SPARK_HOME/sbin 及 SPARK_HOME/bin 目录追加到PATH变量后。 Spark-Shell 项目创建查看Scala版本1234567891011[zhangsan@node0 bin]$ ./spark-shell Spark context Web UI available at http://node0:4040Spark context available as 'sc' (master = local[*], app id = local-1648259787148).Spark ses...
PySpark DataFrame与Spark SQL
Created2022-03-23|PySpark
类间关系123456789101112131415graph LRpyspark[pyspark] --> conf[conf] --> SparkConf(SparkConf)pyspark[pyspark] --> context[context] --> SparkContext(SparkContext)pyspark[pyspark]-->sql[sql]sql[sql]--> context1[context] context1[context] --> SQLContext(SQLContext)context1[context] --> HiveContext(HiveContext)sql[sql] --> session[session] --> SparkSession(SparkSession)pyspark[pyspark]-->streaming[streaming]streaming[streaming]--> context2[context] context2[context...
Spark Python QA
Created2022-03-23|PySpark
Spark Python QAQ: PySpark: java.lang.OutofMemoryError: Java heap space1PySpark: java.lang.OutofMemoryError: Java heap space A1spark_conf.setAppName("recommend").setMaster("local[*]").set('spark.executor.memory', '12g').set('spark.driver.memory', '14g') Q: Please install psutil to have better support with spilling1UserWarning: Please install psutil to have better support with spilling A1pip install psutil Q: {0}.{1} does no...
NetCat工具安装
Created2022-03-23|PySpark
NetCat安装依赖1[root@node0 netcat-0.7.1]# yum install gcc 下载1[root@node0 zhangsan]# curl -O -L http://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1.tar.gz 解压1[root@node0 zhangsan]# tar -zxf netcat-0.7.1.tar.gz 1[root@node0 zhangsan]# cd netcat-0.7.1 配置1[root@node0 netcat-0.7.1]# ./configure 编译1[root@node0 netcat-0.7.1]# make 安装1[root@node0 netcat-0.7.1]# make install 使用1[root@node0 netcat-0.7.1]# netcat -lp 9999
1…11121314
avatar
QuZheng
Articles
133
Tags
99
Categories
27
Follow Me
Announcement
This is my Blog
Recent Posts
Kafka基本使用2026-03-15
Flink Hello World2026-03-14
Flink Stream Connect2026-03-14
Flink Stream Union2026-03-14
Flink Introduction2026-03-14
Categories
  • Flink12
  • Flume1
  • HBase9
  • Hadoop21
  • Hive1
  • JavaEE13
  • Kettle11
  • LayUI1
Tags
Phoenix 相关Jar包 MongoDB使用 源码安装Nginx Flink Stream Connect HBase Source Code Linux网络管理 Partitioner Flink Table API Hadoop Java DataInput/DataOutput Linux文件管理 Linux基础知识 Spark环境部署 Python在线编程环境 源码安装Redis 免密登录 Flink Broadcast Windows Dev Env Linux进程管理 防火墙设置 Linux Quartz WordCount Linux基础命令 Tools 大数据项目 Linux系统配置 MapReduce VIM文本编辑器 JavaEE Jpyuter Notebook Kafka Redis Web Framework HDFS综合操作实验 GroupBy Python 乱码
Archives
  • March 2026 17
  • November 2023 2
  • October 2023 1
  • June 2023 7
  • May 2023 6
  • March 2023 6
  • February 2023 2
  • January 2023 36
Website Info
Article Count :
133
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By QuZhengFramework Hexo 8.1.1|Theme Butterfly 5.5.4