Kettle - Kettle连接Hadoop
Kettle连接HadoopLinux软件包1yum -y install redhat-lsb hdfs-site.xml1234<property> <name>dfs.permissions.enabled</name> <value>false</value></property> 复制Hadoop配置文件到Kettle core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml 1data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh61 主对象树中配置HadoopCluster 复制文件到HDFSLocal到HDFS MapReduceMapReduce Mapper MapReduce Reduce MapReduce
Kettle - 基于日志的CDC
Kettle - 基于日志的CDC数据准备student_cdc123456789101112131415161718192021DROP TABLE IF EXISTS `student_cdc`;CREATE TABLE `student_cdc` ( `学号` int(255) NOT NULL AUTO_INCREMENT, `姓名` varchar(255) DEFAULT NULL, `性别` varchar(255) DEFAULT NULL, `班级` varchar(255) DEFAULT NULL, `年龄` varchar(255) DEFAULT NULL, `成绩` varchar(255) DEFAULT NULL, `身高` varchar(255) DEFAULT NULL, `手机` varchar(255) DEFAULT NULL, `插入时间` varchar(255) DEFAULT NULL, `更新时间` varchar(255) DEFAULT NULL, PRIMARY KEY (`学号`)) ENGINE...
MongoDB使用
MongoDB1. 简介略。 2. 导入、导出、查询数据导入导出数据需要安装mongo database tools,并把$Tools/bin目录加入PATH。 1https://www.mongodb.com/try/download/database-tools 准备示例数据(MongoDB Cloud)DEPLOYMENT -> Database -> Browse Collections -> load a Sample Dataset https://www.mongodb.com/docs/atlas/sample-data/#std-label-load-sample-data BSON操作粒度为DataBase或Collection。 导出数据(cloud)cloud.mongodb.com 12345PS C:\Users\Qingyuan_Qu> mongodump --uri "mongodb+srv://cluster0.0excx.mongodb.net/sample_supplies" --username...
MongoDB Python API
MongoDB Python API安装1pip install pymongo 导入1from pymongo import MongoClient 连接MongoDB Server1client = MongoClient('localhost', 27017) 列出所有数据库1client.list_database_names() 创建/选择数据库如果post_db不存在,则自动新建此数据库。 1post_db = client.get_database('post_db') 列出库内所有的集合1post_db.list_collection_names() 新建/选择集合如果post_collection不存在,则新建此集合。 1post_collection = post_db.get_collection('post_collection') 插入一条文档1234import datetimepost = {"author": 'zh...
MongoDB部署
Windows下载https://www.mongodb.com/try/download/community install-mongodb-on-windowshttps://www.mongodb.com/docs/manual/tutorial/install-mongodb-on-windows/ Install mongoshhttps://www.mongodb.com/try/download/shell 连接MongoDBhttps://www.mongodb.com/docs/mongodb-shell/connect/#std-label-mdb-shell-connect 默认端口27017 连接本地Server12345PS C:\Users\Qingyuan_Qu> mongoshCurrent Mongosh Log ID: 62708c7078e29ade98bc9a22Connecting to: mongodb://127.0.0.1:27017/?directConnection=true&server...
MySQL密码重置
1. 无密码登录配置修改MySQL配置文件my.ini (C:\ProgramData\MySQL\MySQL Server 5.7\my.ini ) 追加如下行: 1skip-grant-tables = true 作用是使其再次启动时跳过授权表,也就是不用密码就可以登录。 2. 重新启动MySQL 第一种方法:可通过命令重启(cmd需要使用管理员执行) 123C:\WINDOWS\system32>net stop mysql57MySQL57 服务正在停止.MySQL57 服务已成功停止。 第二种方法:可通过 【控制面板 - 系统安全 - 管理工具 - 计算机管理 - 服务和应用程序 - 服务 - MySQL57 - 重启服务】 ,手动重启MySQL服务。 这时,不用密码就可以登录MySQL了。 2. 更换密码123456789C:\Program Files\MySQL\MySQL Server 5.7\bin>mysql -uroot -pEnter password:# 让你输入密码的时候,不用理它,直接回车。# 选择mysql库mysql>...
Spark环境搭建(四)Spark开发环境搭建
Spark环境搭建(四)Spark开发环境搭建 Windows练习环境Hadoop解压完Hadoop后,使用该网站中的bin目录替换掉原来的bin目录。 1https://github.com/cdarlint/winutils 环境变量 HADOOP_HOME PATH 将 HADOOP_HOME/sbin 及 HADOOP_HOME/bin 目录追加到PATH变量后。 Spark SPARK_HOME PATH 将 SPARK_HOME/sbin 及 SPARK_HOME/bin 目录追加到PATH变量后。 Spark-Shell 项目创建查看Scala版本1234567891011[zhangsan@node0 bin]$ ./spark-shell Spark context Web UI available at http://node0:4040Spark context available as 'sc' (master = local[*], app id = local-1648259787148).Spark ses...
PySpark DataFrame与Spark SQL
类间关系123456789101112131415graph LRpyspark[pyspark] --> conf[conf] --> SparkConf(SparkConf)pyspark[pyspark] --> context[context] --> SparkContext(SparkContext)pyspark[pyspark]-->sql[sql]sql[sql]--> context1[context] context1[context] --> SQLContext(SQLContext)context1[context] --> HiveContext(HiveContext)sql[sql] --> session[session] --> SparkSession(SparkSession)pyspark[pyspark]-->streaming[streaming]streaming[streaming]--> context2[context] context2[context...
Spark Python QA
Spark Python QAQ: PySpark: java.lang.OutofMemoryError: Java heap space1PySpark: java.lang.OutofMemoryError: Java heap space A1spark_conf.setAppName("recommend").setMaster("local[*]").set('spark.executor.memory', '12g').set('spark.driver.memory', '14g') Q: Please install psutil to have better support with spilling1UserWarning: Please install psutil to have better support with spilling A1pip install psutil Q: {0}.{1} does no...
NetCat工具安装
NetCat安装依赖1[root@node0 netcat-0.7.1]# yum install gcc 下载1[root@node0 zhangsan]# curl -O -L http://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1.tar.gz 解压1[root@node0 zhangsan]# tar -zxf netcat-0.7.1.tar.gz 1[root@node0 zhangsan]# cd netcat-0.7.1 配置1[root@node0 netcat-0.7.1]# ./configure 编译1[root@node0 netcat-0.7.1]# make 安装1[root@node0 netcat-0.7.1]# make install 使用1[root@node0 netcat-0.7.1]# netcat -lp 9999