学习大数据

Created2022-03-23|Kettle

Kettle连接HadoopLinux软件包1yum -y install redhat-lsb hdfs-site.xml1234<property> <name>dfs.permissions.enabled</name> <value>false</value></property> 复制Hadoop配置文件到Kettle core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml 1data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh61 主对象树中配置HadoopCluster 复制文件到HDFSLocal到HDFS MapReduceMapReduce Mapper MapReduce Reduce MapReduce

Kettle - 基于日志的CDC

Created2022-03-23|Kettle

Kettle - 基于日志的CDC数据准备student_cdc123456789101112131415161718192021DROP TABLE IF EXISTS `student_cdc`;CREATE TABLE `student_cdc` ( `学号` int(255) NOT NULL AUTO_INCREMENT, `姓名` varchar(255) DEFAULT NULL, `性别` varchar(255) DEFAULT NULL, `班级` varchar(255) DEFAULT NULL, `年龄` varchar(255) DEFAULT NULL, `成绩` varchar(255) DEFAULT NULL, `身高` varchar(255) DEFAULT NULL, `手机` varchar(255) DEFAULT NULL, `插入时间` varchar(255) DEFAULT NULL, `更新时间` varchar(255) DEFAULT NULL, PRIMARY KEY (`学号`)) ENGINE...

MongoDB使用

Created2022-03-23|MongoDB

MongoDB1. 简介略。 2. 导入、导出、查询数据导入导出数据需要安装mongo database tools，并把$Tools/bin目录加入PATH。 1https://www.mongodb.com/try/download/database-tools 准备示例数据（MongoDB Cloud）DEPLOYMENT -> Database -> Browse Collections -> load a Sample Dataset https://www.mongodb.com/docs/atlas/sample-data/#std-label-load-sample-data BSON操作粒度为DataBase或Collection。导出数据(cloud)cloud.mongodb.com 12345PS C:\Users\Qingyuan_Qu> mongodump --uri "mongodb+srv://cluster0.0excx.mongodb.net/sample_supplies" --username...

MongoDB Python API

Created2022-03-23|MongoDB

MongoDB Python API安装1pip install pymongo 导入1from pymongo import MongoClient 连接MongoDB Server1client = MongoClient('localhost', 27017) 列出所有数据库1client.list_database_names() 创建/选择数据库如果post_db不存在，则自动新建此数据库。 1post_db = client.get_database('post_db') 列出库内所有的集合1post_db.list_collection_names() 新建/选择集合如果post_collection不存在，则新建此集合。 1post_collection = post_db.get_collection('post_collection') 插入一条文档1234import datetimepost = {"author": 'zh...

MongoDB部署

Created2022-03-23|MongoDB

Windows下载https://www.mongodb.com/try/download/community install-mongodb-on-windowshttps://www.mongodb.com/docs/manual/tutorial/install-mongodb-on-windows/ Install mongoshhttps://www.mongodb.com/try/download/shell 连接MongoDBhttps://www.mongodb.com/docs/mongodb-shell/connect/#std-label-mdb-shell-connect 默认端口27017 连接本地Server12345PS C:\Users\Qingyuan_Qu> mongoshCurrent Mongosh Log ID: 62708c7078e29ade98bc9a22Connecting to: mongodb://127.0.0.1:27017/?directConnection=true&server...

MySQL密码重置

Created2022-03-23|MySQL

1. 无密码登录配置修改MySQL配置文件my.ini (C:\ProgramData\MySQL\MySQL Server 5.7\my.ini ) 追加如下行： 1skip-grant-tables = true 作用是使其再次启动时跳过授权表，也就是不用密码就可以登录。 2. 重新启动MySQL 第一种方法：可通过命令重启（cmd需要使用管理员执行） 123C:\WINDOWS\system32>net stop mysql57MySQL57 服务正在停止.MySQL57 服务已成功停止。第二种方法：可通过【控制面板 - 系统安全 - 管理工具 - 计算机管理 - 服务和应用程序 - 服务 - MySQL57 - 重启服务】，手动重启MySQL服务。这时，不用密码就可以登录MySQL了。 2. 更换密码123456789C:\Program Files\MySQL\MySQL Server 5.7\bin>mysql -uroot -pEnter password:# 让你输入密码的时候，不用理它，直接回车。# 选择mysql库mysql>...

Spark环境搭建（四）Spark开发环境搭建

Created2022-03-23|Spark

Spark环境搭建（四）Spark开发环境搭建 Windows练习环境Hadoop解压完Hadoop后，使用该网站中的bin目录替换掉原来的bin目录。 1https://github.com/cdarlint/winutils 环境变量 HADOOP_HOME PATH 将 HADOOP_HOME/sbin 及 HADOOP_HOME/bin 目录追加到PATH变量后。 Spark SPARK_HOME PATH 将 SPARK_HOME/sbin 及 SPARK_HOME/bin 目录追加到PATH变量后。 Spark-Shell 项目创建查看Scala版本1234567891011[zhangsan@node0 bin]$ ./spark-shell Spark context Web UI available at http://node0:4040Spark context available as 'sc' (master = local[*], app id = local-1648259787148).Spark ses...

PySpark DataFrame与Spark SQL

Created2022-03-23|PySpark

类间关系123456789101112131415graph LRpyspark[pyspark] --> conf[conf] --> SparkConf(SparkConf)pyspark[pyspark] --> context[context] --> SparkContext(SparkContext)pyspark[pyspark]-->sql[sql]sql[sql]--> context1[context] context1[context] --> SQLContext(SQLContext)context1[context] --> HiveContext(HiveContext)sql[sql] --> session[session] --> SparkSession(SparkSession)pyspark[pyspark]-->streaming[streaming]streaming[streaming]--> context2[context] context2[context...

Spark Python QA

Created2022-03-23|PySpark

Spark Python QAQ: PySpark: java.lang.OutofMemoryError: Java heap space1PySpark: java.lang.OutofMemoryError: Java heap space A1spark_conf.setAppName("recommend").setMaster("local[*]").set('spark.executor.memory', '12g').set('spark.driver.memory', '14g') Q: Please install psutil to have better support with spilling1UserWarning: Please install psutil to have better support with spilling A1pip install psutil Q: {0}.{1} does no...

NetCat工具安装

Created2022-03-23|PySpark

NetCat安装依赖1[root@node0 netcat-0.7.1]# yum install gcc 下载1[root@node0 zhangsan]# curl -O -L http://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1.tar.gz 解压1[root@node0 zhangsan]# tar -zxf netcat-0.7.1.tar.gz 1[root@node0 zhangsan]# cd netcat-0.7.1 配置1[root@node0 netcat-0.7.1]# ./configure 编译1[root@node0 netcat-0.7.1]# make 安装1[root@node0 netcat-0.7.1]# make install 使用1[root@node0 netcat-0.7.1]# netcat -lp 9999