zhizhesoft

  • 首页
Spark
BigData

大叔经验分享(23)spark sql插入表时的文件个数研究

spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如 .hive-staging_hive_2018-06-23_00-39-39_825_3122897139441535352-2312/-ext-10000 2 将数据写到临时目录; 3 执行loadTable或loadPartition将临时目录数据m…

2022年7月29日 0条评论 43点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(8)Spark中Join实现原理

  spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each * pair of elements will be returned as a (k, (v1, v2)) tuple, wh…

2022年7月29日 0条评论 37点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(19)spark on yarn提交任务之后执行进度总是10%

spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇,    下面看spark on yarn任务提交过程:   spark on yarn提交任务时会把mainClass修改为Client childMainClass = "org.apache.spark.deploy.yarn.Client" spark-submit过程详见:https://www.cnblogs.com/barn…

2022年7月29日 0条评论 31点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(6)Spark Rdd Sort实现原理

spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序,具体是如何实现的?来看代码: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sortBy[K]( f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length) (implicit ord:…

2022年7月29日 0条评论 34点热度 0人点赞 risingsun 阅读全文
BigData

大叔问题定位分享(27)spark中rdd.cache

spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExecutorBackend - Got assigned task 40312019-01-24 21:38:56,024 [Executor task launch worker for task 4031] INFO …

2022年7月29日 0条评论 30点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(7)spark读取文件split过程(即RDD分区数量)

spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始化完成的rdd默认有多少个partition是怎样决定的呢? 以SparkContext.textfile为例来看下代码: org.apache.spark.SparkContext /** * Read a text …

2022年7月29日 0条评论 24点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(9)spark部署方式yarn/mesos

1 下载解压 https://spark.apache.org/downloads.html $ wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz $ tar xvf spark-2.4.0-bin-hadoop2.7.tgz$ cd spark-2.4.0-bin-hadoop2.7   2 配置环境变量SPARK_HOME $ export SPARK_HOME=/path/to/spark…

2022年7月29日 0条评论 46点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(5)Shuffle实现原理及代码解析

一 简介 Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例, serverA:partition1: (hello, 1), (word, 1)serverB:partition2: (hello, 2) shuffle之后: serverA:partition1: (hello, 1), (hello, 2)serverB:partition2: (word, 1) 最后才能得到结果: (hello, 3), …

2022年7月29日 0条评论 27点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(55)spark连接kudu报错

spark-2.4.2kudu-1.7.0 开始尝试 1)自己手工将jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cdh5.16.1.jar # bin/spark-shell scala> val df = spark.read.options(Map("kudu.master" -> "master:7051", "kudu.table" -> "impala::test.tbl_test")).format("…

2022年7月29日 0条评论 33点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(4)RDD原理及代码解析

一 简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重点是可容错,可并行处理 Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of e…

2022年7月29日 0条评论 53点热度 0人点赞 risingsun 阅读全文
12345…356
Search

COPYRIGHT © 2022 zhizhesoft. ALL RIGHTS RESERVED.