zhizhesoft

  • 首页
BigData
BigData

大叔经验分享(48)oozie中通过shell执行impala

oozie中通过shell执行impala,脚本如下: $ cat test_impala.sh #!/bin/sh /usr/bin/kinit -kt /tmp/impala.keytab impala/server04 /usr/bin/impala-shell -i server04:21000 -q 'show databases' 直接执行shell脚本正常,在oozie中执行报错: Traceback (most recent call last): File "/usr/lib/impala-she…

2022年7月29日 0条评论 19点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之HDFS

https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点: 大文件、一次写入多次读取,修改只支持Append 多副本 流式、非低延时 一 概念 元数据、File-Block、机架、副本、读数据、写数据 File-Block、Replication QJM部署 NameNode、DataNode、ZKFC、JournalNode HA zk节点 /ha…

2022年7月29日 0条评论 20点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(137)kafka开启压缩

kafka开启压缩后,可以极大的优化磁盘占用和网络传输开销,以及cpu占用和gc时间,开启压缩的参数为compression.type Specify the final compression type for a given topic. This configuration accepts the standard compression codecs ('gzip', 'snappy', 'lz4', 'zstd'). It additionally accepts 'uncompressed' which…

2022年7月29日 0条评论 20点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Hadoop(4)hdfs回收站

配置 配置1 fs.trash.interval=1440 被删除的文件会进入回收站,默认保留1440分钟后完全删除 配置2 fs.trash.checkpoint.interval=60 回收站checkpoint机制:进入回收站的文件首先进入Current目录,然后定期移动到一个时间戳目录,定期的间隔为60分钟 过程 1 删除命令 hdfs dfs rm /tmp/test 2 进入回收站 hdfs://${nn}/user/${user_name}/.Trash/Current/tmp/test 3 定时检查…

2022年7月29日 0条评论 28点热度 0人点赞 risingsun 阅读全文
BigData

大叔问题定位分享(9)oozie提交spark任务报 java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/KafkaProducer

oozie中支持很多的action类型,比如spark、hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1">  ... oozie中sharelib用于存放每个action类型需要的依赖,可以查看当前所有的action类型以及每个action类型的依赖 oozie admin -shareliblist[Available ShareLib]hivesparkbakdistcpmapreduce-streamingsparkooziehcatal…

2022年7月29日 0条评论 17点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(5)oozie提交spark任务如何添加依赖

spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖; 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖; 这两种方式在oozie上都行不通,首先oozie上没办法也不应该通过local运行,其次通过spark.yarn.jars方式配置你会发现根本不会生效,来看为什么 查看LauncherMapper的日志   Spark Version 2.1.1 Spark Action Main class        : org.apache.spar…

2022年7月29日 0条评论 21点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(84)spark sql中设置hive.exec.max.dynamic.partitions无效

spark 2.4   spark sql中执行 set hive.exec.max.dynamic.partitions=10000; 后再执行sql依然会报错: org.apache.hadoop.hive.ql.metadata.HiveException: Number of dynamic partitions created is 1001, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partition…

2022年7月29日 0条评论 18点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(12)如何程序化kill提交到spark thrift上的sql

spark 2.1.1   hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1…

2022年7月29日 0条评论 17点热度 0人点赞 risingsun 阅读全文
BigData

大叔问题定位分享(27)spark中rdd.cache

spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExecutorBackend - Got assigned task 40312019-01-24 21:38:56,024 [Executor task launch worker for task 4031] INFO …

2022年7月29日 0条评论 27点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Hadoop(2)hdfs和yarn最简绿色部署

环境:3结点集群 192.168.0.1192.168.0.2192.168.0.3   1 配置root用户服务期间免密登录 参考:https://www.cnblogs.com/barneywill/p/10271679.html 2 安装ansible 参考:https://www.cnblogs.com/barneywill/p/10263278.html 3 在所有服务器上创建hadoop用户,配置hadoop用户服务期间免密登录 参考:https://www.cnblogs.com/barneywill…

2022年7月29日 0条评论 21点热度 0人点赞 risingsun 阅读全文
1…56789…89
Search

COPYRIGHT © 2022 zhizhesoft. ALL RIGHTS RESERVED.