zhizhesoft

  • 首页
BigData
BigData

大数据基础之ETL vs ELT or DataWarehouse vs DataLake

ETL ETL is an abbreviation of Extract, Transform and Load. In this process, an ETL tool extracts the data from different RDBMS source systems then transforms the data like applying calculations, concatenations, etc. and then load the data into the Data Warehou…

2022年7月29日 0条评论 3点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(61)kudu rebalance报错

kudu rebalance命令报错 terminate called after throwing an instance of 'std::regex_error' what(): regex_error *** Aborted at 1558779043 (unix time) try "date -d @1558779043" if you are using GNU date *** PC: @ 0x7ff0d6cf9207 __GI_raise *** SIGABRT (@0x3d600005a72) …

2022年7月29日 0条评论 4点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Kudu(3)primary key

关于kudu的primary key The primary key may not be changed after the table is created. You must drop and recreate a table to select a new primary key. 创建之后主键列不能变更 The columns which make up the primary key must be listed first in the schema. 否则会报错: ImpalaRuntimeExce…

2022年7月29日 0条评论 15点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(49)hue访问hdfs报错/hue访问oozie editor页面卡住

hue中使用hue用户(hue admin)访问hdfs报错: Cannot access: /. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "supergroup". 其他症状:oozie editor页面卡住不动 检查过程如下: 1 hdfs配置 hadoop.proxyuser.hue.hosts=*hadoop.proxyuser.hue.groups=* hadoop.pro…

2022年7月29日 0条评论 10点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之HDFS(1)HDFS新创建文件如何分配Datanode

HDFS中的File由Block组成,一个File包含一个或多个Block,当创建File时会创建一个Block,然后根据配置的副本数量(默认是3)申请3个Datanode来存放这个Block; 通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息,例如: hdfs fsck /tmp/test.sql -files -blocks -locations -racksConnecting to namenode via http://name_node:50070FSCK st…

2022年7月29日 0条评论 19点热度 0人点赞 risingsun 阅读全文
BigData

大叔问题定位分享(45)hive任务udf函数偶尔报错

背景 在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错,报错比较随机,报错信息如下: INFO : Query ID = hive_20211026010225_545899e7-7afa-4b5c-b7db-fd71565a89c6 INFO : Total jobs = 1 INFO …

2022年7月29日 0条评论 21点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Drill(2)Drill1.14+Hive2.1.1运行

问题 Drill最新版本是1.14,从1.13开始Drill支持hive的版本升级到2.3.2,详见1.13的release notes The Hive client for Drill is updated to version 2.3.2. With the update, Drill supports queries on transactional (ACID) and non-transactional Hive bucketed ORC tables. The updated libraries ar…

2022年7月29日 0条评论 9点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Spark(2)Spark on Yarn:container memory allocation容器内存分配

spark 2.1.1   最近spark任务(spark on yarn)有一个报错 Diagnostics: Container [pid=5901,containerID=container_1542879939729_30802_01_000001] is running beyond physical memory limits. Current usage: 11.0 GB of 11 GB physical memory used; 12.2 GB of 23.1 GB virtual memory …

2022年7月29日 0条评论 13点热度 0人点赞 risingsun 阅读全文
BigData

大叔算法分享(4)Cardinality Estimate 基数计数概率算法

读过《编程珠玑》(<Programming Pearls>)的人应该还对开篇的Case记忆犹新,大概的场景是: 作者的一位在电话公司工作的朋友想要统计一段时间内不同的电话号码的个数,电话号码的数量很大,当时的内存很小,所以不能把所有的电话号码全部放到内存来去重统计,他的朋友很苦恼。 作者聪明的想到了用bit数组来解决问题,每个电话号码可以映射为bit数组的index,bit数组初始状态所有位为0,所有电话号码逐一处理:将bit数组对应位置为1,处理完之后统计bit数组中有多少个1即可。 示例:[0,1,…

2022年7月29日 0条评论 12点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(23)spark sql插入表时的文件个数研究

spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如 .hive-staging_hive_2018-06-23_00-39-39_825_3122897139441535352-2312/-ext-10000 2 将数据写到临时目录; 3 执行loadTable或loadPartition将临时目录数据m…

2022年7月29日 0条评论 36点热度 0人点赞 risingsun 阅读全文
1…45678…89
Search

COPYRIGHT © 2022 zhizhesoft. ALL RIGHTS RESERVED.