zhizhesoft

  • 首页
BigData
BigData

大数据基础之Hive

http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver …

2022年7月29日 0条评论 25点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(139)doris和clickhouse对比

*** doris clickhouse 官网 http://doris.apache.org/ https://clickhouse.tech/ 版本 0.14.0 21.7.2.7 开源 是 是 开发语言 * java + c c 安装 源码编译 rpm包 定位 olap olap 架构 mpp scatter-gatter 开发公司 Baidu Yandex 实现 google mesa + impala 存储 自己管理,lsm-tree + compact 自己管理,merge tree 列式 是 是 集群…

2022年7月29日 0条评论 17点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Kafka(2)reassign过程

reassign过程 选择每个partition的各个replica分布到哪个broker 每个partition的第一个replica随机选择一个broker 除第一个replica之外其他的replicas会加一个随机shift之后顺序选择n-1个broker 选择这个broker中多个log_dir中的哪个来存放 如果这个broker之前存在该partition的replica,则直接使用之前的目录 否则随机选择一个目录 该过程并不能保证数据在各个broker的各个磁盘上平均分配,必要时需要人工干预reass…

2022年7月29日 0条评论 17点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Zookeeper(3)选举算法

提到zookeeper选举算法,就不得不提Paxos算法,因为zookeeper选举算法是Paxos算法的一个变种;   Paxos要解决的问题是:在一个分布式网络环境中有众多的参与者,但是每个参与者都不可靠,可能随时掉线等,这时这些参与者如何针对某个看法达成一致; 类似的问题现实生活中有很多,比如一个团队要组织团建,团队中有10个人,每个人都有自己想去的地方,如何就团建的目的地达成一致? 最简单的方式是把团队全体叫到会议室开会,很快就可以根据少数服从多数的原则,确定一个大多数人都满意的目的地; 如果将问题改为:团…

2022年7月29日 0条评论 21点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(6)Oozie如何查看提交到Yarn上的任务日志

通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W   流程详细信息如下: Job ID : 0012077-180830142722522-oozie-hado-W ----------------------------------------------------------------------------------------------------------------------…

2022年7月29日 0条评论 18点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(78)hive查询报错NoViableAltException

Hive或spark中执行sql字符常量包含;时会报错,比如 select instr('abc;abc', ';'); 报错 NoViableAltException([email protected][147:1: selectExpression : ( expression | tableAllColumns );]) 需要将;改为ascii select instr('abc\073abc', '\073');  

2022年7月29日 0条评论 31点热度 0人点赞 risingsun 阅读全文
BigData

大叔问题定位分享(17)spark查orc格式数据偶尔报错NullPointerException

spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits(OrcInputFormat.java:560) at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1010…

2022年7月29日 0条评论 15点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(28)ELK分析nginx日志

提前安装好elk(elasticsearch、logstach、kibana) 一 启动logstash $LOGSTASH_HOME默认位于/usr/share/logstash或/opt/logstash 1 nginx日志使用默认格式     log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '                       '$status $body_bytes_sent "$http_refere…

2022年7月29日 0条评论 36点热度 0人点赞 risingsun 阅读全文
BigData

大叔经验分享(29)cdh5使用已存在的metastore数据库部署hive

cdh5.16.1使用的hive版本是hive-1.1.0+cdh5.16.1+1431,详见:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball_516.html如果想将直接使用之前已有的hive metastore的数据库,比如hive1.2,要做如下操作: 1)修改元数据的version mysql> update VERSION set schema_vers…

2022年7月29日 0条评论 12点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Hive(5)hive on spark

hive 2.3.4 on spark 2.4.0   Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine. set hive.execution.engine=spark; 1 version Hive on Spark is only tested with a specific version of Spark, so a given version of Hive is on…

2022年7月29日 0条评论 27点热度 0人点赞 risingsun 阅读全文
12345…89
Search

COPYRIGHT © 2022 zhizhesoft. ALL RIGHTS RESERVED.