分布式基础设施

第2页

Centos 7.4上InfluxDB 1.7.9的安装及简单使用（单机）

2020-01-12mlkui阅读(9290)评论(0)

一、安装 CentOS用户可以直接用yum包管理来安装最新版本的InfluxDB。 [crayon-67d34a5ab4347026623477/] 加如yum源后，运行下面的命令来安装和启动InfluxDB服务： [crayon-67d3...

2019-12-15mlkui阅读(4429)评论(0)

1、查看表行数将运行一个MR任务： [crayon-67d34a5ab58d6667603952/] 2、查看表占用空间实际是查看HDFS文件系统占用空间： [crayon-67d34a5ab58f8305337462/] ...

2019-12-13mlkui阅读(7157)评论(0)

一、Parquet基础 Parquet是Apache的顶级项目，Parquet是一种面向分析的、平台/语言无关的、支持嵌套数据的列式存储格式，兼容Spark、Hive、Impala等，Parquet作为HDFS存储格式的事实标准之一（其他常...

2019-12-11mlkui阅读(5131)评论(0)

一、parquet-tools 首先考虑使用parquet-tools。根据参考文档0和参考文档1中的说法： parquet-tools version 1.8.2 supports merge command. 其使用的命令为： [cra...

2019-12-09mlkui阅读(6753)评论(0)

Hive执行结果导出到本地INSERT OVERWRITE LOCAL DIRECTORY时报错：将$HADOOP_HOME/share/hadoop/tools/lib/hadoop-distcp-${version}.jar放入Hiv...

2019-12-08mlkui阅读(3478)评论(0)

Hive导入数据有四种方式： 1、从本地文件系统导入数据 2、从HDFS中导入数据 3、从其他的Hive表中导入数据 4、创建表的同时导入数据（CTAS结构）在使用导入数据时，通常会用到INTO和OVERWRITE INTO两个关键字。其...

2019-12-08mlkui阅读(3625)评论(0)

在Hive中使用ALTER修改列类型时长餐刚看到如下的错误： [crayon-67d34a5ab797b062098452/] 问题在于在Hive中执行ALTER列操作时只能按照如下的强制类型转换规则进行：转载时请保留出处，违法转载追究到...

2019-12-07mlkui阅读(4666)评论(0)

考虑到扩展性，使用Apache Ambari构建Hadoop stack。Ambari基本上没有考虑对存量集群进行管理，基本考虑需要新装集群。对于Apache Ambari而言，基本上根据官网的《Installation Guide》进行...

2019-12-05mlkui阅读(5871)评论(0)

由于Hive采用了类似SQL的查询语言HiveQL，因此很容易将Hive理解为数据库。但其实上除了HiveQL是SQL的一种方言、Hive和数据库一样除了拥有类似的查询语言外，两者再无类似之处，Hive是为数据仓库而设计的，不适合用于联机事...

2019-12-04mlkui阅读(4962)评论(1)

在《HBase 2.2.2 on Hadoop 3.2.1完全分布式部署》中，我们提到需要在hbase-site.xml中增加如下配置： [crayon-67d34a5ab8e50624200247/] 才能解决由于文件系统不支持hsync...