hive打开调试信息方法

博客分类：

hive

hive debug 调试

当用hive查询时，有时可能会报错，当要查看详细的报错信息时，可以打开调试状态，其设置方法如下： hive -hiveconf hive.root.logger=DEBUG,console

2016-03-17 17:53
浏览 991
评论(0)
分类:编程语言

set hive.groupby.skewindata与数据倾斜

博客分类：

hive

hive hive.groupby.skewindata 数据倾斜 distinct count

hive和其它关系数据库一样，支持count(distinct)操作，但是对于大数据量中，如果出现数据倾斜时，会使得性能非常差，解决办法为设置数据负载均衡，其设置方法为设置hive.groupby.skewindata参数 hive (default)> set hive.groupby.skewindata; hive.groupby.skewindata=false 默认该参数的值为false，表示不启用，要启用时，可以set hive.groupby.skewindata=ture;进行启用。当启用时，能够解决数据倾斜的问题，但如果要在查询语句中对多个字段进行 ...

2016-03-16 10:03
浏览 12240
评论(0)
分类:编程语言

hive:[Fatal Error] Operator FS_14 (id=14): Number of dynamic partitions exceeded

博客分类：

hive

动态分区 hive hive.exec.max.dynamic.partitions.pernode

向动态分区时，报错：hive:[Fatal Error] Operator FS_14 (id=14): Number of dynamic partitions exceeded hive.exec.max.dynamic.partitions.pernode. 其原因是动态分区数太多，需要修改hive.exec.max.dynamic.partitions.pernode参数查看最大分区数的方法： hive> set hive.exec.max.dynamic.partitions.pernode; hive.exec.max.dynamic.partitions.pe ...

2016-03-10 10:44
浏览 1051
评论(0)
分类:开源软件

常用正则表达式详解

博客分类：

杂项

正则表达式手机邮箱 QQ

很多不太懂正则的朋友，在遇到需要用正则校验数据时，往往是在网上去找很久，结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下，包括校验数字、字符、一些特殊的需求等等。给自己留个底，也给朋友们做个参考。一、校验数字的表达式

2016-01-28 19:55
浏览 1489
评论(0)
分类:编程语言

Hive中Join的原理和机制

博客分类：

hive

hive join原理 mapjoin

Hive中Join的原理和机制笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。 1 Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶段。 Map阶段读取源表的数据，Map输出时候以Join on条件中的列为key，如果Join有多个关联键，则以这些关联键的组 ...

2016-01-22 20:36
浏览 884
评论(0)
分类:编程语言

hive 随机抽样

博客分类：

hive

hive 随机抽样分桶抽样

1. Random sampling 使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果，但是性能没这么高。 --Syntax： SELECT * FROM <Table_Name> DISTRIBUTE BY RAND() SORT BY RAND() LIMIT <N rows to sample>; 2. Bucket table sampling 该方式是最佳化采样buc ...

2016-01-22 20:23
浏览 14516
评论(0)
分类:编程语言

scala基础教程之－数据类型

博客分类：

scala

scala 　数据类型 Array list map

一、基本的数据类型数据类型描述 Byte 8位有符号值。范围从-128到127 Short 16位有符号值。范围从-32768至32767 Int 32 位有符号值。范围从 -2147483648 to 2147483647

2016-01-12 10:25
浏览 1501
评论(0)
分类:编程语言

hive文件合并方法

博客分类：

hive

hive 文件合并 hive.merge.mapfiles

当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务� ...

2015-12-26 17:40
浏览 4270
评论(0)
分类:编程语言

saiku访问impala时报libclouderaimpalaodbc64.so: file not found解决方法

博客分类：

OLAP

saiku olap impala libclouderaimpalaodbc64.so

我的OLAP系统是saiku+impala，今天在重启saiku时，启动程序报如下错误： Caused by: java.sql.SQLException: [unixODBC][Driver Manager]Can't open lib '/opt/cloudera/impalaodbc/lib/64/libclouderaimpalaodbc64.so' : file not found 使得不能装载所有schemal，因此saiku系统使用不了，后面经过查找，发现启动程序的用户错了，不是安装该程序的用户，换成程序拥有者的用户后就能正常启动，特此记录，供有需要的人参考。 ...

2015-12-03 18:14
浏览 1217
评论(0)
分类:开源软件

RStudio Server安装说明

博客分类：

R

R RStudio Server 安装

rstudio-server安装步骤：一、安装R 1、安装R的core核心包：到Ｒ官网下载安装包并通过如下命令安装 rpm -ivh R-core-3.2.0-2.el6.x86_64.rpm 2、检测是否安装成功： R 查看是否正确进入R，然后在交互式控制台输入1 + 1，查看是否正确运算即可。 [running]slave1@192.168.13.169:/data$ R R version 3.2.0 (2015-04-16) -- "Full of Ingredients" Copyright (C) 2015 T ...

2015-11-25 10:27
浏览 3335
评论(0)
分类:开源软件

spark sql基本使用方法介绍

博客分类：

spark

spark sql spark hive

spark中可以通过spark sql 直接查询hive或impala中的数据，一、启动方法 /data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2 注：/data/spark-1.4.0-bin-cdh4/为spark的安装路径 /data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项 - ...

2015-11-23 19:22
浏览 7236
评论(0)
分类:开源软件

impala数据插入的方法详解

博客分类：

impala

impala 数据导入 load data insert into

impala是一种内存计算的数据库，查询性能相比于hive官网称是快100倍，其向表中插入数据的方法如下：１、insert into [slave12:21000] > insert into parquet_snappy select * from raw_text_data; Inserted 1000000000 rows in 181.98s 2、CTAS [slave12:21000] > create table test_table STORED AS PARQUET as select * from table;Query: cre ...

2015-11-19 10:38
浏览 9922
评论(0)
分类:开源软件

hive 查看一个表的总文件大小方法

博客分类：

hive

hive 计算表的总大小

要查看一个hive表文件总大小时，我们可以通过一行脚本快速实现，其命令如下： $ hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111|awk -F ' ' '{print $5}'|awk '{a+=$1}END{print a}' 32347122009 这样可以省去自己相加，下面命令是列出该表的详细文件列表 hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111 方法二：查看该表总容量大小，单位为Ｇ hadoop fs -du / ...

2015-11-12 18:02
浏览 14262
评论(0)
分类:编程语言

mysql碎片整理方法

博客分类：

mysql

mysql 碎片清理 myisam innodb

　　对于一个表如果经常插入数据和删除数据，则会产生很多不连续的碎片，这样久而久之，这个表就会占用很大空间，但实际上表里面的记录数却很少，这样不但会浪费空间，并且查询速度也更慢，因此为了解决这个问题，可以有以下解决方案１、myisam存储引擎清理碎片方法 OPTIMIZE TABLE table_name ２、innodb存储引擎清理碎片方法 ALTER TABLE tablename ENGINE=InnoDB

2015-11-10 11:55
浏览 5149
评论(0)
分类:数据库

shell中let和expr用法及性能比较

博客分类：

shell

shell expr let 性能比较

1、expr计算整数变量值格式 :expr arg 例子：计算（2＋3）×4的值1、分步计算，即先计算2＋3，再对其和乘4s=`expr 2 + 3`expr $s \* 42、一步完成计算：expr `expr 2 + 3 ` \* 4 –说明：运算符号和参数之间要有空格分开；通配符号(*),在作为乘法运算符时要用\、“”、‘’符号修饰 –:expr 3 \* 2 expr 3 “*” 2 expr 3 ‘*’ 2 `(反引号)与键盘上的~同一个键上的符号 [fsy@localhost ~]$ s=`expr 2 ...

2015-11-10 11:25
浏览 4463
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive打开调试信息方法

set hive.groupby.skewindata与数据倾斜

hive:[Fatal Error] Operator FS_14 (id=14): Number of dynamic partitions exceeded

常用正则表达式详解

Hive中Join的原理和机制

hive 随机抽样

scala基础教程之－数据类型

hive文件合并方法

saiku访问impala时报libclouderaimpalaodbc64.so: file not found解决方法

RStudio Server安装说明

spark sql基本使用方法介绍

impala数据插入的方法详解

hive 查看一个表的总文件大小方法

mysql碎片整理方法

shell中let和expr用法及性能比较

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>