亚洲一级aaa精品,亚洲国产成人精品在线

學(xué)會hive中的explain 能為我們在生產(chǎn)實(shí)踐中帶來哪些便利？

2021-03-13 09:09

園陌

關(guān)注

這兩個(gè)執(zhí)行計(jì)劃樹里面包含這條sql語句的 operator：

map端第一個(gè)操作肯定是加載表，所以就是 TableScan 表掃描操作，常見的屬性：

alias：表名稱

Statistics：表統(tǒng)計(jì)信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Select Operator：選取操作，常見的屬性：

expressions：需要的字段名稱及字段類型

outputColumnNames：輸出的列名稱

Statistics：表統(tǒng)計(jì)信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Group By Operator：分組聚合操作，常見的屬性：

aggregations：顯示聚合函數(shù)信息

mode：聚合模式，值有 hash：隨機(jī)聚合，就是hash partition；partial：局部聚合；final：最終聚合

keys：分組的字段，如果沒有分組，則沒有此字段

outputColumnNames：聚合之后輸出列名

Statistics：表統(tǒng)計(jì)信息，包含分組聚合之后的數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Reduce Output Operator：輸出到reduce操作，常見屬性：

sort order：值為空不排序；值為＋正序排序，值為－倒序排序；值為＋－排序的列為兩列，第一列為正序，第二列為倒序

Filter Operator：過濾操作，常見的屬性：

predicate：過濾條件，如sql語句中的where id＞＝1，則此處顯示（id ＞＝ 1）

Map Join Operator：join 操作，常見的屬性：

condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2

keys： join 的條件字段

outputColumnNames： join 完成之后輸出的字段

Statistics： join 完成之后生成的數(shù)據(jù)條數(shù)，大小等

File Output Operator：文件輸出操作，常見的屬性

compressed：是否壓縮

table：表的信息，包含輸入輸出文件格式化方式，序列化方式等

Fetch Operator 客戶端獲取數(shù)據(jù)操作，常見的屬性：

limit，值為－1 表示不限制條數(shù)，其他值為限制的條數(shù)

好，學(xué)到這里再翻到上面 explain 的查詢結(jié)果，是不是感覺基本都能看懂了。

實(shí)踐

本節(jié)介紹 explain 能夠?yàn)槲覀冊谏a(chǎn)實(shí)踐中帶來哪些便利及解決我們哪些迷惑

1． join 語句會過濾 null 的值嗎？

現(xiàn)在，我們在hive cli 輸入以下查詢計(jì)劃語句

select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id；

問：上面這條 join 語句會過濾 id 為 null 的值嗎

執(zhí)行下面語句：

explain select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id；

我們來看結(jié)果（為了適應(yīng)頁面展示，僅截取了部分輸出信息）：

TableScan
alias： a
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate： id is not null （type： boolean）
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
．．．

從上述結(jié)果可以看到 predicate： id is not null 這樣一行，說明 join 時(shí)會自動過濾掉關(guān)聯(lián)字段為 null值的情況，但 left join 或 full join 是不會自動過濾的，大家可以自行嘗試下。

2． group by 分組語句會進(jìn)行排序嗎？

看下面這條sql

select id，max（user＿name） from test1 group by id；

問：group by 分組語句會進(jìn)行排序嗎

直接來看 explain 之后結(jié)果（為了適應(yīng)頁面展示，僅截取了部分輸出信息）

TableScan
alias： test1
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames： id， user＿name
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Group By Operator
aggregations： max（user＿name）
keys： id （type： int）
mode： hash
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Reduce Output Operator
key expressions：＿col0 （type： int）
sort order：＋
Map－reduce partition columns：＿col0 （type： int）
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
value expressions：＿col1 （type： string）
．．．

我們看 Group By Operator，里面有 keys： id （type： int）說明按照 id 進(jìn)行分組的，再往下看還有 sort order：＋，說明是按照 id 字段進(jìn)行正序排序的。

3．哪條sql執(zhí)行效率高呢？

觀察兩條sql語句

SELECT
a．id，
b．user＿name
FROM
test1 a
JOIN test2 b ON a．id ＝ b．id
WHERE
a．id ＞ 2；
SELECT
a．id，
b．user＿name
FROM
（SELECT ＊ FROM test1 WHERE id ＞ 2） a
JOIN test2 b ON a．id ＝ b．id；

這兩條sql語句輸出的結(jié)果是一樣的，但是哪條sql執(zhí)行效率高呢
有人說第一條sql執(zhí)行效率高，因?yàn)榈诙䲢lsql有子查詢，子查詢會影響性能
有人說第二條sql執(zhí)行效率高，因?yàn)橄冗^濾之后，在進(jìn)行join時(shí)的條數(shù)減少了，所以執(zhí)行效率就高了

到底哪條sql效率高呢，我們直接在sql語句前面加上 explain，看下執(zhí)行計(jì)劃不就知道了嘛

在第一條sql語句前加上 explain，得到如下結(jié)果

hive （default）＞ explain select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id where a．id ＞2；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：a
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：a
TableScan
alias： a
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．a(chǎn)pache．hadoop．mapred．SequenceFileInputFormat
output format： org．a(chǎn)pache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．a(chǎn)pache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

在第二條sql語句前加上 explain，得到如下結(jié)果

hive （default）＞ explain select a．id，b．user＿name from（select ＊ from test1 where id＞2 ） a join test2 b on a．id＝b．id；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：test1
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：test1
TableScan
alias： test1
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．a(chǎn)pache．hadoop．mapred．SequenceFileInputFormat
output format： org．a(chǎn)pache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．a(chǎn)pache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

大家有什么發(fā)現(xiàn)，除了表別名不一樣，其他的執(zhí)行計(jì)劃完全一樣，都是先進(jìn)行 where 條件過濾，在進(jìn)行 join 條件關(guān)聯(lián)。說明 hive 底層會自動幫我們進(jìn)行優(yōu)化，所以這兩條sql語句執(zhí)行效率是一樣的。

最后

以上僅列舉了3個(gè)我們生產(chǎn)中既熟悉又有點(diǎn)迷糊的例子，explain 還有很多其他的用途，如查看stage的依賴情況、排查數(shù)據(jù)傾斜、hive 調(diào)優(yōu)等，小伙伴們可以自行嘗試。

<上一頁 1 2