淘先锋技术网

首页 1 2 3 4 5 6 7

一 .起因

在配置好Zeppelin 和 Livy之后,日常使用的过程中发现,Spark sql或者filter等操作中带上中文的话返回结果总是为空。 但是日常使用中并不是所有信息都可以用英文表示,例如家庭地址就不方便用英文表示。


二 . 查找问题由来

问题一出现,我就立马联想到了编码问题,毕竟之前被python unicode编码折腾过。但是zeppelin,livy, spark这三个地方到底是哪里的交互中编码出了问题呢?

这篇文章中,作者也在spark上碰到了类似的字符串编码问题。

按照他的思路,我试着查看zeppelin的log和livy 的log.

但是zeppelin的log中所有中文都可以正常显示,livy的log则很不完善,并没有记录收到请求的相关信息。

然后我试着在使用python 直接仿照livy 官网的例子向livy 直接发送带中文spark sql查询,结果可以正确返回结果。

同时查看yarn logs,可以发现如下的对比。

 

ZEPPELIN 发送到livy的请求产生的log:

INFO execution.SparkSqlParser: Parsing command: label = '?' 

17/06/12 18:05:17 INFO execution.SparkSqlParser: Parsing command: label = '?' 

17/06/12 18:05:17 INFO datasources.FileSourceStrategy: Pruning directories with: 

17/06/12 18:05:17 INFO datasources.FileSourceStrategy: Post-Scan Filters: isnotnull(label#2),(label#2 = ?) 

17/06/12 18:05:17 INFO datasources.FileSourceStrategy: Output Data Schema: struct<id: bigint, member_id: bigint, label: string, address: string, address_detail: string ... 16 more fields> 

17/06/12 18:05:17 INFO datasources.FileSourceStrategy: Pushed Filters: IsNotNull(label),EqualTo(label,?) 

 

 


而直接post到livy的请求产生的spark 任务的 yarn log里面可以看到是确实有中文的 

17/06/12 22:05:46 INFO execution.SparkSqlParser: Parsing command: label = '家' 

17/06/12 22:05:46 INFO datasources.FileSourceStrategy: Pruning directories with: 

17/06/12 22:05:46 INFO datasources.FileSourceStrategy: Post-Scan Filters: isnotnull(label#2),(label#2 = 家) 

17/06/12 22:05:46 INFO datasources.FileSourceStrategy: Output Data Schema: struct<id: bigint, member_id: bigint, label: string, address: string, address_detail: string ... 16 more fields> 

17/06/12 22:05:46 INFO datasources.FileSourceStrategy: Pushed Filters: IsNotNull(label),EqualTo(label,家)


说明问题出在zeppelin向livy发送请求的过程中。进一步查看log,发现zepplein 与livy 交互使用了callRestAPI这函数,位于BaseLivyInterpreter.java文件中。


在callRestAPI文件中,zeppelin使用了restTemplate 这个spring 自带的restful请求函数,然而从这so讨论可以知道,spring 默认使用ISO-8895-1 编码发送请求,但是这个编码是不支持中文的。


三. 解决问题

修改spring 发送restful请求时的默认编码即可。

在BaseLivyInterpreter.java中

用headers.add("Content-Type",MediaType.APPLICATION_JSON_UTF8_VALUE)

替换headers.add("Content-Type","application/json") 

并在开头增加必要的import就可以了