Python之大数据库hive实战

今日分享主题:

Python如何连接hive数据库来进行hivesql的查询操作。


step1:环境准备

Python版本:3.6.2

Windows版本:Windows10版本的64位


step2:下载依赖的文件

(1)、.whl文件在https://www.lfd.uci.edu/~gohlke/pythonlibs/地址栏下载相应的python和windows版本的sasl和bitarray

如下截图所示,搜索对应的关键字找到对应的版本下载即可

(2)、下载至本地的目录地址为:D:\python\jar


step3:安装步骤

(1)、Win + R进入cmd命令行

(2)、cd到本地python的安装目录下

(3)、依次安装以下包

pip install six

pip install bit_array

pip install thriftpy (如果本地的python版本为2.X,则安装thrift,如果本地的python版本为3.X,则安装thriftpy)

pip install D:\python\jar\sasl-0.2.1-cp36-cp36m-win_amd64.whl

pip install thrift_sasl

pip install D:\python\jar\bitarray-1.2.2-cp36-cp36m-win_amd64.whl

pip install impyla

注意:安装完成后包的版本号如下

six 1.14.0

bit-array 0.1.0

bitarray 1.2.2

thriftpy 0.3.9

thrift-sasl 0.4.2

impyla 0.16.2

pure-sasl 0.6.2


step4:代码

具体代码示例如下所示:

from impala.dbapi import connect #导入connect模块
import warnings


def hive_connect(hive_sql):
    warnings.filterwarnings('ignore') #忽略warnings警告
    config_hive_beta = {
        'host': '10.7.89.88',  #hive的host地址
        'port': 10000,    #hive的端口号
        'user': 'hive',    #hive的username
        'password': 'hive',    #hive的password
        'database': 'tmp',     #hive中需要查询的数据库名
        'auth_mechanism': 'PLAIN' #hive的hive-site.xml配置文件中获取
    }
    conn = connect(**config_hive_beta)
    #conn = connect(**config_hive_beta)等价于
    #conn = connect(host='10.7.89.88', port=10000, user='hive', password='hive', database='tmp', auth_mechanism='PLAIN')
    cursor = conn.cursor()
    cursor.execute(hive_sql)
    hive_all_hotel = cursor.fetchall()
    print(hive_all_hotel)


使用:

hive_connect('select count(1) from tmp.tmp_test_table where dt="2020-05-27"')

调用该方法查询hive库里的tmp_test_table表的分区为2020-05-27的数据总条数时会报如下错误:

thriftpy.transport.TTransportException: TTransportException(type=1, message="Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'")

出现这个错误的主要原因是sasl和pure-sasl有冲突


step5:错误解决方法

解决方法如下:

(1)、Win + R进入cmd命令行

(2)、cd到本地python的安装目录下

(3)、卸载sasl:pip uninstall sasl

再次调用:

hive_connect('select count(1) from tmp.tmp_test_table where dt="2020-05-27"')

时,该方法正确地在控制台输出tmp_test_table表分区为2020-05-27的数据总条数为:29341023。


至此,报错完美解决。同时也证明了python连接hive库的方法是实际可行的。感兴趣的可以复制代码修改对应的参数进行实操一下哟~

相关文章

Python 解析 XML

1 简介XML 全称 Extensible Markup Language,中文译为可扩展标记语言。XML 之前有两个先行者:SGML 和 HTML,率先登场的是 SGML, 尽管它功能强大,但文档结...

Python 读写XML文件

在Python中,可以使用内置的xml.etree.ElementTree模块来读取和写入XML文件。这个模块提供了一种简单而有效的方式来解析和操作XML文档。下面是使用xml.etree.Eleme...

深入解析:Python中的XML处理技巧与实践

解析XML文件是Python编程中的一项重要技能,特别是在处理配置文件、数据交换格式或web服务响应时。Python提供了多种库来实现这一功能,其中xml.etree.ElementTree和lxml...

python编程:配置文件xml的读取写入

XML,全称为ExtentsibleMarkup Language,即可扩展标记语言,是用来定义其它语言的一种元语言,使用自定义的标签对文档内容进行描述。被设计用来传输和存储数据。XML和HTML类似...

Python和XML

XML 是一种可移植的开源语言,它允许程序员开发可由其他应用程序读取的应用程序,而不管操作系统和/或开发语言如何。什么是 XML?可扩展标记语言 (XML) 是一种与 HTML 或 SGML 非常相似...

20.2 PyQt5-【XML操作】-QXmlStreamWriter

1.QXmlStreamWriter简介在 PyQt5 中,QXmlStreamWriter用于逐步生成 XML 数据。支持以流的形式写入XML,适合处理较大或复杂的XML文件2.QXmlStream...