著作指出,尽管BI报表类家具不休膨大能力范围,即席查询类家具因其专注于数据查询分析而具有独特价值。正如彼得·德鲁克所说:“学问的要道在于期骗。”本文将指导你怎样灵验地期骗即席查询器用,以提升数据探索的后果和准确性。
2024年12月16日 22:32 北京
在找到数据之后,确信了哪些表是需要的,是相宜预期的,就需要进行数据查询探索。
即席查询的定位
要是说报表或者数据行状API是固定需求的数据展示和数据取得。那么即席查询即是天果真数据探索。一个是固定场景,一个是天真数据探索。探索过程顶用户大约取得什么齐是未知的,况且大部分齐是临时性的。
这就波及到另一个问题,数据花消者是不是有能力、专诚愿进行数据查询,因为毕竟数据查询的过程是需要写SQL的。不可否定的是,写SQL关于一部分数据花消者是有一定门槛的,关联词也需要确信的是,一部分数据花消者是有查询需求的。针对高门槛的不错使用拖拽式、使用NLP2SQL来缩短一下门槛。针关于有述求的用户这个家具就绝顶和他们需求契合了。
即席查询的基本界面
另外此类家具开源的界面也许多。一类是上头是裁剪框,底下展示欺压,开源的访佛hue、Superset、Redash等。一类一瞥裁剪框, 一瞥现实欺压,如Zeppelin。(此类型构兵的较少),主要先容第一类。
即席查询在界面上,和离线成立中的SQL类任务成立是访佛以致不错透顶雷同的。
左边本体
在左边的本体中,主要保存查询任务、和有权限查询的表以及表的字段信息。
中间本体
中间本体中主要的便是一个裁剪框了,在裁剪框中大约进行SQL裁剪,这个裁剪框内部裁剪的本体需要大约关系键字教唆、高亮、局部代码现实、表率化表露等等。
中间本体的下半部分的话便是现实的代码的表露了。径坦白出出来现实欺压。
现实欺压这里有一个问题,便是针对异步现实的查询,当关闭表露框的时候,怎样大约将之前现实的查询的现象、欺压表清楚来那。不错单专有一个历史查询界面,要是大约拿到查询任务和底层现实的对应关系的话,径直在每个查询欺压表露界面表露历史亦然不错的。
即席查询的低门槛
操作上的低门槛
在操作门槛上不错把表进行拖拽,之后将拖拽的本体生成对应的SQL,进行数据查询。
固然,也不错将SQL要道字齐进行详细,从而竣事拖拽式的低门槛。
集中大模子的低门槛
2023年大模子的火热嗅觉烧到了各个旯旮里。其中要是和即席查询集中的话,大模子能提供什么能力?上头也说到过数据花消者可能存在一部分东说念主不悔写SQL的问题,那么是不是不错让这部分东说念主只是写当然谈话,现货投资然后通过大模子将当然谈话编削为SQL那。谜底是确信的。在输入特定prompt之后,大模子就能很粗造的编削为SQL语句。
table_info = “””
CREATE TABLE ods_dev.tb_scrm_customer_d (
[[‘zip_code’ ‘string’ ‘邮编’]
[‘wechat_uuid’ ‘string’ ‘微信uuid’]
[‘wechat_name’ ‘string’ ‘微信堪称呼’]
[‘wechat_head_portrait’ ‘string’ ‘微信头像’]
[‘uuid’ ‘string’ ‘微信的uuid’]
[‘update_time’ ‘datetime’ ‘更新工夫’]
[‘update_by’ ‘string’ ‘更新东说念主’]
[‘telephone’ ‘string’ ‘固化电话’]
[‘short_name’ ‘string’ ‘公司简称’]
[‘shop_name’ ‘string’ ‘造谣店称呼’]
[‘shop_id’ ‘string’ ‘造谣店id’]
[‘sex’ ‘bigint’ ‘性别’]
[‘retained_capital_city’ ‘string’ ‘用户留资城市’]
[‘residential_address’ ‘string’ ‘用户居住地址’]
[‘resident_province’ ‘string’ ‘常驻省份’]
)
“””
I would like you to be my data anlysts and generate accurate Hive sql query for the question
– Make sure the query is postgres compitiable
– Ensure case sensistivity
– Do not add any special information or comment, just return the query
The expected output is code only. Always use table name in column reference to avoid ambiguity
关联词大模子不可保证百分之百的准确,况且准确率依赖输入的字段备注等信息。是以个东说念主关于这类chat2SQL的家具是否大约确凿落地是存在疑问的。
和可视化类家具间的关系
跟着BI报表类家具能力范围的不休膨大,在BI类家具中也齐会出现数据探索的即席查询的能力,也会有依然有了BI家具为什么还要有单独的即席查询类的数据探索家具。但个东说念主合计,因为最终的主义不同,在能力发展上也会有区别,可视化类的愈加偏重界面的展示,即席查询类的主要便是数据查询分析。
况且对接的数据源上,BI类家具一般因为后果的原因齐是对接MySQL或者HOLO此类的数据库,不会对接Hive等确凿存储广泛数据的系统。
固然,这两个家具要是能更好的联动起来的话,比如使用即席查询分析完数据之后,大约很粗造的使用BI家具进行可视化的展示,算是更好的联动了。
说到联动,这里也提一下不错和数据行状API的联动。在2、基于SQL创建 中提到,要是创建API的过程是使用SQL来创建一个数据行状API。那么是不是也不错使用即席查询和数据行状API的创建过程联动起来。固然,要是这样的话就需要再区别下数据行状谁成立的问题,在数据行状成立篇中,这些数据行状是疏淡据加工者成立完成的。而这里使用即席查询的过程是数据花消者。关联词,器用经过上不错这样买通。
异构会通查询
跨源异构,鄙俚来说便是能把两种不同类型的表间关联起来进行查询。不外,是这样的话就又波及到,这个功能是放在离线成立部分让数据加工者来进行异构会通查询合适,如故放在数据运营部分,让数据花消者合适。
很彰着,数据花消者之需要花消依然加工好的数据,汉典经加工好的数据,存储在单一的类型上是更合理的。是以个东说念主合计要是疏淡据的异构会通查询,那么放在离线成立部分可能更合适。也便是说在数据花消者范围,异构会通查询的需求是不是确凿存在,是不错酌量一下的问题。