【金猿产品展】有数ChatBI——基于大模型的可信对话式数据分析平台

金猿产品展有数ChatBI 大模型

数据猿 | 2024-01-10 23:28

【数据猿导读】本产品由网易数帆投递并参与“数据猿年度金猿策划活动——2023中国大数据产业年度创新服务产品榜单/奖项”评选。

有数ChatBI是网易数帆于2023年推出的基于网易自研大模型的对话式数据智能助手，旨在实现自然语言对话即分析，通过日常对话的方式即可获得可信的数据，极大降低数据消费门槛，引领数据分析新范式。有数ChatBI是数据分析领域的一个全新的解决方案，也是目前国内首个自研私有模型的自然语言对话式交互的产品。通过自然语言与BI平台进行交互，就像与另一个人交谈一样，哪怕是不懂数据的业务运营也能快速取数，实现自助的数据查询和分析。

2023年重大更新升级

有数ChatBI引入大模型，在当前大模型无法做到100%准确的情况下，以追求可信的方式，克服AI幻觉和不稳定的，做到生产可用。

1、检索增强技术，提升模型自适应能力

不同场景数据表的字段命名和字段值定义各有不同，常见的基于LLM的NL2SQL方案会把建表语句（DDL）作为上下文写入prompt中，以此向模型注入表信息。然而只有字段名称和类型信息，大模型对于数据表的认知依然不够全面，很容易出现选错字段、字段值格式不匹配等问题。

网易数帆采用了检索增强技术，充分发挥BI系统查表迅捷便利的优势，针对不同问题把更相关的表格元数据也拼接到prompt中，显著提升模型对数据表的理解能力。该策略使大模型对数据表的“视野”更加广泛，具备了自适应能力。

金猿产品展_有数ChatBI_大模型-1

2、个性化知识配置，适配定制化问题和问法

不同业务方会有自己的行业“黑话”或知识，例如云音乐的运营同学经常会查看“最近分区”的数据，但大模型不理解“最近分区”，就可以把最近分区配置为提示词：最近分区=昨天，这样大模型能够理解用户提问中的“最近分区”

为了提升大模型在这类定制化问题上的适应性，网易数帆提供了个性化知识配置的功能和相应适配的算法，不同客户可以按需自行配置内部沉淀的知识和问法，无需重新训练，即配即生效，客户可以打造个性化的ChatBI产品。

金猿产品展_有数ChatBI_大模型-2

3、模型自学习，越用越聪明

ChatGPT等LLM的一大特性在于通过对话形式指出错误、循循善诱，模型能够发现自己的问题并修正。受此启发，网易数帆设计了模型自学习的流程，对于当前回答不好的问题，ChatBI管理员进行记录并纠正。下一次再问到类似问题时，模型能够参考纠正过的内容重新生成正确SQL，达到越用越聪明的效果。

金猿产品展_有数ChatBI_大模型-3

应用场景/人群

有数ChatBI已经成为推广数据文化“人人用数据，时时用数据”的利器。人人代表的是数据的使用范围，不再局限于少数的管理者，而是企业中每一个参与运营的一线员工；时时代表的是数据的使用频率，数据不再是月末考核时才去关注，而是作为工作中必须要时时依赖的工具。

例如：

1）HR团队：过往他们只有IT系统，当需要做员工福利及活动关怀时要么求助IT人员拉数据，要么找自己的百宝箱个人维护的大Excel，要么时效性很难满足需求、要么数据滞后。利用有数ChatBI作为数据助手，HR团队能很好地自助完成碎片化和临时紧急的诉求，例如活动关怀，人才盘点等。

2）业务负责人：可以跟踪商机，合同，收入，回款，能更快速了解业务状况，辅助业务制定销售策略，并及时调整；同时在讨论业务方向或者产品规划时他又能多维度、不同视角组合下的数据趋势分析，便于我们及时决策，而非固定式的报表。

3）财务团队：财务、内审对待所有非自己产出的数据都是持怀疑态度的，尤其是季报财报投资者关注的分析数据，更是多轮审核。这种复核校验，交叉验证，层层审核，非常的耗时，所以他们利用ChatBI帮他们做一轮审核，能极大提升效率。

产品功能

借助网易自研大模型，有数ChatBI能以门槛低、效率高、智能化的特色，满足普通用户的分析诉求。做到“对话即有数”，降低数据使用门槛，实现人人用数据。

1）门槛更低：利用大模型的自然语言理解能力，用户只需要与 AI 助手进行对话，即可获得数据，提升用户的便利性。

2）效率更优：借助大模型的能理解用户需求，从对话转换为数据库查表和可视化图表，用户提升分析效率。

3）智能化：从人工设计的规则和模型转化为自动学习的规则，能够处理更复杂和更深度的数据分析任务。

产品全景图如下：

金猿产品展_有数ChatBI_大模型-4

产品优势

从企业落地的角度，由于AI大模型存在严重的“幻觉”问题，AI给出的回答并不一定是百分百准确，并且这一问题无法避免。但数据分析是一个非常严谨、对准确性要求极高的场景，因此为了解决模型的幻觉问题，网易数帆在产品模式上做了四大创新，实现有数ChatBI“可信”的保障：

1、需求可理解

有数ChatBI利用大模型能力，能准确理解用户自然语言提问，同时理解业务数据，确保每一次提问都能得到精准的回答。

2、过程可验证

把查询过程尽可能透明，明确告诉用户当前的查询结果是基于哪个数据表，并且把复杂的SQL查询过程转化成100%正确的结构化表达，用大白话告诉用户，这个数据是用什么逻辑获取到的，哪怕是不懂SQL的小白用户也能一眼看清楚这个逻辑是不是正确，也能验证结果的准确信。

金猿产品展_有数ChatBI_大模型-5

3、用户可干预

假设AI当前给出的回答是错误的，用户也可以进行自主干预，切换成正确的数据表，把已经结构化的查询条件修正成正确的。

金猿产品展_有数ChatBI_大模型-6

4、产品可运营

用户可以给大模型一个最直观的反馈，标记及优化查询结果的badcase，迭代改进模型，让大模型越用越聪明。并且可在后台预置各业务的常用问题，搭建业务方的自有知识库。

服务客户/使用人数

产品总使用客户量或人群数量：

1）在网易内部，有数ChatBI在网易云音乐等业务落地，已经覆盖了产品、运营、市场、财务等非技术人员。

2）借助网易内部的成功落地，有数ChatBI产品发布后，吸引了甄云科技等几十家外部客户试用。

市场价值

1、业务价值

以网易云音乐为例，在ChatBI产品上线之前，业务用户临时性的用数看数需求，一般都需要有数据分析师/数仓研发专人承接，排期解决。不仅耗费了大量人力，需求响应也不及时，取数需求滞后性一定程度上也影响了业务策略。

而ChatBI产品上线后，有取数需求的用户只需要通过对话即可获得想看的数据，零使用门槛，秒级需求响应。至少创造了三大业务价值：

（1）通过自然语言取数大幅提升数据查询类的需求人效，目前累计取数12000+次，假设每次问答节约0.2人天，为业务节省了2000+人日；

（2）借助智能数据查询方案，云音乐的产品、运营、市场等非技术同学都可以尝试进行数据探索分析，赋能更多业务人员，人人都配有一个专属的智能数据分析师；

（3）把数据开发人力从高频的临时取数需求中释放出来，助力开发同学专注更加核心的业务，云音乐数仓团队才得以沉淀大量的数据资产。

2、社会经济效益

借助网易内部的成功落地，产品发布后，吸引了几十家外部客户试用。各行业客户利用ChatBI产品，盘活了企业已有的大量数据资产，从企业CEO到一线销售集团内自上而下的人员都能自由得获取数据、分析探索，打开了企业数字化建设的新思路、有了更加智能的数字化落地新方案。

3、技术影响力

作为国内首个自研私有模型的自然语言对话式交互的产品，项目组成员参与信通院《大模型驱动的智能数据分析工具》技术标准制定，并申请了3个专利，另有5个专利正在申请中。网易数帆在2023年8月召开产品发布会，正式发布上线ChatBI产品。在产品发布后，项目组成员在中国计算机学会技术前线（CCF TF）第112期、网易和CSDN联合举办的大数据技术沙龙、以及走进网易主题的大数据技术研讨会上海站等外部活动中均分享了ChatBI的实践。

产品所属企业·：网易数帆

网易数帆是网易旗下 ToB 企业服务品牌，定位于数智软件生产引领者，依托网易二十余年互联网技术积累，推出自研无绑定的云原生、大数据、人工智能、智能开发等产品，并通过打造开放的数智产业链生态体系，为客户提供数智化全流程服务。

目前已服务金融、制造、国央企等行业400多家头部企业，为客户提供量身定制的数字化转型解决方案，帮助客户在全面数智化时代打造专属数智竞争力。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。