网易舒凡产品。
本产品由网易书凡交付,参与评选“数据猿年度金猿策划活动-2023中国大数据产业年度创新服务产品榜奖”。
有书聊天是基于网易自研大模型的对话式数据智能助手,网易书凡于2023年推出,旨在实现自然语言对话作为分析,通过日常对话获取可信数据,大幅降低数据消费门槛,引领数据分析新范式。 优数Chatbi是数据分析领域的全新解决方案,也是国内首款具有自主研发私有模型的自然语言对话交互产品。 通过自然语言与BI平台交互,就像与另一个人交谈一样,即使是不懂数据的业务运营,也能快速检索数据,实现自助式数据查询分析。
在当前大模型无法 100% 准确的情况下,Chatbi 引入了一个大模型,以可信的方式克服 AI 错觉和不稳定,并将其投入生产。
1. 检索增强技术,提高模型的自适应能力
数据表的字段命名和字段值定义在不同场景下有所不同,常见的基于 LLM 的 NL2SQL 解决方案将建表语句 (DDL) 写入上下文,提示将表信息注入模型中。 但是,由于只有字段名称和信息类型,大模型对数据表的理解仍然不够全面,容易出现字段选错、字段值格式不匹配等问题。
网易书凡采用检索增强技术,充分发挥BI系统快速便捷的表格查找优势,将更多相关元数据拼接成针对不同问题的提示,显著提升了模型对数据表的理解能力。 这种策略使得大模型对数据表的“视野”更广阔,并具有适配能力。
2、个性化知识配置,适配定制化问疑
不同的业务方会有自己的行业“黑字”或者知识,比如云**的操作学生经常查看“最近的分区”的数据,但大模型不懂“最近的分区”,可以配置最近的分区作为提示词:最近的分区=昨天,让大模型能理解用户提问中的“最近的分区”
为了提高大模型对此类定制问题的适应性,网易书凡提供了个性化知识配置功能及相应的适配算法,不同的客户可以根据自己的需求配置知识与问题的内部沉淀,无需重新训练,客户可以创建个性化的chatbi产品。
3.模型是自学习的,你用得越多,它就越聪明
ChatGPT 等 LLM 的主要特征之一是该模型可以发现自己的问题并通过指出错误并通过对话来纠正它们。 受此启发,网易书凡设计了一个模型自学习流程,chatbi管理员对当前没有很好地回答的问题进行记录和纠正。 下次提出类似的问题时,模型可以从更正的内容中重新生成正确的 SQL,因此您使用它的次数越多,它就越智能。
Youshu chatbi 已成为推广“人人用数据,永远用数据”数据文化的有力工具。 每个人都代表着数据的使用范围,不再局限于少数管理者,而是参与企业运营的每一位一线员工; 时间代表数据使用的频率,数据不再只在月末考核时受到关注,而是作为工作中必须始终依赖的工具。
例如:1)人力资源团队:过去他们只有一个IT系统,当需要做员工福利和活动关怀时,要么让IT人员拉数据,要么自找百宝箱维护大excel,要么时效性难以满足需求,或者数据滞后。 使用优书聊天作为数据助手,HR团队可以很好地完成零碎的、临时的紧急需求,如活动关怀、人才盘点等。
2)业务负责人:可以跟踪商机、合同、收入、付款,更快速地了解业务情况,协助业务制定销售策略,并及时调整; 同时,在讨论业务方向或产品规划时,他可以在多维度、不同视角的结合下分析数据趋势,方便我们及时做出决策,而不是固定的报告。
3)财务团队:财务和内部审计对所有不是自己产生的数据持怀疑态度,尤其是投资者在季度报告中关注的分析数据,并且有多轮审查。 这种审查验证、交叉验证、层层审查非常耗时,所以他们用chatbi帮他们做一轮审查,可以大大提高效率。
借助网易自主研发的大模型,有书Chatbi可以满足普通用户的分析需求,具有低门槛、高效率、智能化的特点。 实现“对话即数据”,降低数据使用门槛,实现人人都能使用数据。
1)门槛更低:借助大型模型的自然语言理解能力,用户只需与AI助手进行对话即可获取数据,提高了用户的便利性。
2)效率更高:借助大型模型,用户可以了解用户需求,从对话转换为数据库表格查找和可视化图表,从而提高用户的分析效率。
3)智能化:从人工设计的规则和模型到自动学习的规则,可以处理更复杂、更深入的数据分析任务。
产品全景如下:
从企业实施的角度来看,由于AI大模型存在严重的“错觉”问题,AI给出的答案不一定100%准确,这个问题是无法回避的。 然而,数据分析是一个非常严谨的场景,对准确性的要求极高,所以为了解决模型的错觉问题,网易书凡在产品模型上做了四大创新,实现了有书查特比的“可信”保障:
1.需求是可以理解的
Youshu Chatbi使用大型模型能力,准确理解用户的自然语言问题,理解业务数据,确保每个问题都能准确回答。
2.过程可以验证
让查询过程尽可能透明,清楚地告诉用户当前查询结果是基于哪个数据表,并将复杂的SQL查询过程转换成100%正确的结构化表达式,用白话告诉用户获取这个数据是用什么逻辑的,即使不懂SQL的新手用户也能一目了然地看出逻辑是否正确, 并且还可以验证结果的准确性。
3.用户可以干预
假设AI给出的当前答案是错误的,用户也可以自主干预,切换到正确的数据表,并将结构化查询条件更正为正确的条件。
4.产品可操作
用户可以对大模型进行最直观的反馈,对查询结果的坏情况进行标记和优化,并迭代改进模型,使大模型的使用越来越智能。 此外,每个业务的常见问题都可以在后台预置,以构建业务自己的知识库。
使用该产品的客户或人员总数:
1)在网易内部,有网易云**等几个chatbi业务,已经覆盖了产品、运营、营销、财务等非技术人员。
2)随着网易内部产品的成功落地,在几款Chatbi产品发布后,吸引了震云科技等数十家外部客户前来试用。
1.商业价值。
以网易云**为例,在Chatbi产品上线之前,业务用户的临时数据使用和数据查看需求一般需要由数据分析师和专人负责数据仓库研发,并计划解决。 不仅消耗大量人力,而且需求响应不及时,数据需求滞后也在一定程度上影响了业务策略。
ChatBi 产品上线后,需要检索数据的用户只需要通过对话获取自己想看的数据,零门槛,秒级需求响应。 创造至少三个主要业务价值:
1)通过自然语言检索,大幅提升数据查询的需求和人力效率,共计12000+次获取,假设每个Q&A保存02 人日,为企业节省 2000+ 人日;
2)借助智能数据查询解决方案,产品、运营、市场等非技术类学生可以尝试探索和分析数据,赋能更多业务人员,人人拥有专属智能数据分析师;
3)从高频的临时数据检索需求中释放数据开发人力,帮助开发学生专注于更多核心业务,云数据仓库团队可以积累大量的数据资产。
2.社会经济效益。
随着网易内落地的成功落地,产品发布后,吸引了数十家外部客户前来试用。 各行各业的客户使用ChatBI产品盘活企业大量现有数据资产,从企业CEO到一线销售团队自上而下的人员,可以自由获取数据、分析探索,为企业数字化建设开辟新思路,为更智能的数字化落地开辟新解决方案。
3.技术影响。
作为国内首个自主研发的自然语言会话交互私有模型,项目组成员参与制定了信息通信研究院“大型模型驱动的智能数据分析工具”技术标准,并申请了3项专利,另有5项专利正在申请中。 网易书凡将于2023年8月举办产品发布会,正式发布线上chatbi产品。 产品发布会后,项目组成员在对外活动中分享了ChatGPT的实践,如第112届中国计算机联合会技术前沿(CCF TF)、网易与CSDN联合举办的大数据技术沙龙、上海网易大数据技术研讨会等。
产品负责人:网易书凡。
依托网易20多年的互联网技术积累,网易书凡推出自主研发、无绑定的云原生、大数据、人工智能、智能开发等产品,通过构建开放的数智产业链生态圈,为客户提供数智全流程服务。
目前已服务金融、制造、国企等行业龙头企业400余家,为客户提供定制化数字化转型解决方案,帮助客户打造全面数智时代专属数智竞争力。