企业专家智能体，从数据到知识（）企业内部知识管理的新范式

facai888 科技创新 2024-08-19 474 0 企业专家智能体从数据到知识（）企业内部知识管理的新范式

前情

2023年伊始，文因互联携手某头部证券交易所，应用大语言模型技术实时处理、分析海量文档，构建高质量的资本市场知识基础设施。此前，我们也对“知识管理”保持高度专注。基于近年在AI领域的语料数据、场景应用中的各种实践，我们沉淀了一些思考，和大家一起分享、探讨！

这个“时代”有太多太多的名字：信息时代、数字时代、互联网时代、人工智能时代等等。抛开这些流水的前缀，发展才是时代铁打的主旋律。

导读

今天的分享，将基于实践经验的总结，关注技术“落地”，大家可以带着这样几个问题一起加入探讨：

1、语料到底有什么“魅力”，让大家竞相追逐？

2、企业进化，需要关注的核心工作是什么？

3、什么样的人工智能可以适配“活的”业务规则？

之前和大家聊过文因的大模型落地“四大工程”：语料工程、提示工程、质控工程、运维工程，主要用来解决大模型落地的最后一公里问题。而“四大工程”的第一个重要的工程就是“语料”，语料为什么重要？

语料为“王”背后，到底在追逐什么？

2023年是大模型元年，2024年是大模型场景应用元年。人们越来越认同“得语料者得天下”的观点：喂什么样的语料给大模型，就会产出什么样的内容质量。在思考语料为什么重要之前，先一起回忆：语料从哪里来？

1.1

先有数据，再有人工智能

人工智能的发展是多方面的，包括数据处理和运用的进步、算法的创新、硬件的增强、理论研究的深入以及在多个领域的应用。在讨论语料的重要性之前，我们需要明确数据和语料的定义。从出现时间上看，数据的出现早于语料，但从宏观来看，语料可以视为数据的一种特殊形式。现阶段，大模型的训练和评估需要数据集和语料库。

数据集包含了大量标注数据和无标注数据，随着深度学习在NLP领域的广泛应用，出现了许多无监督学习数据集，通过互联网抓取，形成覆盖广泛的领域和语言的丰富资源库。所以作数据集是基础，但并不涵盖很多复杂的知识。

语料库包含了大量真实世界的文本数据，它的质量会对模型产出的内容有重要影响。早期的一些语料库，会从公开资讯、文学作品、公开网站获取内容，后来为了在应用场景中更加贴合需求，大家开始构建更加具有各领域知识或者需求方向的语料库。

因此，随着检索、问答、生成等交互形式的普及应用，人工智能的人机交互友好的需求只增不减，在各个场景中对于专业知识的需求也会不断增加，且对语料数据的质量要求更高。语料库，作为包含领域知识的宝贵数据，是影响内容产出的关键资源。

1.2

抽丝剥茧：知识的储存与运用

从原始的符号，到文字，再到数据，人类一直在试图“留下”记忆。不论是数据还是语料，都是为了传递记忆中的知识。在记录之后如何储存并运用这些知识，是数字化转型中我们真正应该思考和需要解决的问题。

机构在数字化转型的前期阶段，会面临大量非结构化的数据，在这其中的知识往往只能通过口传心授，总结出文档进行记录保存，很难保存很多细节的业务经验。同时，在知识的传递过程中，也会存在损耗、流失的问题。

数字化逐渐深入，机构内出现了结构化数据与非结构化数据并存的情况。过渡时期格外需要关注知识储存的兼容性和完整性，通过领域语料内的知识沉淀，不断赋能数据价值的挖掘和利用。复杂、非结构化的数据往往要经过一个“选矿”、“初炼”的过程，方得让大模型有效利用。

特别是在很多工业领域中，生产制造的过程中，机器产生大量的数据，我们仅仅对其中一部分进行利用，就会在业务上产生可观的运营效果提升。所以我们讨论语料、数据或者讨论大模型，本质上都是在讨论关于“知识”的一些工作，大模型本身就是知识。

1.3

大模型时代，互联世界的知识

知识管理，经历了专家系统、语义网、知识图谱等几个阶段。随着大模型和Agent的落地应用，大家逐渐产生一个疑问：知识图谱已经不被需要了吗？Agent已经取代以前的技术了吗？

其实不是。知识图谱作为一种高度浓缩的数据形式，相当于数据的"打折卡"，这样的数据一直是必需的。传统知识图谱建模方法成本较高，而大模型本身就是一种非常有效的知识图谱创建方式，企业专家智能体，从数据到知识（）企业内部知识管理的新范式大大降低了这个成本。

大模型本身在逻辑性问题上有很多不足，例如算数计算、业务规则推理、递归法表示（例如计数法），知识图谱可以有效不足单模型在这些方面的不足。

Agent其实也不是“新技术”，可能很多人没有意识到，技术发展是一个循环。40年前，大家做专家系统，发现太难做了，于是在30年前，发明了一种新技术——智能体（agent）。20年前，发现智能体也太难做了，把它简化成了语义网。10年前，发现语义网还是太复杂了，继续简化为了知识图谱。

现在，我们发现知识图谱依然过于复杂了，于是又把它简化成了现在基于大模型的专家系统。历史完成了一次完整的循环。因此，并不是一种技术取代另一种技术。回头一看，我们始终在做关于“知识”的工作。

知识管理的发展：三种范式

从数据，到语料，到知识，我们在知识管理领域摸爬滚打了十几年，总结了历史的2种范式，并提出了我们自己的新范式，也许会更适合现阶段企业的发展需要，和技术的落地环境。

2.1

第一种范式：SOTA系统（预定规则的系统）

Rule-based，瀑布式的建设过程，“死”的业务分析。

这种系统的特征是由业务规则驱动，依赖预先定义的业务规则，所以想要确保系统的业务可用性，就必须让业务规则准确且全面。也正是由于对业务规则的高要求，通常需要定制化建设来满足特定业务需求，当业务需求发生变化时，系统规则也需要进行对应调整。由此带来高昂的开发、维护成本。但在生产中，真实能达到B端业务要求的，预定规则系统依然是SOTA。

尽管这种模式在一定程度上能满足90%的业务需求，但总有一些特殊情况和需求是预先定义的规则所无法涵盖的。这就导致了剩下的10%的需求无法被满足，进一步增加了系统的复杂性和成本。且由于在不同业务场景下的定制化开发，不仅繁琐耗时，且在使用时刻无法演化，在迭代过程中不免带来很多重复劳动和成本增加。

2.2

第二种范式：端到端系统（LLM-based）

EOE（End-to-End）端到端，基于大模型实现通用知识建模。

在SOTA系统之后大模型的兴起带来了另一个思路，提出了一种理想中的端到端系统（EOE系统），希望通过大模型直接处理问题。虽然大模型在广泛的场景中具有较强的泛化能力，能处理各种类型的问题。然而，大模型目前并不可靠。由于其深度学习的本质，因此很难在ToB场景中实现幂等性、可靠性、经济性。

自回归式大模型系统中存在的幻觉问题、F1低都使其在业务应用中难以实现高效和可靠的结果，且使用大模型时的高费用，使得其整体拥有成本居高不下（TCO高），对于许多企业来说也是难以承受的。

2.3

第三种范式：JIT系统

JIT（justintime）即时知识更新能力——“活”的业务分析

在知识管理发展阶段中，我们基于前两个系统类型的归纳，和实践中遇到的问题分析与经验总结，在现有技术阶段，我们创新提出新范式“JIT”。知识管理也好，数据应用也好，本质上还是做关于软件工程的工作。企业的业务是“活”的，所以需求千变万化也是“活”的，如果用的软件是“死”的，又怎么会合适呢？

企业需要软件系统的工作有高可用性，业务规则需要实时调整。在新范式中，用提示工程辅助快速建模，业务分析师即可进行快速建模，实现提速的同时降低建模成本。

在数据层面，用大型语言模型（LLM）进行数据处理时，也提高了数据处理的效率。同时，实时更新系统内知识库和业务规则。

在业务分析层面，使用大型语言模型（LLM）进行分析通常成本很高，JIT系统通过优化调用机制，减少不必要的模型调用次数，并根据最新的数据和信息动态调整业务规则，确保业务流程的持续优化和改进。

最终在应用层面实现：可演化、高可用（高F1、低幻觉）。大幅降低开发维护成本，让企业真正感受到大型语言模型（LLM）赋能带来的效率提升与业务优化。

所以，文因互联结合现阶段的企业知识管理需要，以大模型技术为基座，结合自然语言处理（NLP）、提示工程、知识图谱等技术，帮助企业进行知识管理，实现数据价值的挖掘和利用。

技术更新和应用，目的是解决问题。虽然基于大模型端到端的范式很有吸引力，但目前还达不到实际落地的业务质量要求。在大模型技术不断演进的今天，我们更应深入思考算力与数据之间的相互作用，探索与当前阶段相适应的发展策略和技术应用。

回到对于企业进化和数据运用的思考，我们致力于收集、存储数据和语料，不仅是为了保存知识，根本目的是为了激活知识的力量。

跳出“技术时尚”，找到企业进化主旋律

企业进化的核心来源于记忆与知识的传递。数字化转型的“精髓”，是找到企业进化真正的主旋律——知识的传承与应用。

大模型的真正价值，在于数据的深度、精细处理的能力，以及建立一套标准化、高效的工作流程。其关键在于如何有效利用数据，而非单纯追求数据的体量。现阶段，在适配算力得到满足的情况下，我们可以把目光更多地放在数据、语料方面的工作。

我们提出知识管理的新范式“JIT”，通过更高效的业务分析，实现更低成本的快速建模。用更低成本的快速建模，帮助企业内部业务规则的实时更新。形成“业务——数据——业务”的正向循环。让企业内部的知识持续沉淀，促进企业内部知识的持续积累和快速转化，使之不断为实际业务注入活力。

关于我们

文因互联是一家“AI 知识管理”科技创新型企业，专注于领域大模型。

以大模型技术为基座，结合NLP、提示工程、知识图谱等技术，通过多年行业实践积累，实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析。致力于企业知识的深度挖掘与有序传承，进而助力企业实现提高工作效率，沉淀知识工程。

立足金融，辐射航空、医疗、媒体、建筑、房产等行业，金融领域已服务上交所、北交所、宁波银行、平安资管、招商银行、银河金控等头部机构，同时在航空领域与南方航空、深圳航空、吉祥航空、东方航空、民航大学等合作落地多类细分场景。获得中国证监会首批科技服务商备案，IDC、CBInsights、毕马威等权威机构金融科技50强认证。

往

期

推

荐

1、企业专家智能体|“从数据到知识”，大模型时代的知识库建设

2、行业标准|文因互联参编中国信通院发布的“金融智能体”相关标准

3、联合发布|人工智能语料主题论坛举行，文因互联参与发布《高质量金融语料技术白皮书》、语料数据产品

4、腾讯TVP专访文因互联鲍捷：大模型时代里的「盲目自信」与「人间清醒」

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052