NLP的范式革命如何影响企业搜索引擎的选择

自在人生分类：IT技术人气：18 回帖：0 发布于2年前收藏

image.png

在上一篇文章《将chatGPT与传统搜索引擎结合——创建新一代的搜索引擎》中，我们简略地畅想了一下公共搜索引擎的未来。

而随着我们对于信息检索准确性、相关性的要求越来越高，对于交互方式、搜索引擎的理解能力方面的体验要求越来越高。这种变革将不会仅局限于通用搜索引擎。对于私域流量和内容的搜索，无论是某个应用闭环生态里的产品、服务或者UGC内容，还是某个企业内部的各种数据资产信息，我们都面临着如何利用技术迭代，不断满足用户持续提升的需求的问题。

特别是随着NLP技术的持续突破，进而带来这个领域里的范式革命，也正在蔓延企业搜索的领域。这时，我们面临的第一个问题，就是如何选择或者更准确的说，是如何升级我们已有的企业搜索引擎。（注意，我们并不在这里讨论如何构建搜索引擎的问题）

一个普遍的错觉在于，人们很容易认为选择搜索引擎是一项技术任务：哪个引擎比其他引擎更好？然而，您可能会发现，在纯粹考虑搜索引擎功能时，搜索引擎之间的差异往往很小，比如，在全文检索时代，底层几乎都在选择Lucene。而在认知搜索+AIGC的时代，这种差异可能更明显些，我们会考虑模型之间的差异。但尽管如此，在文章会主要从方法论的角度去讨论，因为技术中外，仍有多个变量需要考虑。

但在这之前，我们需要明确的是，企业需要进入全文搜索+认知搜索的搜索2.0时代，这将为企业的搜索需求提供了更先进和全面的解决方案。全文搜索和认知搜索的结合，可以更好地理解用户的意图，更准确地表达相关信息。

随着大数据和人工智能的整合，混合搜索方法可以提供更加个性化和智能化的结果，更适合企业的需求。此外，将人工智能和大数据纳入搜索过程可以提高效率，改善搜索的相关性，并提供更精简的搜索体验。底线是，混合搜索方法为企业搜索带来了新的复杂性和能力水平，使其成为任何现代和有效的信息管理战略的一个重要方面。

而选择一个合理的现代化搜索引擎方案，将是我们成功的关键。

在认知搜索时代，选择企业搜索引擎的 5 个步骤

第 1 步：确定潜在的搜索引擎

让我们从可能满足您需求的所有搜索引擎列表开始。

该列表的第一个来源是您当前的供应商。您可能已经在组织中的某个地方运行了两个或更多搜索引擎。由供应商或活跃的开源社区维护和支持的任何当前部署的搜索引擎都应被视为候选者。如果您的搜索引擎没有升级到最新的稳定版本也没关系。在这种情况下，将搜索引擎的最新版本添加到您的列表中以供考虑，查看其最新功能列表是否包含认知搜索、向量检索相关的能力，然后与其他选项进行比较。

第二个来源可以是分析报告，例如Gartner 的洞察引擎魔力象限或Forrester Wave™ 认知搜索报告。一定要寻找最新的。这些来源为您的研究提供了很好的概览信息。

如果您从事电子商务或其他特定领域，除了针对您所在行业的专门功能外，您可能还希望通过强大的嵌入式搜索来查找有关目标应用程序的报告。在这种情况下，您可能不是在寻找企业搜索引擎，而是在寻找更以用例为中心的搜索解决方案。本博客仍适用于选择此类搜索平台。

行业分析师通常会根据某些条件创建他们的列表，并且可能不会生成详尽的列表。因此，完成列表的第三个来源是您可能已经阅读或听说过的任何搜索引擎。它可能是您尚未从现有供应商处使用过的产品。或者也许是您在营销电子邮件、会议、网络研讨会等中看到的内容。

第 2 步：缩小您长长的候选搜索引擎列表

如果您的列表有十几个搜索引擎，我建议您将其缩小到几个候选者——即五个或更少。对于我们通常进行的评估类型，我更喜欢最多使用三个引擎。

要从列表中删除一些候选人，我想首先检查每个候选人与主要交易破坏者的关系。通常，我可以用很少的工作取消一些资格。下面的列表说明了我过去见过的一些潜在的阻碍因素。每个组织都是不同的，有些组织可能有反对或支持以下一项或多项的政策或指令。因此，在经历每一个问题时，请考虑您当前的情况和未来的期望。

自托管。这就是自己动手 (DIY) 模型。无论是在您的数据中心还是基于云的虚拟机中，您都要负责部署、配置、维护和更新搜索引擎。许多组织正在摆脱这种传统模式，以避免在内部管理软件的需要。如果您更喜欢托管服务，那么任何self-managed引擎都会从列表中消失。
来自搜索引擎供应商的软件即服务 (SaaS) 或平台即服务 (PaaS)。这些是托管云服务，例如 Elastic Elasticsearch Cloud 或 Tencent cloud Elasticsearch Service, Alicloud Elasticsearch Service，Jina AI，Zilliz等。由于 PaaS 方法提供的额外数据控制，一些客户更喜欢 PaaS 而不是 SaaS。您可能需要与您的安全、隐私或法律团队核实合规性。这可以帮助快速取消一些候选人的资格。但目前越来越多的厂商会在PaaS的基础上，同时提供Serverless或者直接的SaaS服务，因此，能同时提供不同模式的供应商会是一个更好的选择。
黑盒产品。您可能熟悉现已停产的 Google Search Appliance (GSA)。它对某些应用程序或组织来说很棒，但对其他应用程序或组织来说却不够。它主要是一个黑盒解决方案。虽然有像 GSA 这样的产品，但对定制或更多控制的需求将取消封闭引擎的资格。
混合解决方案。 这里的混合包含多种可能的含义。它可能是指一个集成了推荐服务的自托管搜索引擎；也可能是指混合部署，比如您的私有云与内部部署的结合，或您的具有第三方云服务的私有云等。这些是更复杂的解决方案，但组织有充分的理由要求进行此类部署。一些搜索引擎在混合解决方案中表现不佳，因此不适合进行评估。

根据您的组织要求，您可能有一组更具体的项目。可能存在基于预先批准的供应商列表的限制，因为加入新供应商可能太耗时或太复杂。目标是在不进行太多分析的情况下快速从列表中删除一些搜索引擎。请记住，我们正在努力将我们的名单缩小到最有前途的候选人，希望减少到三个或一个可管理的名单，以便进行更深入的比较。

第 3 步：定义您的评估标准

根据经验，当您与多个利益相关者接触时，您选择一个能在未来多年内持续发挥作用的搜索引擎的机会就会增加。与您当前的搜索利益相关者合作，但不要忘记未来的利益相关者。考虑到当前和未来的搜索客户，您可以更好地评估现有的选项。

虽然您组织的某些应用程序可能已经具有搜索功能，但它们可以从企业平台而不是孤立的实施中获益。

以下是您的评估标准的一些一般类别。我将深入到每个类别并概述我们的客户通常需要或希望拥有的特定元素。

连接器或爬虫。这些是将数据从源加载到搜索引擎的机制。搜索引擎为您需要索引的数据源提供了多少个连接器？除了现在必须索引的内容之外，您还应该包括将来可能被索引的来源。如果您计划在一两年内停用某个来源，您可能希望排除该来源，因为您可能不想在将其数据迁移到较新的来源之前对其进行索引。
索引之前的数据处理。为索引准备数据是最有价值的活动之一，但在搜索实施中经常被忽视。数据需要清理、规范化或丰富，以提高可查找性、搜索相关性计算、过滤、排序或其他需求。一些搜索引擎包括开箱即用的数据处理器，并支持自定义处理器以满足您的特定数据处理需求。而在语义搜索时代下，这将是我们准确理解的关键之一，数据需要根据大模型的能理解能力，将数据转化为特定的向量，这部分工作可以选择在搜索引擎之外实施，但是如果搜索引擎本身能够提供该能力，将极大的简化实施中的复杂架构。
查询处理。在全文检索时代，我们更关注搜索分词，就像它在索引、查询清理、规范化或丰富方面所做的那样，如果我们可以对用户的搜索输入做更多的工作，将使搜索引擎能够更好地找到匹配的文档或按相关性对它们进行评分。一些搜索引擎提供开箱即用的查询解析器，其中包含您可能使用的特定意图。而在语义搜索时代下，我们需要对用户的搜索意图进行推理，将这种理解向量化，在搜索引擎中，将需要包含特定组件用于意图的推理，并且该组件的定制化和编辑能力（比如使用何种模型），将使搜索引擎更易于调整NLP加持下的语义搜索的相关性。
多语言支持。如果您的内容有多种语言，支持或可扩展性功能可能是选择一个引擎而不是另一个的关键原因。语言学通常应用于索引端和查询端。语言学可以用作处理管道组件或文本分析功能。幸运的是，在语义搜索时代，大多数的大模型已经包含了对多语言的支持，向量检索这部分不需要搜索引擎过多的介入多语言的支持。
第三方系统集成。随着时间的推移，一些搜索引擎与内容管理系统或软件建立了牢固的合作伙伴关系，甚至可能为该软件中的搜索功能提供支持。在那些情况下，搜索引擎可能已经与其他软件进行了本地集成。这是满足您的特定搜索需求的加速器。
搜索结果安全修剪。企业搜索应用程序必须保证用户只能从为他们准备的数据集中获得搜索结果。许多搜索引擎提供对文档级别或元数据字段的访问控制。然而，一些搜索引擎足够灵活，可以提供字段级安全性。一些引擎不提供开箱即用的安全修剪，但可以通过自定义集成或插件来支持它。
用户界面 (UI) 工具包。虽然您可能拥有自己的 UI 开发团队，但您可能需要开箱即用的 UI 组件来促进搜索客户端应用程序的集成。一些引擎带有这样的组件；其他的允许您创建独立的搜索应用程序或完整的搜索结果页面 (SERP) 以嵌入到您自己的系统中。
搜索分析和网站分析。搜索引擎通常生成或允许生成搜索信号或事件。不断增长的搜索和站点分析功能使智能搜索引擎能够提供更相关和个性化的搜索结果。这些分析功能可以使用机器学习 (ML) 或其他高级方法来分析信号或生成见解。
高级人工智能 (AI) 功能。智能搜索引擎根据它们提供的 AI 功能获得它们的限定词。自动调整相关性评分、基于 ML 的查询建议、推荐、查询意图和各种其他 AI 支持的功能并不是搜索引擎的标准，但可以成为我们选择某个供应商的原因。
许可模式。与任何软件一样，许可至关重要。供应商使用的模型决定了成本、可扩展性、可扩展性或其他需要根据您的要求仔细分析的条件。
测试支持。一些引擎内置了执行 A/B 测试、ML 模型测试或比较、相关性排名评估等的功能。我很高兴看到添加了这些功能，使产品所有者、搜索管理员和开发人员可以更轻松地改进相关性。

您可以使用其他标准扩展上面的列表，例如管理用户界面、软件开发工具包 (SDK)、日志记录、监控、文档或您可能非常感兴趣的其他领域。

第 4 步：根据标准评估您的候选搜索引擎

您现在应该拥有三个左右的候选人，以及评估标准。通过在电子表格中列举所有考虑条件和考虑项，并进行打分比较，我们可以打出一个可以比较的客观的评估分数。一般流程如下：

创建表
枚举您定义的所有条件
确定每个标准的权重
评估所有候选搜索引擎的每个标准
将您对该标准的评估乘以分配的权重，从而生成每个引擎的标准分数
总结搜索引擎所有标准的分数

在第 4 步之后，您应该为所有潜在的搜索引擎评估所有标准。此步骤涉及搜索引擎文档的研究、咨询搜索引擎专家以及在某些情况下联系供应商。

第 5 步：查看您的记分卡并选择最合适的

电子表格的目的是提供对潜在搜索引擎的客观评估。这一步应该很简单，因为电子表格已经计算了每个类别的分数以及每个搜索引擎的总分。

但通常情况下，不同选项的总分差别不大。这就是类别派上用场的时候。您可以根据对您的需求更重要的某些类别来选择最终的引擎。如果您选择专注于比较某些类别的小计分数，请避免使用可能导致最终选择出现偏差的高度主观因素。

总结

上面，我们列举了选择企业搜索引擎的一些基于经验的方法论。但从全文检索时代，进化到全文检索+认知搜索的混合搜索时代，我们会在评估标准上有一些额外的东西，比如如何结合权衡全文检索与认知搜索结果的比重，如何合理的排序；如何将大数据+AI模型的部署、管理、运维嵌入到搜索引擎的开发管理流程中；再到，是否可以通过AIGC的方式生成最终的搜索结果；都是我们在这个时代需要考虑的问题。

而选择一个合理的现代化搜索引擎方案，已经成为我们成功的关键里程碑。

标签：暂无标签