在上一篇文章《将chatGPT与传统搜索引擎结合——创建新一代的搜索引擎》中,我们简略地畅想了一下公共搜索引擎的未来。
而随着我们对于信息检索准确性、相关性的要求越来越高,对于交互方式、搜索引擎的理解能力方面的体验要求越来越高。这种变革将不会仅局限于通用搜索引擎。对于私域流量和内容的搜索,无论是某个应用闭环生态里的产品、服务或者UGC内容,还是某个企业内部的各种数据资产信息,我们都面临着如何利用技术迭代,不断满足用户持续提升的需求的问题。
特别是随着NLP技术的持续突破,进而带来这个领域里的范式革命,也正在蔓延企业搜索的领域。这时,我们面临的第一个问题,就是如何选择或者更准确的说,是如何升级我们已有的企业搜索引擎。(注意,我们并不在这里讨论如何构建搜索引擎的问题)
一个普遍的错觉在于,人们很容易认为选择搜索引擎是一项技术任务:哪个引擎比其他引擎更好?然而,您可能会发现,在纯粹考虑搜索引擎功能时,搜索引擎之间的差异往往很小,比如,在全文检索时代,底层几乎都在选择Lucene。而在认知搜索+AIGC的时代,这种差异可能更明显些,我们会考虑模型之间的差异。但尽管如此,在文章会主要从方法论的角度去讨论,因为技术中外,仍有多个变量需要考虑。
但在这之前,我们需要明确的是,企业需要进入全文搜索+认知搜索的搜索2.0时代,这将为企业的搜索需求提供了更先进和全面的解决方案。全文搜索和认知搜索的结合,可以更好地理解用户的意图,更准确地表达相关信息。
随着大数据和人工智能的整合,混合搜索方法可以提供更加个性化和智能化的结果,更适合企业的需求。此外,将人工智能和大数据纳入搜索过程可以提高效率,改善搜索的相关性,并提供更精简的搜索体验。底线是,混合搜索方法为企业搜索带来了新的复杂性和能力水平,使其成为任何现代和有效的信息管理战略的一个重要方面。
而选择一个合理的现代化搜索引擎方案,将是我们成功的关键。
让我们从可能满足您需求的所有搜索引擎列表开始。
该列表的第一个来源是您当前的供应商。您可能已经在组织中的某个地方运行了两个或更多搜索引擎。由供应商或活跃的开源社区维护和支持的任何当前部署的搜索引擎都应被视为候选者。如果您的搜索引擎没有升级到最新的稳定版本也没关系。在这种情况下,将搜索引擎的最新版本添加到您的列表中以供考虑,查看其最新功能列表是否包含认知搜索、向量检索相关的能力,然后与其他选项进行比较。
第二个来源可以是分析报告,例如Gartner 的洞察引擎魔力象限或Forrester Wave™ 认知搜索报告。一定要寻找最新的。这些来源为您的研究提供了很好的概览信息。
如果您从事电子商务或其他特定领域,除了针对您所在行业的专门功能外,您可能还希望通过强大的嵌入式搜索来查找有关目标应用程序的报告。在这种情况下,您可能不是在寻找企业搜索引擎,而是在寻找更以用例为中心的搜索解决方案。本博客仍适用于选择此类搜索平台。
行业分析师通常会根据某些条件创建他们的列表,并且可能不会生成详尽的列表。因此,完成列表的第三个来源是您可能已经阅读或听说过的任何搜索引擎。它可能是您尚未从现有供应商处使用过的产品。或者也许是您在营销电子邮件、会议、网络研讨会等中看到的内容。
如果您的列表有十几个搜索引擎,我建议您将其缩小到几个候选者——即五个或更少。对于我们通常进行的评估类型,我更喜欢最多使用三个引擎。
要从列表中删除一些候选人,我想首先检查每个候选人与主要交易破坏者的关系。通常,我可以用很少的工作取消一些资格。下面的列表说明了我过去见过的一些潜在的阻碍因素。每个组织都是不同的,有些组织可能有反对或支持以下一项或多项的政策或指令。因此,在经历每一个问题时,请考虑您当前的情况和未来的期望。
根据您的组织要求,您可能有一组更具体的项目。可能存在基于预先批准的供应商列表的限制,因为加入新供应商可能太耗时或太复杂。目标是在不进行太多分析的情况下快速从列表中删除一些搜索引擎。请记住,我们正在努力将我们的名单缩小到最有前途的候选人,希望减少到三个或一个可管理的名单,以便进行更深入的比较。
根据经验,当您与多个利益相关者接触时,您选择一个能在未来多年内持续发挥作用的搜索引擎的机会就会增加。与您当前的搜索利益相关者合作,但不要忘记未来的利益相关者。考虑到当前和未来的搜索客户,您可以更好地评估现有的选项。
虽然您组织的某些应用程序可能已经具有搜索功能,但它们可以从企业平台而不是孤立的实施中获益。
以下是您的评估标准的一些一般类别。我将深入到每个类别并概述我们的客户通常需要或希望拥有的特定元素。
您可以使用其他标准扩展上面的列表,例如管理用户界面、软件开发工具包 (SDK)、日志记录、监控、文档或您可能非常感兴趣的其他领域。
您现在应该拥有三个左右的候选人,以及评估标准。通过在电子表格中列举所有考虑条件和考虑项,并进行打分比较,我们可以打出一个可以比较的客观的评估分数。一般流程如下:
在第 4 步之后,您应该为所有潜在的搜索引擎评估所有标准。此步骤涉及搜索引擎文档的研究、咨询搜索引擎专家以及在某些情况下联系供应商。
电子表格的目的是提供对潜在搜索引擎的客观评估。这一步应该很简单,因为电子表格已经计算了每个类别的分数以及每个搜索引擎的总分。
但通常情况下,不同选项的总分差别不大。这就是类别派上用场的时候。您可以根据对您的需求更重要的某些类别来选择最终的引擎。如果您选择专注于比较某些类别的小计分数,请避免使用可能导致最终选择出现偏差的高度主观因素。
上面,我们列举了选择企业搜索引擎的一些基于经验的方法论。但从全文检索时代,进化到全文检索+认知搜索的混合搜索时代,我们会在评估标准上有一些额外的东西,比如如何结合权衡全文检索与认知搜索结果的比重,如何合理的排序;如何将大数据+AI模型的部署、管理、运维嵌入到搜索引擎的开发管理流程中;再到,是否可以通过AIGC的方式生成最终的搜索结果;都是我们在这个时代需要考虑的问题。
而选择一个合理的现代化搜索引擎方案,已经成为我们成功的关键里程碑。