如何评价 Peak Labs 出品的 2019 版 Magi 搜索引擎？

Peak Labs 的 Magi 搜索引擎好像获得了一个大的更新，现在已经面向普通用户了。
「Peak Labs」发布搜索引擎「magi.com」，用NLU和迁移学习技术为AI提供知识体系_36氪搜索结果以结构化知识呈现，而且号称是从无到有自研的，而不是其他引擎的聚合，那这些feature技术上是怎么实现的呢？
就是这个搜索引擎： https://magi.com/

有关回应 · 2021-5-25 13:33:11

感谢大家的关注，请允许我补充说明三点常见误区：

Magi 不依赖任何“知识库”，它是一种从纯文本自动构建尽量可信的知识图谱的技术。我们希望 Magi 能帮助知识工程的规模化，让各种知识图谱不用过于依赖百科维基等手动维护的数据库；
我们的本意不是做一个供日常使用的网页搜索引擎，magi.com 在互联网公开文本中应用 Magi 的提取技术学习知识，通过引入交叉验证和来源质量机制获得额外的统计量，从而进一步完善提取技术本身。甚至可以说这个表面上的搜索引擎只是 semi-supervision 循环的副产物... 更忙不过来做天气、日历、股票等锦上添花的小工具...
恳请各位爬虫大佬们别无节制抓我们网页了，网页的结果展示数量是限制了的，数据合作可以直接联系我们啊... 而且 Magi 是持续自动学习的，你今天抓到的明天也许就过时了；
另外我要实名反对下面某个回答，请起码搞明白别人在做什么再下评论，“中间结果”、“聚合搜索”、“无监督=聚类”、“为下游提供迁移学习=用了预训练模型”等言论从技术角度明显是不负责任的误导。

首先感谢 @张立羽博士一直以来的关注。我四年没在网上写过东西了，很忐忑... 写的有些琐碎请见谅。
本文仅涉及 Magi 在技术层面的演进，在社区不想谈商业之类的，有兴趣的话请见 Magi 项目及其愿景或媒体报道。
几年来 Magi 的产品形态改变了很多（请分开看待 Magi 系统和 magi.com 这个搜索引擎），技术上的进步主要体现在以下几点：

能够 exhaustively 提取重叠交错的知识，且不利用 HTML 特征；
不预设 predicate / verb，实现真正意义上的 “Open” Information Extraction；
配合自家 web 搜索引擎以评估来源质量，信息源和领域不设白名单；
大幅提升实时性，热点新闻发布后几分钟内，就可以搜到结构化知识了；
没有前置 NER 和 dependency parsing 等环节，减少母文本信息的损失；
技术栈完全 language-independent，可以实现低资源和跨语言 transfer。
买下了 magi.com 这么骚气的域名。

接下来我将分三部分展开介绍，并在最后补充阐述目前做的还不够好的地方。由于我们不能详细介绍全部的技术原理和实现细节，为了避免被扣上吹牛逼的帽子，我会尽量给出对应的 proof：即如何通过公众版 magi.com 针对性地验证对应的特性，同时让不懂技术的朋友也能直观地体验并理解。

magi.com 搜索示例https://www.zhihu.com/video/1174833363716993024
How it works (灵魂手绘凑合看吧...)[h1]一、利用率和通用性[/h1]本节主要介绍以下两点：

1. 能够 exhaustively 提取重叠交错的知识，且不利用 HTML 特征；
2. 不预设 predicate / verb，实现真正意义上的 “Open” Information Extraction；

举个例子，通过阅读 “美国总统特朗普的女婿库什纳担任白宫高级顾问这一职位”，人类起码能看出以下关系：

美国->总统=特朗普，特朗普->女婿=库什纳，库什纳->职位=白宫高级顾问，白宫高级顾问∈职位，白宫高级顾问高级顾问，白宫高级顾问顾问，…

这对人类来说不算什么，但让计算机获得上述能力则非常困难。我们先回顾一下历史：Hendrickx et al. (2009) 设计了信息关系抽取领域的经典任务 SemEval-2010 Task 8，其中规定了两个 nominals 之间 9 种区分顺序的 semantic relations，可以抽象为 19-class 的分类问题 (2x9关系+1无关)，比如 “Member-Collection” 这一关系指某实体是某集合的一员。
事实上，几乎所有信息抽取系统都需要明确或隐含地预设此类语义关系，具体体现为关键动词表或隐含的期望 predicate 等形式。以最常见的金融领域应用为例，某特定产品只需要在一篇公告中找出客户所关心的信息，如 “A 投资了 B”、“C 本季收入 [\d\.,]+ 元” 等关系即能提取出关键信息；很多时候此类产品的候选实体 {A, B, C, …} 都是有预设库的，而且还能对数字等信号用正则表达式特别处理。对于各种细分领域的行业应用，这么做能在满足需求的前提下将问题的复杂性大大降低。
但我们认为，上述方案仅仅是凑合够用。往大了想，假如一个医疗领域的 AI 在阅读文献资料时，同时还看了各个健康论坛和问答平台中网友的讨论，它一定能利用更多的背景信息给出更好的建议；一个金融信息抽取模型，如果同时读过各个产业的业界新闻，一定能避免大量的常识错误。往小了说，一个现实又残酷的问题是：细分行业的结构化训练数据太少了，而 curation 非常昂贵缓慢，其专业性导致难以仿照图像分类那样进行众包标注，两个标注者之间的理解差异或是单纯的语言习惯不同都可能导致训练不收敛或干脆学呲了。
Magi 希望通过提高信息的利用率以带来改变。具体来说，Magi 不再依赖于预设的规则和领域，“不带着问题” 地去学习和理解互联网上的文本信息，同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。对于我们人类来说，面对一篇陌生的文章时，即使把大量专有名词和术语遮住，也仍能利用语法和语言习惯来根据上下文判断出被遮蔽内容之间的大致逻辑关系。同理，Magi 通过一系列预训练任务和扰动淡化了具体实体或领域相关的概念，转而学习 “人们可能会关注内容中的哪些信息？”，并在 precision 和 recall 之间刻意倾向后者来增加产生 “意外但有意义的噪音” 的机会，以供给后续的 semi-supervision 过程。我们花了四年时间为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台（下面都会讲到），并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据。Magi 通过终身学习持续聚合和纠错，为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。普通用户可以随时体验公众版的 magi.com，以文本的形式检索和查看知识，而程序则可以选择通过 DSL 或向量化的形式访问 Magi 更为广阔的结构化网络。
与此同时，我们还做到了不再使用 HTML 标签特征，直接处理纯文本。众所周知，HTML 的标签信息能提供额外的语义信号，让信息提取变得清晰。Crestan et al. (2011) 的调查显示大约 75% 的页面带有 table，排除用于导航和排版的，仍有 12% 的 table 是有语义价值的，可见仅通过 HTML Table Mining 就能获得很多有意义的数据。但是该研究也显示了互联网上便于处理的信息仅仅是沧海之一粟，事实上大部分信息都不是以半结构化的形式存在的，比如很多企业的内部文稿、论文正文、社交平台内容。Magi 想要提升信息的利用率则注定要走出 HTML 的舒适圈，该能力是我们推出 Magi for Enterprise 服务的通用性前提。
在 magi.com 搜索 “系统性红斑狼疮”，可以看到我们在同一来源中学习到了多级的派生（见“标签”部分）和重叠的三元关系（见“属性”部分，可点击省略号展开）。而且各个来源网页中均无有意义的表格等可利用的 HTML 标签，证明我们是完全以纯文本作为模型的输入内容。需要指出的是，Magi 的学习是持续自动进行的，有的知识可能会被系统判定为不可靠而被淘汰掉，也会有新的知识（或噪音）被学到，所以我们不敢保证在您尝试搜索时看到的结果是否还能作为证据。以下屏幕截图拍摄于 2019年9月6日11:38，上述例子是随便选的一个整体质量中庸的（红黄绿的颜色代表 Magi 给出的可信评分级别），我们绝不会为展示做任何人工干预：

红黄绿的颜色代表 Magi 给出的可信评分级别[h1]二、覆盖率和时效性[/h1]本节主要介绍以下两点：

3. 配合自家 web 搜索引擎以评估来源质量，信息源和领域不设白名单；
4. 大幅提升实时性，热点新闻发布后几分钟内，就可以搜到结构化知识了；

用户最终所能触及的信息 = 模型对信息的利用率 x 输入信息的覆盖率。上文所述的通用性是提取模型和算法层面的属性，而若要真正提供有价值的服务，还需要数据方面的支持。公众版的 magi.com 致力于从互联网信息中寻找有价值的数据，让原本被埋没于字里行间的知识有机会走入到各种知识图谱中，同时作为背景知识来迁移学习增强垂直领域的定制化服务。
然而，互联网语料质量参差不齐，抄袭拼接、自动生成、恶意篡改等行为会造成大量事实性错误，甚至可能让模型在持续的学习调整过程中越来越差。对于这类问题，最简单也是最常用的方案就是设置可信来源的白名单机制，例如仅学习权威媒体和专业提供者的内容，而无视类似于社交平台或自媒体的 UGC 来源。白名单机制确实能避免很多麻烦，但也同时损失了大量的有价值的信息，尤其体现在一些边缘性的、亚文化的、无权威概念的领域。Magi 最重要的目标之一就是规模化，所以白名单机制是不可接受的。
为此我们投入了大量时间和精力从零研发了一套 web 搜索引擎（未使用任何开源方案，另见面向硬核用户的问题与解答），一方面是为了作为 magi.com 的补充呈现，更重要的是为 Magi 提供所需的统计信息。对于任何知识，Magi 会综合多种不同的信号来作出评估，主要包括：
Clarity：信息在来源文本中表达的清晰度和客观程度。清晰度既包含文本自身语义层面的准确，也包含 Magi 提取模型认知的激活强度（可近似理解成 AI 认为正确的概率）。语义层面，一般关注语气是否中立平和、上下文是不是在否定、文本是不是类似于习题的疑问句等等，加上更多难以明确描述的但模型（可能）已经掌握的信号，比如整个文章是不是 troll。提取模型的激活强度可直观理解成 Magi 对自己读到的信息有几成把握没理解错。当然，AI 都会犯错，Magi 自然也不例外。通常来说，上下文长而复杂、表达隐晦、主语和指代不清等情况下 Magi 更容易犯错，会产生一些 false positive。好在，学习的过程是持续进行的，这些错误会在 Magi 从别处学到更可靠的信息时被过滤或修复。
Credibility：可交叉验证的来源的数量、质量、关联。学术领域，一篇论文的引用越多，可认为其影响力越大；web 搜索中，一个 URL 的 backlink 越多，可认为其重要性越高。对于知识，我们认为某一事实在越多的上下文中被表达，则可认为其正确性和流传度更强。值得注意的是，网络中有大量转载、抄袭、复读机，所以我们进一步定义为：对于某一事实，有越多高质量的来源用不同的上下文和表达方式去提及，则可认为其越可靠。我们采用类似 Gyngyi et al. (2004) 的 TrustRank 机制去追踪各个来源自身的质量，信誉优秀的作者的文字和牛皮癣广告页上的内容不会被一概而论。而不同的上下文和表达方式体现了内容是经过思考和再提炼的，在 magi.com 展开的来源卡片中，我们的用词是 “%d组上下文”，正是因为我们会把过于相似的来源聚合，且这种相似不只是字面上的重复，而是上下文表达方式的接近。
Catholicity：信息的普适性，例如随着时间推移的变化情况，以及是否含有恶意或非法内容等方面。做过搜索引擎或爬虫的人一定知道，互联网上是没有可信的日期的，你只能确定某内容一定出现在本次抓取之前，但页面上写的 “发布于一小时前” 很可能是骗你的。于是，Magi 不仅会尝试从内容中探测信息产生的时间，还会对有多种可能性的知识去追踪起止时间和热点区间（例如职务变更和总统换届），并依此过滤一些噪音。普适性自然也包括信息是否适宜被展示。AI 由于本身几乎没有前置的常识和法律知识，在面对互联网上鱼龙混杂的信息时，有小概率提取到与预期差距较大的信息，甚至获取到有害信息。Magi 积累数据的速度之快和领域之广导致我们难以进行人工审核。目前，我们综合多种方法降低可能带来不良信息的内容来源被用作学习的可能性，并将持续改进以保证 Magi 在其运营地区能配合相关部门，在相关法律法规框架下，合规地为用户提供服务。
以上三个 “C” 是 Magi 权衡知识工程的规模化和准确性难题的量化标准，是提升信息覆盖率的基石。当然，只有覆盖率还不够，时效性同样重要。一方面，时效性体现在上文提到的对既有知识的时间线追踪。另一方面，Magi 必须能保持持续学习，用尽可能少的时间掌握新产生的知识和数据。为了在尽可能低的成本内实现这个目标，我们不使用臃肿的 headless 浏览器，而是（又双叒叕）从头研发了可弹性伸缩的 stream-based 的分布式抓取系统，在最小程度支持 JavaScript 的同时避免了大量无意义性能开销和安全风险，显著降低 TCO。这套系统作为共享的数据池，同时服务于 Magi 的知识提取、web 搜索、数据统计等组件。终于，Magi 做到了不再周期性触发 batch 更新，整个系统持续在线上学习、聚合、更新、纠错，每秒都在变。事实上，热点新闻中的信息 Magi 一般在 5 分钟之内就能学到。
下面这个例子是小米 MIX Alpha 发布会时的几张截图，这次小米保密做的还不错，一直没有剧透价格，所以比较适合作为时效性的例子：第一张截图是手机发布后，Magi 从一篇速报中学到了我们期待的知识；第二张截图是又过了 10 分钟，可以看到已经积累了更多的来源上下文，该信息的可信度进一步提升；第三张截图是在当天晚上，Magi 掌握了小米 MIX Alpha 的众多信息，我们关注的价格一项已经具有一定的可信度（绿了！）。

2019 年 9 月 24 日 16:45
2019 年 9 月 24 日 16:56
2019 年 9 月 24 日 21:52[h1]三、可塑性和国际化[/h1]本节主要介绍以下两点：

5. 没有前置 NER 和 dependency parsing 等环节，减少母文本信息的损失；
6. 技术栈完全 language-independent，可以实现低资源和跨语言 transfer。

若要让程序实现 Magi 这种能力，大家的第一反应可能是借助 dependency parsing 等方法，或者抽象为 sequence labeling 然后具体问题具体分析。早先，我们也不例外地选择过类似的方案，但在上了一定规模后，很多问题开始显现出来，究其根本原因在于环节增加在提升抽象能力的同时损失了有效信息。
先别着急往 ResNet 那边想，这里我说的 “环节” 要更具象一些：举个最浅显的例子，在面对复杂任务时，经典的做法是把分词、嵌入、NER、SRL、依存分析等等方法串联，形成一个越来越窄的 “沙漏”，其中越后面的环节越接近最终需求。这带来了三个问题：第一，最明显的就是错误的不可逆放大，后置环节永远无法弥补前置环节的错误，比如分词一旦错了，再好的依存分析算法也无力回天；第二，比错误放大更隐蔽的是母文本信息的丢失，例如在 Magi 面对的任务中，上下文中的每个字都可能同时扮演多种角色，而每一种角色的概率则要看与其他角色共同构成的关系是否成立，过早分环节会丧失提取全部有效信息的机会；第三，就是越靠后的环节的训练数据越少，收集整理的成本越高，难以定制并服务垂直领域。当然，随着芝麻街小伙伴们（ELMo, BERT, ERNIE）的火爆，各种端到端的自然语言处理方案浮出水面，但实际上 “环节” 这个概念仍然没有消失。”环节“ 被特征表达、训练目标、网络内部结构等因素整体稀释到了各层参数中。
我们为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说，网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题，让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试，主要目标是淡化实体、predicate、领域的约束，充分利用多种不同的训练数据，并且降低线上持续学习修正过程中模型更新的开销。同时，模型的迁移能力也是我们关注的重点，具体包括跨语言和 low resource 两种情况。由于技术栈本身已经完全 language-independent，我们在设计预训练任务时，会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。为了验证这一设计，我们曾经测试过 zero resource 的情况：使用多语言语料对部分网络进行预训练后锁定权重，将输出作为 feature 结合中文样本训练最终的提取任务。这个中文单语言模型在英日韩语的小规模 benchmark 中仍然获得了较高的 precision 和差强人意的 recall，值得指出的是日语虽然和中文共享部分 grapheme，但语序显著不同（中文是主谓宾，日语是主宾谓）。事实上，magi.com 上能搜到的来自外语网页的结构化知识，都可以理解为这种触类旁通。

为了节省算力和避免质量波动，后来 magi.com 仅收录索引但不再学习外语网页了对于结构化样本稀缺的细分行业应用，配合我们提供的图形化桌面软件 Ireul Studio，企业用户可方便地标注和训练特定需求的模型。该工具的界面类似 AutoML 的实体识别训练界面，非常直观易用，只需留意标注的目标不只是实体，而是完整的关系。训练时 Magi 会同时使用 magi.com 积累的海量知识和 proprietary 的预训练数据，因此仅需少量样本进行 fine-tuning 即可服务某一细分垂直领域。
[h1]四、不足与展望[/h1]我们不能只谈优点，上述改变其实也带来了新麻烦，甚至有的比以前更棘手。一个典型的例子就是消歧义：
每组被提取出的信息都有一个 context 向量，现阶段我们仅是把足够相似的 context 下的信息合并。很明显这种方法不够理想，但考虑到持续学习的场景，就需要格外的谨慎。持续学习的过程中模型会更新，错的和旧的数据会被淘汰，数据库中沉淀的数据和新学的数据不断融合，容易导致一致性问题，最终影响系统持续运转的能力。消歧义弄的太严会产生大量割裂的版本，太松又会混作一团。老用户可能发现多级查询没有继续提供了，正是因为精准的消歧义是其前置条件，我们正在努力改进这部分功能。
除了消歧义之外，可靠性和时效性之间纠结也是各种信息检索或智能系统要面对的难题。上文中讲到 magi.com 能够在新闻发生后很快学到新的知识，但假如新的知识和既有的知识产生了矛盾，问题就复杂多了：也许是学到了噪音，但也许是事实发生了变化（如职位变动、数据更新）。Magi 的可信度算法同时依靠质量和时间两大维度，所以会导致很多新鲜事儿被学到但暂不足以自信到覆盖旧事实，造成更新滞后。这其中涉及大量经验参数，我们尚在摸索之中。
另一方面，我们自认为模型和任务设计较为精巧，但工程上还不太满意。最明显的是尚无法在计算图的框架内实现我们需要的几个中间环节，一个宏观概念上可部署的 “模型” 要分开训练 3～4 个 graph（当然好处是能部分复用），其中 2 个在 freeze 和 quantize 时能拼起来，剩下的 runtime 连接，所以 inference 时有很多 context switch 和拷贝 overhead。诸多原因最终导致这玩意比较贵，又吃 CPU 又吃 GPU，最小部署上线 inference 也需要 6 张 Tesla T4，在速度和成本方面还有提升空间。
当然，是 AI 就会犯错，尤其是咱们 “实验室里的人工智能，现实生活中的人工智障”—— NLP 领域的。在开发过程中我们遇到了太多错的想笑的结果，有的甚至充满了禅意：

AI 都知道隔壁老王 (截图为上古开发中的界面)最后，我们会继续追求规模化和准确度上的突破，让 Magi 有资格作为知识的 ImageNet 来直接或间接地帮助更多人（和其他 AI），甚至，我是说甚至，在通向可解释人工智能的道路上发挥自己的微薄之力。
[h1]References:[/h1]

Hendrickx, I., Kim, S. N., Kozareva, Z., Nakov, P., Séaghdha, D., Padó, S., ... & Szpakowicz, S. (2009, June). Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals. In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions (pp. 94-99). Association for Computational Linguistics.
Crestan, E., & Pantel, P. (2011, February). Web-scale table census and classification. In Proceedings of the fourth ACM international conference on Web search and data mining (pp. 545-554). ACM.
Gyngyi, Z., Garcia-Molina, H., & Pedersen, J. (2004, August). Combating web spam with trustrank. In Proceedings of the Thirtieth international conference on Very large data bases-Volume 30 (pp. 576-587). VLDB Endowment.

感谢您读到这里，其实这个回答写的怎么样不重要了。公众版 magi.com 没广告也不要钱，它是我们憋着的一口气，是给这么久以来支持我们的人的交待，如果能让您感叹 “这个真的牛逼啊”，我觉得这几年的努力就值啦！

有关回应 · 2021-5-25 13:33:12

我在没有论证的情况大胆假设, 因此以下全是胡说:

如何评价 Peak Labs 的你没玩过的船新版本的搜索引擎 Magi ?
"Magi 是第一个让我期待我的输入她能给出什么结果的搜索引擎"
[h1]搜索引擎的本质[/h1]传统搜索引擎的本质是中介. 在最初, 这个中介可以在好多方向混得很好.
但黄金时代已经过去, 移动互联网肢解了这一切, 购物中介? 打开购物APP, 吃饭中介? 打开外卖APP, 打车中介? 打开打车APP. 应有尽有.
传统搜索能赚到钱的地方, 全都被一个个APP瓜分掉, 只留下搜索最本质的用途: 媒体内容(文字, 图, 视频等)的中介.

也许有人会问, 搜索引擎也有移动APP, 所以还能占有一部分移动端市场吧?
那么我们再从另一个维度来看这个问题. 那就是传统搜索引擎APP的时间片也会被抢走.

这个理论是这样的. 每个人每天的时间时有限的, 都是24小时. 那么我们可以得出, 每个人每天用来使用网络的时间肯定是小于等于24小时的. 我们进而可以得出, 使用APP的总体时间也是有限的, 并且使用每个APP的时间也是有限的.
那么, 如果使用一个APP的时间增长, 在总体使用时间不怎么变的情况下, 使用其他APP的时间势必会缩短.
举例来讲就是, 一个大学生每天玩4小时手机, 假设他沉迷玩社区, 那肯定刷微博的时间就比水社区要短很多了.

这时问题出现了, 这个大学生使用移动端搜索APP的时间预计是多少?
现在又出现了新情况, Magi 可以满足他针对内容搜索的需求, 比如写作业, 按一下就能提供提纲无脑写那种.
试问, 这个大学生使用传统移动端搜索APP的时间是会下降还是会增长?

上面的描述的核心就是, 每出现一款会占用用户时间片的APP, 其他APP的被使用的时间势必会降低.
而被其他类型APP占据市场的搜索引擎, 自然用户使用的时长会惨不忍睹. 这个使用时长数据就会反馈到 DAU 上.

我们再从另一个维度去考虑, 搜索引擎从来不是全部流量的终点. 纵然搜索引擎有 onebox 这种东西 (onebox 就是比如你搜索计算器他会有个计算器嵌入到搜索结果中, 而不是提供一个计算器的网站让你点击进去).
onebox 可以让流量沉淀. 但同样移动 APP 对 onebox 有十足的杀伤力. 你查航班是更愿意用买机票的 APP 查询, 还是愿意用搜索引擎的 onebox 呢?
很明显买机票的 APP 更具有优势, 因为查询机票很有可能就是为了买机票. 那么传统搜索引擎只能服务那些不想买票但想查询这个航班的信息的例外情况了.
是不是突然有了熟悉的感觉? 没错, Magi 就是服务于这个场景的. Magi 抓住了那些有可能在搜索引擎沉淀的流量的头部需求.

至此, 传统搜索引擎的应用场景出现被彻底取代的可能:
- 阶段1, 移动互联网出现, 大量中介类型业务被取代
- 阶段2, DAU 因与其他 APP 存在宏观上的竞争关系而下降
- 阶段3, 自身应用场景和使用价值逐渐萎缩, 最终核心业务 (媒体内容中介) 被垂直的相似产品替代 (比如有可能就是Magi), 然后就没有然后了
没错, 不是"搜索是互联网的基础服务不会被取代", 而是 "大搜索很可能不会再是互联网的基础服务".
[h1]Magi 做对了什么?[/h1]Magi 的关注点恰恰是在移动互联网冲刷下的用户搜索行为的本质, 并且做了一个微小的改进 - "帮你思考".
当你想了解事物或信息, 传统搜索引擎仅仅按照结果的权重 (Page Rank) 展现给你, 你需要自己判断信息的可靠性, 归纳要点, 从中筛选你最想要的信息. 而 Magi 帮你做了这些.
退一步讲, 即使 Magi 的搜索结果比较惨 (现在就很惨), 这也不妨碍它成为一个可以为我提供观点和信息的工具.

也许有观点认为 Magi 只是 onebox 做得好一点而已. 其他搜索引擎也可以这么做. 但可能忽略最重要的一点, 传统搜索引擎为了更好的盈利, 即使做了类似的东西, 仍然会让自己的搜索结果偏向于商业化. 这是他们的收入来源, 不会做出根本上的改变.
这就会导致传统搜索引擎不可能变成一个专门为媒体内容检索服务而优化的应用. 当然, 这是我的大胆假设.

Magi 创造了一种新的需求, 他能满足你抄作业 (检索) 的同时, 还能满足你跟别人对答案 (看看别人的结论) 的需求. 这在过去, 只能通过 UGC 去完成, 比如你去社区搜 "如何评价XXX". 现在, 你多了个选择, 看看 "Magi如何评价XXX".
而且这不冲突, 它虽然有导航的性质, 但同时 Magi 提供了置信度这个指标, 这非常重要, 正是这个东西让它区别于其他 UGC 内容. 如果你的脑洞足够大, 这就是 MGC (Machine-Generated Content) 的雏形.
你可能已经看过用 RNN 写的诗歌, 我相信完全有可能未来有一天我们会看到机器写的小说. 那么, 机器对一件事物或一个问题发表看法, 这又有什么不可能呢?
[h1]Magi 做得怎么样?[/h1]就我实际体验来讲, Magi 对专有名词表现最好, 但其中同义词不行, 会导致混淆.
除了上方展示的那个标志性 onebox, 其余所有搜索结果都需要相当的优化, 而且抓取范围太窄了, 长尾需求完全无法满足.

这是好的结果:

这是不好的结果:

好的结果方面, 搜索关键词 "CQRS",  Magi 完全发挥出了之前所说的优势, 除了可以提供搜索结果以外, 还可以提供针对检索内容的参考信息和置信度, 让我很好的了解了 CQRS 是怎样诞生和服务于什么目的, 我可以按照这个图谱去进一步的了解 CQRS.
但搜索结果本身仍然有待优化, 这个搜 CQRS 的结果中,  Bing 和 Google 的结果是最好的, 直接给出 Martin Fowler 的权威文章, 这也是 PageRank 做的好的优势. Magi 次之, 给了 Github 的相关链接, 不知道是不是 Github 的权重太高了. 而其它搜索引擎的结果惨不忍睹. 直接变成二手知识的受害者.

不好的结果就显而易见了, 搜索了 "nginx错误499", 中文搜索引擎全都只讲了怎么避免499, 完全不讲499为啥产生, 内容也是瞎猜的经验谈, 没有论据没有剖析, 沦为二手知识的受害者. 而 Google 和 Bing 都给出了很好的结果. 我也在 Magi 上用关键词 "nginx status 499" 搜索了, 没啥区别. 而在 Google 我用中文, 英文, 日文, 俄文搜索, 都能得出满意的结果.
[h1]

一些彩蛋[/h1]我不知道选取 Magi 作为名称是不是想表达它的词义"魔术, 智者". 但我立刻想到了 EVA 里面的超级计算机 Magi:

以及, 置信度评分让我想到了  里面的ヒトログ (Hito-Log), 能对 SNS 中每条信息进行置信度评分:

[h1]最后[/h1]现在有时候检索会超时, 提点建议, merger 部分可以考虑加一个缓存, 把一些高频 query 缓存起来, 这样就能临时先解决一下性能问题了. 长远来看如果高频 query 始终会面临性能问题的话, 可以考虑用 push 的模式主动定期 build 结果, 以避免负载和后端响应超时等类似问题. 至于引擎部分, 我也猜不到是怎么实现的, 不敢瞎提建议.

总之我把网站加进收藏夹了. 期待 http://Magi.com 越做越好.

有关回应 · 2021-5-25 13:33:13

从两个部分进行评价使用体验和技术理念
使用体验
大概是因为自己是开发者的缘故，没感觉这种黑色为背景的有什么不妥，毕竟IDE啥的平时也是这个配置，不过因为浏览器菜单栏的风格没法设置，会有些违和。按f11全屏使用就好了。
检索结果“可溯源”这点，深得我心，但有人认为是故弄玄虚，这点我不认可。具体缘由在下一part说。
技术理念
因为magi本身是闭源的，具体技术细节不作猜测，仅根据
面向硬核用户的问题与解答和相关人士的亲自答，
如何评价 Peak Labs 出品的 2019 版 Magi 搜索引擎？做评价：
讨论之前不妨先思考一下，未来的AI这种产品可能会是怎么样呢？
可以预见的，在某些特定的场合，AI将会全权/至少90%掌握整个流程，比如工业流水线。这些是已经在发生且不可避免的事。那么在其他开放领域呢？AI会成为科幻电影中，掌管了整个民生，经济，医疗，交通调度等问题吗？
我认为很大程度上不可能，一方面，开放领域的AI难度自然不用说，另一点，人根本不可能全权放手给AI。所以，在很大的程度上开放领域的AI很可能是以人机互助的形式落地。
什么意思？
你不敢让AI直接投资，但AI可以在各种网络信息流上挑选出对于某公司的信息，通过合适的方法可视化出来，让你自己决策，甚至可以给出风险评估，这比预测股票涨跌了靠谱多了。
你不敢让AI直接判案，但AI可以快速在历史文本上匹配出合适的过往案例，并且在法院审问的过程中，通过实时语音转录就在线匹配给法官参考。
你不敢让AI直接治病，但AI可以借由可穿戴设备来评审你的健康，预测到不正常时自动推荐医疗信息，通过多轮对话询问和确认病症后自动匹配资料和预约专家号。
……
人机互助的最大一个问题就是AI需要向人类解释为什么要这么做。
而Peak Labs出版的这个Magi就是这样的一种形式。他不是像其他搜索引擎一样，意图像用户提供最后答案（比如很多人都认为搜索引擎的最后状态就是机器问答，那种会回答宇宙答案是42的那种）。而Magi似乎是往前走了一步（但野心更大，用上了life long learning，通过自己比对来去噪，如果算法本身也是类似NAS这种，可以自我进化，那就有意思了。），而是把关系梳理出来，让用户甚至是另一个AI来做参考，一定程度上提高了可靠性和和可解释性。
技术有多超前，我看未必，毕竟商业项目不公开代码，像关系抽取这种每年都有不少论文，但这种产品形式是一种很好的尝试。
既然是想做决策的知识库，那么下一步要做就不是一些答主提到“为什么连天气都回答不了？”，或者onebox，应该要做的是数据的可视化。具体差别可以对比google 学术和微软学术搜索。留意微软学术会在侧边提高一些细节的数据。

而magi在介绍上似乎也把实时性作为了卖点之一，这把热点事件的时间线和网民情绪偏向可视化一下，就是一个很好的方向的。
说实话，虽然AI近几年火热程度让顶会的reviewer都不够用，但很多人，哪怕一些被称为大牛的人，都是在某个既定场景，围绕某个既定指标进行优化，俗称刷榜（这其实一定程度上造成了学术界和工业界的不匹配）。而真正有能力定义好现实问题场景的人（比如啥时NLG有一个适合的评价指标，这个领域估计又会是新气象），需要有很好的产品思维和工程能力，或者源自于一个奇思妙想又有能力实现出来的大佬。
比解决问题更重要的是提出一个合适的问题。
Magi相比其余做感觉已经做不出什么花样的搜索引擎来说，是个很好的尝试。
会持续关注。

有关回应 · 2021-5-25 13:33:14

匹配性特好，敢想

有关回应 · 2021-5-25 13:33:15

首先要说明的是，magi的使用效果真的是完全取决于使用者的脑洞和定位。虽然我不大懂人工智能和搜索领域边界，但就我的使用体感而言这孩子的脑回路确实不像是有什么边界的。
有人把社会新闻浏览称之为人类观察，我觉得使用magi的体验可以说是一种“AI观察”了。
Magi的搜索结果除了在搜索网站给出网址外，大多数是基于对于互联网新闻内容的获取和学习。比较值得一看和被好奇心人玩爆的地方在于对于搜索的内容，magi会给一个宏观的概念和认知，配上互联网新闻和各大信息来源中提取出来的描述。这是其和一般搜索引擎不一样的地方，也是使用群众欢乐的源泉
【正确姿态下的magi】
因为其自己自主去阅读互联网的知识并进行系统分类识别的特性，所以magi在搜索近期热词、大量的新闻转发普及内容和已经被维护过的内容时有非常好的发挥。比如在阐述赛博朋克这个概念时，来源新闻报道和百科内容都尽可能的在做出有益科普，而他们对于知识的复述频率和围绕主题不离题太远的讨论，再配合比较规范的讨论环境，所以自主学习的内容和呈现是非常规整的，对于搜索概念者而言，提供的搜索宏观结果好于一般搜索引擎。而热点搜索者对内容本身的判断和magi对信息来源的判断也会让它朝更好的方向发展。Perfect，完美。

好，请你记住这个搜索的状态，因为在接下来的时间里你再也看不到这种中规中矩的用法了
【在思路异于常人的梗中困惑的magi】
吼姆拉是《魔法少女小圆》中晓美焰的焰Homura的音译，这个梗在11-13年流行，然后在17年至今因xb2（异度神剑2）的女主焰被再次翻出来。这种来源毫无规律可循且的梗本身就难以被理解，其中这百转千回的承接性也缺乏逻辑联系，很难被学习到。
不过magi在显示搜索结果上还是显示了晓美焰（鼓掌），但描述……

困惑的magi选择了逻辑上有明确介绍的百度百科，然后就被坑了，因为这个百科内介绍的是希姆莱为何被空耳成吼姆拉的过程。不过，由于百科提供的抓取属性和其他搜索内容画风实在不同，或者大家查看路径的缘故，这个词条可信度不高。
【被新闻热度和关键词出现陷害的magi】
Wow15周年、怀旧服和最近的年度游戏奖项再次让这个老牌ip出现在世人面前，也让各大媒体和评论人争相复读暴雪和wow的丰功伟绩，于是magi小姐也乐呵呵的标绿了一大堆的描述词.
但里面有许多明显有瑕疵的，比如wow代理商依然依然还有九城

比如wow最高等级是60级

这两个错误来源比较有意思，前者是因为在新闻描述九城相关新闻都和代理、失去代理、成为了wow的代理商捆绑，而最近怀旧服大家又集体“都tm赖九城的服务器”疯狂玩梗导致九城一夜间昨日重现。最高等级60级，那肯定也是怀旧服影响力。
好了，以上是基本测试，剩下来的就是欢乐多了
所以，只要在信息来源少、被维护和搜索的少或者本身就被能用在多个语境的词，就会出现各种欢乐情况。
比如可怜的magi在搜索被净化的负面常用词时就陷入了错乱，卒于乾隆四十四年的是文学家彭端淑，我实在不明白他为什么就成为了傻逼的代言人……当然描述的词汇也非常……喜感。

又比如，我们社区首席大V张佳玮有许多权威媒体和书籍评论作为补充，又有虎扑论坛背书，因此条目和名号特别多……（果然是大v）其中大部分信息都是对的
比如旅居巴黎……

但张佳玮的外公是关羽……等等这个也是对的么？

然而这确实是关羽（张佳玮文章里的）亲口说的……虽然magi对此并不信任。

咳咳，总的来说是个非常欢乐的引擎。
其实比较有趣的就是看机器在没有一个词汇约束边界调解下，对于纷乱信息的学习和自我理解后，试图体系化的一个过程。对于创作者而言，magi在搜索很多词汇的描述和联想真的可以提供不同的灵感视角，这是我现在的特殊用法。

可爱的含义真丰富总的来说，因为搜索总量的缘故，这个小家伙还是不能替代当下使用的搜索引擎，但我还挺看好这个小家伙的未来的。
按说，搜索引擎的存在目的就是在尽可能理解用户的搜索需求的情况下，给用户提供更准确、全面的内容，但咋当下搜索引擎在定向广告投放和各种关键词干扰下。这个原本的目的会被人为的误导和曲解。而在信息筛选和筛查时，如果能有什么东西能无干扰的对你搜索的内容进行一个初步的归类，无疑是能节约搜索时间。
我觉得将自主学习和搜索引擎关联本身就是个有趣的事情。看到自主学习对于词汇这个领域的理解和自我知识体系架构有一种重回语言学习的奇妙体验，同时，相比于利用思考逻辑的缺陷和故意的将词汇误导度高的词条检索来让其制造笑点的搞笑来说，我觉得，对其最终呈现的知识结构和结果逆推原因，也是这个搜索引擎的使用乐趣之一。
老实讲我不大懂人工智能，也不知道这种智能学习会对未来搜索引擎有怎样的改观也无法臆测，但就体验而言，我觉得人工智能在搜索引擎的运用会对我们人群对基础自然语言的认识和信息处理能力有着更多的助益，或许会超过搜索这一基本的功能。

如何评价 Peak Labs 出品的 2019 版 Magi 搜索引擎？

5 个回复

浏览过的版块