AI搜索选哪个?18家AI搜索产品横向测评

2024-06-03 星期一

引言

距离《AI 搜索,一次讲透》文章发布已经快一个月了,AI 搜索赛道依然火热,各款产品都在努力优化,还有几款新产品推出。

时间到了6月,非常好奇各款产品表现如何,今天就都拉过来测一测。

刚把第一个Query测完,就发现了很多产品的严重问题,结合后续的几轮测试,已经足以得出一些值得参考的结论。

受限于篇幅和时间,本文将完整记录第一轮的AI搜索测试,并结合后续几轮的测试,给出一些个人的体感结论。

希望能帮助读者选择到适合自己的 AI 搜索引擎。


防杠声明:

本文不是权威测试,而是个人向测试,测试集的目标不是大而全,而是自己用着舒服。

本文对所有的搜索结果进行了截图保存,你可以根据自己的偏好选出自己喜欢的产品。适合自己的才是最好的。

本文不接受任何赞助,不接受任何的删帖请求,但接受开放地交流讨论,请大家心态平稳,实事求是。

本轮入围选手

国际巨头白月光,4家:Perplexity、OpenAI ChatGPT、Google Gemini、Microsoft Bing Copilot

国内模型厂和大厂,10家:月之暗面 Kimi、字节跳动 豆包、MiniMax 海螺、智谱 Chatglm、01万物 万知、腾讯 元宝、百度 文心一言、百川智能 百小应、阿里巴巴 通义千问、阶跃星辰 跃问

国内AI搜索应用,3家:昆仑万维 天工AI、360 AI 搜索、秘塔 AI 搜索

AI搜索创业团队,1家:ThinkAny


入围说明:

  1. 有一半是AI助理,并非单纯的AI搜索,因为本质上AI搜索是一个AI助理很基本的功能,技术路径大差不差,而且AI助理的搜索结果未必就比专业的AI搜索差,所以放在一起测试没有任何问题

  2. 有些品牌存在更好的选择,比如 Google 的搜索和Gemini其实是两款产品,百度的搜索和文心一言也是两款产品,但是因为产品灰度等原因,我无法体验到,所以就用他们的助理代替。话说回来,既然他们在灰度,就说明他们还没准备好,也不值得测试。

  3. 排除了 devv ai 等垂类的搜索,因为对于通用Query,垂类搜索和通用搜索相比明显弱势,放在一起比较不太公平。

  4. 有些产品除了提供基础版本外,还提供了付费和深度选项,本文只测试默认选项,如果基础底子好,才会在后续测试其他选项。

本轮的测试方法

Query 选择的原则:

  1. Query 所对应的答案应该具备一定的实时性,答案不在大模型本身的知识库里,必须通过搜索才能获得答案

  2. Query 所对应的是一个特定人群的需求,因为没有一个人可以代表另一个人群,这里选择我自己所属的典型人群,AI早期接受者,我认为这个人群和AI搜索的目标人群是高度重合的

  3. Query 有一定难度,搜到的内容有多种可能性,需要模型具备一定的理解能力和推理能力才能回答出正确答案

  4. Query 所对应的结果应该有明显的评判标准,应该是本文读书所熟悉的,且可以通过公开资料进行验证的,避免一个人对结果的评分过于主观

结合以上几点,第一轮的 Query 就是:

橘子汽水铺是什么

这个 Query 除了满足需求之外,还有一些巧妙的点:

它的信息源主要来自5个网站,Notion、Quail、Substack、微信公众号、即刻。同时覆盖了国内、国外、大平台、小站点,各家产品能同台竞技,各有发挥。

同时它又是一个AI领域的关键词,在其他领域意义不大,所以人群匹配度高。

另外这个 Query 绝对不会出现在这些产品的训练数据里,大家都是第一次见。


评分标准:

  1. 能正确理解 Query 所指向的内容,加一分

  2. 搜索结果准确,没有幻觉,加一分

  3. 在结果准确的基础上,信息充足,结构清晰,加一分

  4. AI 助理相比AI搜索会额外多出一个判搜的环节,有几个AI助理产品产品在这里做的很差,所以使用了多轮Prompt进行引导搜索,但由于本文主要关注搜索结果,而且AI助理并未宣称自己是AI搜索,所以这里对判搜错误不扣分。如果你关注端到端体验,非要扣分的话,可以按0.5分来扣。

第一轮的测试结果

0分组:豆包、秘塔AI、天工AI、文心一言、Bing、跃问、千问

1分组:万知、Gemini、

2分组:智谱、海螺、kimi、元宝、thinkany

3分组:Perplexity、ChatGPT、360 AI 搜索、百川


看到第一轮的这个结果,说实话还是蛮意外的,如果不敢相信,所有结果都已截图留存,附在文末。

0分的几个产品,除了 Bing 之外,主要输在优质信息源的匮乏上。如果信息源连即刻和公众号都没有,自然也不适合使用即刻和公众号的用户群体。

1分的两个产品,万知也是输在信息源上,但 Google Gemini 的表现真是令人百思不得其解。

2分的几个产品,信息都能够正确找到,但是各款产品都有些不完美的地方。

3分的几个产品,在信息找到的基础上,内容更丰富,格式也更友好一些。

结合后面几轮测试的一些个人体感结论:

上面只是第一轮的初步测试,摸摸底,接下来的测试,进一步上升 Query 难度,包括双关键词的测试和更加实时的关键词测试。

结合以上测试和个人体感,给出的一些选择 AI 搜索的建议:

  1. Perplexity,综合体验断档第一。Query鲁棒性高、信息准确度高、输出结果的格式和总结能力都很好。如果你只想用最好,闭眼选它。

  2. 海螺AI和ThinkAny,本次测试的黑马,虽然第一轮的搜索结果都不完美,但在后续双关键词Query测试中,只有这两款产品和PPLX能够回答正确。继续迭代一下,未来可期。

  3. 360和百川,有着多年搜索技术的积累,在AI搜索上还是能体现出一些优势。但360有时候输出不是很稳定,百川则是对复杂Query的处理不够好。两者都需要一些迭代,未来可期。

  4. 秘塔AI,虽然秘塔很火,而且在格式处理上下了很多功夫,但是这个10B模型的能力有限,经常出现幻觉。如果你要给别人水报告可以用它,如果是自用,建议对自己好一点。

  5. 百度和Bing,实在无法理解它们为什么积累那么多,结果会这么差,可能这就是做一件事认真不认真的区别吧。建议是不要选。

  6. 其他几款产品,目前还没太多的体感,需要继续测试下。


再次祭出防杠声明护体:

本文不是权威测试,而是个人向测试,测试集的目标不是大而全,而是自己用着舒服。

为了中立客观,本文对所有的搜索结果进行了截图保存,如果不认可我的打分,你完全可以按照你的标准对结果进行重新打分。

本文不接受任何赞助,不接受任何的删帖请求,但接受开放地交流讨论,请大家心态平稳,实事求是。


附录:第一轮测试结果的所有截图和简单分析

由于测试和排版要花费一整体天的时间,所以本次只放出第一轮的截图。

如果本文阅读数超过十万,会写一篇新文章放出所有的截图和分析。

0分组,无法理解 Query 或无法找到正确信息:


豆包,信息源太受限,未找到正确信息。

秘塔,找到了很多的信息,但没找到核心信息。组合在一起没有一个对的。用RAG解决幻觉的同时引入了更多的幻觉,属于是秘塔这个技术路线的典型问题了

天工,和豆包一样找不到任何有关信息。

文心一言,找不到正确信息,在找到的信息里,内容组织也非常空洞八股。

Bing 真没想到连 Bing 都是0分,它是最早做AI搜索的,以微软的技术水平,做到这个样子,是非常非常差的。它甚至没有理解我要搜的是「橘子汽水铺」而不是「橘子汽水」,严格来说的话,可以给负分滚粗。本组最差。

跃问,找不到信息

千问,找了很多信息,但没找到核心信息


1分组,只是理解了 Query 所指,结果都很差:


万知,判搜出错。引导联网后搜索范围很小,只拿到了小宇宙的信息,总体是比较差的结果。


Google Gemini,信息量很小,第二条内容甚至出现了幻觉,很难想象这是搜索巨头Google的作品。

2分组,结果准确,没有幻觉,美中不足的是结果的呈现形式:

Kimi,找到了多个可能的意向,在第三个回答正确,虽然很简单,但是准确。


海螺,一样是拿到了多个可能性。比 kimi 好一点的是正确答案排序靠前


智谱,判搜错误,但是引导搜索后拿到了正确的结果,结果比较简单,但是准确。


元宝,搜到了相关信息,并预测了完整的意图,提供了较为丰富的结果,但是结果的质量不够准确,比如创始人的信息没有拿到很扣分,严格来说的话,可以给到2.5分


ThinkAny,给出了准确的结果,结构化也不错,第三条的信息会造成一定的用户混淆,但是它使用了「还可能」的表述方式,所以并不算错,可以给到2.5分,在这组里是最好的结果了。考虑到是个极小的创业团队的作品,已经是非常不错。

3分组,结果准确,信息丰富,结果清晰。

Perplexity,信息准确,采用总分结构,且对内容方向的几个概括非常到位,个人给出满分,本组第一。


百川 百小应,判搜错误,在引导之后给出了准确和丰富的结果。没有像 PPLX 那样使用大的方向概括而是选择了几篇文章进行分点总结。个人还是更喜欢 PPLX 的结果一些。考虑到这是一款新产品,能做到这个程度还是蛮意外的。


360 AI 搜索,给出了准确的内容,并且展开了几个非常具体的话题,使用总分总结构,较为清晰。


ChatGPT,判搜错误,引导搜索后回答正确。内容准确,详细,内容格式方面不如 PPLX 好,所以要稍差一些。


全文完。

如果本文对你有帮助,欢迎转发给朋友。

十万+就靠你了

原文地址:点击