识图:在茫茫手机相册中精准定位想要照片

2023-10-29 星期日

Matrix 首页推荐 

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。

文章代表作者个人观点,少数派仅对标题和排版略作修改。


如何在茫茫多照片的手机相册里找到照片呢?

相信大家总会有找照片的时候,有时是想发朋友圈、有时是分享给家人朋友、有时是想搜集素材,甚至有时只是想躲在角落里默默回忆那段你专属的时光吧。这时,如果你手机里的照片不多,那就还好,翻翻相册就大概能找到了,但是,如果你和我朋友博哥一样,手机里存了 13 万张照片,那也够你喝一壶了。

找照片,最快找到照片

我相信有些习惯整理照片的人会专门定时对照片进行分类、归类相册,甚至打标签,但可能这类人 1% 都不到吧,对于大多数像我一样的懒人,找照片主要靠翻。在「识图」里,怎么解决找照片的问题呢?

搜时间

找照片最自然的方式当然是回忆照片是什么时候拍的了,可能是 '2021 年 5 月‘ 拍的,或许你能清晰记得是 2021 年 5 月 20 日那天,在「识图」里搜一搜: 

注意搜索框里面的搜索词,当「识图」把搜索关键词识别成「拍摄时间」时,它会加一个黄色的底色。更好玩的是,识图不仅仅能识别 2021 年 5 月、2021 年 5 月 20 日这种比较书面的表达,也能识别类似于「去年春节」、「大前年十一」这种比较口语化的表达:

搜地点

除了搜时间,「搜地点」也是比较自然的搜索方式,我们大概会记得这张照片是在哪里拍的。比如我想找我在「南京」或者「杭州」拍的照片,我可以这样搜:

看,搜索框里面的搜索词变成了绿色,说明「识图」已经识别到你想搜在南京、在杭州拍摄的照片。

搜内容

除了「搜时间」和「搜地点」,有的时候你清楚的知道自己要搜什么,比如我想找到我相册里面我拍的我们家狗狗的照片,我就直接搜「可爱的狗狗」好了。又或者我想找几张和篮球相关的图片发朋友圈,那么就搜「打篮球」:

魔法:递进式搜索

只是能单独搜「时间」、「地点」或「内容」虽然大多数时候能找到我们想要找到的照片,但是更好玩的魔法是,你可以任意组合「时间」+「地点」+「内容」,威力也更强大一些。我想把前年回四平老家在河边散步的照片找到发给我表弟,如果去相册里翻估计要翻好一阵子,在「识图」里面我可以像这样去搜,「去年」+「在四平」+「河边散步」:

这种递进式搜索可以一步一步的缩小搜索范围,每次输入新的搜索词都会在前一次搜索结果集合的基础之上进行过滤。「时间」+「地点」+「内容」的递进式搜索是我个人的常用搜索模式,当然这种模式不是唯一的形式,递进式搜索支持「时间」、「地点」和「内容」任意组合。

记得那年在南京,我吃过一碗非常美味的面条,我当时还拍了照片,现在想起来想发给朋友。我尝试先搜「在南京」,然后搜「吃美食」:

还进一步缩小搜索范围,输入新的搜索词「面」和「2020 年 10 月 29 日」,我快速精准找到了当时这碗美味的阳春面的照片,用的递进式组合是「地点」+「内容」+「内容」+ 「时间」。经过一段时间的使用实践,我们发现使用这种递进式搜索能百分百的快速照片我们想要找到的照片,可谓天网恢恢疏而不漏。

推荐照片与唤起回忆

如果用 iPhone4 发布的时间 2010 年作为智能拍照手机的元年来计算,今年也是第 13 个年头了,大家手机里一定保存了很多的照片,每张照片都是回不去的那年的珍贵的回忆。然而因为日常繁忙的工作生活,人们很少拿起手机去相册里翻最古老的相片,那些回忆渐渐蒙上了一层时间的灰尘。

在我们设计和开发「识图」的时候,我们就有这样一种愿景,希望「识图」能在手机相册茫茫多的照片里找到那张最值得回味与分享的瞬间。打开识图就会进入到推荐首页,识图运行在本地的推荐算法会推荐几张照片,并配上温馨的文字,今天我的首页推荐是妹妹的婚礼。

这张照片应该是今年五一时候拍的,现在想想那天还是真的好开心呢。再往下翻,识图又推荐了一张狗狗的照片给我,配文是「夏日烈阳下,护院狗狗休憩」,哈哈哈,瞬间让我想起了当时拍这张照片的情形。那天是 2018 年,我和朋友们去泰国玩儿,这一天我们骑了一天的摩托车到了芭东海滩,口渴难耐,我们找了一家 711 想买点水喝,这条狗狗就堂堂正正的躺在 711 门口,毫不在意路人的眼光。

除了首页照片的推荐,进入搜索页后,也能看到「识图」为你自动生成的推荐照片合集。

我们是如何实现这些功能

相信大家都听过 ChatGPT,是 OpenAI 这家公司 2022 年发布的第一个被广泛认可和讨论的具备了超高人工智能的聊天机器人,在 2023 年掀起了新的一轮人工智能热潮。然而这家公司不仅仅发布了 ChatGPT,它早在 2021 年就发布了 CLIP 模型(CLIP: Connecting text and images),简单的讲,CLIP是一个多模态模型,可以同时理解文本和图像数据。它经过预训练,可以用于各种任务,包括图像分类、文本生成、图像生成等,因为它能够将文本和图像的语义信息进行对齐,使其在不同任务之间共享知识。CLIP 在计算机视觉和自然语言处理领域都有广泛的应用。

而「识图」里面的图片搜索,就是用到了 CLIP 模型的夸模态检索能力,我们对 CLIP 模型进行了优化和调整,使其能流畅的运行在 iOS15 及以上的 iPhone 手机上。

CLIP Approach

「识图」的使命

其实很简单,我们开发「识图」APP 的时候,只是想让工具回归工具,借助 AI 大模型的能力,它只需要解决一个问题,用最优雅的技术方案,完美只解决一个问题:

找照片。

大家现在可以在 App Store 中免费下载使用识图 App。

原文地址:点击