从语义化排序看未来算法和工程的变化

今天我看到 llm-sort 这个项目,它是基于一篇论文开发的一个小工具,主要用于文本排序。传统排序通常依赖于字母序或数字序,例如按照 A-Z 或 0-9 进行排序。而llm-sort的核心思路是将这种排序方式提升到语义层面,即利用大模型来进行更智能的排序。

在传统排序算法中,我们的比较逻辑是基于字符或数值的大小关系,比如判断 A 是否大于 B,然后决定它们的相对顺序。而llm-sort本质上仍然是一个排序算法,只不过它的比较逻辑不再是简单的字符对比,而是基于LLM去做比较。这意味着我们仍然可以沿用经典的排序算法(如快速排序、插入排序等),但原子级别的比较操作被大模型取代,从而实现更智能的排序

这种能力的提升带来了非常有趣的应用场景。例如,我们有一万个名字,希望找出最适合给家里的小狗命名的那些。传统排序方式可能只能按照字母序排列,而通过llm-sort,我们可以根据语义来排序。

我们还可以增加一些关于狗狗的描述,比如活泼好动、喜欢粘人等等,我们可以将这些特性作为条件输入LLM,让它为我们推荐更适合的狗名。LLM会基于这些描述来理解哪些名字更符合这类狗的特性,并将它们排在前面。这只是一个简单的例子,实际上,我们可以添加更多复杂的条件,让排序更加精准和个性化。

这一能力在搜索引擎、推荐系统等领域的应用前景极为广阔。目前的个性化推荐通常基于关键词关联、TF-IDF、用户行为分析等方式,例如:

  • 电商网站的猜你喜欢功能,主要依赖于标签匹配、词频计算、点击率等方法。
  • 搜索引擎会根据相关度排序,但排序逻辑主要基于关键字匹配,而非真正的语义理解。

未来,结合大模型的排序方式可以大幅提升推荐质量。例如,当用户搜索吹风机时,系统可以分析商品的标题、详情页、用户评价、品牌认知等多种因素,并结合用户的偏好进行更精准的排序。这样排在前面的商品更符合用户的需求,能极大地提升购买转化率,也能尽快节省用户的时间。(发散一下:其实未来的搜索甚至直接是通过语音之类的自然语言搜索了,就跟去线下店里和导购交流我要什么意义。不过这边依然有反面的,就是广告主仍然可以竞拍被LLM优先采纳,这或许就是广告模式驱动的商业世界吧)

这一技术还可以广泛应用于社交媒体推荐算法(如抖音、小红书等),让推你喜欢的内容推荐变得更加精准,而不只是基于简单的标签或算法推测(这无疑也让奶头乐发挥到极致🥲)

值得一提,很多人认为应用LLM只需要写个 prompt 让它生成结果,看似很简单。但真正的挑战在于如何将LLM有效地融入到实际的工程体系中,解决现实问题。

在大型工程系统中,涉及上下游的服务非常庞杂,而如何在这些系统中逐步引入大模型,使其真正发挥价值,这不仅是技术问题,更涉及产品设计理念和对新技术的敏感度。这种能力不是简单地做个demo展示一下的那种难度级别,而是需要深入理解场景,合理设计应用方式。

总结来说,llm-sort让排序算法从传统的字符比对升级到了语义层面,这一小小的变化,实则带来了巨大的可能性。在业务里大大小小的地方都会陆续被LLM渗透进去,人类再一次给自己构建的世界制造了很大的想象空间啊




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 【Iter-X】 44/100days
  • 【Iter-X】 43/100days
  • 【Iter-X】 42/100days
  • 【Iter-X】 41/100days
  • 【Iter-X】 40/100days