标签权重在个性化搜索排序中的最佳实践

日期：2024-12-19 作者：yiwujiaqi2011 移动：http://qyn41e.riyuangf.com/mobile/quote/7953.html

• 具备较强的语义理解能力，精准命中搜索需求；
• 满足搜索关键词和内容的多样性特点，可根据用户行为优化排序，实现个性化搜索；
例如:
a. 搜索“吃鸡”，可能是游戏吃鸡内容搜索，也可以能是新闻内容搜索；
b. 用户点赞过的店铺优先排序出现；

功能介绍：
tag_match : 用于对查询语句和文档做标签匹配，使用匹配结果对文档进行算分加权。涉及query和文档匹配的很多需求都可以使用或者转化为tag_match来满足,对实现搜索个性化需求尤其有用。

产品文档：https://help.aliyun.com/document_detail/51259.html?spm=a2c4g.11186623.6.618.28f833251UOr7V

适用场景
内容搜索：
一个大型的综合性论坛，帖子可以被打上各种各样的标签(搞笑，体育，新闻，音乐，科普…)。我们在推送给开放搜索的文档中，可以为每个标签赋予一个标签id（例如搞笑-1，体育-5，新闻-3，音乐-6…), 然后通过一个tag字段存储这些标签。如果我们对帖子做过预处理，甚至能得到每个帖子每个标签的权重。
例如：

一个搞笑体育新闻的帖子可以得到搞笑的权重为0.5，体育的权重为0.5，新闻权重为0.1，则这个帖子的tag字段的值为[1 0.5 5 0.5 3 0.1]对会员用户，通过长时间的积累，我们能获知每个用户的兴趣标签。
用户是nba_fans，对体育和搞笑很感兴趣，他对应的体育和搞笑标签的权重分别为0.6和0.3。那么这个用户查询时，我们就可以通过kv_pairs子句把这个信息加到query里面。假如这个kv_pairs子句名字为user_tag, 那么nba_fans的user_tag的值5=0.6:1=0.3。这样，我们只要在精排表达式中配置了tag_match(user_tag, tag, mul, sum), 我们就能够实现对用户感兴趣的帖子加权，把用户更感兴趣的帖子排到前面。
nba_fans搜索到上面那个帖子时，搞笑和体育这两个标签能够匹配到。通过指定kv_op参数为mul，我们会把query和doc中的值相乘，他们各自的计算分数分别为（体育：0.5 * 0.6 = 0.3, 搞笑：0.5 * 0.3 = 0.15)。通过指定merge_op参数为sum，我们会把体育和搞笑的分数加和（0.3+0.15 = 0.45），这个加和的分数会加到最终的排序分数上。这样，我们就能够实现了对这个用户感兴趣帖子的排序加权。

商品搜索：
商品可以具有多个属性标签，例如1表示年轻人（年龄）、2表示中年人（年龄）、3表示小清新（风格）、4表示时尚（风格）、5表示女性（性别）、6表示男性（性别）等。

假设我们只想表示商品有没有某个标签，不想区分哪个标签更重要。这个标签通过options字段来保存。那么年轻时尚女性的衣服的options字段可以表示为[1 4 5], 注意这里只有标签key，没有value。用户也都有自己的属性标签，和商品标签对应。例如年轻女性用户，历史成交中多购买小清新风格衣服。这该用户的查询可以写为user_options=1:3:5。注意这里kv_pair中也是只有标签key，没有value的。
要实现对符合用户标签喜好的商品加权，我们可以在formula中使用tag_match(user_options, options, 10, sum, false, false)。这里我们通过user_options和options指定了query和doc的标签信息。kv_op设为常数10，表示只要有标签匹配到，那么匹配的计算结果就是10。has_default为false，表示我们不需要初始值。doc_kv为false，表示我们doc中只存储了key信息，没有value。这样，上面的年轻女用户查询到上面的衣服时，女性和年轻两个标签能够匹配上，这两个标签的计算结果都是10。通过sum这个merge_op，能够得到这件商品的最终加权分数为20。通过这种方式，即使我们没有标签的权重信息，也能够实现对匹配到的文档做排序加权。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行