11月15, 2020

基于腾讯云Elasticsearch搭建QQ邮箱全文检索

导语 | 随着用户邮件数量越来越多,邮件搜索已是邮箱的基本功能。QQ 邮箱于 2008 年推出的自研搜索引擎面临着存储机器逐渐老化,存储机型面临淘汰的境况。因此,需要搭建一套新的全文检索服务,迁移存储数据。本文将介绍 QQ 邮箱全文检索的架构、实现细节与搜索调优。文章作者:干胜,腾讯后台研发工程师。

一、重构背景

QQ 邮箱的全文检索服务于2008年开始提供,使用中文分词算法和倒排索引结构实现自研搜索引擎。设计有二级索引,热数据存放于正排索引支持实时检索,冷数据存放于倒排索引支持分词搜索。在使用旧全文检索过程中存在以下问题:

  • 机器老化、磁盘损坏导致丢数据;

  • 业务逻辑复杂,代码庞大晦涩,难以维护;

  • 使用定制化kv存储,已无人维护;

  • 不存储原文,无法实现原生高亮;

  • 未索引超大附件名。

旧的全文检索在使用中长期存在上述问题,恰逢旧的存储机器裁撤,借此机会重构 QQ 邮箱的全文检索后台服务。

二、新全文检索架构

Elasticsearch 是一个分布式的搜索引擎,支持存储、搜索和数据分析,有良好的扩展性、稳定性和可维护性,在搜索引擎排名中蝉联第一。

点击查看原文>

本文链接:https://blog.jnliok.com/post/uyBDHOhJDKj8TeZDqHlx.html

-- EOF --

Comments