首页 > 网站建设 >

网站建设公司如何使用文本匹配进行网站信息过滤

发布时间:2020-04-13 作者:网站建设

  网站建设公司如何使用文本匹配进行网站信息过滤,文本匹配主要解决敏感词过滤的问题。通常网站维护一份敏感词列表,如果用户发表的信息含有列表中的敏感词,则进行消毒处理(将敏感词转义为***)或拒绝发表。
  那么如何快速地判断用户信息中是否含有敏感词呢?如果敏感词比较少,用户提交信息文本长度也较短,可直接使用正则表达式匹配。但是正则表达式的效率一般较差,当敏感词很多,用户发布的信息也很长,网站并发量较高时,就需要更合适的方法来完成,这方面公开的算法有很多,基本上都是Trie树的变种,空间和时间复杂度都比较好的有双数组Trie算法等。
  Trie算法的本质是确定一个有限状态自动机,根据输入数据进行状态转移。双数组Trie算法优化了Trie算法,利用两个稀疏数组存储树结构,base数组存储Trie树的节点,check数组进行状态检查。双数组Trie数需要根据业务场景和经验确定数组大小,避免数组过大或者冲突过多。
  另一种更简单的实现是通过构造多级Hash表进行文本匹配。假设敏感词表包含敏感词:阿油、北京、北大荒、北风。那么可以构造过滤树,用户提交的信息逐字顺序在过滤树中匹配。过滤树的分支可能会比较多,为了提高匹配速度,减少不必要的查找,同一层中相同父节点的字可放在Hash表中。该方案处理速度较快,稍加变形,即可适应各种过滤场景,缺点是使用Hash表会浪费部分内存空间,如果网站敏感词数量不多,浪费部分内存还是可以接受的。
  有时候,为了绕过敏感词检查,某些输入信息会被做一些手脚,这时候还需要对信息做降噪顸处理,然后再进行匹配。深圳网站建设公司本文关于“网站建设公司如何使用文本匹配进行网站信息过滤”的知识就介绍分享到这里,谢谢关注,博纳网络编辑整理。
文章标题:网站建设公司如何使用文本匹配进行网站信息过滤
本文地址:https://www.198bona.com/news/5932.html
如果您觉得案例还不错请帮忙分享:

网站建设

网络推广

解决方案

域名主机

建站行业资讯