4亿条短消息(大概300字以内的文本内容),敏感词主要是网警给的政治敏感词,几千词左右。采用了Double-ArrayTrie查找和集群map-reduce去执行任务。简直是分分钟搞定呀。还有,github有个php扩展,实现了敏感词查找。blog.41ms.com/post/39.html我用这 ...
4亿条短消息(大概300字以内的文本内容),敏感词主要是网警给的政治敏感词,几千词左右。
采用了 Double-Array Trie 查找 和 集群 map-reduce 去执行任务。简直是分分钟搞定呀。
还有,github有个php扩展,实现了敏感词查找。
blog.41ms.com/post/39.html
我用这个扩展和swoole,做成了在线服务,实时过滤文本。
blog.41ms.com/post/41.html
在生产环境已经运行快2年,非常稳定高效。
采用了 Double-Array Trie 查找 和 集群 map-reduce 去执行任务。简直是分分钟搞定呀。
还有,github有个php扩展,实现了敏感词查找。
blog.41ms.com/post/39.html
我用这个扩展和swoole,做成了在线服务,实时过滤文本。
blog.41ms.com/post/41.html
在生产环境已经运行快2年,非常稳定高效。