我想到一个有用的工具,但自己懒得动手。看看谁有兴趣做:
用途:敏感词解码。
刚刚看到墙内有些网站敏感词屏蔽得丧心病狂,例如:给你量一××温,其实这个很容易破。思路如下:
1、学习大量语料,只要把语料里所有连续二至六个字的串(不含标点)都存下来,每个串出现的频率可以不存。
语料可以偏向特定的类型,例如你特别喜欢小黄文,可以开展专项学习。
2、要维护一个长度不超过四个字的敏感词库。
3、开始匹配:对敏感文中每个敏感词的位置,用所有长度相同的敏感词来替换,替换后从语料库评估是否符合语言习惯。这样就能很快解码敏感词了。
在小概率下,可能有多个敏感词都解得通,这时不妨把它们都列出来,读者自然知道该怎么选。
谁有兴趣快来做吧,最好做成网页,我等着用现成的。