@一剪没
@一剪没
关注的小组(1)
动态 帖子 1 评论 0 短评 0 收到的赞 2 送出的赞 0
  1. 一剪没   在小组 2047 发布问题

    设计一种字体或者文字组织方式,使之能够以较高的概率使社交平台的文字识别系统误判(将敏感词识别为非敏感),会对改善当前恶劣的网络环境有帮助吗?

    因为帖子数量巨大的原因,社交平台的审核系统肯定会优先采用机器审核来初步进行筛选敏感文章。如果文章是文本形式,这个真没法。但如果是将文章保存为图片,那么机器审核肯定需要调用文字识别系统。而文字识别存在一个准确率的问题。所以,我对某中文字体文件进行了一些字形上的改变。这样文字识别系统会将它识别为其他的错误内容。我测试过一些简单的段落(例如从网上摘抄的100来字的新闻段落),文字识系统会输出类似于“近后,来多C3F法持高,知口口以生气EAT310地如山出四小A5行所,1的的营小与台上HE三口尔571区出”这样的结果,可以说对文章语义的伪装率能有99%。

    但这种方式的缺点也很明显。首先,这无非就是类似于自己创了一个字体,如果对方想要识别,无法就是再生成一个针对该字体的神经网络而已(虽然我准备了其他方法)。而假如真的有人用这样的方式发文章,社交平台事后肯定还会结合ip、举报、封号等方式来处理。 所以我也一度怀疑,我想的这些方法是否真的能够有意义,或者至少让人在生死关键时候能够把一些内幕消息传播出来。 我想请大家帮忙分析一下,这种方式是否可行? 另外是否有人了解商业公司训练和部署一个覆盖全国的用于文字识别的神经网络至少要多长时间?