问答
技术

设计一种字体或者文字组织方式,使之能够以较高的概率使社交平台的文字识别系统误判(将敏感词识别为非敏感),会对改善当前恶劣的网络环境有帮助吗?

因为帖子数量巨大的原因,社交平台的审核系统肯定会优先采用机器审核来初步进行筛选敏感文章。如果文章是文本形式,这个真没法。但如果是将文章保存为图片,那么机器审核肯定需要调用文字识别系统。而文字识别存在一个准确率的问题。所以,我对某中文字体文件进行了一些字形上的改变。这样文字识别系统会将它识别为其他的错误内容。我测试过一些简单的段落(例如从网上摘抄的100来字的新闻段落),文字识系统会输出类似于“近后,来多C3F法持高,知口口以生气EAT310地如山出四小A5行所,1的的营小与台上HE三口尔571区出”这样的结果,可以说对文章语义的伪装率能有99%。

但这种方式的缺点也很明显。首先,这无非就是类似于自己创了一个字体,如果对方想要识别,无法就是再生成一个针对该字体的神经网络而已(虽然我准备了其他方法)。而假如真的有人用这样的方式发文章,社交平台事后肯定还会结合ip、举报、封号等方式来处理。 所以我也一度怀疑,我想的这些方法是否真的能够有意义,或者至少让人在生死关键时候能够把一些内幕消息传播出来。 我想请大家帮忙分析一下,这种方式是否可行? 另外是否有人了解商业公司训练和部署一个覆盖全国的用于文字识别的神经网络至少要多长时间?

菜单
  1. 差生文具多  

    你说的这种技术已经有了,叫做反爬虫字体,简单来说就是自己定义一套CSS,网页中实际的字体编码则是私有编码(不仅是私有编码,还会定期更换,加大爬取难度)。网页渲染的时候,根据私有编码画出文字,爬虫只能爬到乱码。

    另外是否有人了解商业公司训练和部署一个覆盖全国的用于文字识别的神经网络至少要多长时间?

    OCR的准确率没有想象中那么高,特别是文字存在排版、有干扰的情况下准确率更低,达不到实用水平。如果一定担心OCR,在图片上划一些线即可,做法类似验证码。

    我的建议是不要想着去和国内的审查系统做斗争,普及便易的翻墙手段才是王道。无论开发出怎样的混淆方法绕过机器审查,最终都过不了人工审查这一关。换句话说,你的战友能看懂的,审查人员也能看懂,更不用说审查方还可以用事后惩罚等措施无限推高发言的机会成本。

    1. natasha 饭姐

      谢谢介绍,学习了!

    2. 但是在墙内普及翻墙手段本身就需要绕过审查

  2. skflew 47绿帽子王
    skflew  

    这个东西需要作者加密,读者解密。 也许平台都不会用什么神经网络解密分析,直接封锁这种ORC后无法识别语义的图片。

    关键内幕可以学习斯诺登用加密邮件发给记者。

    No 平台,No Masters

    1. 这样误伤率很高的,OCR后无法识别语义可能意味着图中的根本不是文字。

  3. 邹韬奋 外逃贪官CA
    邹韬奋   虽然韬光养晦,亦当奋起而争(拜登永不为奴:h.2047.one)

    最简单的反爬虫方法就是限定某部分数据“登录后可见”

  4. libgen 图书馆革命
    libgen   天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。

    消息还是能发出来的,问题是存活时间太短了,热度达到一定阈值还是会被删。

    所以我认为应该学习海外盗版网站规避审查的策略,给「简中赛博坟场」或「中国数字时代」制作大规模免翻墙镜像,方便普通网友浏览。像这个教你制作海盗湾镜像一样,希望有人能分享怎么部署中国数字时代镜像的方法(附代码),方便大家利用herokuapp等免费服务部署镜像。

    另外传递文本信息推荐 @Vendetta 分享的【小工具】PrivateBin 加密信息板,支持阅后即焚。

  5. douah  

    可行性低,原因有二:一是用户达到一定数量后才会引起关注对字体有审查手段。 二是字体无法普及。 墙外的交流就足够了。