@mountainsea
@mountainsea
发完10个帖子,账号保持静默。账号是隔壁佛学院共用的,写的东西跟我无关,请领导不要上山下海找我。
关注的小组(1)
动态 帖子 0 评论 10 短评 0 收到的赞 13 送出的赞 4
  1. mountainsea   在小组 2047 回复文章

    新西兰的华人政治活动家遇车祸近丧命,背后的故事

    @dididi #6846824

    小二因为我的一些努力而脱离出去单干

    说真的,我还真不知道小二脱离还有你的一份努力。我怎么记得你出走“新”品葱几个月以后小二才退出的?

    我虽然觉得你写的东西很有趣,我们的信息源和消息源完全不重合,看你的东西还能知道另外一个角度的看法,但是我以后还是避开你算了,毕竟你说过

    因为凡是我认识的,似乎都要倒霉。

    knocking on wood

  2. mountainsea   在小组 2047 回复文章

    挖坑已填——人民英雄紀念碑(誠實wiki)

    @NodeBE4

    你的几个项目都很不错,观点和外媒两个项目我也常常去扫一眼看看有没有我感兴趣的报道。我本来对你的新闻站有比较高的期望,也许能变成中文的hacker news,可惜了。

    我还是建议你尽量注册一个一级域名,从exposure来说会比现在用github的二级域名来说要好很多。从工程量上来说,你只用把你现在在github的指向转发给你的一级域名就好了(搜索一下custom domain for github pages site)。

    当然,注册一级域名牵扯到付费,需要当心一点,不过可以一次注册管10年,应该还好。你可以衡量一下benefits vs. risk。

    我还是很看好你的行动力和一些务实的点子的。加油!

  3. mountainsea   在小组 2047 回复文章

    ==== 阿 拉 斯 加 ==== (康 复 俱 乐 部)

    This is cute.

    PS:俱乐部不错。支持一下。

    PS 2:好像大家都用大学的logo做头像,我也凑个趣。


    re: @rebecca #6495695 直接回复一下,省一个帖子。既然网站的logo都是大学,那就更好了。【立人】这个名字不错。己欲立而立人,己欲达而达人,己所不欲,勿施于人,很有儒学之风(PS,想起了卜学亮唱的子曰中的一段)。

  4. mountainsea   在小组 2047 回复文章

    上海市共产党员信息XLSX修复及还原【压缩包下载】

    @libgen #5440847

    这个对匿名用户很方便,同意这个,估计站长的to do list要爆了。

  5. mountainsea   在小组 2047 回复文章

    匿名论坛安全tip汇总贴

    “墙内用户用VPN+Tor,墙外用户至少用Tor访问本站,一律公开宣称自己用Tor。”

    ref: https://be4.herokuapp.com/topic/269/%E5%8F%8D%E7%A4%BE%E5%B7%A5%E7%BD%91%E7%BB%9C%E8%AE%BA%E5%9D%9B%E8%A1%8C%E4%B8%BA%E7%BA%AA%E5%BE%8B

    还有一些其他建议,大多数我都同意。最重要的是不要实时对线,同时把“尽量发没有营养的话”并且“试图激怒其他用户”的ID当作五毛,目的不是抓五毛,而是不要落入五毛信息污染论坛的陷阱。



    以下,在原帖中直接回复你们了。我个人的习惯是每个ID发言不超过10个帖子,这样可以省一个贴。


    re: @穿鞋的企鹅 #6230464

    混淆时间和日期的用处是在于提高国宝们找到你作息习惯的成本,但是如果国宝们真的花时间,还是能找到(option 1:扫描新帖,建立time stamp,通过对照来找到精确发帖时间;option 2:@thphd 写的也可以 )。但是如果不混淆,国宝直接query就出来了,方便很多。

    把发帖的具体时间移除,只显示日期

    还是不错的建议,但是估计需要重写帖子的排序方法。不记录具体发帖时间,而是给每个回帖一个non-decreasing 的 post/reply ID,通过ID序列而不是发帖时间来排序(i.e., sort via actual time --> sort via relative order)。其实都可以不用显示真实日期,加noise也行。看需求了。

    另外,其实 @三点五英寸软盘 提到的信息很好,有时间去看看很有帮助,可惜有点零散,不能直接spoon给其他人。


    re: @Neko #6372512

    当我们花时间在Feeding the troll的时候,就落入了圈套

    就是这个意思,不用实时对线,信息交换不用实时。实时交流很容易有情绪上的激动,不管是说出了不该说的话还是feeding the troll,都不美。

    不知除了任他沉之外,还有什么更好的方法。

    其实我想过用NLP写一个模拟水贴和机器人贴的东西,工具都是成熟的,可是data collection/clean和training太麻烦(PS,突然想到也许可以考虑用GAN来减少data的需求)。加上自己太懒,没有商业价值,没去搞。也许等到vacation,可以revisit一下。

    如果这个东西搞出来,在上面叠几层 NN用来给每个帖子打一个相似分,分数高的和水贴近,分数低的不像水贴。然后改一下网站code,把分数高的帖子显示ID但是自动隐藏发帖内容(需要查看内容点击一下就好)。这样一来可以极大减少水贴的exposure,发水贴人就没有什么incentive发帖了。当然,坏处是,有可能有type 2 error,把不是水贴的当成水贴隐藏;从而打击发帖人,然后发帖人找管理员,让管理员不厌其烦...... 也许需要长时间的调试来达到平衡,有兴趣可以找个人专门搞搞看。

  6. mountainsea   在小组 2047 回复文章

    上海市共产党员信息XLSX修复及还原【压缩包下载】

    遇到问题就不用写query了,直接做一个页面,list anonymous posts in last 24 h, join user with uid

    想象一下这个帖子中有11个回帖:


    1 posted by User A

    2 posted by User B

    3 posted by User A using anonymous ID

    4 posted by User D

    5 posted by User E using anonymous ID

    6 posted by User A using anonymous ID

    7 posted by User B using anonymous ID

    8 posted by User D

    9 posted by User G using anonymous ID

    10 posted by User A using anonymous ID

    11 posted by User A


    scenario alpha: 这其中 post 6和 post 10在是User A在spam,但是中间隔了其他两个人的anonymous post,也许没有连续看到,我们不会发现A在spam;

    scenario beta: post 9和 post 10在是两个Users在发言,也许我们直接觉得如果是同一个人在发言,那么他们可能是在spam,直到我们后台发现他们其实是两个不同的ID,才发现是coincidence;

    scenario gamma: A和D在posts 3,4, 6,8中交流;但是在post 7中B用同样的匿名ID插了一句话,D以为是A说的,认为A对他有敌意,开始骂人;但是其实post 7并不是A说的。

    其他的scenarios其实还有很多(试试站在一个想搞乱论坛的人的角度,如何浑水摸鱼制造混乱),统一的匿名ID在coding实现上比较省事,但是带来的之后的审查以及监督的工作量会很大,从而导致没人想管,最终使得统一的匿名ID被滥用是可以被预见到的。


    最后,还是那句话,不用把这个需求放在首位,你应该还有更加high priority的list。匿名的需求从be4的论坛来看,我大概能看到还有3-4个和我一样有需求的人,但是他们和我一样,并不是常常泡网的。现在常常上网的人,可以增加人气的人,在我看来还是用特定的ID的人为主,满足他们或者相类似的人的需求更为重要。在初始阶段,人不多的时候,匿名还是不匿名对隐藏语言和能力指纹没有太大的帮助;所以等到论坛人气足了,在考虑我们这种很在乎匿名的人的需求也不迟。

    最最后,早点公网上线,对这个网的人气更有好处。

  7. mountainsea   在小组 2047 回复文章

    上海市共产党员信息XLSX修复及还原【压缩包下载】

    除非有正式注册用户approve这个发言。同时是谁approve、什么时候approve,系统不作记录。

    这个加大了用户的人工成本,需要人去看和识别这些匿名发帖。需要一批无私的人持续地去审核匿名发帖,人工anti-spam。如果没有这批人,那么最后还是主ID来approve匿名ID的发帖,如果有记录的话和实名发帖没有区别。

    如果启用临时记录,怎么保证站长只保留24小时+他人不可见?

    off the top of my head,两个密匙由站长和另一个非站长ID掌握,需要阅读临时记录anti-spam,两份密匙同时解码还原临时记录。以此来保证临时记录不被重复保存和滥用。当然,这个方法人工成本还是不小,我相信还有其他人工成本更低的方法,大家可以集思广益。

  8. mountainsea   在小组 2047 回复文章

    上海市共产党员信息XLSX修复及还原【压缩包下载】

    使用一个唯一uid的 [ √ 匿名发帖] 选项的问题在于无法与特定的某名匿名者在一段时间多次交流。比如主账号A使用匿名账号X和主账号B交流,这是主账号C也使用同样的匿名账号X在于主账号D交流,在同一个帖子中B和D是不能区分A和C的,会带来短暂交流混乱。我之前提出的使用短期绑定匿名账号的方法是为了解决这种情况:A绑定X_1匿名账号12小时,C绑定X_2匿名账号12小时;因为现在匿名账号可以唯一识别,那么么A和B的交流可以继续下去,C和D的交流也不会受到阻碍。

    另外还有一个anti-spam工作量问题。如果只有一个uid的 [ √ 匿名发帖] ,那么如果在一段时间内出现spam,需要站长用query去查询临时记录确定这段时间是谁发了什么帖子,然后再区分特定的人在某个帖子中前后发帖的逻辑中是否存在spam的故意意图;如果有多个人使用匿名发帖,需要人工来区分那些发帖是这个特定的人发的;这个人工的成本太高。短期绑定一个匿名ID可以去掉这个识别特定的人的ID的人工成本。

  9. mountainsea   在小组 2047 回复文章

    上海市共产党员信息XLSX修复及还原【压缩包下载】

    给自己发邀请码,就像你说的有两个问题:如果数据库没有记录,那么邀请码制度名存实亡(一只mole就可以引入万千水军);如果数据库记录而且可查询,那么新账号和老账号之间还是直接联系,做不到匿名(就算加密数据库记录,但是这种长期记录和历史记录被解密以后还是有问题)。

    关于anti-spam的东西,没有什么新意,但是现有的工具这两个链接写得不错:

    https://wordpress.stackexchange.com/questions/54465/allow-anonymous-comments-but-prevent-spam

    https://wpforms.com/how-to-build-spam-free-wordpress-contact-forms-the-ultimate-guide/#honeypot

    我记得编程随想也试验过一些,我有点记不清了。

    我自己的想法比较麻烦:1. 系统自动reserve一部分固定的匿名账号(比如,小号海1~小号海9)作为令牌;2. 有需要的用户申请令牌; 3. 在一定规则下(比如,老用户或者是管理信任的用户,或者是其他规则),系统自动同意或者拒绝申请;4. 如果同意申请,那么系统自动random给予申请者一个令牌(比如,小号海5)12小时(或者更短,或者更长),并自动生成一个密码; 在这12小时中,密码有效,12小时之后,密码失效 (如果用户12小时之后还需要匿名令牌,重新申请,并且random给一个新的令牌;之前的老令牌在接下来12小时内不再分配给其他人,原因在接下来的第5点);5. 系统关联记录当前申请者主账号和得到的令牌,暂时储存在“缓存”中加密保存12+12小时(anti abuse:站长可以在这24小时内通过密匙读取,并且对令牌所有者的主账号进行处罚;当然如何确保只保存24小时,如何确保其他人不能读取可以再聊)。

    固定多个匿名账号的原因有二:。首先是之前anti abuse的原因,固定的匿名账号可以短期把发帖人和原作者联系起来;其次同一个令牌可以在不同时段频繁被不同人使用,增加被标注识别的难度。

    当然,这个方法也不是完美的,但是它会极大增加国宝收集training data的麻烦。而且兼顾了anti abuse。

    不过也许你或者其他人能有更好的方法?我抛砖引玉了。

    最后,这些东西能否成,都有一个前期,这个网站人气不错,有匿名需求的人足够多。不然,你的机制再好,没有足够喜欢匿名的人玩,最后还是所有匿名的人都是一个人,那么匿名和不匿名没什么区别了。现在我的需求不重要,你来完善网站,吸引人气更重要。等比较多的人有匿名需求,再考虑不迟。

  10. mountainsea   在小组 2047 回复文章

    上海市共产党员信息XLSX修复及还原【压缩包下载】

    补充一下信息:这个文件是16年就发过的;资料是真实的;有一些人已经去世了。