是谁泄露了隐私信息? 可能是你的简历。
虽然号称金三银四,但最近打算跳槽的苏大强(热点化名)在各招聘平台上打出了自己的简历。 有人知道两天后接到了18个骚扰电话吗? 其中只有两个人来自猎人。
在接到第18个推进贷款骚扰电话后,苏大强崩溃了。 是谁? 又是谁的TM泄露了我的信息,没钱不贷款还不了吗!
你有没有想过数据泄露可能来源于那份简历?
张巧达先一起说新闻。 日前,网上有爆料称,简历大数据公司北京巧达科技被查获,全员被捕,随后部分员工获释。
3月24日,三言财经也实地探访了巧达在中关村的办公室,但大门被封条封住,办公室内空无一人。 该贴纸由中钢国际广场保安部张贴,时间为2023年3月14日。
于是有人好奇,这家公司做了什么突然关闭了?
公开信息显示,巧达科技拥有中国最大的简历数据库,其主要数据来源是“乔大招”。 乔先生拥有“爱伴侣”、“简历时光机”等10多个招聘相关产品。
“乔大招”可以通过一个工具将多个招聘网站的账号信息汇总在一起,企业客户可以批量发布职位、接收简历; 然后,该工具可以抓取简历修改历史记录,查看对应简历被浏览的次数、修改记录等信息; 不仅如此,还可以将简历上传到平台,供其他企业和猎头使用。
合作伙伴是提供“员工离职预测”的工具软件,可以检测员工简历的投递、员工简历的更新状况、员工简历被浏览的次数等信息。 企业用户购买合作伙伴后,可以通过查看收集到的简历数据来确定公司员工的离职倾向。
简而言之,向这个上司打小报告的软件可能会事先知道哪个员工有离职的想法。
截至2015年6月30日,在Jojo招聘的数据库中,按人为计算,收入自然人的简历超过1.6亿人。 按版本计算,简历超过18亿版本,超过25亿行动轨迹。 不能说你精心准备的简历就在其中!
这些数据被这家公司用来获利,有时也会收集与违规有关的个人信息。 贴纸一帖,巧达凉凉。
但是,一个“巧达”倒下了,其他的“巧达”站了起来,聪明地采用SaaS系统的简历公司穿着虚伪的外套,暗中进行吸血活动。
智能招聘SaaS系统窃取招聘网站简历数据有什么手段?
1 .利用公开数据,用爬行工具攀登
2 .在合法账户内部获取数据
3 .利用网站平台漏洞访问系统获取数据。
其中,爬行动物技术使用最广泛。 因为网站没有漏洞,只要模拟正常的用户访问操作就可以抓住。
瑞数资讯CSO马蔚彦告诉雷锋网,一般黑产通过脚本、自动化框架、手机等工具进入招聘网站平台,通过分析招聘网站界面,这些工具会自动输入搜索关键词、页面后期爬行动物还可以结合定时机制进行简历数据的定时获取更新。
这种爬虫技术与爬各网站低价机票本质上是一条出路,不同之处在于机票是全公开的,任何人都可以看到。 但是,有些简历数据需要登录或付费查看。 在这种情况下,爬行动物组织需要囤积大量账户以获取简历。
这些账户是从哪里来的? 于是,出现了提出智能招聘SaaS系统的简历公司,声称其SaaS产品“只需一个HR就可以管理多个平台公开的职位和收到的简历”,只需登录一个平台就可以完成所有渠道的履
购买该产品后,HR拿到的各大招聘平台的付费账户已被简历公司掌握。
现在很多招聘网站的商业模式包括付费下载简历进行收费。 几万元就可以下载几千份简历,可以看到该招聘网站上无限的简历。 )
我问了一个做爬虫技术的朋友,他说用爬虫技术抓住简历一般要解决四个问题。
1 .登录问题需要购买几个账户
2 .破解登录验证码
3 .购买IP代理、切换IP
4 .请控制爬行动物的速度。 登录后,一般网站的后台都会记录日志,如果抓得太多就会被屏蔽。
销售给HR的智能招聘SaaS系统解决了前三个问题,可以让非法的东西合法,解读账户成为买卖服务。 这个操作,这个脑洞,编辑感叹道。
有了账户,之后的操作会更简单。 利用HR的账户主机,SaaS方面可以获取各大招聘平台的简历信息并实时修改。
马蔚彦说,这个实时可以分为实时和准实时。
实时:如果HR在招聘网站上进行简历搜索,它会显示您的本地数据,并将搜索请求转发到其他招聘网站的搜索界面进行数据检索。 另外,还可以智能核对爬上来的数据,更新简历。
准实时:每个简历在招聘简历中都有唯一的ID,爬行动物可以定时以ID为参数进行简历数据的获取。 也就是说,如果更改简历,对方就会接收数据,并同步更改。
这个时候,你的简历还属于你吗?
胡克的黑产潘多拉盒子没有打开时很平静,放在黑盒子里的简历数据也一样。
你的简历里有什么信息? 生日、电话号码、地址、身份证信息、工作经历……这些细节不会再有数据流通了。 可能会卖给大数据分析公司,卖给猎头公司,卖给贷款公司,或者卖给诈骗组织,这些都是黑产的一环。
信息裸奔的你可能接到了n个骚扰电话,但你可能不知道问题来自简历。
即使没有这些以智能招聘SaaS名义的公司,简历也安全吗?
不,确实,邦盛科技产品总监焦林俊告诉雷锋网,某国内顶级招聘平台,部分大型商户(收费大户)利用招聘平台账号密码,登录后台用爬虫数据
之后,把拿到的简历放入自己的数据库,在适当的时候把这些简历数据销售给需要的机构,就相当于二道贩子。
哪个公司,大家可以自由推测。
逆爬很难招募公司面对各种爬虫技术是否具备逆爬技术吗?
“目前还有一些抗爬虫技术,比如验证码、IP黑名单、频率限制、IP限制、一个账号能读的量、需要购买、用户代理控制等手段进行一定的限制等。 但是,越来越多的高级爬行动物利用了大量的代理IP,与实际浏览器访问的环境具有很高的相似度,在面对传统的高级爬行动物时几乎无能为力。 ”马蔚彦说。
焦林俊表示,招聘网站确实有反爬虫技术内置了前端加密、后端大数据分析、机器学习等技术。 但是,大型店铺获取数据行为的招聘网站也很头疼,迫于收入压力,所以不采取直接监听的措施。 此外,通过后台数据分析谁攀登了数据,然后针对每个对象采取相应的反向攀登措施。
目前爬虫技术仍处于灰色地带,对利用爬虫技术获取公开数据这一行为的正误在认知上也存在差异。 现在,更多的是道德方面而不是法律方面。 例如,遵循robots、尽量降低攀登速度、减轻数据提供查询网站压力、不引发拒绝服务、不公开爬虫程序源代码、不共享爬虫数据
(注) robots是站点和爬行动物之间的协议,通过简单直接的txt格式文本告诉相应爬行动物允许的权限。 这意味着robots.txt是搜索引擎访问站点时显示的第一个文件。 当搜索蜘蛛访问某个站点时,它会首先检查该站点的根目录下是否存在robots.txt,如果存在,搜索自动机会根据该文件的内容确定访问范围;如果不存在,则全部)
但这些在马蔚彦看来,缺乏法律保障的约束力非常弱。
随着个人和企业的数据资源越来越多,提供这些数据的平台和系统也越来越多,通过树立正确的爬行动物观念、提高反爬技术手段、建立合理的爬行动物法律法规等多方面的综合努力,可以更好地抵御恶意爬行动物
对最终用户来说,除了接到手软的骚扰电话外,似乎完全无法感知。
焦林俊表示,用户应该避免在不安全的招聘网站上发布简历,遇到电话中说自己是猎头需要提供本人完整信息的说法也不要轻信。 对于招聘网站,要从业务层面进行规范,建立自己的反爬虫平台,利用大数据分析、基于访问行为的特征提取、设备指纹、人机识别、环境检测等先进的反爬虫技术识别人和机器。 这样可以消除验证码等降低用户体验的操作,也可以避免对用户有价值的信息被窃取。
不要反向登山,误伤正常用户。 这是反向爬行动物技术的关键。 和爬行动物永远对抗,没有胜负。
作者:又田先生
来源:三言财经
原文链接: https://MP.weixin.QQ.com/s/9 aog hhuqlx 8z9lungxbq
本文来自人人网产品经理合作媒体@雷锋网,作者@又田
标题来自Unsplash,基于CC0协议。