【K哥爬虫普法】字节前高管,离职后入侵今日头条数据库,是阴谋、还是利诱?

news/2024/7/19 9:47:14 标签: 爬虫, JS逆向, python, javascript

00

案情介绍

2016年至2017年间,张洪禹、宋某、侯明强作为被告单位上海晟品网络科技有限公司主管人员,在上海市共谋采用技术手段抓取北京字节跳动网络技术有限公司(办公地点位于本市海淀区北三环西路43号中航广场)服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。

上海晟品网络科技有限公司系有限责任公司,经营计算机网络科技领域内的技术开发、技术服务、电子商务、电子产品等业务。张洪禹系上海晟品网络科技有限公司法定代表人兼 CEO,负责公司整体运行;宋某于担任联席 CEO,系产品负责人;侯明强担任 CTO,系技术负责人;郭辉系爬虫工程师。张洪禹、宋某、侯明强经共谋,于2016年至2017年间采用技术手段抓取北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯明强指使郭辉破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制。

法院观点

上海晟品网络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处。

判决情况

一、被告单位上海晟品网络科技有限公司犯非法获取计算机信息系统数据罪,判处罚金人民币二十万元;

二、被告人张洪禹,公司法人,判处有期徒刑一年,缓刑一年,罚金人民币五万元;

三、被告人宋某,公司联席 CEO,判处有期徒刑十个月,罚金人民币四万元;

四、被告人侯明强,公司 CTO,判处有期徒刑十个月,罚金人民币四万元;

五、被告人郭辉,公司爬虫工程师,判处有期徒刑九个月,罚金人民币三万元。

判决文书

https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=MPLip4EWDjh9zFMynhJEDY2kWOpbFwvZtPEdVrbJScMcXmVREqnhq5/dgBYosE2gc2cTGVpSTHaQan7hFsr1Z6mYwI6RzsnUzvVPy0+MTg3rOSlgqYAVDwEt8REDgSY9

案例分析

本案中上海晟品网络科技有限公司,采用技术手段获取今日头条服务器中存储的数据并存储到自己的数据库中,内容包括头条号视频列表、分类视频列表、相关视频及评论三个接口,符合我国《刑法》第二百八十五条关于非法获取计算机信息系统数据罪的认定:“违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重”。

当然,有人会问了,视频及评论都是正常用户可以看到的公开数据,爬取为什么会触犯法律?这里需要注意的一点是”信息公开不等于数据公开“,就像政府信息公开主要在保障公众的知情权,知情并不等于获得,获得也不等于可利用,真正意义上的数据开放主要是指原始数据的开放。头条号之所以将视频信息内容允许用户观看,无非是网站或平台吸引用户的一种商业操作,并不意味着用户可以永久地享有该视频信息内容,具体到本案,今日头条采用的是流媒体技术播放,用户在观看视频时需要同时缓存该视频,但是观看完毕后,该视频的数据文件也随即消失。缓存与复制下载的区别在于,缓存意味着断电即无,而复制下载则意味着可以永久保存。因此,网站采用流媒体播放这一技术本身即意味着视频数据的非公开性,也同时意味着行为人爬取其视频文件的非法性。反之,如果网站允许用户复制、下载视频,或者说并未采取技术措施对视频数据予以保护,则意味着视频数据的公开,即使是行为人采用爬虫技术一次性大量抓取数据,也由于数据的公开性而丧失了刑法规制的必要性。

值得探讨的是,晟品网络公司在数据抓取的过程中,虽然使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制,但并不属于破解系统登陆密码或利用系统安全漏洞的爬虫行为,只是让反爬虫措施无法识别,本身并不具有刑法上的违法性,被告是否通过冒用用户 ID 并破解密码等方式进行未经授权的访问,无法得知,如果仅仅是设备 ID、UA、IP 的变换,本文认为并不具有特定的刑法意义,判决文书中也并未对此进行详细的描述。

反爬机制主要是针对网络爬虫的技术特征而对其实施的反制。网络爬虫的技术本质在于模拟人工手动点击从而可以一次性大量地获取数据信息,因此一般反爬机制的主要目的并非禁止对方对于网站或平台的访问,而是禁止或拒绝采用不合适的方式进行访问与浏览,例如并发过高引起的类 DDOS 行为。而身份认证机制的设置,其根本目的则在于划定网站或平台自身的隐私范围与控制领域,换言之,是为了确定计算机信息系统安全的领域与范围。据此反爬机制与身份认证机制在范围上可以产生交叉,但绝非一致,混为一谈的行为可能会降低刑事入罪的门槛从而增加了互联网用户的刑事风险,绕过反爬不一定属于刑事犯罪。

从最终的判决情况可以看出,和K哥之前写过的深圳快鸽案一样,CTO、CEO 负责并授权程序员开发涉案的爬虫程序,系主犯,程序员受指派开发爬虫软件,在共同犯罪中起次要作用,系从犯,但是!程序员同样承担了相应的法律责任!刑事犯罪留下的档案记录可能会影响三代人,也就意味着子女和孙儿都会受影响! **爬虫工程师们要多对需求进行理性分析,隐患大的需求该拒绝就拒绝,以目前已经判决了的各类爬虫案例来看,越过了法律的红线,无论最后是不是“集体买单”,爬虫工程师都不可能置身事外!愿各位爬虫工程师们:知敬畏、存戒惧、守底线,警钟长鸣**!

本案很有意思的一点是,宋某和侯明强都为前字节视频项目组的高管,一个是项目经理、一个是技术负责人,从字节离职后反手爬头条视频及评论做利益转化,大家对此有什么看法呢~


http://www.niftyadmin.cn/n/138530.html

相关文章

浅浅记录一下对某音的X-Agus、X-Gorgon、X-Khronos、X-Ladon研究(仅学习使用)

开篇 近期比较闲,于是对该app进行了逆向研究 前两年也对这个app进行了研究,那时候还没有什么加密参数 可以很正常的进行采集 抓包 现在发现连包都抓不到了 于是查看了相关资料 发现该app走的不是正常的http/s协议 于是我hook了传输协议 就可以正…

java多线程与线程池-04线程池与AQS

第7章 线程池与AQS java.util.concurrent包中的绝大多数同步工具,如锁(locks)和屏障(barriers)等,都基于AbstractQueuedSynchronizer(简称AQS)构建而成。这个框架提供了一套同步管理的通用机制,如同步状态的原子性管理、线程阻塞与解除阻塞,还有线程排队等。 在JD…

FCN网络介绍

目录前言一.FCN网络二.网络创新点前言 在图像分割领域,有很多经典的网络,如MASK R-CNN,U-Net,SegNet,DeepLab等网络都是以FCN为基础进行设计的。我们这里简单介绍一下这个网络。 一.FCN网络 FCN网络介绍   FCN 即全…

【嵌入式Linux内核驱动】02_字符设备驱动

字符设备驱动 〇、基本知识 设备驱动分类 (按共性分类方便管理) 1.字符设备驱动 字符设备指那些必须按字节流传输,以串行顺序依次进行访问的设备。它们是我们日常最常见的驱动了,像鼠标、键盘、打印机、触摸屏,还有…

dockerFile编写

dockerFile编写 语法参数 # DockerFile常用指令 USER # 指定运行的用户,一般不用配置 FROM # 拉取基础镜像,一切从这里开始构建 ARG # 构建参数,只能在dockerFile中使用, # eg: JAR_FILEtarget/springboot-mongo-0.0.1-SNAPSHOT.jar MAI…

专项攻克——二叉树

文章目录一、二叉树定义、分类二、二叉树的存储结构三、创建二叉树四、遍历方式一、二叉树定义、分类 二叉树:是N个结点的有序集合,该集合或者为空集,或者由一个根节点跟两棵互不相交的、分别称为根节点的左子树或者右子树的二叉树组成。每个…

测试微服务:快速入门指南

在过去几年中,应用程序已经发展到拥有数百万用户并产生大量数据。使用这些应用程序的人期望快速响应和 24/7 可用性。为了使应用程序快速可用,它们必须快速响应增加的负载。 一种方法是使用微服务架构,因为在单体应用程序中,主要…

政府工作报告连提9年科技创新 企业研发如何“又快又好”

今年的政府工作报告, “科技创新” 这一描述连续出现7次,这也是自2015年开始, “科技创新” 这一概念在全国“两会”政府工作报告中连续九年被提到。政府工作报告指出,科技政策要聚焦自立自强,完善新型举国体制&#x…