用网络爬虫还是其他手段抓取数据？证据会说话

发布网友发布时间：2022-04-21 14:31

我来回答

共2个回答

热心网友时间：2023-11-12 07:55

上篇写道，一审*将社交平台数据以是否设置访问权限分为“公开数据”与“非公开数据”后，对被告Y公司抓取的数据类型进行评议，结论是Y公司抓取了“非公开数据”且不能合理解释、举证其抓取非公开数据行为的正当性。

随后，一审*对Y公司到底是用何种手段抓取进行评议。

一审争议焦点：数据抓取方式

W公司的主张

第一，未经授权抓取。Y公司不是微博后端数据的授权使用方。

第二，非搜索引擎类爬虫。Y公司自认了这一点。

第三，设置访问权限的页面不可能通过网络爬虫技术抓取。

第四，W公司针对微博平台前端和后端数据都设置了技术保护措施，包括“登录机制”及“反抓站技术”。

第一种，受限于登陆机制和反抓站技术的*，为实现YJ系统采集数亿条数据及实时性，需要伪装成大量微博用户并模拟用户行为。

第二种，伪装成微博客户端，即破解了微博产品密钥，直接向微博平台服务器调取后端数据。但这种方式本身仍然受到反抓站技术*，不可能无限调用，更不能调用「已经删除」或者「被用户设置为不展示」的数据。

第三种，直接攻击微博平台服务器——这种方式可以实时、无限地调用平台后端数据，可以实现抓取「已经删除」或者「被用户设置为不展示」的数据。

这三种方式均具有不正当性，结合YJ系统展示情形，W公司认为第三种是最有可能采用的方式。

Y公司的主张

一审*评议

一审*对Y公司无法自圆其说之处的解析已在上篇写道，此处不再重复。简单总结，就是在W公司专家辅助人已从技术层面对网络爬虫无法实现用户行为触发后才能展示的结果进行合理解释的情况下，Y公司未就此做进一步回应或者提交相反证据，其所称的使用网络爬虫技术抓取数据缺乏事实证明，无法得到*支持。

二审新增争议焦点：数据接口

这个说法推翻了它在一审期间的陈述，一审期间，Y公司明确自己是通过网络爬虫技术抓取数据，并在*询问是否有其他方式时，明确否认。

第一，关于国新办工作人员、W公司工作人员和Y公司工作人员的沟通内容。

Y公司主张2011年时国新办工作人员、W公司工作人员和Y公司工作人员，曾就YJ系统使用新浪微博数据的问题进行沟通，并且提供Y公司员工之间的往来邮件作为证据。

但是这些邮件都是Y公司员工之间转发的邮件，*认为 转发邮件时，被转发的内容可以被修改 ，因此要求Y公司提供原始邮件，但是Y公司既没有提供原始邮件，也没有做出任何合理解释。

第二，W公司、Y公司工作人员的沟通内容。

Y公司提供了2017年10-11月期间，其工作人员与W公司工作人员关于“微博-Y数据业务合作问题”的往来邮件，*认为其为孤证，既没有关于合作事项前因后果的相关证据，也没有详细的合同文本予以确认。

*进一步指出，邮件本身的内容没有明确YJ系统是否可以“未经授权使用新浪微博的高权限数据”， 反而证明了W公司非常明确地向Y公司提出“将微博数据商业化提供给政务领域的客户”不属于许可使用的范围 。

第三，五个接口至今可以登陆的证据。

Y公司还提交了五个接口账号至今可以登录的证据，但不能证明以下内容：

二审*对“网络爬虫抓取”进行评议

第一，关于通过比对识别“已删除微博”的解释。

*指出，进行比对，需要用户开始使用（YJ系统）一段时间后、收集不同时间节点的微博信息才能实现。

Y公司在一审时，声称只有在用户发出指令后，YJ系统才开始收集微博数据，而 在案证据显示 ，用户在YJ系统输入某一个关键词后，相关微博就已经会出现“转”“评”“删”的内容，而此时并不具备Y公司所称的「相隔多天后进行数据对比」的条件，因此该解释不成立。

第二，关于不停网络爬虫不停抓取，所以可以获得足以支撑YJ系统运行的信息量的解释。

在案证据和现场勘验情况显示 ，用户未登陆时可以查看的微博内容非常有限，而在YJ系统内输入某一关键词后，监测到的微博数量，远远超过未登陆状态下可获取的内容。

Y公司提交的证据不仅不能证明面对海量微博信息，YJ系统是如何选定关键词并将信息有效整合，反而证明的W公司确实设置了“用户行为触发”等访问权限。

Y公司无法证明为什么它的网络爬虫可以抓取需要“用户触发行为”才可以加载的信息。

二审*认为，在不通过技术手段破坏或者绕开W公司所作的技术*的情况下，无法实现Y公司所宣称的YJ系统所具有的功能。

第三，关于“精确到秒”的解释。

*认为Y公司说明了一种技术上实现的可能性，但是并未提交任何证据证明YJ系统是用这种方式实现的。即使YJ系统确实是通过这种方式实现“精确到秒”，在Y公司无法对其他不能自圆其说之处作出合理解释的情况下，也无法推翻一审*的认定结论。

可以说，一二审整个过程写满八个大字——“打官司就是打证据”。

热心网友时间：2023-11-12 07:56

网络爬虫是一种常用的数据抓取工具，它可以自动化地获取互联网上的信息。相比其他手段，网络爬虫具有以下优势：1. 自动化：网络爬虫可以编写程序来自动抓取数据，无需人工操作，提高了效率。2. 大规模抓取：网络爬虫可以快速地抓取大量的数据，满足用户对大规模数据的需求。3. 灵活性：网络爬虫可以根据用户的需求进行定制，灵活地抓取所需的数据。4. 实时性：网络爬虫可以实时地抓取最新的数据，保证数据的及时性。八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要采集数据，八爪鱼采集器可以为您提供智能识别和灵活的自定义采集规则设置，帮助您快速获取所需的数据。了解更多八爪鱼采集器的功能与合作案例，请前往官网了解更多详情

全部栏目

用网络爬虫还是其他手段抓取数据？证据会说话