平台介绍

本站提供的工具永久免费使用!

顾名思义。本平台提供的工具可将指定网页的资源下载并打包在线下载。

注意,这里指的网页资源为前端网页资源,即为javascript,css,html,图片,媒体文件。如php等属于服务端语言,本工具无法实现下载其代码!

本站不会对目标网站的稳定性造成影响。本工具限制相同网址每请求一次需要三分钟后才可请求一次!每个用户每使用一次需要间隔一分钟才可再次使用本工具!

本平台提供的工具暂不支持下载由javascript或其他脚本异步动态生成和插入的资源,只支持同步静态加载的网页资源。

不得使用本工具于违法场景。本平台扒取并存储在服务器上的资源的预览页面不得用于非法用途。

用户可开放下载扒取成功的压缩包。可查看任何历史记录的详细请求消息。

出于性能考虑。本平台支持单次扒取单个页面。在三分钟内使用频率限制为三次。并不支持遍历网页中的a标签,且iframe向下最大5层。网页中的资源最大5MB。

使用:设置通知邮箱:

如果提交任务超过一分钟,并且设置了通知邮箱。系统将会在任务结束后发送通知邮件到您填写的邮箱。

通知邮箱设置后将持续保存于浏览器缓存中,使用时自动填写。如未设置通知邮箱则不发送通知邮件。

图为设置通知邮箱步骤:

设置通知邮箱

图为超时提示示例:

设置通知邮箱

图为接收通知邮件示例:

设置通知邮箱

使用:目标网页需要密码验证:

注意,并非网页的用户鉴权【cookie】登录。如需要爬取登录的页面,请自行填写cookie

使用 URL 中的身份凭证进行的访问

使用包含用户名和密码的经过编码的 URL,如下所示:https://username:password@www.example.com/

目前支持的HTTP验证方案,通用 HTTP 身份验证框架可以被多个验证方案使用。不同的验证方案会在安全强度以及在客户端或服务器端软件中可获得的难易程度上有所不同。

目标网页需要密码验证

信息:SOCKET读写错误:

因为部分国内服务商为防止境外攻击,就将所有境外流量进行拦截,而本平台服务器位于境外。导致本平台服务器无法访问。

也可能当前服务器请求socket满了。可以再次重试。如果第二次不行基本上就是第一个原因!

SOCKET读写错误

信息:不支持的网页类型/请求扒取的网页类型非HTML:

不支持的网页类型/请求扒取的网页类型非HTML

原因:请求扒取的页面的类型并不是html(通过头部Content-Type判断)。可尝试自行下载。

极小部分情况,主机商禁止了境外流量,返回一个空白的网页,并且设置Content-Type为非html

信息:错误的网页状态码:

错误的网页状态码

原因:网页返回了非200的状态码。自动默认为无法打开。但是排除返回以下状态码:404,403,400

信息:禁止请求内网地址/该域名指向(解析)到内网地址:

该域名指向(解析)到内网地址

第一个问题一眼能看出。你请求扒内网的地址(127.x.x.x,192.168.x.x,10.x.x.x,172.x.x.x)。

第二个问题也许你很疑惑。我明明可以打开,可为什么他解析内网地址?我来给你几个例子。

如果你在国内。使用国内的dns解析域名。获得正确的ip

使用国内的dns解析域名

如果你在境外。使用境外的dns解析域名。获得错误的ip

使用境外的dns解析域名

这是因为部分主机商。为了防止来自境外的攻击。将境外解析为本地地址。而本平台服务器就在境外,所以会解析到错误的IP!

信息:无法解析域名[ENOTFOUND]/解析域名超时:

无法解析域名

这种情况是因为平台服务器无法正确解析您输入的网站的域名记录。一般都是因为网址输错了,或者输入的域名根本就没解析。

在您输入网址后不妨试一下自己能不能打开。

chrome无法解析域名

目前支持绕过的防CC机制特征

  • 彩虹代刷网

    目前支持绕过的防CC机制特征

  • CBK

    目前支持绕过的防CC机制特征

  • 简易COOKIE验证

    目前支持绕过的防CC机制特征

  • 宝塔防火墙

    目前支持绕过的防CC机制特征

成功绕过将会在详细信息中加入备注

详细信息

技术文件说明

压缩包中存在的[.original]文件是因为开启了格式化选项[保存原始未处理文件]生成的。

{
"alias": "String 任务别名",
"info": {
"request": {
"headers": "{[key:string]:any} 请求头部"
}
"response": {
"redirects": "String[] 跳转追踪",
"responseUrl": "String 实际地址",
"statusCode": "Number 返回状态码",
"headers": "{[key:string]:any} 返回头部"
}
"resources": [
{
"url": "String 资源网址",
"path": "String 资源本地路径",
"saved": "Boolean 是否保存",
"size": "Number 资源大小",
"children": "resources[] 子资源"
}
]
"time": {
"start": "String 任务开始时间",
"end": "String 任务结束时间"
}
"remark": "String[] 标记信息",
"title": "String 站点标题",
"ip": "String 解析到的站点IP",
"url": "String 请求网址",
"main": "String 首页路径",
"domain": "String 实际域名",
"origin": "String 实际Origin",
"totalSize": "String 资源总大小"
}
"options": {
"formatter": "String[] 格式化选项",
"url": "String 原始请求网址",
"referer": "String 原始请求网址",
"cookies": "String 原始请求COOKIE",
"userAgent": "String 请求USER-AGENT",
"filenameGenerator": "ENUM(bySiteStructure,byType) 目录结构"
}
}