介绍

本工具是免费使用的。

通过在线网站的方式,快速将目标网页的资源爬取下来实现快速的仿站。

本工具不需要登录注册等繁琐操作。做到了即用即走。

限制

由于本工具属于免费公益的类型。防止出现滥用情况。我们做了以下限制。

1.本工具的使用频率限制为每3分钟3

2.本工具只允许单次扒取单个页面,不会跟踪其他页面链接

3.如网页存在iframeframe嵌套,那么最大限制为3

4.网页资源最大不得超过20MB

5.任务文件和预览页面会在 24 小时内自动删除,并且每周日清空历史列表。

奇技淫巧

1.关于任务结束后邮件通知

设置位置 -> 首页 -> 展开高级选项 -> Email

如果提交任务超过一分钟,并且设置了通知邮箱。在任务结束后将发送通知邮件到您填写的邮箱。

通知邮箱设置后将持续保存于浏览器缓存中,使用时自动填写。如未设置通知邮箱则不发送通知邮件。

2.网页需要密码验证

注意,并非网页的用户鉴权cookie登录。如需要爬取登录的页面,请自行填写cookie

使用包含用户名和密码的经过编码的 URL https://username:password@www.example.com/

目前支持的 HTTP 验证方案,通用 HTTP 身份验证框架可以被多个验证方案使用。

3.网页需要登录

注意,填写cookie的方式可适用于大部分网页,但依旧存在无法登录的可能。

如果你不知道cookie是什么,请您自己怀疑您自己基础知识储备。

设置位置 -> 首页 -> 展开高级选项 -> Cookies

操作示例:

  • 1. 首先登录目标网页成功后,取得目标网页的cookie[点击查看教程]
  • 2. 填写到展开高级选项 -> Cookies
  • 3. 开始任务。

4.网页只能在某个浏览器打开

有一些网页可能只能在微信或者 QQ 自带浏览器打开。

通过更改UserAgent的方式,模拟当前访问网页的浏览器。

我们提供了一些预设的UserAgent。如果你不知道UserAgent是什么,请您自己怀疑您自己基础知识储备。

设置位置 -> 首页 -> 展开高级选项 -> UserAgent

当然,你也可以自定义UserAgent的值。

设置位置 -> 首页 -> 展开高级选项 -> UserAgent -> 自定义浏览器userAgent

5.选择存储的目录结构

设置位置 -> 首页 -> 展开高级选项 -> Structure

我们提供了两个选项,分别是将资源按照文件类型进行分类(简约)将资源按照域名分类(原始目录结构);如果选择前者,本工具会将下载的资源根据文件类型分类到各个文件夹。比如img js css文件夹;如果是后者,那么将会根据源站的目录结构原封不动的存放。

6.设置网页来源地址

设置位置 -> 首页 -> 展开高级选项 -> Referer

部分网页可能会限制来源地址。

常见问题

1.SOCKET 读写错误

部分国内服务商可能为了防止境外攻击,就将所有境外流量进行拦截,而本平台服务器位于境外

也会有可能因为平台服务器的 Socket 满了。可以等待一段时间后重试。

2.不支持的网页类型/请求扒取的网页类型非 HTML

原因: 目标页面类型并不是html(通过头部Content-Type判断)。亦或者目标网页并不规范。

极小部分情况,主机商禁止了境外流量,返回一个空白的网页,并且设置 Content-Type 为非 html

3.禁止请求内网地址/该域名指向(解析)到内网地址

请注意,请求都是从平台服务器发出的,并非从本地发出。平台服务器并无法访问你的内网。

极小部分情况,目标域名 DNS 设置境外解析到本地,境内解析正确地址,属为了防止境外攻击而设置。

4.无法解析域名 ENOTFOUND/解析域名超时

为何不试试自己能不能打开呢,又或者网址输错了。

特性

绕过部分防 CC 机制

目前支持绕过的防 CC 机制特征

  • 1. CBK_VAR var cbk_var='';...
  • 2. 彩虹代刷网封装 setCookie('sec_defend_time',sec_defend_time) ...
  • 3. 简易 COOKIE 验证 window.location.href="?rand=...
  • 4. 宝塔面板防火墙 window.location.href="?btwaf=82275550";...

优化模板站预览爬取

支持市面上大部分模板站,当爬取预览页面时,会自动优化获取真实预览链接。

DMAKU代码库模板站 的预览页面 http://www.dmaku.com/demo-moban-2113/

嵌套 iframe 的真实链接为 http://www.dmaku.com/demo/moban/2019092151974949/

技术文件说明

压缩包中存在的[.original]文件是因为开启了格式化选项[保存原始未处理文件]生成的。

{
"alias":"String 任务别名",
"info":{
"request":{
"headers":"{[key:string]:any} 请求头部"
},
"response":{
"redirects":"String[] 跳转追踪",
"responseUrl":"String 实际地址",
"statusCode":"Number 返回状态码",
"headers":"{[key:string]:any} 返回头部"
},
"resources":[
{
"url":"String 资源网址",
"path":"String 资源本地路径",
"saved":"Boolean 是否保存",
"size":"Number 资源大小",
"children":"resources[] 子资源"
}
],
"time":{
"start":"String 任务开始时间",
"end":"String 任务结束时间"
},
"remark":"String[] 标记信息",
"title":"String 站点标题",
"ip":"String 解析到的站点IP",
"url":"String 请求网址",
"main":"String 首页路径",
"domain":"String 实际域名",
"origin":"String 实际Origin",
"totalSize":"String 资源总大小"
},
"options":{
"formatter":"String[] 格式化选项",
"url":"String 原始请求网址",
"referer":"String 原始请求网址",
"cookies":"String 原始请求COOKIE",
"userAgent":"String 请求USER-AGENT",
"filenameGenerator":"ENUM(bySiteStructure,byType) 目录结构"
}
}