本工具是免费使用的。
通过在线网站的方式,快速将目标网页的资源爬取下来实现快速的仿站。
本工具不需要登录注册等繁琐操作。做到了即用即走。
由于本工具属于免费公益的类型。防止出现滥用情况。我们做了以下限制。
1.本工具的使用频率限制为每3
分钟3
次
2.本工具只允许单次扒取单个页面
,不会跟踪其他页面链接
3.如网页存在iframe
或frame
嵌套,那么最大限制为3
层
4.网页资源最大不得超过20MB
5.任务文件和预览页面会在 24 小时内自动删除,并且每周日清空历史列表。
设置位置 -> 首页
-> 展开高级选项
-> Email
如果提交任务超过一分钟,并且设置了通知邮箱。在任务结束后将发送通知邮件到您填写的邮箱。
通知邮箱设置后将持续保存于浏览器缓存中,使用时自动填写。如未设置通知邮箱则不发送通知邮件。
注意,并非网页的用户鉴权cookie
登录。如需要爬取登录的页面,请自行填写cookie
使用包含用户名和密码的经过编码的 URL https://username:password@www.example.com/
目前支持的 HTTP 验证方案,通用 HTTP 身份验证框架可以被多个验证方案使用。
注意,填写cookie
的方式可适用于大部分网页,但依旧存在无法登录的可能。
如果你不知道cookie
是什么,请您自己怀疑您自己基础知识储备。
设置位置 -> 首页
-> 展开高级选项
-> Cookies
操作示例:
cookie
。[点击查看教程]展开高级选项
-> Cookies
有一些网页可能只能在微信或者 QQ 自带浏览器打开。
通过更改UserAgent
的方式,模拟当前访问网页的浏览器。
我们提供了一些预设的UserAgent
。如果你不知道UserAgent
是什么,请您自己怀疑您自己基础知识储备。
设置位置 -> 首页
-> 展开高级选项
-> UserAgent
当然,你也可以自定义UserAgent
的值。
设置位置 -> 首页
-> 展开高级选项
-> UserAgent
-> 自定义浏览器userAgent
设置位置 -> 首页
-> 展开高级选项
-> Structure
我们提供了两个选项,分别是将资源按照文件类型进行分类(简约)
和将资源按照域名分类(原始目录结构)
;如果选择前者,本工具会将下载的资源根据文件类型分类到各个文件夹。比如img js css
文件夹;如果是后者,那么将会根据源站的目录结构原封不动的存放。
设置位置 -> 首页
-> 展开高级选项
-> Referer
部分网页可能会限制来源地址。
部分国内服务商可能为了防止境外攻击
,就将所有境外流量进行拦截,而本平台服务器位于境外
。
也会有可能因为平台服务器的 Socket 满了。可以等待一段时间后重试。
原因: 目标页面类型并不是html
(通过头部Content-Type
判断)。亦或者目标网页并不规范。
极小部分情况,主机商禁止了境外流量,返回一个空白的网页,并且设置 Content-Type 为非 html
请注意,请求都是从平台服务器发出的,并非从本地发出。平台服务器并无法访问你的内网。
极小部分情况,目标域名 DNS 设置境外解析到本地,境内解析正确地址,属为了防止境外攻击而设置。
为何不试试自己能不能打开呢,又或者网址输错了。
目前支持绕过的防 CC 机制特征
var cbk_var='';...
setCookie('sec_defend_time',sec_defend_time) ...
window.location.href="?rand=...
window.location.href="?btwaf=82275550";...
支持市面上大部分模板站,当爬取预览页面时,会自动优化获取真实预览链接。
如 DMAKU代码库模板站
的预览页面 http://www.dmaku.com/demo-moban-2113/
嵌套 iframe
的真实链接为 http://www.dmaku.com/demo/moban/2019092151974949/
压缩包中存在的[.original]文件是因为开启了格式化选项[保存原始未处理文件]生成的。