WebScraper是一款运行在Mac平台上非常好用的网站数据提取工具,WebScraper 插件可以帮您在10分钟内轻松实现网页数据的爬取,只需输入起始网址即可开始,操作简单、功能强大。
WebScraper 是一款网站数据采集工具,通过使用将数据导出为JSON或CSV的极简应用快速提取与某个网页相关的信息(包括文本内容),为您提供了以最小的努力快速从网上源提取内容的可能性。您可以完全控制将导出到CSV或JSON文件的数据。
使用多个线程快速扫描任何网站
在WebScraper主窗口中,您必须指定要扫描的网页的URL地址以及要用于完成此过程的线程数。你可以通过简单的滑动条来调整后一个参数。
为了避免任何不必要的扫描,您可以选择只抓取一个页面,然后通过简单的鼠标点击来启动该过程。在Live View窗口中,您可以看到每个链接返回的状态消息,这在处理调试任务时可能很有用。
提取各种类型的信息并将数据导出为CSV或JSON
在“WebScraper输出”面板中,您可以选择希望实用程序从网页中提取的信息的类型:URL,标题,说明,与不同类或ID关联的内容,标题,页面内容各种格式(纯文本,HTML或Markdown)和上次修改日期。
您还可以选择输出文件格式(CSV或JSON),决定合并空白,并在文件超过特定大小时设置警报。如果您选择CSV格式,您可以选择围绕列使用引号,采用什么而不使用引号或行分隔符类型。
最后但并非最不重要的是,WebScraper还允许您更改用户代理,为链接数量和来自家中的点击设置限制,可以忽略查询字符串,并可将根域的子域视为内部页面。
轻松地从在线资源中抓取信息,而无需太多的用户交互
WebScraper为您提供了快速扫描网站并将其内容与其他附加内容一起输出到JSON文件的CSV的可能性。无论何时您想离线访问数据而无需存储整个页面,该工具都非常棒。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。