关于八爪鱼的伪原创采集器的正确使用方法 |
1、图像采集 在章鱼中,采取以下步骤收集图片 1)先链接网址图片收藏 2)通过八达通提供的图片批量下载工具将网址转换成图片 章鱼图片批量下载工具 2、常见应用场景 1)非瀑布流网站纯图片采集 样本采集:豆瓣网图片采集课程 2)瀑布流网站纯图片集 这些瀑布流网站的获取规则需要按照以下步骤设置: (1)点击采集规则,打开网页步骤高级选项; (2)页面加载后向下滚动; (3)填写每卷的卷数和间隔; (4)滚动方式设置如下:直接滚动到底部; 完成上述规则后,将收集页面上图片的URL。 收藏实例:百度图片收藏课程 注意:根据网页的加载情况设置滚动条数和滚动间隔。如果向下滚动,页面信息将缓慢加载。建议将滚动间隔设置得更大。滚动的数量应该取决于我们滚动多少次来加载我们需要的所有数据。建议多准备一两次。滚动方式是查看当页面滚动时,是否可以顺利加载所有数据,或者是否必须一次滚动一个屏幕。一般来说,一次滚动一个屏幕更好,但更耗时。滚动屏幕取决于屏幕的大小,而云捕获默认为全屏。 3)文章图文集 有两种方法可以收集文章中的文本和图片。 方法1:设置判断条件,分别收集文字和图片。 采集实例:腾讯新闻图片文本采集 方法二:先收集全文,再收集图片。 样本采集:UC头图像采集 3、课程目的 收集图片URL的这一步骤在上面的图片收集教程中有详细描述,不会重复。本文将重点介绍图像采集的技术和注意事项。 4、图片URL采集流程 下面是一个具体操作步骤的演示,以百度图像的URL采集为例来捕获图像的URL。不同的网站图片URL会遇到不同的情况,请灵活。 选择图片全选收集以下图片地址 (2)开始收集并查看结果。收集图片URL。 具体流程步骤参考:瀑布流图像采集,以百度图像为例,步骤1-4。 5、图片批量导出操作步骤 经过上述操作,我们得到了要采集的图像的URL。接下来,我们通过章鱼的图像批量下载工具将图像下载并保存到本地计算机的图像URL中。 1)下载八达通图片批量下载工具,双击文件中的mydownloader.app.exe,打开软件。 2)打开文件菜单,选择从Excel导入(目前仅支持Excel格式文件) 3)设置 选择Excel文件:导入需要下载图像地址的Excel文件 Excel表名:对应数据表的名称 文件URL列名:表中对应URL的列名 保存文件夹名称:Excel需要一个单独的列,列出图像要保存到该文件夹的路径。在上面的例子中,我们在excel中添加了一个名为“picturesavefolder”的列,www.lu0.com列中的数据是“d:baidupicturecollection”,然后“d:baidupicturecollection”就成为图片保存的路径(其他磁盘可以自定义存储,文件夹名可以自定义修改;“d:\”需要输入英文状态)。 |