在用 后羿采集器 爬取之前,我们要做一点准备工作:批量提取一个网页的所有链接。
//Step1 新建一个豆列,把你喜欢的帖子都放进去。
就像我建了一个「科幻」的豆列,里面有10个来自各豆瓣小组的帖子。
拿别人的豆列也行, 只要它是个豆列……
记住哦,每个豆列只能是一种内容形式,帖子、日记、电影、图书、音乐等条目不能混杂放进同一个豆列。
也就是说,你要做一个豆列专门放电影的,一个豆列专门放书籍的,诸如类此,因为它们的网页样式都不一样。而每次爬取的规则,都是基于一种网页样式而设定的,多了它会眼瞎看不到。
建完豆列以后,就可以批量导出每个豆列的链接啦。