1、首先,浏览器版本必须和selenium的jar包版本一致,浏览器安装好后,需要禁用浏览器的更新功能,防止版本更新导致后端代码运行异常。
2、然后,在数据库中创建爬取的爬虫目标表,里面的有如下字段:目标页面、目标元素标识、下一页标识、页码标识(可无)、总页数标识等,根据实际开发需要自行添加。另外开启多线程爬虫需要在数据库中保存线程的状态,需要创建任务表。
3、其次,编写业务逻辑代码,使用Webdriver类打开浏览器,并进入目标页面,可以通过WebElement保存爬取的网页标签元素。
4、随后,通过ETL数据抽取转换工具(kettle)对源数据进行清洗,目的是达到统一数据格式标准以及筛选无效数据,清洗后将源数据保存至服务器数据库中。