Java+Selenium爬虫【流程】-JZTXT

1、首先，浏览器版本必须和selenium的jar包版本一致，浏览器安装好后，需要禁用浏览器的更新功能，防止版本更新导致后端代码运行异常。

2、然后，在数据库中创建爬取的爬虫目标表，里面的有如下字段：目标页面、目标元素标识、下一页标识、页码标识（可无）、总页数标识等，根据实际开发需要自行添加。另外开启多线程爬虫需要在数据库中保存线程的状态，需要创建任务表。

3、其次，编写业务逻辑代码，使用Webdriver类打开浏览器，并进入目标页面，可以通过WebElement保存爬取的网页标签元素。

4、随后，通过ETL数据抽取转换工具（kettle）对源数据进行清洗，目的是达到统一数据格式标准以及筛选无效数据，清洗后将源数据保存至服务器数据库中。