python爬虫scrapy框架的使用

发布时间 2023-04-17 19:36:15作者: 又一岁荣枯

总结

scrapy startproject name
scrapy genspider baidu http://www.baidu.com
scrapy crawl baidu

scrapy项目创建

scrapy startproject scrapy_baidu_091

image

创建爬虫文件

spider中创建爬虫文件
image

# scrapy genspider 名称 域名(不写http)
scrapy genspider baidu http://www.baidu.com

image

运行爬虫

# scrapy crawl 爬虫名称
scrapy crawl baidu

image

不遵守robots协议

image

项目介绍

项目结构

项目名字
	项目名字
		spiders文件夹(存储的是爬虫文件)
			init
			自定义的爬虫文件		核心功能文件******
		init
		items			定义数据结构的地方 爬取的数据都包含哪些
		middleware		中间件 代理
		pipelines		管道 用来处理数据下载的数据
		settings		配置文件 robots协议 ua定义等