总结
scrapy startproject name
scrapy genspider baidu http://www.baidu.com
scrapy crawl baidu
scrapy项目创建
scrapy startproject scrapy_baidu_091

创建爬虫文件
在spider中创建爬虫文件

# scrapy genspider 名称 域名(不写http)
scrapy genspider baidu http://www.baidu.com

运行爬虫
# scrapy crawl 爬虫名称
scrapy crawl baidu

不遵守robots协议

项目介绍
项目结构
项目名字
项目名字
spiders文件夹(存储的是爬虫文件)
init
自定义的爬虫文件 核心功能文件******
init
items 定义数据结构的地方 爬取的数据都包含哪些
middleware 中间件 代理
pipelines 管道 用来处理数据下载的数据
settings 配置文件 robots协议 ua定义等