第一:豆瓣电影信息的爬取
1.分析源码
page页面:https://www.douban.com/doulist/3936288/

关键源码截图:
外部div:

<div class="bd doulist-subject">
<div class="doulist-video-items">
<span class="title">播放全片</span>
<a class="doulist-video-item" target="_blank" href="https://v.qq.com/x/cover/1o29ui77e85grdr.html?ptag=newdouban.movie"><span class="icon-circle"><img src="https://img1.doubanio.com/f/movie/f3c173002946c88386e659caef9842e97c19d273/pics/movie/video-qq.png" /></span> 腾讯视频</a>
<a class="doulist-video-item" target="_blank" href="https://m.bilibili.com/bangumi/play/ss28274?bsource=doubanh5"><span class="icon-circle"><img src="https://img1.doubanio.com/f/movie/f536fe0ea1cbb0914658ae803125d078351f9047/pics/movie/video-bilibili.png" /></span> 哔哩哔哩</a>
<a class="doulist-video-item" target="_blank" href="http://v.youku.com/v_show/id_XMjgwNDkwNzE2.html?tpa=dW5pb25faWQ9MzAwMDA4XzEwMDAwMl8wMl8wMQ&refer=esfhz_operation.xuka.xj_00003036_000000_FNZfau_19010900"><span class="icon-circle"><img src="https://img1.doubanio.com/f/movie/886b26a83d18bc60de4ee1daac38145f03c88792/pics/movie/video-youku.png" /></span> 优酷视频</a>
<a href="javascript:;" class="more-video-item"><img src="https://img1.doubanio.com/f/sns/e2ebb96e1a69c9d9ab686fdf1fda829f43aa1116/pics/sns/ic_circle_more@2x.png" /> 更多</a>
<div class="video-items-other">
<a target="_blank" href="https://www.douban.com/link2/?url=http%3A%2F%2Fwww.iqiyi.com%2Fv_19rra0h3wg.html%3Fvfm%3Dm_331_dbdy%26fv%3D4904d94982104144a1548dd9040df241&subtype=9&type=online-video"><span class="icon-circle"><img src="https://img1.doubanio.com/f/movie/7c9e516e02c6fe445b6559c0dd2a705e8b17d1c9/pics/movie/video-iqiyi.png" /></span> 爱奇艺视频</a>
</div>
</div>
内部div:

内部div:
<div class="source">
来自:豆瓣电影
</div>
<div class="post">
<a href="https://movie.douban.com/subject/1292052/" target="_blank">
<img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp"/>
</a>
</div>
<div class="title">
<a href="https://movie.douban.com/subject/1292052/" target="_blank">
<img style="width: 16px; vertical-align: text-top;" src="https://img1.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sns/doulist/ic_play_web@2x.png"/>
肖申克的救赎 The Shawshank Redemption
</a>
</div>
<div class="rating">
<span class="allstar50"></span>
<span class="rating_nums">9.7</span>
<span>(2954899人评价)</span>
</div>
<div class="abstract">
导演: 弗兰克·德拉邦特
<br />
主演: 蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿
<br />
类型: 犯罪 / 剧情
<br />
制片国家/地区: 美国
<br />
年份: 1994
</div>
</div>
2.通过命令创建spiders文件db.py

3.Scrapy shell 的运用(交互式平台)
用来调试Scrapy 项目代码的 命令行工具。 启动的时候预定义了Scrapy的一些对象 启动后如下图所示 作用: 调试 调试 调试
启动Scrapy shell的命令语法格式如下: scrapy shell [option] [url|file] url 就是你想要爬取的网址 注意:分析本地文件是一定要带上路径,scrapy shell默认当作url


获取page页面25条电影名字信息(以列表形式展示):response.xpath('//div[@class="title"]/a/text()')

获取Selector对象数值:response.xpath('//div[@class="title"]/a/text()').extract()

获取第一条电影名字信息(strip()为去除空格):response.xpath('//div[@class="title"]/a/text()').extract()[1].strip()
