1 创建项目
scrapy startporject douban
2.修改模板 item.py
class DoubanItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() info = scrapy.Field() score = scrapy.Field() desc = scrapy.Field()
3. 生成一个爬虫
scrapy genspider movie douban.com
4.修改初始url
5. 提取相应中的所有节点
运行:
结果显示403:
修改请求头:
再次运行:
翻页实现
1.右键 检查
使用 span的class
解析数据: