1 豆瓣爬取

news/2024/7/19 9:30:00 标签: 爬虫

1 创建项目

scrapy startporject douban

2.修改模板 item.py 

class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    info = scrapy.Field()
    score = scrapy.Field()
    desc = scrapy.Field()

3. 生成一个爬虫

scrapy genspider movie douban.com

4.修改初始url

5. 提取相应中的所有节点

运行:

 结果显示403:

修改请求头:

 再次运行:

翻页实现

1.右键  检查

使用 span的class 

 解析数据:


http://www.niftyadmin.cn/n/154450.html

相关文章

前端开发,不同代码分支代理到不同接口

react项目中,webpack.config.js配置了/drapi的proxy,我有一个需求,在不同代码分支代理到不同的api,具体需求是master分支代理到http://a.com,dev分支代理到http://b.com,可以帮我实现吗 是的,您可以通过在…

SXSSFWorkbook解决HSSFWorkbook和XSSFWorkbook造成的OOM问题及原理

HSSFWorkbook:处理Excel2003以前(包括2003)的版本,扩展名是.xls,不可以打开编辑07版的xlsx文件,行列的上限为65536行,256列。 XSSFWorkbook:处理Excel2007的版本,扩展名是.xlsx,也能…

Python科学计算:Sympy

今天到了计算机代数系统(CAS)这一块了,说实话,这个Sympy我还真的从来没用过,咱也不知道人这个咋用,所以,对这个软件包的学习,咱还是牢牢地跟着书上的讲解走吧。首先,请出我们的老朋友&#xff1…

vue3滚动条滚动后元素固定

代码地址&#xff1a;https://gitee.com/zzhua195/easyblog-web-vuee Framework.vue 在这个布局组件中&#xff0c;监听main的滚动事件&#xff0c;获取滚动的距离&#xff0c;将它存入store&#xff0c;以便其它组件能够共享&#xff0c;监听到 <template><div c…

理解冯诺依曼体系以及操作系统

一、冯诺依曼计算机体系组成计算机首先我们需要有计算器——也就是我们常说的cpu&#xff1a;这是百度百科对cpu的解释&#xff1a;是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令&#xff0c;对指令译码并执行指令的核心部件。中央处理器主要包括两个…

【嵌入式Linux学习笔记】基于网络通信搭建开发环境

因为不同于MCU可以方便地使用Jlink等调试设备进行调试&#xff0c;linux开发板烧录一次代码到固件中需要非常长时间&#xff0c;所以需要采用网络共享的方式来更新系统固件及文件代码。 学习视频地址&#xff1a;【正点原子】STM32MP157开发板 1. nfs和tftp的服务配置 ubunt…

缓存穿透、击穿、雪崩都是什么意思?

文章目录 一、缓存穿透1.什么是缓存穿透?2.解决办法二、缓存击穿1.什么是缓存击穿?2.解决办法三、缓存雪崩1.什么是缓存雪崩?2.解决办法四、总结比较五、延申知识1.缓存预热2.缓存降级一、缓存穿透 1.什么是缓存穿透? 缓存穿透说简单点就是大量请求的 key 是不合理的,根…

Vue的渲染函数renderh

前言 vue中我们一般会用模板来创建HTML&#xff0c;但是在有些情况也会需要用到渲染函数。 渲染函数是用来生成Virtual DOM的。Vue推荐使用模板来构建我们的应用界面&#xff0c;在底层实现中Vue会将模板编译成渲染函数。 render 函数 render 函数即渲染函数&#xff0c;它接…