Python爬虫——scrapy_基本使用

news/2024/7/19 11:13:53 标签: python, 爬虫, scrapy
  1. 安装scrapy
python">pip install scrapy
  1. 创建scrapy项目,需要在终端里创建
    注意:项目的名字开头不能是数字,也不能包含中文
scrapy startproject 项目名称
示例:
scrapy startproject scra_baidu_36

创建好后的文件
在这里插入图片描述
3. 创建爬虫文件:
要在spider文件里面创建爬虫文件
先在终端中cd到spider文件里
创建爬虫文件

scrapy genspider 爬虫文件名 要爬取的网页
示例:
scrapy genspider baidu http://www.baiud.com

创建的爬虫文件内容:
在这里插入图片描述
name 爬虫的名字,用于运行爬虫的时候使用的值
allowed_domains 允许访问的域名
start_urls 起始url地址,指的是第一次要访问的域名
parse 是执行了start_urls之后执行的方法,方法中的response就是返回的那个对象

  1. 运行爬虫文件
    写一个print()
    在这里插入图片描述

在终端输入

scrapy crawl 爬虫的名字
示例:
scrapy crawl baidu

但是运行完并没有给我们返回任何数据
在这里插入图片描述
这是因为有robots协议
解决办法:只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 给注释掉就可以了(或者把True改成False也可以)
在这里插入图片描述
然后再重新运行一遍就可以获取到数据了
在这里插入图片描述


http://www.niftyadmin.cn/n/4940253.html

相关文章

求Win11系统virtualbox+vagrant安装MacOS虚拟机

文章目录 一、背景二、素材2.1、virtualboxvagrant 三、问题3.1、安装失败3.2、第二个失败3.3、网络说 四、求助 一、背景 题主,主要是穷,没钱买mac笔记本或相关系统的苹果产品,哈哈,偶尔也有用过MacOS系统,只是还没有…

浅谈XML配置实现逻辑

XML简介 什么是XML? xml是可扩展的标记语言 XML的作用 主要作用: 1.用来保存数据,而且这些数据具有自我描述性 2.他可以作为项目或者模块的配置文件 3.还可以作为网络传输数据的格式(现在JSON为主) 第一个实例 命…

C++遍历std::tuple(C++14 ~ C++20)

本文展示了遍历std::tuple的方式&#xff1a; 首先比较容易想到的是利用C14的std::make_index_sequence与std::get结合取值&#xff0c;然后配合std::initializer_list进行包展开&#xff1a; // since C14 class Func0 {template<typename T, typename F, size_t... I>…

SpringSecurity结合电商项目

pom <!--SpringSecurity及JWT依赖配置--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-security</ artifactId></dependency> <!--Hutool Java工具包--> <dependency>&l…

基于Hadoop的表级监管

现状 大数据平台中,采用hadoop的方式存储数据,hdfs本质上是文件系统,而文件系统对数据的监管能力有限,但是数据安全领域问题日渐凸显,现目前,大数据平台一般以分层结构进行授权,但是对于一线开发人员而言,是能够接触到整个大数据平台中的所有表的,那么如何实现这样一…

CSS自学框架之表单

首先我们看一下表单样式&#xff0c;下面共有5张截图 一、CSS代码 /*表单*/fieldset{border: none;margin-bottom: 2em;}fieldset > *{ margin-bottom: 1em }fieldset:last-child{ margin-bottom: 0 }fieldset legend{ margin: 0 0 1em }/* legend标签是CSS中用于定义…

面试热题(缺失的第一个正数)

给你一个未排序的整数数组 nums &#xff0c;请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 输入&#xff1a;nums [1,2,0] 输出&#xff1a;3 尝试的路途是痛苦的&#xff0c;不断的尝试新方法&#xff0c;错何尝…

Vue 使用 vite 创建项目

vite 是新一代前端构建工具&#xff0c;和 webpack 类似。 vite 的启动速度更快。在开发环境中&#xff0c;不需要打包就可以直接运行。 vite 的更新速度更快。当修改内容后&#xff0c;不需要刷新浏览器&#xff0c;页面就会实时更新。 vite 完全是按需编译。它只会编译需要…