Python爬虫:http和https介绍及请求

news/2024/7/19 12:33:12 标签: http, python, 爬虫
http://www.w3.org/2000/svg" style="display: none;">

HTTP和HTTPS

学习目标:

  1. 记忆 httphttps的概念和区别
  2. 记忆 浏览器发送http请求的过程
  3. 记忆 http请求头的形式
  4. 记忆 http响应头的形式
  5. 了解 http响应状态码

httphttps_10">1 为什么要复习httphttps

https://img-blog.csdnimg.cn/direct/89d1ef9395ed40bbb582e8c5b426d022.png" alt="" />

发送请求,获取响应的过程中 就是发送httphttps的请求,获取httphttps的响应

httphttps_16">2 httphttps的概念

  • HTTP
    • 超文本传输协议
    • 默认端口号:80
  • HTTPS
    • HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协议
    • 默认端口号:443

HTTPS比HTTP更安全,但是性能更低

3 浏览器发送HTTP请求的过程(重点理解)

https://img-blog.csdnimg.cn/direct/873162c8844d4fe1b39879b7769a93a7.png" alt="在这里插入图片描述" />

http_29">3.1 http请求的过程

  1. 浏览器先向地址栏中的url发起请求,并获取相应

  2. 在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应

  3. 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应

  4. 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

3.2 注意:

但是在爬虫中,爬虫只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等)

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样

所以在爬虫中,需要以url地址对应的响应为准来进行数据的提取

4 HTTP请求的形式

https://img-blog.csdnimg.cn/direct/a47ca1e2de634e148d3dea7ca5f1d56d.png" alt="在这里插入图片描述" />

这个图大家见过很多次,那么在浏览器headers中,点击view source来具体观察其中的请求行,请求头部和请求数据是什么样子的

5 HTTP常见请求头

  1. Host (主机和端口号)
  2. Connection (链接类型)
  3. Upgrade-Insecure-Requests (升级为HTTPS请求)
  4. User-Agent (浏览器名称)
  5. Accept (传输文件类型)
  6. Referer (页面跳转处)
  7. Accept-Encoding(文件编解码格式)
  8. Cookie (Cookie)
  9. x-requested-with :XMLHttpRequest (表示该请求是Ajax异步请求)

6 HTTP重要的响应头

  1. Set-Cookie (对方服务器设置cookie到用户浏览器的缓存)

7 响应状态码(status code)

常见的状态码:

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:找不到该页面
  • 500:服务器内部错误
  • 503:服务不可用,一般是被反爬

小结

  1. 记忆 httphttps的概念和区别:
  • http: 超本文传输协议
  • https: HTTP + SSL,即带有安全套接字层的超本文传输协议
  1. 记忆 浏览器发送http请求的过程:
  • 浏览器先向地址栏中的url发起请求,并获取相应
  • 在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
  • 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应
  • 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改
  1. 记忆 http请求头的形式:
GET /item/503/1227315?fr=aladdin HTTP/1.1
Host: www.baidu.com
......
  1. 记忆 http响应头的形式 :
HTTP/1.1 200 OK
Connection: keep-alive
......
  1. 了解 http响应状态码
  • 200:成功
  • 302:临时转移至新的url

http://www.niftyadmin.cn/n/5410566.html

相关文章

计算机组成原理面试题

计算机组成原理是计算机科学的基础课程之一,涉及计算机系统的基本结构和工作原理。以下是一些可能出现在面试中的计算机组成原理相关题目: 1. **什么是冯诺依曼体系结构?** - 冯诺依曼体系结构是一种计算机组织架构,它将程序指…

第三届国际亲子游泳学术峰会,麒小佑为亲游行业提供健康解决方案

第三届国际亲子游泳学术峰会大合影 2024年2月26—28日,第三届国际亲子游泳学术峰会在中国青岛成功召开。 第三届国际亲子游泳学术峰会是中国婴幼游泳行业最高标准的学术性会议,由亲游圈主办,旨在为本行业搭建一个高端圈层,帮助机…

LVS----DR模式

一、LVS-DR工作原理 1、LVS-DR数据包流向分析 客户端发送请求到Director Server (负载均衡器),请求的数据报文(源IP是CIP,目标IP是VIP)到达内核空间。Director Server 和Real Server 在同一个网络中,数据通过二层数据…

深度学习_18_模型的下载与读取

在深度学习的过程中,需要将训练好的模型运用到我们要使用的另一个程序中,这就需要模型的下载与转移操作 代码: import math import torch from torch import nn from d2l import torch as d2l import matplotlib.pyplot as plt# 生成随机的…

如何在Spring Boot框架中打印响应的日志?

在 Spring Boot 框架中,可以使用拦截器来打印响应的日志。 通过自定义一个拦截器,可以在响应返回给客户端之前捕获响应信息,并将其记录到日志中。 以下是在 Spring Boot 框架中打印响应日志的步骤: 创建一个拦截器类&#xff0c…

用硬盘空间管理工具TreeSize拯救C盘容量

一、软件简介 TreeSize 是一款卓越的硬盘空间管理工具,能智能检测磁盘文件和存储量,为您提供详尽的磁盘空间信息,帮助您根据需求删除无用文件,释放更多空间。使用该工具可有效分析硬盘存储情况,找出大文件和未使用文件…

重装显卡驱动记录

重装显卡驱动记录 任务记录现状描述执行情况 任务 晚上回来,开电脑,发现总是进不去系统(这个情况我经常见),但偶尔进系统,识别不了我的外接屏(这个第一次见)。来来回回重启了1h多了…

Linux:进程信息各列含义

简介 在Linux系统中,ps 命令用于查看当前系统中的进程。ps -ef 是该命令的一个常用选项组合,用于以全格式显示所有进程。 ps -ef 输出的信息内容及含义: UID PID PPID C STIME TTY TIME CMD root 1 0 0 Ju…