Python爬虫入门教程

news/2024/7/19 11:51:47 标签: python, 爬虫

文章目录:

一:Python基础

二:爬虫须知

1.流程

2.遵守规则

三:HTTP请求和响应

1.相关定义 

2.HTTP请求响应 

2.1 完整的HTTP请求

2.2 完整的HTTP响应

3.Requests库

四:HTML

1.HTML网页结构

2.常用标


参考:Python+爬虫

一:Python基础

Python快速入门教程

二:爬虫须知

1.流程

第一步:获取网页内容(Requests库发送HTTP请求)

第二步:解析网页内容(Beautiful Soup库获取HTML网页结构内容信息)

第三步:储存或分析数据

2.遵守规则

1.不要爬取公民隐私数据

2.不要爬取受著作权保护的内容

3.不要爬取国家事务国防建设和尖端技术领域
4.请求数量和频率不能过高:否则可能无异于DDos攻击

5.有反扒限制就不要去爬取了:需要登录、验证码

6.查看网站的robots.txt文件:了解可爬取的网页路径范围

三:HTTP请求和响应

1.相关定义 

HTTP:超文本传输协议
      客户端和服务器之间的请求响应协议



请求方法
    Get:获得数据
    Post:创建数据



接收的响应数据类型
    HTML:text/html
    JSON:application/json
    HTML和JSON:text/html,application/json
    任意类型:/*/



常见的状态码和状态消息
    200 ok                              客户端请求成功
    300 Moved Permanently               重定向资源被永久移动到新地址
    400 Bad Request                     客户端不能被服务器所理解
    401 Unauthorized                    请求未经授权
    403 Forbidden                       服务器拒绝提供服务
    404 Not Found                       请求资源不存在
    500 Internal Server Error           服务器发生不可预期的错误
    503 Server Unavailable              服务器当前不能处理客户端的请求

2.HTTP请求响应 

2.1 完整的HTTP请求

POST请求
    #请求行                        协议版本
    POST/user/info?new_user=true HTTP/1.1
    #请求头  域名             资源路径           查询参数
    Host:www.douban.com/movie/top250?start=75&filter=unwatched
    User-Agent:curl/7.77.0
    Accept:*/*
    #请求体
    {
     "username":"刘鑫磊",
     "email":"123@qq.com"
    }



GET请求
    #请求行
    GET/user/info?new_user=true HTTP/1.1
    #请求头
    Host:www.example.com
    User-Agent:curl/7.77.0
    Accept:*/*

2.2 完整的HTTP响应

#状态行:协议版本 状态码 状态消息
HTTP/1.1 200 OK
#响应头
Date:Fri,27 Jan 2023 02:10:48 GMT
Content-Type:text/html;charset=utf-8
#响应体
<!DOCTYPE html>
    <head><title>首页</title></head>
    <body><h1>刘鑫磊</h1><p>非常棒</p></body>
</html>

3.Requests库

#在终端输入(视图——>工具窗口——>终端):pip install requests
import requests

#把爬虫程序伪装成正常的浏览器
#任意网页——>鼠标右键——>检查——>Network——>User-Agent——>复制过来
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"}

response=requests.get("http://movie.douban.com/top250",headers=headers)
print(response)
print(response.status_code)
if response.ok:
    # 获取响应体内容
    print(response.text)
else:
    print("请求失败")

四:HTML

1.HTML网页结构

<!DOCTYPE HTML>
<html>
    <body>
        <h1>我是标题</h1>
        <p>我是一段文字</p>
    </body>
</html>

2.常用标

标题:<h1></h1>


文本段落:<p></p>


换行:<br>


图片:<img src="图片链接">


链接:<a href="链接地址" target="_self"></a>       target="_blank"


容器:<span></span>                               内联元素不会独占一块,一行可写多个


有序列表:<ol><li></li></ol>
无序列表:<ul><li></li></ul>


表格
    <table>
        <thead>                 #头部
            <tr>                #行
                <td></td>       #列
            </tr>
        <thead>
        <tbody>                 #主体
            <tr>                # 行
                <td></td>       # 列
            </tr>
        </tbody>
    </table>


class属性:定义元素的类名称,帮助我们分组
    class="content"     class="review"


http://www.niftyadmin.cn/n/5098713.html

相关文章

【Rust日报】2023-10-16 为什么要异步 Rust

为什么要异步 Rust 这篇文章讨论了Rust的 async/await 语法设计。作者指出&#xff0c;async/await 语法最初发布时备受瞩目和期待。但最近&#xff0c;接受程度有些参差不齐。作者认为&#xff0c;随着时间的推移&#xff0c;反对者变得更加众多&#xff0c;他们的语气也变得更…

前端 html 中的 meta 标签有哪些用处?

HTML中的<meta>标签用于提供有关文档的元数据&#xff08;metadata&#xff09;&#xff0c;它们不会在页面上显示出来&#xff0c;而是提供有关页面的信息&#xff0c;使搜索引擎和浏览器能够更好地理解和使用文档。下面是一些常见的用途&#xff1a; 1、指定文档的字符…

若依集成MybatisPlus

目录 一、依赖变更 1. MybatisPlus依赖 2. pagehelper依赖修改 二、相关配置 1. yml配置 1.1 注释掉原Mybatis配置 1.2 加入MybatisPlus的配置 1.3 注释掉原MybatisConfig.class 三、其他配置及功能实现 1. 自动补全create_time等信息 2. 实现MP分页 3. 实现Mybati…

代码随想录训练营二刷第五十九天 | 647. 回文子串 516.最长回文子序列

代码随想录训练营二刷第五十九天 | 647. 回文子串 516.最长回文子序列 一、647. 回文子串 题目链接&#xff1a;https://leetcode.cn/problems/palindromic-substrings/ 思路&#xff1a;回文子串类似于abcba这种&#xff0c;定义dp[i][j]表示左闭右闭区间s[i,j]是否为回文子…

centos 7.9每天定期发送最新备份文件到另外一台服务器

1.需求 在本地化部署的过程中&#xff0c;为了使系统相对来说高可用&#xff0c;一般情况下&#xff0c;我们都会做一个负载&#xff0c;但是客户又会考虑成本&#xff0c;所以只有可怜巴巴的两台服务器&#xff0c;要全部服务都做负载&#xff0c;这个就实现不了。所以只能把…

conda使用一般步骤

Terminal&#xff1a;conda create --name myenv python3.7 如果环境不行的话 1.source /opt/anaconda3/bin/activate 2.可能是没有源 vim ~/.condarc将需要的源装上 conda clean -i将原先的源删除 3.然后再conda create即可 4.需要激活环境 conda activate numpy 5.pycharm配置…

信息系统项目管理师第四版学习笔记——组织通用治理

组织战略 组织战略是组织高质量发展的总体谋略&#xff0c;是组织相关干系方就其发展达成一致认识的重要基础。组织战略是指组织针对其发展进行的全局性、长远性、纲领性目标的策划和选择。 战略目标是组织在一定的战略期内总体发展的总水平和总任务。它决定了组织在该战略期…

【SA8295P 源码分析 (二)】10 - HQX Display(OpenWFD)qcdisplaycfg_ADP_STAR_LA.xml 配置文件解析

【SA8295P 源码分析】10 - HQX Display(OpenWFD)qcdisplaycfg_ADP_STAR_LA.xml 配置文件解析 一、HQX Display 介绍1.1 OpenWF Display Driver二、HQX Display 配置文件参数解析2.1 qcdisplaycfg.xml 配置文件2.1 配置两个 DPUs in QNX2.1.1 配置 graphics_ADP_STAR.conf : …