【爬虫】案例01:爬取某搜索网站搜索结果数据

news/2024/7/19 12:29:27 标签: 爬虫, python

古人云:“问君能有几多愁,恰似一群爬虫在爬网。” 但现在的我们可以说:“学爬虫,就像打怪升级一样,一步一步,勤学多练才能变得更强!下面就开始爬虫的第一个案例练习吧,获取搜索结果要涉及requests、beautiful soup、pandas等知识点,非常适合刚入门python爬虫的小伙伴练习。
注:若涉及到版权或隐私问题,请及时联系我删除即可。

目录

一、分析页面

二、requests用法简介

1. GET请求

2. POST请求

3. params与data参数

4. 请求头headers

5. 代理服务信息proxies

6. 小结

三、请求页面

四、函数封装,规范代码


一、分析页面

  • GET请求
  • 关键词在query中
  • 页码在page中

二、requests用法简介

1. GET请求

        GET请求用于向服务器请求某个资源,常用于获取数据,例如获取网页、图片、视频等。GET请求会在URL中附加请求参数,因此可以通过修改URL来发送不同的请求,请求参数通常包含在URL的查询字符串中。例如:

python">import requests

# 发送GET请求
url = '搜索url'
params = {'query': 'key_word', 'page': '1'}
response = requests.get(url, params=params)

# 处理响应
print(response.status_code) # 响应状态码
print(response.headers)     # 响应头部
print(response.content)     # 响应内容(以字节形式)
print(response.text)        # 响应内容(以字符串形式)

        GET请求的优点是请求速度快、方便缓存,缺点是安全性差,因为请求参数会被暴露在URL中,容易被恶意攻击者截取或篡改。

2. POST请求

        POST请求用于向服务器提交数据,常用于提交表单、上传文件等。POST请求会将请求参数包含在请求体中,而不是URL中,因此可以提交比较大的数据。例如:

python">import requests

# 发送POST请求
url = '搜索url'
data = {'username': 'name', 'password': '******'}
response = requests.post(url, data=data)

# 处理响应
print(response.status_code) # 响应状态码
print(response.text)        # 响应内容

POST请求的优点是安全性高,因为请求参数不会暴露在URL中,缺点是请求速度慢、不能缓存。此外,由于POST请求可以提交比较大的数据,因此也有可能导致服务器负载过高,需要进行限流控制。

总结,GET和POST都是常用的HTTP请求方法。

  •         向服务器请求某个资源,使用GET请求;
  •         提交数据,通常使用POST请求。

3. params与data参数

使用requests库发送HTTP请求时,参数params和data都用于传递请求参数,但它们的含义和用法有所不同。

  •         params参数:用于传递GET请求的参数,将参数编码后添加到URL的查询字符串中。
  •         data参数:用于传递POST请求的参数,将参数编码后添加到请求体中。

如上面例中的GET请求与POST请求。

4. 请求头headers

        headers 参数来设置请求头信息。请求头包含了浏览器或客户端向服务器发送的信息,用于描述请求的属性和内容。在 requests 中,headers 参数是一个字典对象,包含了需要设置的请求头信息。例如:

python">headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0', # 发送请求的用户代理信息,包括操作系统和浏览器类型
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', # 能够接受的响应类型
    'Accept-Language': 'en-US,en;q=0.5', # 能够接受的自然语言类型
    'Accept-Encoding': 'gzip, deflate, br', # 能够接受的内容编码类型
    'Connection': 'keep-alive', # 是否需要保持连接
    'Upgrade-Insecure-Requests': '1', # 是否需要升级不安全的请求
    'Referer': 'https://www.google.com/', # 发送请求的来源页面
    'If-Modified-Since': 'Thu, 01 Jan 1970 00:00:00 GMT', # 上次修改时间,用于判断是否需要重新请求
    'Cache-Control': 'max-age=0', # 缓存控制,指定缓存策略
    'Cookie': 'session_id=1234567890abcdef' # 添加cookie
}

常用的设置,我们会在headers中加入User-Agent、Cookie等

5. 代理服务信息proxies

        proxies参数用于指定HTTP代理服务器,即将请求发送到代理服务器而不是目标服务器。HTTP代理服务器可以用于匿名访问目标服务器,绕过地理位置限制或绕过防火墙等。proxies参数是一个字典,其中包含协议(http或https)和代理服务器的地址和端口号。例如:

python">import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

response = requests.get('搜索url', proxies=proxies)

print(response.text)

6. 小结

        在确定了请求方式之后,使用requests模块请求的常用请求代码为:

  • GET请求
python">import requests

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}

# 设置请求参数
params = {
    'query': 'key_word',
    'page': 1,
}

# 设置代理
proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

# 发送请求
response = requests.get('搜索url', headers=headers, params=params, proxies=proxies)

# 输出响应内容
print(response.text)

三、请求页面

        有了上面requests模块的基础和分析,请求方式为GET,使用params参数传递关键词参数和页面参数

python">import requests

key_word = input('请输入查询关键词:')
page_num = int(input('请输入需要查询的页数:'))
url = '搜索url'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
data = []  # 存储搜索结果的列表
for i in range(page_num):
    params = {
        'query': key_word, # 指定关键词
        'page': i + 1  # 指定查询的页数
    }
    try:
        response = requests.get(url=url, headers=headers, params=params)
        response.raise_for_status()  # 检查请求是否成功,若不成功则抛出异常
        response.encoding = response.apparent_encoding  # 使用正确的编码解析响应内容
        page_text = response.text
    except Exception as e:
        print('请求失败:', e)
    if page_text is None:
        print(f'第{i + 1}页搜索结果获取失败')
        continue
    print(page_text)

        请求成功返回了page_text,使用BeautifulSoup解析数据,提取搜索结果的url和title

python">from bs4 import BeautifulSoup
soup = BeautifulSoup(page_text, 'lxml')
    results = soup.find_all('div', class_='vrwrap')
    data = []
    for result in results:
        url = result.find('a')['href']
        title = result.find('a').text
        data.append({'链接': url, '标题': title})
        print(data)

        使用pandas库将数据写入Excel

python">import pandas as pd

df = pd.DataFrame(data)
try:
    df.to_excel('results.xlsx', index=False, encoding='utf-8')
    print(f'数据已写入Excel文件:results.xlsx')
except Exception as e:
    print('写入Excel文件失败:', e)

四、函数封装,规范代码

       

python">import time
import requests
from bs4 import BeautifulSoup
import pandas as pd



def get_page_text(url: str, headers: dict, params: dict) -> str:
    """
    发起请求并返回响应文本

    :param url: 请求的URL地址
    :param headers: 请求头信息,包含User-Agent等
    :param params: 请求参数,包含查询关键词等
    :return: 响应文本
    """
    try:
        response = requests.get(url=url, headers=headers, params=params)
        response.raise_for_status()  # 检查请求是否成功,若不成功则抛出异常
        response.encoding = response.apparent_encoding  # 使用正确的编码解析响应内容
        return response.text
    except Exception as e:
        print('请求失败:', e)

def parse_page(page_text):
    """
    解析HTML页面,获取url和title,并存储到列表中
    """
    soup = BeautifulSoup(page_text, 'lxml')
    results = soup.find_all('div', class_='vrwrap')
    data = []
    for result in results:
        url = result.find('a')['href']
        title = result.find('a').text
        data.append({'链接': url, '标题': title})
    return data


def get_search_results(key_word: str, page_num: int) -> pd.DataFrame:
    """
    获取搜索结果,并以DataFrame形式返回

    :param key_word: 查询关键词
    :param page_num: 需要查询的页数
    :return: DataFrame对象,包含搜索结果的链接和标题
    """
    url = '搜索url'
    headers = {
        'User-Agent': '"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",'
    }
    data = []  # 存储搜索结果的列表
    for i in range(page_num):
        print("正在抓取第{}页,请稍后...".format(i+1))
        print('-'*200)
        params = {
            'query': key_word, # 指定关键词
            'page': i + 1  # 指定查询的页数
        }
        page_text = get_page_text(url, headers, params)
        if page_text is None:
            print(f'第{i + 1}页搜索结果获取失败')
            continue
        page_data = parse_page(page_text)
        data.extend(page_data)
        time.sleep(3)
    df = pd.DataFrame(data)

    return df


def save_to_excel(df: pd.DataFrame, filename: str, sheet_name: str) -> None:
    """
    将DataFrame对象中的数据写入Excel文件

    :param df: DataFrame对象
    :param filename: Excel文件名
    :param sheet_name: 工作表名
    """
    try:
        df.to_excel(filename, index=False, encoding='utf-8', sheet_name=sheet_name)
        print(f'数据已写入Excel文件:{filename},工作表名:{sheet_name}')
    except Exception as e:
        print('写入Excel文件失败:', e)


if __name__ == '__main__':
    key_word = input('请输入查询关键词:')
    page_num = int(input('请输入需要查询的页数:'))
    df = get_search_results(key_word, page_num)
    save_to_excel(df, 'results.xlsx', '搜索结果')

        需要注意的是网站对访问频率有着限制,需要降低访问频率,或者使用代理IP解决被限制的问题。完整代码已放置我的网盘,需要请自取。


http://www.niftyadmin.cn/n/144575.html

相关文章

can的基础介绍

can的基础介绍 1.介绍 控制器局域网(CAN)为串行通讯协议,能有效地支持具有很高安全等级的分布实时控制。CAN 的应 用范围很广,从高速的网络到低价位的多路接线都可以使用 CAN。在汽车电子行业里,使用 CAN…

Matlab阅读和分析大型表格文本文件

为包含表格数据的大型文本文件创建数据存储,然后一次读取和处理一个块或一个文件的数据。 创建数据存储 airlinesmall.csv使用函数从示例文件创建数据存储tabularTextDatastore。创建数据存储时,您可以指定将NA数据中的文本 视为缺失数据。 ds = tabularTextDatastore(airlin…

2023.3.12 第四十四次周报

目录 前言 文献阅读 背景 对现有技术的分析 作者的主要思路和贡献 对其他变量进行相关性分析归一化处理 相关性分析 归一化处理 TCN 基于 TCN-LSTM 的 PM 浓度预测模型 敏感性分析 普通克里金公式解释 总结 前言 This week I studied an article that constructe…

JSP的语法------以及Java在其中的使用方式

JSP的语法------>以及Java在其中的使用方式 JSP简介 JSP(Java Server Pages) 是Sun Microsystems 公司倡导和许多公司参加与共同创建的一种使软件开发者可以响应客户端请求,而动态生成HTML、XML或其它格式文档的Web网页技术标准。 JSP 技术是以Java语言作为脚…

skywalking从入门到精通(二)-性能剖析

一、简介 skywalking 的 性能剖析 能够很好地的帮我们分析出来,具体那个服务的哪段代码耗时,性能剖析默认是没有任何数据,此时需要点击一下右上角的 刷新 按钮,这样 服务 下拉列表就会展示 我们已经接入skywalking的服务。 注意的…

Android 10.0 系统Settings显示菜单增加控制屏幕横竖屏旋转的二级菜单

1.概述 在10.0的系统产品开发中,在系统Settings的显示菜单中,有自动旋转屏幕功能,但是由于产品功能需要要求增加控制屏幕横竖屏旋转的switch开关来实现屏幕横竖屏旋转的功能,所以需要在显示的二级菜单中增加控制屏幕横竖屏旋转的功能 2.系统Settings显示菜单增加控制屏幕横…

Matlab执行 FTP 文件操作

使用 FTP 对象连接到 FTP 服务器并执行远程文件操作。要在 FTP 服务器上执行任何文件操作,请按照下列步骤操作: 使用函数连接到服务器ftp。使用适当的 MATLAB FTP 函数执行操作,例如cd、dir和mget函数。为所有操作指定 FTP 对象。

操作系统--基于Linux的进程命令(超详细/设计/实验/作业/练习)

目录课程名:操作系统原理及Linux应用内容/作用:设计/实验/作业/练习学习:基于Linux的进程命令一、前言二、环境与设备三、原理四、内容五、总结与分析课程名:操作系统原理及Linux应用 内容/作用:设计/实验/作业/练习 …