python爬虫概述及简单实践:获取豆瓣电影排行榜

news/2024/7/19 12:30:55 标签: python, 爬虫, 开发语言, tcp/ip

目录

前言

Python爬虫概述

简单实践 - 获取豆瓣电影排行榜

1. 分析目标网页

2. 获取页面内容

3. 解析页面

4. 数据存储

5. 使用代理IP

总结


前言

Python爬虫是指通过程序自动化地对互联网上的信息进行抓取和分析的一种技术。Python作为一门易于学习且强大的编程语言,因其拥有丰富的第三方库和强大的数据处理能力,使得它成为了爬虫开发中的最佳选择。本文将简单介绍Python爬虫的概述,并提供一个简单的实践案例,同时会使用代理IP来提高爬虫的效率。

Python爬虫概述

Python爬虫由三个部分组成:网页下载、网页解析、数据存储。

  • 网页下载:从互联网上获取需要的数据,通常使用requests库或urllib库来实现
  • 网页解析:将下载下来的网页进行处理,提取出需要的信息,常见的解析库有BeautifulSoup和xpath等
  • 数据存储:将获取到的数据存储到文件、数据库等中,通常使用sqlite、MySQL等数据库或者csv、json等文件格式

简单实践 - 获取豆瓣电影排行榜

下面将通过一个简单的实践来讲解Python爬虫的应用。

1. 分析目标网页

首先打开浏览器,访问[豆瓣电影排行榜](https://movie.douban.com/chart),观察页面,我们会发现电影排行榜的信息都在HTML的table标签中,并且每个电影信息都是一个tr标签。每个电影信息包括电影名称、评分、导演、演员、链接等等。因此,我们需要使用Python程序来获取这些电影的信息。

2. 获取页面内容

网页下载是爬虫的第一步,我们使用Python的requests库来获取目标网页的HTML代码。代码如下:

python">import requests

url = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}

r = requests.get(url, headers=headers)
if r.status_code == 200:
    html = r.text

这里我们设置了请求头,模拟浏览器的请求,以免被目标网站认为是爬虫而禁止访问。

3. 解析页面

我们使用Python的BeautifulSoup库来解析页面。该库提供了一种非常方便的方式来操作HTML和XML文档,能够方便地获取特定元素、属性和文本等信息。我们首先使用lxml解析器将HTML代码转换成BeautifulSoup对象,然后根据标签和属性的CSS选择器来遍历HTML文档并提取需要的内容。代码如下:

python">from bs4 import BeautifulSoup

soup = BeautifulSoup(html, features="lxml")
table = soup.find("table", {"class": "ranking-list"})
tbody = table.find("tbody")
trs = tbody.findAll("tr")

movies = []
for tr in trs:
    td_name = tr.find("td", {"class": "titleColumn"})
    name = td_name.find("a").text
    rating = tr.find("span", {"class": "rating_num"}).text
    director = td_name.find("div", {"class": "bd"}).find_all("p")[0].text
    actors = td_name.find("div", {"class": "bd"}).find_all("p")[1].text
    link = td_name.find("a")["href"]
    movie = {"name": name, "rating": rating, "director": director, "actors": actors, "link": link}
    movies.append(movie)

for movie in movies:
    print(movie)

这里我们使用find()方法来查找特定的标签和属性,并使用text属性来获取标签中的文本。需要注意的是,如果标签不存在或者不存在某个属性,那么会返回None,因此需要进行一定的判断和处理。

4. 数据存储

最后,我们将获取到的电影信息保存到CSV文件中。代码如下:

python">import csv

filename = 'movies.csv'
with open(filename, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['电影名', '评分', '导演', '演员', '链接'])
    for movie in movies:
        writer.writerow([movie['name'], movie['rating'], movie['director'], movie['actors'], movie['link']])

使用csv库的writerow()方法将电影信息逐行写入CSV文件中。

5. 使用代理IP

有些网站会对爬虫程序进行限制,例如设置访问频率限制、封禁IP等操作。因此,我们需要使用代理IP来解决这一问题。代理IP可以让我们通过代理服务器来访问目标网站,从而提高访问速度和安全性。

我们可以通过一些免费的代理IP网站来获取代理IP,例如站大爷代理ip、开心代理等。代码如下:

python">import requests

url = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}

proxy_url = 'https://www.zdaye.com//'
proxy_headers = {'User-Agent': user_agent}

proxies = []
r = requests.get(proxy_url, headers=proxy_headers)
if r.status_code == 200:
    soup = BeautifulSoup(r.text, features="lxml")
    table = soup.find("table", {"id": "ip_list"})
    tbody = table.find("tbody")
    trs = tbody.findAll("tr")
    for tr in trs:
        tds = tr.find_all('td')
        if len(tds) > 6 and tds[5].text == 'HTTP':
            ip = tds[1].text + ':' + tds[2].text
            proxies.append(ip)

for proxy in proxies:
    try:
        print('Using proxy:', proxy)
        proxy_dict = {'http': 'http://' + proxy, 'https': 'https://' + proxy}
        r = requests.get(url, headers=headers, proxies=proxy_dict, timeout=5)
        if r.status_code == 200:
            html = r.text
            break
    except:
        continue

这里我们定义一个proxies列表来保存获取到的代理IP,然后遍历该列表中的每个代理IP进行访问。如果某个代理IP无法访问,则使用下一个代理IP进行访问,直到访问到目标网页为止。需要注意的是,如果代理IP无法使用或者响应时间过长,需要考虑使用其他IP或者增加超时时间。

总结

Python爬虫是一种非常有用的技术,通过Python程序自动化地获取互联网上的数据,为我们带来了许多便利。在实践中,我们需要注意遵守法律法规和爬虫道德规范,以避免产生不良后果。


http://www.niftyadmin.cn/n/5185676.html

相关文章

python 调用HEG对MODIS数据进行批处理

HEG其实可以批处理可以看我另外一篇博文,不需要写代码。但是对于300以上数量的MODIS影像非常容易自动停止,而且越来越慢。还是打算利用python每个调用。 只提取了MODIS数据当中的IST一个波段,输出成tif,其他什么都没做。在处理前…

QML21、常规组件Window

1. 简介: Window对象用于创建一个与操作系统相关的顶层窗口,包含了如 Text, Rectangle, Image等元素,它会自动设置好 窗口的基本属性,如图标、标题、系统按钮。当然也可以撰写QML代码来设定窗口的属性,或者自定义标题栏、操作栏等。 要使用Window对象, 需要使用下面这…

前端对用户名密码加密处理,后端解密

一. 正常表单提交如图&#xff0c;可以看见输入的用户名密码等 二. 使用crypto-js.min.js进行前端加密处理 js资源地址链接&#xff1a;https://pan.baidu.com/s/1kfQZ1SzP6DUz50D–g_ziQ 提取码&#xff1a;1234 前端代码 <script type"text/javascript" src&q…

SQL 撤销索引、表以及数据库||SQL CREATE DATABASE 语句||SQL CREATE TABLE 语句

SQL 撤销索引、表以及数据库 通过使用 DROP 语句&#xff0c;可以轻松地删除索引、表和数据库。 DROP INDEX 语句 DROP INDEX 语句用于删除表中的索引。 用于 MS Access 的 DROP INDEX 语法&#xff1a; DROP INDEX index_name ON table_name 用于 MS SQL Server 的 D…

【知网会议征稿】第三届社会科学与人文艺术国际学术会议 (SSHA 2024)

第三届社会科学与人文艺术国际学术会议 (SSHA 2024) 2024 3rd International Conference on Social Sciences and Humanities and Arts 第三届社会科学与人文艺术国际学术会议 (SSHA 2024)于2024年3月1-3日在中国福州举行。会议旨在为从事“社会科学”与“人文艺术”研究的专…

不会英语能学编程吗?0基础学编程什么软件好?

不会英语能学编程吗&#xff1f;0基础学编程什么软件好&#xff1f; 给大家分享一款中文编程工具&#xff0c;零基础轻松学编程&#xff0c;不需英语基础&#xff0c;编程工具可下载。 这款工具不但可以连接部分硬件&#xff0c;而且可以开发大型的软件&#xff0c;象如图这个…

Windows系统中搭建docker (ubuntu,Docker-desktop)

一、docker安装前的准备工作 1. 开启CPU虚拟化&#xff0c;新电脑该默认是开启的&#xff0c;如果没开启可以根据自己电脑型号品牌搜索如克开启CPU虚拟化。当开启成功后可在设备管理器中看到。 2.开通Hyper-V 通过 Windows 控制面板 --> 程序和功能 -->启用或关闭…

JAVA如何处理各种批量数据入库(BlockingQueue)

JAVA如何处理各种批量数据入库(BlockingQueue) 这里我推荐大家使用BlockingQueue&#xff0c;该队列为阻塞队列 将数据先写入队列中&#xff0c;然后开启多个消费线程慢慢消费入库。从队列中消费数据有两种方式&#xff1a; 单条消费批量消费一、案例&#xff1a;人脸识别设备…