Python爬取电影天堂最新发布影片消息

news/2024/7/19 11:21:49 标签: python, 爬虫

从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客,好记性不如烂笔头,以便以后的我进行复习。

虽然我现在的爬虫还很幼小,希望有一天她能长得非常非常的强大。

--------------------2018.11.22---------------------------------------------------------------------------------------------------------------------------------

 

OK,废话少说。今天爬取的是电影天堂网站左边框的一个container。

 

环境我准备好了,所以我就开始了。

首先,为了我测试时的速度和不影响人家网站的服务器,我决定把电影天堂页面的html下载到本地

代码如下:

1 #下载网页
2 def downloadhtml():
3     url = 'https://www.dytt8.net'
4     headers = {'User-Agent':'Mozilla/5.0'}
5     r = requests.get(url,headers=headers)
6     with open('C:/Code/newhtml1.html','wb') as f:
7         f.write(r.content)
8 downloadhtml()

这里值得一提的是,抓取下来的HTML格式是二进制的,所以保存文件时要用wb。

 


 

保存好HTML文件,我就可以尽情地调戏,不对,调试这个网站了的数据。

第一步:分析数据

打开网页的源代码,我们发现我们需要的数据被装在一个ul标签里。

Ctrl+F在源代码里查看<ul>标签,发现我们需要的ul标签是第三个标签。

 

 

这样我们就知道该爬哪里了。


 

第二步:解析数据

刚才下载的网页现在可以用上了,定义一个函数让BeautifulSoup能用上这个HTML网页

如:soup = BeautifulSoup(html,'html.parser')里面的html参数就可以用htmlhandle这个变量填上。

1 def send_html():
2     path = 'C:/Code/newhtml1.html'
3     htmlfile=open(path,'r')
4     htmlhandle = htmlfile.read()
5     return htmlhandle

开始分析数据,

先贴代码吧:

1 def get_pages(html):
2     soup = BeautifulSoup(html,'html.parser')
3     for ul in  soup.find_all('ul')[2]:
4         if isinstance(ul,bs4.Tag):
5             Tag_name=ul.get_text()
6             Tag_href=ul.get('href')
7             if Tag_name!= '':
8                 print('名称:{},地址:{}'.format(Tag_name,Tag_href))

解释下代码

先用BeautifulSoup的find_all()函数找到所有ul标签,因为后面加了[2],所以找到是第三个ul标签。

在这里我们离我们的目标很近了。

但这里我们能发现find_all()遍历返回的值的类型是不同的,我们利用type(ul)就能发现,它其中参杂两种类型:

<class 'bs4.element.NavigableString'>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>

字符串和Tag,测试一下就能知道字符串类型是空的,我们需要的Tag类型。

所以用isinstance来判断是否是Tag类型,如果不是,就不要了。输出如下:

 

我们发现,中间还参杂了一些无效的条目,仔细看上面就能发现它返回是有两个Tag类型的,其中一个是什么都没有装的,是导致这个无效条目的原因。

所以把这条无效的条目给过滤掉吧

if Tag_name!= '':
                print('名称:{},地址:{}'.format(Tag_name,Tag_href))

到这里,我们就完成了本次抓取。


下面附上总代码:

 1 import requests
 2 import re
 3 from bs4 import BeautifulSoup
 4 import bs4
 5 
 6 def send_html():
 7     path = 'C:/Code/newhtml1.html'
 8     htmlfile=open(path,'r')
 9     htmlhandle = htmlfile.read()
10     return htmlhandle
11 
12 def get_pages(html):
13     soup = BeautifulSoup(html,'html.parser')
14     for ul in  soup.find_all('ul')[2]:
15         #print(type(ul))
16         if isinstance(ul,bs4.Tag):
17             Tag_name=ul.get_text()
18             Tag_href=ul.get('href')
19             if Tag_name!= '':
20                 print('名称:{},地址:{}'.format(Tag_name,Tag_href))
21 
22 get_pages(send_html())

 

转载于:https://www.cnblogs.com/xunhuajun/p/10001675.html


http://www.niftyadmin.cn/n/682905.html

相关文章

泰凌微TLSR825X开发十三 蓝牙长包通信

前言 泰凌微TLSR825X是支持BLE5.0的&#xff0c;SDK包含了data length extension数据包扩展功能&#xff0c;数据最大长度251字节&#xff0c;可以提高大数据通信效率。 本章主要讲解下长包的通信交互与配置&#xff0c;深入可参考泰凌微开发手册3.2.8 Data Length Extension…

netty4.0与3.x的更新点

为什么80%的码农都做不了架构师&#xff1f;>>> netty从3.x升级到4.0&#xff0c;有以下变化调整&#xff0c;参考这篇文章&#xff1a;http://colobu.com/2015/08/17/netty-new-and-noteworthy-in-4-0/ 转载于:https://my.oschina.net/mui/blog/1841219

贫贱不能移 威武不能屈 富贵不能淫

问&#xff1a;“为什么有钱有权的都移民了&#xff1f;” 答&#xff1a;“贫贱不能移&#xff01;” 2、问&#xff1a;为什么有权有势的都永远不会认错&#xff1f;” 答&#xff1a;“威武不能屈&#xff01;” 3、问&#xff1a;为什么有钱有权的人包养二奶不能叫淫&…

DWM1000 多个标签定位讨论 --[蓝点无限]

多标签代码已经基本实现&#xff0c;完成代码可以在论坛上下载 http://bphero.com.cn/forum.php?modviewthread&tid53&fromuid2 蓝点DWM1000 模块已经打样测试完毕&#xff0c;有兴趣的可以申请购买了&#xff0c;更多信息参见 蓝点论坛 20181125 更新&#xff0c;按…

泰凌微TLSR825X开发十四 connslave时序保护

前言 泰凌微BLE在建立连接后&#xff0c;需要周期性的来完成一个收发包事件&#xff08;Brx Event&#xff09;&#xff0c;在SDK中该事件通过中断来触发。在部分应用中&#xff0c;如擦写片上flash(MSPI)禁用中断时间较长&#xff08;100ms&#xff09;可能会造成连接断开&am…

Oracle 优化器的执行计划了解 (1)

Oracle 10G 获得执行计划 有1 SQLPLUS 2 PL/SQLDEVELOPER 工具 3 TOAD 2 PL/SQL DEVELOPER SELECT count(*)FROM user_beh_sum_day_201203 a WHERE a.operid 1006 AND a.channelid 12选择了这几个观察指标分别是 1 Description 说明 2 D…

解决ecshop订单管理退货时,如何做到不退邮费

解决ecshop订单管理退货时&#xff0c;如何做到不退邮费 2015-5-24 11:42 | 发布者: moke | 栏目&#xff1a;ecshop教程 解决ecshop订单管理退货时&#xff0c;如何做到不退邮费&#xff0c;提供相关ecshop教程如下&#xff1a; 打开admin/order.php在大约4468行处找到 /**…

Python包管理器

Anaconda、Miniconda、Conda、pip的相互关系 (2017-05-27 09:46:08)转载▼Python应用前景&#xff1a;1&#xff0c;运维自动化2&#xff0c;web开发3&#xff0c;数据分析4&#xff0c;人工智能当然还有其他的用途&#xff0c;应用其实挺广泛的......标签&#xff1a; python …