Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)

news/2024/7/19 11:27:19 标签: python, 爬虫, json

一、豆瓣音乐

今天爬的是豆瓣音乐top250,比较简单,主要是练练手。

1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因; 2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据; 3、数据的预处理用了很多if函数

数据分析

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

1、部分数据可以见上图 2、中国音乐作者还是很多的。 3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐) 4、风格大家可以看出流行,摇滚,民谣占了一大半。 5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

代码片段

import
 requests

import
 re

from
 bs4 
import
 
BeautifulSoup

import
 time

import
 pymongo


client 
=
 pymongo
.
MongoClient
(
'localhost'
,
 
27017
)

douban 
=
 client
[
'douban'
]

musictop 
=
 douban
[
'musictop'
]


headers 
=
 
{

    
'User-Agent'
:
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

}

urls 
=
 
[
'https://music.douban.com/top250?start={}'
.
format
(
str
(
i
))
 
for
 i 
in
 range
(
0
,
250
,
25
)]


def
 get_url_music
(
url
):

    wb_data 
=
 requests
.
get
(
url
,
headers
=
headers
)

    soup 
=
 
BeautifulSoup
(
wb_data
.
text
,
'lxml'
)

    music_hrefs 
=
 soup
.
select
(
'a.nbg'
)

    
for
 music_href 
in
 music_hrefs
:

        get_music_info
(
music_href
[
'href'
])

        time
.
sleep
(
2
)

二、微打赏

网站分析

打开网站,翻页网页不变,看看是post的请求,很好办,直接把参数怼进去,这里只要切换page就能进行翻页。

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

json格式,这里post返回的是json数据,解析json数据就行,小技巧:看preview,解析起来嗖嗖哒。这里需要提取活动的名称,id和参与打赏的人数。这个后面详细页用的到。

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

详细页,依旧是post,依旧是json数据,这里的参数pro_id为之前的爬取的id,这一页20个信息,通过前面的参与打赏人数构造出有多少页,继续怼参数。

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

代码片段

python">import
 requests

import
 json

import
 math


def
 get_sup_info
(
url
,
page
):

    
params
 
=
 
{

        
'ajaxtype'
:
1
,

        
'page'
:
page
,

        
'category'
:
1
,

        
'pageSize'
:
8

    
}

    cookies 
=
 
{

        
'User-Agent'
:
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
,

        
'Cookie'
:
'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;

    }

    html = requests.post(url, data=params, headers=cookies)

    json_data = json.loads(html.text)

    des = json_data['
des
']

    for data in des:

        name = data['
name
']

        id = data['
id
']

        pay_count = data['
pay_count
']

        all_page = math.ceil(int(pay_count)/20)

        for i in range(1,int(all_page)+1):

            get_app_info(i,id,name)

三、阳光电影

爬虫分析

这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据,经典影片格式不一样,爬虫时过滤掉了。

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

最后在详细页爬取电影的下载地址,爬取结果如下:

?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

代码片段

python">import
 requests

import
 re

from
 lxml 
import
 etree

import
 csv


def
 get_resource
(
url
,
cate_name
,
cate_url
,
movie_name
):

    res 
=
 requests
.
get
(
url
)

    res
.
encoding 
=
 
'gb2312'

    html 
=
 etree
.
HTML
(
res
.
text
)

    movie_resource 
=
 html
.
xpath
(
'//tbody//tr/td/a/text()'
)[
0
]

    writer
.
writerow
((
cate_name
,
cate_url
,
movie_name
,
url
,
movie_resource
))

    
print
(
movie_resource
)


原文发布时间为:2018-01-10

本文作者:罗攀

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号


http://www.niftyadmin.cn/n/1172455.html

相关文章

fps测试网页_拳头FPS新作无畏契约Valorant新手教程教你注册、下载、安装

.专于心 精于形.在经过一个多月的测试之后,万众期待的拳头首款FPS游戏《无畏契约》即将于6月2日正式公测。相信很多玩家都已经在摩拳擦掌,等待游戏开服后体验游戏了吧。不过需要注意的是,此次公测不包含大陆、越南、印度以及中东地区。因此各…

Golang 并发Groutine实例解读(二)

go提供了sync包和channel机制来解决协程间的同步与通信。 一、sync.WaitGroup sync包中的WaitGroup实现了一个类似任务队列的结构,你可以向队列中加入任务,任务完成后就把任务从队列中移除,如果队列中的任务没有全部完成,队列就会…

计算机公式mode,excel函数,详细教您excel中mode函数的使用方法

在日常的工作当中,我们我们经常都会需要在庞大的一组数据中统计出,出现频率最高的数据,为我们的数据统计和数据管理提供决策。所以这种情况下,我们就得要使用到mode函数了。小伙伴你们知道怎么使用Word里面的mode函数吗&#xff1…

ubuntu如何配置软件更新源和更新镜像

为什么80%的码农都做不了架构师?>>> 1、首先备份Ubuntu源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup或者 cd /etc/apt/ sudo cp sources.list sources.list.bak 2、打开更新源列表 sudo gedit /etc/apt/sources.list 3、选择…

Java的深拷贝和浅拷贝

关于Java的深拷贝和浅拷贝,简单来说就是创建一个和已知对象一模一样的对象。可能日常编码过程中用的不多,但是这是一个面试经常会问的问题,而且了解深拷贝和浅拷贝的原理,对于Java中的所谓值传递或者引用传递将会有更深的理解。 1…

python 需要多久能够学精通_Python要学习多久可以掌握?多久可以精通?

Python虽然近些年刚刚流行起来,但是想要学习的人是非常多,不少人都想要学习Python语言,那么学习Python多久可以掌握呢?多久可以精通呢?这是大家共同的疑问,接下来小编跟大家介绍一下吧。自学Python要学习多久可以学会呢?如果是…

7, 简述计算机运算1+3=的过程,计算机算法3

《计算机算法3》是2006年1月机械工业出版社出版的图书,作者是(美)霍罗威茨 冯博琴。本书为读者提供了当前流行的对象设计语言C的实现版本,适合作为高等院校计算机专业教材,也是计算机算法方面的重要参考书。书 名计算机算法3作 者(美)霍…

Redis Cluster实现原理

一、Redis Cluster主要特性和设计 集群目标 1)高性能和线性扩展,最大可以支撑到1000个节点;Cluster架构中无Proxy层,Master与slave之间使用异步replication,且不存在操作的merge。(即操作不能跨多个nodes&a…