大众对618大促销的热情为何越来越淡了

news/2024/7/19 9:59:28 标签: 开发语言, python, 爬虫, 经验分享

618购物大促销已经过了,但是今年大家的热情相比此前热情大战购物节减少了很多,今年不少消费者选择了“冷静”,没有抢购、没有冲刺,有的减少了下单的客单价,有的减少了购买数量。很多网页反馈说对购物节似乎不那么在意这种促销活动了,羊毛薅不动了,已经没有几年前参与大促时的满满兴致。
大家都知道618更多是京东的主场,淘宝防守为主以进攻双11主场,拼多多则继续百亿补贴抢占中小品牌的低价市场。今年很多商家发现很多的老用户热情逐渐退场,消费欲望被分流。对于老用户而言,对购物节大促的疲惫感似乎与日俱增。
虽然大家对促销的热情减少了不少,但是还有很多人参与了618购物节,所以今天准备分析一波购物节大家都喜欢买什么?本文以某东为例,用Python爬取618活动的畅销商品数据,并进行数据清洗,最后以可视化的方式从不同角度去了解畅销商品中,名列前茅的商品是哪些?销售数据如何?用户好评如何?等等
完整的步骤如下
1、爬取某东畅销商品数据
2、清洗数据并并进行简单分析
3、将数据进行可视化展示
数据的获取只最重要的一步,在爬取数据之前,先对某东进行了分析,目标的反爬措施一如既往的严格,各种反爬措施都使用上,特别是对基本的IP的防空更是加强了,一般的代理已经没法使用了,这里必须使用高质量,高匿的代理,经过一波测试分析,目前只有亿牛云的代理在成功率上有很好的效果。这里我们可以通过使用代理 IP、修改请求头部信息、降低请求频率或使用其他语言库,如 aiohttp、 Scrapy、Selenium 等,来进行复杂的反爬处理。比如这里我们可以使用aiohttp、爬虫代理加强版IP和随机User-Agent实现数据采集。

import urllib.parse
import asyncio
import aiohttp
import lxml.html
import random

URL_TEMPLATE = 'https://search.jd.com/search?keyword=%E6%89%8B%E6%9C%BA/{}'
HEADERS_LIST = [
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
    'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; AS; rv:11.0) like Gecko',
    # 添加更多 User-Agent
]

# 代理服务器( www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "16yun"
proxyPass = "16ip"

PROXIES = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

async def query(content):
    async with aiohttp.ClientSession(headers=get_random_headers()) as session:
        url = URL_TEMPLATE.format(urllib.parse.quote(content))        
        async with session.get(url, proxy=PROXIES) as response:
            html = lxml.html.fromstring(await response.read())
            sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')
            sen_list_after_filter = [item.strip('\n') for item in sen_list]
            return '\n'.join(sen_list_after_filter).encode('utf-8')

async def main():
    async for content in get_input():
        result = await query(content)
        print("查询结果:\n%s" % result.decode('utf-8'))

async def get_input():
    while True:
        yield input('查询词语:')

def get_random_headers():
    return {'User-Agent': random.choice(HEADERS_LIST)}

if __name__ == '__main__':
    asyncio.run(main())


http://www.niftyadmin.cn/n/447756.html

相关文章

2自由度并联仿生腿的制作

1. 运动功能说明 本文实例将实现2自由度并联仿生腿模组运动起来,模拟实现狗腿行走的动作。 2. 结构说明 2自由度并联仿生腿模组是由两个舵机驱动的,它的所有动作都将在两个舵机的配合运动下实现。 3. 运动原理说明 2自由度并联仿生腿模组运动的点位如下…

@KafkaListener中写redistemlate.push redis导致连接数过多

如果在**KafkaListener** 注解中使用RedisTemplate来将消息推送到Redis中,可能会出现连接过多的问题, 因为每次调用RedisTemplate的操作都会创建一个新的Redis连接。 为了避免这种情况,可以使用Spring提供的支持多线程操作的RedisTemplate实…

SpringCloud:什么是SpringCloud?①

一、什么是SpringCloud 像“云朵”一样聚集起来管理服务。它的定位就是:服务群组间的通讯管理. 二、Spring,SpringBoot以及SpringCloud之间的关系。 Spring是一种引擎式的底层核心-- bean容器思想。后面均是基于它延伸的高级产品。 SpringBoot 专注单体…

智慧文旅-VR全景展示助力开启景区数字化管理新方式

导语: 在数字化时代,旅游业面临着新的机遇和挑战。 为了吸引更多游客并提供独特的旅行体验,结合VR全景技术和智慧文旅的创新模式已经成为不可忽视的趋势。 一.提升旅游感官体验 VR全景技术正以惊人的速度在旅游业中崭露头角。通过…

尚硅谷微信小程序开发 仿网易云音乐App 小程序 后端接口服务器搭建

小程序学习 尚硅谷微信小程序开发 项目网易云小程序学习地址: 01-尚硅谷-小程序-课程介绍_哔哩哔哩_bilibili 视频相关的教程文档与笔记分享 链接:https://pan.baidu.com/s/1aq7ks8B3fJ1Wahge17YYUw?pwd7oqm 提取码:7oqm 配套服务器 老师…

【备战秋招】每日一题:2023.05-B卷-华为OD机试 - 恢复数字序列

为了更好的阅读体检,可以查看我的算法学习博客恢复数字序列 题目描述 对于一个连续正整数组成的序列,可以将其拼接成一个字符串,再将字符串里的部分字符打乱顺序。如序列 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12,拼接成的字…

压力测试-JMeter安装、入门、结果分析

目录 1.写在前面 2.常用压测工具 3.压测机环境准备:JMeter部署 3.1 JMeter下载安装&启动&配置 3.2 入门案例 3.2.3、压测结果解释 3.2.4、线程属性参数原理 1.写在前面 等到服务上线后,在业务压力的冲击下,会发现程序运行非常…

南京贸易企业增值税居高不下,该如何解决?

南京贸易企业增值税居高不下,该如何解决? 《税筹顾问》专注于园区招商,您的贴身节税小能手,合理合规节税! 南京作为省会城市,近年来由于芯片、生物医药等产业的发展而跻身前十,随着它在教育、军…