爬虫ip如何加入到代码里实现自动化数据抓取

news/2024/7/19 10:25:03 标签: 爬虫, tcp/ip, 自动化, 网络协议, 开发语言, 服务器

以下是一个使用HTTP:Tiny和www.weibo.com的音频爬虫程序的示例。这个示例使用了https://www.duoip.cn/get_proxy来获取爬虫IP。请注意,这个示例可能需要根据你的实际需求进行调整。

在这里插入图片描述

#!/usr/bin/perl

use strict;
use warnings;
use HTTP::Tiny;
use LWP::UserAgent;
use JSON;

my $ua = LWP::UserAgent->new();
$ua->timeout(30);

# 获取爬虫IP
my $proxy_ip = get_proxy();

# 设置代理
$ua->proxy('http', $proxy_ip);

# 目标网站的URL
my $target_url = 'http://www.weibo.com';

# 请求目标网站
my $response = $ua->get($target_url);

# 检查请求是否成功
if ($response->is_success) {
    # 解析JSON回复
    my $data = JSON->new->decode($response->content);

    # 处理音频数据
    my @audio_data = @{$data->{data}};
    foreach my $audio (@audio_data) {
        print "音频标题: " . $audio->{title} . "\n";
        print "音频链接: " . $audio->{url} . "\n";
        print "音频描述: " . $audio->{description} . "\n\n";
    }
} else {
    print "请求失败: " . $response->status_line . "\n";
}

sub get_proxy {
    # 使用HTTP::Tiny发送请求到https://www.duoip.cn/get_proxy
    my $response = $ua->get('https://www.duoip.cn/get_proxy');

    # 检查请求是否成功
    if ($response->is_success) {
        # 解析JSON回复
        my $data = JSON->new->decode($response->content);

        # 返回爬虫IP
        return $data->{ip};
    } else {
        print "获取爬虫IP失败: " . $response->status_line . "\n";
        return undef;
    }
}

这个程序首先获取一个爬虫IP地址,然后使用这个爬虫IP发送请求到www.weibo.com。接下来,程序解析JSON回复,提取音频数据,并输出音频标题、链接和描述。请注意,这个示例仅供参考,你可能需要根据实际需求进行调整。


http://www.niftyadmin.cn/n/5098270.html

相关文章

SpringCloud: sentinel热点参数限制

一、定义controller package cn.edu.tju.controller;import com.alibaba.csp.sentinel.annotation.SentinelResource; import com.alibaba.csp.sentinel.slots.block.BlockException; import org.springframework.web.bind.annotation.PathVariable; import org.springframewo…

Hadoop3教程(十九):MapReduce之ETL清洗案例

文章目录 (121)ETL数据清洗案例参考文献 (121)ETL数据清洗案例 ETL,即Extract-Transform-Load的缩写,用来描述数据从源端,经过抽取(Extract)、转换(transfor…

【算法训练-回溯算法 一】【经典模版】全排列

废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【回溯算法】,使用【数组】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件为&…

DELTA TAU ACC-24E2A 如何开始学习机器人技术

DELTA TAU ACC-24E2A 如何开始学习机器人技术 如果你想成为机器人革命的一部分(彻底改变我们的生活和工作方式,而不是真正推翻人类),Simplilearn有你需要的东西。这人工智能和机器学习训练营与IBM和加州理工学院合作,涵盖了与机器人相关的重…

论文笔记与复现[156]PARAFAC. tutorial and applications

原文下载:https://www.sciencedirect.com/science/article/abs/pii/S0169743997000324 摘要 本文介绍了PARAFAC的多维分解方法及其在化学计量学中的应用。PARAFAC是PCA向高阶数组的推广,但该方法的一些特性与普通的二维情况截然不同。例如,…

Unity 3D 基础——Coroutine 协同程序

Coroutine 称为协同程序或者协程,协同程序可以和主程序并行运行,和多线程有些类似。协同程序可以用来实现让一段程序等待一段时间后继续运行的效果。例如,执行步骤1,等待3秒;执行步骤2,等待某个条件为 true…

【STL】平衡二叉树

前言 对于之前普通的二叉搜索树,其搜索的效率依靠树的形状来决定,如下: 可以看到 A图 中的树比较彭亨,搜索一个元素的效率接近 O(logN) ;而 B图 中的形状也符合搜索二叉树,但是很不平衡,这时的…

puppeteer学习笔记

目录 介绍启动方法功能一、爬虫优势如何实现爬虫小demo 功能二、执行脚本百度搜索脚本demo 功能三、获取cookie(这个只能是模拟浏览器当前进入网页的cookie不是平时用的下载的的浏览器的cookie)功能四、监控网页,进行性能分析 介绍 puppetee…