python爬虫中如何获取cookie和添加代理池

news/2024/7/19 9:40:42 标签: python, 爬虫, 开发语言, 代理模式, 经验分享

网站反爬机制的是日常爬虫中要解决的基础问题,其中一项就是通过添加cookie,因为我们在访问网站的时候大多数都是需要带cookie的,为什么要有这个呢?其实可以理解成我们在这个网站的临时身份证,为什么是说是临时的呢,因为cookie是存在有效期的,这个有效期各个网站都是不同的,要取决于这个网站本身。
而且,有很多网站都是需要登录才可以的,经过登陆验证之后,就会给你返回一个cookie,这样子在你接下来的固定时间内,你再该网站的所有操作,都是携带着cookie来进行的。
当我们访问某些需要登录才能访问到指定用户名密码的时候,就需要我们携带cookie才能访问了,这个时候我们可以先用浏览器登录上,并访问下指定页面,检查下他携带的cookie信息是什么,然后将其cookie复制出来,放到我们的代码中,比如我们可以通过python来获取访问的cookie信息,如下代码示例:

import sqlite3

# 连接到cookie数据库
conn = sqlite3.connect('C:\\Users\\[用户名]\\AppData\\Local\\Google\\Chrome\\User Data\\Default\\Cookies')

# 查询cookie信息
cursor = conn.execute('SELECT host_key, name, value FROM cookies')

# 输出查询结果
for row in cursor:
    print(row)

上面我们了解了如何获取cookie并使用,接下来就是代理的使用问题,在爬取过程中只有将这两个结合起来才能更有效的爬取数据。关于代理池之前分享了很多,网上也有很多的代理商,免费的付费的都有,根据自己的需求选择就可以,如果网站对IP的质量要求比较高的,这里推荐付费代理亿牛云,特别是他们看家的隧道爬虫代理,这里也简单的分享下他们家隧道代理的使用demo:

    #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text


http://www.niftyadmin.cn/n/1607787.html

相关文章

微软常用的服务器软件

Windows 服务器 SQL Server数据库 Exchange Lync Server System Center Hyper-V 安全接入- ADFS Proxy (ActiveDirectoryFederationServices)

企业社交,可能是个伪命题?

昨大早受邀去参加了金蝶微博的发布会,他们产品改名叫“云之家”。说实话,对金蝶微博一直都只是有了解,但并不熟悉。最早知道Yammer,daPulse、Jive这类产品的时候,并不看好这种封闭的甚至有点扯淡的产品,谁知…

Afaira服务器上报错NDEF invalid Operation tag

iOS设备在Afaria服务器上注册Enroll成功,但是Windows event log里面有错误日志:The Network Device Enrollment Service received an http message without the "Operation" tag, or with an invalid "Operation" tag.这个不影响Afa…

自定义标签学习笔记

2004-10-8 星期四 晴 1. 什么是自定义标签 答:1) 用户自定义的Java语言元素, 实质是运行一个或者两个接口的JavaBean; 2) 可以非常机密地和JSP的表示逻辑联系在一起,又具有和普通JavaBe…

DrenmIt Ventures 2012 纽约演示日:5大值得期待的创业公司

DreamIt Ventures是一家总部位于美国费城的创投公司,主要聚焦于孵化器和种子期的风险投资。截至今天,DreamIt Ventures 已经成功孵化出80家创业公司,其中包括社交广告创业公司Adaptly,票务搜索服务公司SeatGeek,在线教…

升级Afaria以后,Afaria不能启动

Windows event log报错&#xff1a; "Unable to connect to Server: <B>localhost</B> at address:<B>localhost</B> <BR>Reason: Illegal operation attempted on a registry key that has been marked for deletion.HR800703fa解决办法&a…

EJB学习笔记

2004-10-13 星期三 晴 服务器端计算(使用WSAD开发、调试以及测试EJB、JSP和Servlet(EJB第一天)) 1. 单层(桌面系统) 答&#xff1a; 1) GUI客户端、应用程序以及资源全都在同一台机器(同一层); 2. 二层(服务器/客户端) 答: 1) 胖客户端; 2) 应用和资源在同一…

全球首款可堆叠移动电源 电池容量无上限

Exogear公司最近宣布他们即将推出全球首款可堆叠移动电源Exovolt Plus&#xff0c;Exovolt Plus由一个核心电池和若干个拓展电池组成&#xff0c;核心电池可以直接给设备充电&#xff0c;拓展电池不能单独使用&#xff0c;只能通过连接核心电池再给设备充电。 Exovolt Plus采用…