3-26

news/2024/7/19 10:32:23 标签: 爬虫, 网络, 操作系统

反防爬

技巧一:

设置下载等待时间/下载频率 大规模集中访问对服务器的影响较大,爬虫可以短时间增大服务器负载。这里需要注意的是:设定下载等待时间的范围控制,等待时间过长,不能满足短时间大规模抓取的要求,等待时间过短则很有可能被拒绝访问,注意设置超时和连接connect超时。

技巧二:

修改User-Agent ** User-Agent是指包含浏览器信息、操作系统信息等的一个字符串,也称之为一种特殊的网络协议。服务器通过它判断当前访问对象是浏览器、邮件客户端还是网络爬虫。在request.headers里可以查看user-agent,关于怎么分析数据包、查看其User-Agent等信息,这个在前面的文章里提到过。具体方法可以把User-Agent的值改为浏览器的方式,甚至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每次爬取的时候随机取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。

技巧三:

修改IP其实微博识别的是IP,不是账号。也就是说,当需要连续抓取很多数据的时候,模拟登录没有意义。只要是同一个IP,不管怎么换账号也没有用,主要的是换IP。web server应对爬虫的策略之一就是直接将IP或者整个IP段都封掉禁止访问,当IP被禁封后,转换到其他IP继续访问即可。方法:代理IP、本地IP数据库(使用IP池)。ip池要钱555555,有没有免费的啊5555

sql语句

建表

  • SQL CREATE TABLE 语法
CREATE TABLE 表名称
(
列名称1 数据类型,
列名称2 数据类型,
列名称3 数据类型,
....
)

复制代码

数据类型(data_type)规定了列可容纳何种数据类型。

  • integer(size), int(size),smallint(size),tinyint(size)

    仅容纳整数。在括号内规定数字的最大位数。

  • decimal(size,d) numeric(size,d)

    容纳带有小数的数字。

  • "size"

    规定数字的最大位数。"d" 规定小数点右侧的最大位数。

  • char(size)

    容纳固定长度的字符串(可容纳字母、数字以及特殊字符)。

    在括号中规定字符串的长度。

  • varchar(size)

    容纳可变长度的字符串(可容纳字母、数字以及特殊的字符)。

    在括号中规定字符串的最大长度。

  • date(yyyymmdd) 容纳日期。

实例

CREATE TABLE Persons
(
Id_P int,
LastName varchar(255),
FirstName varchar(255),
Address varchar(255),
City varchar(255)
)
复制代码

INSERT INTO 语句

INSERT INTO 表名称 VALUES (值1, 值2,....)

INSERT INTO table_name (列1, 列2,...) VALUES (值1, 值2,....)

插入新的行

INSERT INTO Persons VALUES ('Gates', 'Bill', 'Xuanwumen 10', 'Beijing')

转载于:https://juejin.im/post/5c98c5826fb9a071061f081a


http://www.niftyadmin.cn/n/1818625.html

相关文章

并发、并行、同步、异步、多线程的区别?

并发:同一时间段有几个程序都处于已经启动到运行完毕之间,并且这几个程序都在同一个处理机上运行,并发的两种关系是同步和互斥; 互斥:进程之间访问临界资源时相互排斥的现象; 同步:进程之间存在…

heapsort(Java)(最小堆)

1 public static void main(String[] args)2 {3 Scanner input new Scanner(System.in);4 int n input.nextInt();5 int[] a new int[n];6 7 a[0] 0; //不使用第一个位置8 for(int i 1; i < a.length; i)9 a[i] (int)(Math.random() * 1…

微信小程序HTTPS证书部署案例

为什么80%的码农都做不了架构师&#xff1f;>>> 微信小程序在2018年呈现出爆发趋势&#xff0c;背靠微信10亿日活流量&#xff0c;累积用户数超过4亿。曾经不被业界看好的轻应用模式&#xff0c;如今已变成互联网企业不可忽视的流量平台。微信小程序从上线之初&…

SAP BW 学习笔记(一)

SAP BW 全称 Business Information Warehouse&#xff0c;在版本3.5之后又称SAP Business Intelligence.处于SAP Netweaver整体架构当中的Information Integration这一层&#xff0c;与之并列的还有主数据管理&#xff08;Master Data Management&#xff09;和知识管理&#x…

类加载器ClassLoader源码解析

1、ClassLoader作用 类加载流程的"加载"阶段是由类加载器完成的。2、类加载器结构 结构&#xff1a;BootstrapClassLoader&#xff08;祖父&#xff09;-->ExtClassLoader&#xff08;爷爷&#xff09;-->AppClassLoader(也称为SystemClassLoader)&#xff08;…

GCJ-02火星坐标系和WGS-84坐标系转换关系

GCJ-02火星坐标系和WGS-84坐标系转换关系 WGS-84&#xff1a;GPS坐标系 GCJ-02&#xff1a;火星坐标系&#xff0c;国测局02年发布的坐标体系&#xff0c;高德&#xff0c;腾讯等使用。 BD-09&#xff1a;百度坐标系&#xff0c;百度自研&#xff0c;百度地图使用。 GCJ-02 转W…

Android自定义控件CustomView2 扩展控件、组合控件

为什么80%的码农都做不了架构师&#xff1f;>>> 1.init() { post(...) { setBitmap(...); // 自定义Imageview } } 2.组合控件 public class MyLinearViewGroup extends LinearLayout { init() { ... getContext(); LayoutParams params new LayoutPara…

Apache的rewrite模块(url重写模块)配置

1,首先检查是否已安装rewrite模块: cat httpd.conf | grep rewriteLoadModule rewrite_module modules/mod_rewrite.so 2,生成伪静态html连接: (1)生成伪静态html 在<VirtualHost>段最后加入 RewriteEngine onRewriteRule /goods([0-9]).html /goods.php?id$1 [PT] 更标…