(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

news/2024/7/19 9:45:43 标签: 爬虫, 数据库

上次说到关于已经成功得到数据了。

请看第一期链接:http://www.cnblogs.com/codefish/archive/2012/11/17/2774911.html

那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式

<a href="htm_data/7/1211/828353.html" target="_blank" id="">[双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]</a>

以<a>开始,</a>结束 

那简单的正则表达就应该是

<a href="htm_data.+>.+</a>

但是显然,这样的会将所有部分都包含进去了,并且这样的使用的是贪婪模式,没有进行特定字符的锁定的。

观察得到,所有的字符都是

<h3><a href=\"(htm_data/[0-9]{1,3}/[0-4]{1,4}/[0-9]{1,10}.html)\" target=\"_blank\" id=\"\">(.{1,50})</a></h3>

为什么要这样写:

第一,这样写将特定的部分总结出来,

htm_data/[这里要锁定数字] 

id=\"\">(.{这里要锁定字符部分})

第二,需要根据出现的字符数时时的去改变范围

比如这里的部分

<h3><a href=\"(htm_data/[0-9]{1,3}/[0-4]{1,4}/[0-9]{1,10}.html)\" target=\"_blank\" id=\"\">(.{1,50})</a></h3>

因为出现的最大字符数并不确定,而且不能包含到下一个出现的匹配字符,这样不会影响结果。

OK:数据完整,一个也没有漏掉,这样可以将这些内容写入到数据库,就相当于在本地有了论坛的数据部分。

抱歉,本来说好晚上更新的,没想到和朋友出去吃点饭弄的这么晚

下期更新,如果用本地用户名,密码的方式访问网站。敬请期待。。。

转载于:https://www.cnblogs.com/codefish/archive/2012/11/18/2775547.html


http://www.niftyadmin.cn/n/848869.html

相关文章

607. 销售员

# Write your MySQL query statement below SELECTs.name FROMsalesperson s WHEREs.sales_id NOT IN (SELECTo.sales_idFROMorders oLEFT JOINcompany c ON o.com_id c.com_idWHEREc.name RED) 描述 给定 3 个表&#xff1a; salesperson&#xff0c; company&#xff0c;…

linux 驱动学习笔记01--Linux 内核的编译

由于用的学习材料是《linux设备驱动开发详解&#xff08;第二版&#xff09;》&#xff0c;所以linux驱动学习笔记大部分文字描述来自于这本书&#xff0c;学习笔记系列用于自己学习理解的一种查阅和复习方式。 #make config&#xff08;基于文本的最为传统的配置界面&#xff…

C常用字符转换函数

atof&#xff08;将字符串转换成浮点型数&#xff09;相关函数atoi&#xff0c;atol&#xff0c;strtod&#xff0c;strtol&#xff0c;strtoul表头文件#include <stdlib.h>定义函数double atof(const char *nptr);函数说明atof()会扫描参数nptr字符串&#xff0c;跳过前…

VTK中实现图像翻转

关于实现图像的翻转&#xff0c;最简单的方法就是使用a)vtkImageFlip类(见参考资料[1][2][3])&#xff1b;根据参考资料[6][7]的提示&#xff0c;可以通过设置b)vtkCamera来实现&#xff1b;此外&#xff0c;还可以同通过使用c)vtkImageActor的RotateX()&#xff0c;RotateY()以…

Azure Storage Client Library 重试策略建议

有关如何配置 Azure Storage Library 重试策略的信息&#xff0c;可参阅 Gaurav Mantri 撰写的一篇不错的文章《SCL 2.0 – 实施重试策略》。但很难找到关于使用何种重试策略设置的实用指导。本文章提供的建议是基于Microsoft 团队在高负载场景中使用SCL 的实际体验&#xff08…

11月22日,一个值得纪念的日子

人生的警醒&#xff0c;后续的人生方向&#xff0c;都需要好好的思考。转载于:https://www.cnblogs.com/StitchSun/archive/2012/11/26/2788385.html

610. 判断三角形

select x,y,z, case when xy>z and xz>y and yz>x thenYes else No end as triangle from triangle一个小学生 Tim 的作业是判断三条线段是否能形成一个三角形。 然而&#xff0c;这个作业非常繁重&#xff0c;因为有几百组线段需要判断。 假设表 triangle 保存了所…

位运算总结 取模 取余

位运算应用口诀 清零取反要用与&#xff0c;某位置一可用或若要取反和交换&#xff0c;轻 轻松松用异或移位运算要点 1 它们都是双目运算符&#xff0c;两个运算分量都是整形&#xff0c;结果也是整形。2 "<<" 左移&#xff1a;右边空出的位上补0&#xff0c;左…