java爬虫简单实现

news/2024/7/19 11:58:32 标签: java, 爬虫

以下为源码

package WebSpider;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 网络爬虫
 * @author Vcanccc
 *
 */
public class WebSpiderTest {
    /**
     * 获得urlStr对应网络内容
     * @param urlStr
     * @return
     */
    public static String getURLContent(String urlStr, String charset){
        StringBuilder sb = new StringBuilder();
        try {
            URL url = new URL(urlStr);
            BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(charset)));
            String temp = "";
            while((temp = reader.readLine()) != null)        
            {
                sb.append(temp);
            }
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return sb.toString();
    }
    
    
    public static void main(String[] args) {
        String destStr = getURLContent("https://www.taobao.com","utf-8");
        
    //    Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");
        Pattern p = Pattern.compile("href=\"(.+?)\"");
        Matcher m = p.matcher(destStr);
        
        while(m.find()){
            System.out.println(m.group(1));
        }
    }
}

 

转载于:https://www.cnblogs.com/Vcanccc/p/5703298.html


http://www.niftyadmin.cn/n/933928.html

相关文章

平板电脑安装软件_电脑软件怎么下载最安全 电脑软件怎么安装

我们可以如果要下什么软件可以直接去官网下&#xff0c;比如我们要下载爱奇艺视频&#xff0c;我们可以百度搜索网页爱奇艺官网&#xff0c;推荐用360安全浏览器&#xff0c;它有官网认证(如图所示)。最为快捷的我们可以通过各大电脑防护软件来下载&#xff0c;里面很多很全的软…

android 华为手机 log,华为安卓实机调试不显示logcat的解决方法

8种机械键盘轴体对比本人程序员&#xff0c;要买一个写代码的键盘&#xff0c;请问红轴和茶轴怎么选&#xff1f;问题在编写安卓代码时&#xff0c;实机测试时程序经常出错退出&#xff0c;但是logcat里却没有调试信息。换用AVD的话&#xff0c;出错信息正常。解决方法华为手机…

Cisco-win10安装ezv_p_n客户端过程介绍与常见问题汇总

写这篇文章前&#xff0c;各位可以翻一下我以前介绍的非模板配置的ez***的介绍&#xff0c;我曾说ez***在win10上基本不支持。继而引来很多企业抛弃思科产品选择国产深信服、飞塔、山石等防火墙、***网关。其实在今年四月这个问题已经得到了解决&#xff0c;在反复的测试、使用…

PHP7之Mongodb API使用详解

这篇文章主要介绍了PHP7之Mongodb API使用详解的相关资料,需要的朋友可以参考下 译安装PHP7 编译安装PHP7 Mongdb扩展 #先安装一个依赖库yum -y install openldap-develwget https://pecl.php.net/get/mongodb-1.1.1.tgz /home/server/php7/bin/phpize #根据自己编译的PHP环境…

多个containers 共用一个pvc_Smart News | 糊树脂 PVC糊树脂价格有望持续上涨,相关概念股迎利好...

点击上方蓝字关注我们吧每天对新增近3000篇文章进行剔除噪声、热度分析、相关性分析。从巨量资料中筛选出38万多个关键词&#xff0c;从中提炼出热点新闻。更进一步&#xff0c;利用深度学习算法&#xff0c;我们从热点新闻中发掘能够在未来一段时间对市场持续产生影响的热门概…

正方形隐藏呈三角形html,border三角形

border:100px solid ;box-shadow: inset 0 1px,inset 1px 0px,inset 0 -1px,inset -1px 0px;width:0px;height: 0px;margin:0 auto;/*transparent 透明*/border-color:red transparent transparent transparent;/*box-shadow 向框添加一个或多个阴影*/box-shadow: inset 0 1px,…

BGP选路原则之MED(cost)

自学习BGP以来&#xff0c;有个问题一直困扰&#xff0c;一个是MED、另一个是Loacl-Preference&#xff0c;总认为对他们的定义与方向&#xff08;import、export&#xff09;理解上不能与书本理论一致&#xff0c;通过以下三个实验&#xff0c;来学习源路由条目对等体&#xf…

SQL Server 存储字符数较大字段的问题

SQL Server 2000专门提供了处理text,ntext,image字段的函数&#xff0c;他们是&#xff1a;  TEXTPTR  TEXTVALID  READTEXT  UPDATETEXT  WRITETEXT 一般作用方法 写字段WRITETEXT &#xff1a; DECLARE val varbinary(16)  SELECT val TEXTPTR(字段名) FROM 表名…