使用Java编写程序模拟浏览器，爬取防爬虫网站的信息 - 代码天地

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

其他 2020-01-20 18:24:17 阅读次数: 0

#源码

package com.sxt.location;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

/*
 * 
 *网络爬虫 +模拟浏览器
 *
 *作者：不忘初心
 * 
 */

public class SpiderTest01 {
	
	public static void main(String[] args) throws IOException {
		//获取URL
		URL url=new URL("https://www.dianping.com");
		//下载资源
		//InputStream is =url.openStream();
		
		HttpURLConnection   conn=(HttpURLConnection) url.openConnection();
		
		conn.setRequestMethod("GET");
		conn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36");
		
		BufferedReader  br =new BufferedReader( new InputStreamReader(conn.getInputStream(),"UTF-8"));
		
		String msg=null;
		while(null!=(msg=br.readLine())) {
			System.out.println(msg);
			
		}
		
		br.close();
		
		//分析
		//处理
		
	}
          
}

##截取一部分爬取到的HTML文件

在这里插入图片描述

#参考文献
【1】java核心技术卷一
【2】裴新，java300集

不知道取个什么名字好

发布了4 篇原创文章 · 获赞 0 · 访问量 71

私信关注

猜你喜欢

转载自blog.csdn.net/qq_42849206/article/details/104046718

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

爬虫：模拟浏览器对网站内容进行爬取

反爬虫模拟浏览器——实现银行信息爬取

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息

使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息

网络爬虫开发(三)-爬虫基础——爬取前端渲染网站的注意事项 & 分析ajax请求并爬取（伪造header）-模拟真实浏览器的请求头

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

模拟浏览器爬取

不用写代码的爬虫：使用chrome浏览器的爬虫插件Web Scraper爬取天猫商品信息

Java | 模拟网站服务器，使用浏览器访问自己编写的服务端程序，查看网页效果。

python爬虫之selenium模拟浏览器爬取淘宝美食

python爬虫+网页点击事件+selenium模拟浏览器，爬取选股宝内容

scrapy框架+selenium驱动谷歌浏览器爬取简书网站存入mysql的网站级爬虫

爬虫---------scrapy------浏览器爬取（）

spynner模拟浏览器爬取链接

python模拟浏览器爬取数据

scrapy模拟浏览器翻页爬取智联

简单的模拟浏览器爬取网页和图片

Python使用标准库urllib模拟浏览器爬取网页内容

通过selenium +headless浏览器爬取淘宝信息

使用scrapy框架,用模拟浏览器的方法爬取京东上面膜信息,并存入mysql,sqlite,mongodb数据库

selenium + Chrome 模拟浏览器爬淘宝信息

python爬虫 requests+lxml爬取前程无忧网之模拟浏览器登录

解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题

Python爬虫入门5：模拟浏览器访问网站

初学html 之Editplus编写程序后浏览器打开显示乱码问题

爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息

Python爬虫入门3：使用google浏览器获取网站访问的http信息

Python爬虫入门4：使用IE浏览器获取网站访问的http信息

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)