Java爬虫抓取视频网站下载链接_Java教程

本篇文章抓取目标网站的链接的基础上，进一步提高难度，抓取目标页面上我们所需要的内容并保存在数据库中。这里的测试案例选用了一个我常用的电影下载网站（http://www.80s.la/）。本来是想抓取网站上的所有电影的下载链接，后来感觉需要的时间太长，因此改成了抓取2015年电影的下载链接。

一原理简介

其实原理都跟第一篇文章差不多，不同的是鉴于这个网站的分类列表实在太多，如果不对这些标签加以取舍的话，需要花费的时间难以想象。

Java爬虫抓取视频网站下载链接

分类链接和标签链接都不要，不通过这些链接去爬取其他页面，只通过页底的所有类型电影的分页去获取其他页面的电影列表即可。同时，对于电影详情页面，仅仅只是抓取其中的电影标题和迅雷下载链接，并不进行深层次的爬行，详情页面的一些推荐电影等链接通通不要。

Java爬虫抓取视频网站下载链接

最后就是将所有获取到的电影的下载链接保存在videoLinkMap这个集合中，通过遍历这个集合将数据保存到MySQL里

二代码实现

实现原理已经在上面说了，并且代码中有详细注释，因此这里就不多说了，代码如下：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

									package action;

									import java.io.BufferedReader;

									import java.io.IOException;

									import java.io.InputStream;

									import java.io.InputStreamReader;

									import java.net.HttpURLConnection;

									import java.net.MalformedURLException;

									import java.net.URL;

									import java.sql.Connection;

									import java.sql.PreparedStatement;

									import java.sql.SQLException;

									import java.util.LinkedHashMap;

									import java.util.Map;

									import java.util.regex.Matcher;

									import java.util.regex.Pattern;

									public class VideoLinkGrab {

									  public static void main(String[] args) {

									    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();

									    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");

									  }

									  /**

									   * 将获取到的数据保存在数据库中

									   * 

									   * @param baseUrl

									   *      爬虫起点

									   * @return null

									   * */

									  public void saveData(String baseUrl) {

									    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存储链接-是否被遍历

									    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 视频下载链接

									    String oldLinkHost = ""; // host

									    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn

									    Matcher m = p.matcher(baseUrl);

									    if (m.find()) {

									      oldLinkHost = m.group();

									    }

									    oldMap.put(baseUrl, false);

									    videoLinkMap = crawlLinks(oldLinkHost, oldMap);

									    // 遍历，然后将数据保存在数据库中

									    try {

									      Connection connection = JDBCDemo.getConnection();

									      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {

									        PreparedStatement pStatement = connection

									            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");

									        pStatement.setString(1, mapping.getKey());

									        pStatement.setString(2, mapping.getValue());

									        pStatement.executeUpdate();

									        pStatement.close();

									//       System.out.println(mapping.getKey() + " : " + mapping.getValue());

									      }

									      connection.close();

									    } catch (SQLException e) {

									      e.printStackTrace();

									    }

									  }

									  /**

									   * 抓取一个网站所有可以抓取的网页链接，在思路上使用了广度优先算法 对未遍历过的新链接不断发起GET请求， 一直到遍历完整个集合都没能发现新的链接

									   * 则表示不能发现新的链接了，任务结束

									   * 

									   * 对一个链接发起请求时，对该网页用正则查找我们所需要的视频链接，找到后存入集合videoLinkMap

									   * 

									   * @param oldLinkHost

									   *      域名，如：http://www.zifangsky.cn

									   * @param oldMap

									   *      待遍历的链接集合

									   * 

									   * @return 返回所有抓取到的视频下载链接集合

									   * */

									  private Map<String, String> crawlLinks(String oldLinkHost,

									      Map<String, Boolean> oldMap) {

									    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循环获取到的新链接

									    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 视频下载链接

									    String oldLink = "";

									    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {

									      // System.out.println("link:" + mapping.getKey() + "--------check:"

									      // + mapping.getValue());

									      // 如果没有被遍历过

									      if (!mapping.getValue()) {

									        oldLink = mapping.getKey();

									        // 发起GET请求

									        try {

									          URL url = new URL(oldLink);

									          HttpURLConnection connection = (HttpURLConnection) url

									              .openConnection();

									          connection.setRequestMethod("GET");

									          connection.setConnectTimeout(2500);

									          connection.setReadTimeout(2500);

									          if (connection.getResponseCode() == 200) {

									            InputStream inputStream = connection.getInputStream();

									            BufferedReader reader = new BufferedReader(

									                new InputStreamReader(inputStream, "UTF-8"));

									            String line = "";

									            Pattern pattern = null;

									            Matcher matcher = null;

									            //电影详情页面，取出其中的视频下载链接，不继续深入抓取其他页面

									            if(isMoviePage(oldLink)){

									              boolean checkTitle = false;

									              String id="codetool">



	注：如果想要实现抓取其他网站的一些指定内容的话，需要将其中的一些正则表达式根据实际情况进行合理修改

	三 测试效果

	

	以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持服务器之家。

			
		    
			
			
			
				 
			
		
		
			
				 
				Java
				
				爬虫
				
				视频网站
				
				Java爬虫
				
			
			
				
			
		
		
			
				延伸 · 阅读
			
			
				 2022-06-24从 CPU 说起，深入理解 Java 内存模型！
2022-06-24JVM 垃圾回收的工作原理
2022-06-24使用Java和Python进行数据统计和分析
2022-04-26七段小代码，玩转Java程序常见的崩溃场景！
2022-04-25面试突击：synchronized和ReentrantLock有什么区别？
2022-04-25谈谈 Java HTTP 基本认证

			
		
		
		
		
			
				
			
		
		
			
				精彩推荐
			
		
		
			
				
					
				
				 Java教程
				
					Java实现上传Excel文件并导入数据库
					
						 这篇文章主要介绍了在java的基础上学习上传Excel文件并导出到数据库，感兴趣的小伙伴不要错过奥...
					
					
						山巅自相见4522021-12-14
					
				
				
Java教程
				
					如何在Java中创建线程通信的四种方式你知道吗
					
						 开发中不免会遇到需要所有子线程执行完毕通知主线程处理某些逻辑的场景。或者是线程 A 在执行到某个条件通知线程 B 执行某个操作。下面我们来一起学...
					
					
						ZWZhangYu6332021-12-21
					
				
				
Java教程
				
					springboot与springmvc基础入门讲解
					
						 本篇文章主要介绍了详解快速搭建Spring Boot+Spring MVC，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧...
					
					
						cgblpx7582021-10-06
					
				
				
Java教程
				
					Java 处理图片与base64 编码的相互转换的示例
					
						 本篇文章主要介绍了Java 处理图片与base64 编码的相互转换的示例，具有一定的参考价值，有兴趣的可以了解一下...
					
					
						睿智的河水4072020-12-15
					
				
				
Java教程
				
					通过Spring Security魔幻山谷讲解获取认证机制核心原理
					
						 这篇文章主要介绍了通过Spring Security魔幻山谷讲解获取认证机制核心原理，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习...
					
					
						朱季谦5732021-09-06
					
				
				
Java教程
				
					lombok注解介绍小结
					
						 lombok是一个可以帮助我们简化java代码编写的工具类，这篇文章主要介绍了lombok注解介绍小结，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一...
					
					
						sunsfan12542021-06-17
					
				
				
Java教程
				
					Java多线程之死锁详解
					
						 这篇文章主要介绍了Java多线程的死锁，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来...
					
					
						不关阿强的事5052022-03-01
					
				
				
Java教程
				
					java web支持jsonp的实现代码
					
						 这篇文章主要介绍了java web支持jsonp的实现代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随...
					
					
						燕相识归来5212021-06-17
					
				
				

			
		
	
	 
最近更新
从 CPU 说起，深入理解 Java 内存模型！
JVM 垃圾回收的工作原理
工具类如何获取到 Spring 容器中的 Bean？
使用Java和Python进行数据统计和分析
面试官：讲讲SpringAOP的底层代理模式
编辑推荐
美国和欧洲 vps哪个好？美国和欧洲vps详细对比
 2云服务器是什么，云主机干什么用的？
2020-07-22
 32020最新好用的web服务器软件推荐
2020-05-17
4服务器操作系统有哪些?
2020-04-06
5web服务器配置（图文详解）
2020-04-06
6企业如何选择阿里云服务器配置?
2019-10-18
7五大免费主机管理系统优缺点对比及推荐
2019-06-14
82019最新三款Windows下连接Linux的ssh软件下载推荐
2019-05-28
9服务器常用管理软件盘点
2019-05-27
10Nginx服务器究竟是怎么执行PHP项目
2019-05-24
阅读排行
1 Intellij idea2020永久破解，亲测可用！！！
2 最新idea2020注册码永久激活(激活到2100年)
3 手把手教你如何免费且光荣地使用正版Intel
 4 解决执行maven命令时提示Process terminated的问题
5 Java枚举(enum) 详解7种常见的用法
6 2020JDK1.8安装教程详解(一次就可安装成功)
7 java.util.concurrent.ExecutionException 问题解决方法
8 mybatis-plus QueryWrapper自定义查询条件的实现
9 Mybatis分页插件PageHelper配置及使用方法详解
10 详解mybatis-plus的 mapper.xml 路径配置的坑
热门标签
 501 　  406 　  415 　  2000 　  1433 　  401 　  330 　  htmlparser 　  选择排序法 　  随机抽取 　  内存卡 　  下载器 　  十六进制字符 　  响应 　  静态工厂 　  构造函数 　  swt 　  Overview 　  对象池模式 　  子线程 　  支票 　  金额大写转换 　  空心菱形 　  AspectJ 　  面向切面编程 　  方法名 　  网址信息 　  动态代理模式 　  线程安全 　  ZGC 　 




 © 2019-2022 服务器之家(www.tuohang.net) 版权所有关于我们联系我们版权申明网站地图