服务器之家:专注于VPS、云服务器配置技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - C# - C# 爬虫简单教程

C# 爬虫简单教程

2022-10-25 13:24张缺缺 C#

这篇文章主要介绍了C# 爬虫的简单教程,帮助大家更好的理解和使用c#,感兴趣的朋友可以了解下

1、使用第三方类库 HtmlAgilityPack

官方网址:https://html-agility-pack.net/?z=codeplex、

?
1
2
3
4
5
6
7
8
9
10
11
12
// From File 从文件获取html信息
var doc = new HtmlDocument();
doc.Load(filePath);
 
// From String 从字符串获取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);
 
// From Web  从网址获取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、这里介绍一下最后一种用法

?
1
2
var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我们还可以设置cookie、headers等信息,来处理一些特定的网站需求,比如需要登陆等。

1.2 用法解释

网页在你查看网页源代码之后只是一段字符串,而爬虫所做的就是在这堆字符串中,查询到我们想要的信息,挑选出来。
以往的筛选方法:正则 (太麻烦了,写起来有些头疼)
HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath?

网页右键检查

C# 爬虫简单教程

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息?

获取选中元素

?
1
2
3
var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

获取元素信息

?
1
2
3
4
htmlnode.InnerText;
htmlnode.InnerHtml;
//根据属性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封装的类库

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
/// <summary>
 /// 下载HTML帮助类
 /// </summary>
 public static class LoadHtmlHelper
 {
   /// <summary>
   /// 从Url地址下载页面
   /// </summary>
   /// <param name="url"></param>
   /// <returns></returns>
   public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
   {
     HtmlWeb web = new HtmlWeb();
      return await
        web?.LoadFromWebAsync(url);
   }
 
   /// <summary>
   /// 获取单个节点扩展方法
   /// </summary>
   /// <param name="htmlDocument">文档对象</param>
   /// <param name="xPath">xPath路径</param>
   /// <returns></returns>
   public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
   {
    return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
   }
 
   /// <summary>
   /// 获取多个节点扩展方法
   /// </summary>
   /// <param name="htmlDocument">文档对象</param>
   /// <param name="xPath">xPath路径</param>
   /// <returns></returns>
   public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
   {
     return htmlDocument?.DocumentNode?.SelectNodes(xPath);
   }
 
  
 
   /// <summary>
   /// 获取多个节点扩展方法
   /// </summary>
   /// <param name="htmlDocument">文档对象</param>
   /// <param name="xPath">xPath路径</param>
   /// <returns></returns>
   public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
   {
     return htmlNode?.SelectNodes(xPath);
   }
 
 
   /// <summary>
   /// 获取单个节点扩展方法
   /// </summary>
   /// <param name="htmlDocument">文档对象</param>
   /// <param name="xPath">xPath路径</param>
   /// <returns></returns>
   public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
   {
     return htmlNode?.SelectSingleNode(xPath);
   }
 
   /// <summary>
   /// 下载图片
   /// </summary>
   /// <param name="url">地址</param>
   /// <param name="filpath">文件路径</param>
   /// <returns></returns>
   public async static ValueTask<bool> DownloadImg(string url ,string filpath)
   {
     HttpClient httpClient = new HttpClient();
     try
     {
       var bytes = await httpClient.GetByteArrayAsync(url);
       using (FileStream fs = File.Create(filpath))
       {
         fs.Write(bytes, 0, bytes.Length);
       }
       return File.Exists(filpath);
     }
     catch (Exception ex)
     {
      
       throw new Exception("下载图片异常", ex);
     }
     
   }
 }

3、自己写的爬虫案例,爬取的网站https://www.meitu131.com/

数据存储层没有实现,懒得写了,靠你们喽,我是数据暂时存在了文件中
GitHub地址:https://github.com/ZhangQueque/quewaner.Crawler.git

C# 爬虫简单教程

以上就是C# 爬虫简单教程的详细内容,更多关于c# 爬虫的资料请关注服务器之家其它相关文章!

原文链接:https://www.cnblogs.com/ZhangQueque/p/14163406.html

延伸 · 阅读

精彩推荐
  • C#unity使用射线实现贴花系统

    unity使用射线实现贴花系统

    这篇文章主要为大家详细介绍了unity使用射线实现贴花系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    Maddie_Mo9052022-09-23
  • C#C# 动态调用WebService的示例

    C# 动态调用WebService的示例

    这篇文章主要介绍了C# 动态调用WebService的示例,帮助大家更好的理解和使用c#,感兴趣的朋友可以了解下...

    秋荷雨翔6872022-10-14
  • C#详解C# 不能用于文件名的字符

    详解C# 不能用于文件名的字符

    在 Windows 有一些字符是不能作为文件名,尝试重命名一个文件,输入/ 就可以看到windows 提示的不能作为文件名的字符,那么具体是包括哪些符号不能作为文...

    lindexi7862022-02-20
  • C#C#导出Excel的示例详解

    C#导出Excel的示例详解

    这篇文章主要为大家详细介绍了C#导出Excel的示例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    YellowCool7532022-01-20
  • C#Unity3D基于陀螺仪实现VR相机功能

    Unity3D基于陀螺仪实现VR相机功能

    这篇文章主要为大家详细介绍了Unity3D基于陀螺仪实现VR相机功能,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    一缕残阳5732022-08-31
  • C#C#随机数生成字母金字塔

    C#随机数生成字母金字塔

    这篇文章主要为大家详细介绍了C#随机数生成字母金字塔,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    在代码的世界里游走8922022-03-05
  • C#WPF实现多运算符表达式计算器

    WPF实现多运算符表达式计算器

    这篇文章主要为大家详细介绍了WPF实现多运算符表达式计算器,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    8912022-10-14
  • C#C#绘制曲线图的方法

    C#绘制曲线图的方法

    这篇文章主要介绍了C#绘制曲线图的方法,以完整实例形式较为详细的分析了C#进行曲线绘制的具体步骤与相关技巧,具有一定参考借鉴价值,需要的朋友可以参...

    小编辑3852021-10-28