服务器之家:专注于VPS、云服务器配置技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - C# - 用C#+Selenium+ChromeDriver爬取网页(模拟真实的用户浏览行为)

用C#+Selenium+ChromeDriver爬取网页(模拟真实的用户浏览行为)

2022-12-16 13:25DotNetCore实战 C#

这篇文章主要介绍了用C#+Selenium+ChromeDriver爬取网页,模拟真实的用户浏览行为,需要的小伙伴可以参考一下

以下文章来源于公众号:DotNetCore实战

1.背景

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。而对于爬虫来说,使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。这里,我将介绍selenium + 谷歌浏览器的一般使用。

 

2.需求

在平常的爬虫开发中,有时候网页是一堆js堆起来的代码,涉及很多异步计算,如果是普通的http 控制台请求,那么得到的源文件是一堆js ,需要自己在去组装数据,很费力;但是采用Selenium+ChromeDriver可以达到所见即所得的完美效果。

 

3.实现方式

项目结构:为了方便使用,用的winform程序,附nuget包

 

以下是form1.cs的代码,这里就只放关键方法代码了。需要安装最新的chrome浏览器+代码中使用的chromedriver是 v2.9.248315

 #region 异常  退出chromedriver

        [DllImport("user32.dll", EntryPoint = "FindWindow")]
        private extern static IntPtr FindWindow(string lpClassName, string lpWindowName);

        [DllImport("user32.dll", EntryPoint = "SendMessage")]
        public static extern int SendMessage(IntPtr hWnd, int Msg, int wParam, int lParam);

        public const int SW_HIDE = 0;
        public const int SW_SHOW = 5;

        [DllImport("user32.dll", EntryPoint = "ShowWindow")]
        public static extern int ShowWindow(IntPtr hwnd, int nCmdShow);

        /// <summary>
        /// 获取窗口句柄
        /// </summary>
        /// <returns></returns>
        public IntPtr GetWindowHandle()
        {
            string name = (Environment.CurrentDirectory + "\\chromedriver.exe");
            IntPtr hwd = FindWindow(null, name);
            return hwd;
        }

        /// <summary>
        /// 关闭chromedriver窗口
        /// </summary>
        public void CloseWindow()
        {
            try
            {
                IntPtr hwd = GetWindowHandle();
                SendMessage(hwd, 0x10, 0, 0);
            }
            catch { }
        }

        /// <summary>
        /// 退出chromedriver
        /// </summary>
        /// <param name="driver"></param>
        public void CloseChromeDriver(IWebDriver driver)
        {
            try
            {
                driver.Quit();
                driver.Dispose();
            }
            catch { }
            CloseWindow();
        }

        #endregion 异常  退出chromedriver

效果:

 

用C#+Selenium+ChromeDriver爬取网页(模拟真实的用户浏览行为)

说一下思路:

  • 1.跳转到指定的网页driver.Navigate().GoToUrl
  • 2.确定数据源,从driver.PageSource读取数据
  • 3.对html数据进行解析

到此这篇关于用C#+Selenium+ChromeDriver爬取网页(模拟真实的用户浏览行为)的文章就介绍到这了,更多相关用C#+Selenium+ChromeDriver 爬取网页内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

延伸 · 阅读

精彩推荐
  • C#C#简单实现子窗体向父窗体传值的方法

    C#简单实现子窗体向父窗体传值的方法

    这篇文章主要介绍了C#简单实现子窗体向父窗体传值的方法,以实例形式较为详细的分析了C#窗体间传值的实现技巧,具有一定参考借鉴价值,需要的朋友可以参...

    我心依旧3862021-10-26
  • C#基于C#实现网络爬虫 C#抓取网页Html源码

    基于C#实现网络爬虫 C#抓取网页Html源码

    这篇文章主要为大家详细介绍了基于C#实现网络爬虫的相关资料,即C#抓取网页Html源码,感兴趣的小伙伴们可以参考一下...

    小虾Joe11582021-11-16
  • C#Unity UI实现循环播放序列图

    Unity UI实现循环播放序列图

    这篇文章主要为大家详细介绍了Unity UI实现循环播放序列图,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    PangCoder4752022-11-29
  • C#c# Linq查询详解

    c# Linq查询详解

    这篇文章主要介绍了c# Linq查询的相关资料,帮助大家更好的理解和学习使用c#,感兴趣的朋友可以了解下...

    DullFish3552022-11-13
  • C#C#操作INI文件的辅助类IniHelper

    C#操作INI文件的辅助类IniHelper

    这篇文章主要为大家详细介绍了C#操作INI文件的辅助类IniHelper,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    马洪彪8852022-02-21
  • C#unity3D实现摄像机抖动特效

    unity3D实现摄像机抖动特效

    这篇文章主要为大家详细介绍了unity3D实现摄像机抖动特效,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    Zander_zhang7052022-08-16
  • C#深入谈谈C#9新特性的实际运用

    深入谈谈C#9新特性的实际运用

    这篇文章主要给大家介绍了C#9新特性的实际运用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面...

    东邪独孤6002022-10-14
  • C#Unity实现图形相交检测

    Unity实现图形相交检测

    这篇文章主要为大家详细介绍了Unity实现图形相交检测,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    小混沌11662022-09-05