脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - Python实现邮件自动下载的示例详解

Python实现邮件自动下载的示例详解

2022-07-14 18:37阿涛的一天 Python

这篇文章主要为大家详细介绍了如何利用Python语言实现邮件自动下载以及附件解析功能,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下

开始码代码之前,我们先来了解一下三种邮件服务协议:

1、SMTP协议

SMTP(Simple Mail Transfer Protocol),即简单邮件传输协议。相当于中转站,将邮件发送到客户端。

2、POP3协议

POP3(Post Office Protocol 3),即邮局协议的第3个版本,是电子邮件的第一个离线协议标准。该协议把邮件下载到本地计算机,不与服务器同步,缺点是更易丢失邮件或多次下载相同的邮件。

3、IMAP协议

IMAP(Internet Mail Access Protocol),即交互式邮件存取协议。该协议连接远程邮箱直接操作,与服务器内容同步。

然后介绍一下email包

这个包的中心组件是代表电子邮件消息的“对象模型”。 应用程序主要通过在 message 子模块中定义的对象模型接口与这个包进行交互。 应用程序可以使用此 API 来询问有关现有电子邮件的问题、构造新的电子邮件,或者添加或移除自身也使用相同对象模型接口的电子邮件子组件。 也就是说,遵循电子邮件消息及其 MIME 子组件的性质,电子邮件对象模型是所有提供 EmailMessage API 的对象所构成的树状结构。

接下来我们通过具体的代码实现一个登录邮箱客户端,下载邮件,解析邮件附件内容的功能。

首先我们需要定义一个邮件解析的类,该类需要三个变量:

1、邮箱所属的imap服务地址;

2、邮箱账号;

3、邮箱密码【注:不同邮箱需要不同的安全策略,例如qq邮箱需要短信验证,获取登录授权码,而不是明文密码去登录远程客户端】

?
1
2
3
4
5
6
7
8
9
class Email_parse:
 
    def __init__(self,remote_server_url,email_url,password):
        # imap服务地址
        self.remote_server_url = remote_server_url
        # 邮箱账号
        self.email_url = email_url
        # 邮箱密码
        self.password = password

然后定义类中入口函数,登录远程,默认获取第一页所有的邮件。我们获取邮件的主题,并打印出来【不同邮件主题的编码可能不同,二进制需要转码才能正确显示】

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
def main_parse_Email(self):
    """入口函数,登录imap服务"""
    server = imaplib.IMAP4_SSL(self.remote_server_url, 993)
    server.login(self.email_url, self.password)
    server.select('INBOX')
    status,data = server.search(None,"ALL")
    if status != 'OK':
        raise Exception('read email error')
    emailids = data[0].split()
    mail_counts = len(emailids)
    print("count:",mail_counts)
    # 邮件的遍历是按时间从后往前,这里我们选择最新的一封邮件
    for i in range(mail_counts - 1, mail_counts - 2, -1):
        status, edata = server.fetch(emailids[i], '(RFC822)')
        msg = email.message_from_bytes(edata[0][1])
        #获取邮件主题title
        subject = email.header.decode_header(msg.get('subject'))
        if type(subject[-1][0]) == bytes:
            title = subject[-1][0].decode(str(subject[-1][1]))
        elif type(subject[-1][0]) == str:
            title = subject[-1][0]
        print("title:", title)

其中,msg变量保存的就是邮件的主体,接下来因为会重复用到msg和tilte,我们将构造一个类函数返回msg和title。

?
1
2
3
4
5
6
7
8
def get_email_title(msg):
    subject = email.header.decode_header(msg.get('subject'))
    if type(subject[-1][0]) == bytes:
        title = subject[-1][0].decode(str(subject[-1][1]))
    elif type(subject[-1][0]) == str:
        title = subject[-1][0]
    print("title:", title)
    return title

解析邮件,我们分为两部分,邮件正文【HTML】和附件【xlsx等】,判断有附件,我们就保存到固定的路径下。表格的解析不再赘述了,pandas之类的包足以搞定。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
def get_att(msg):
    """获取附件并下载"""
    filename = Email_parse.get_email_name(msg)
    for part in msg.walk():
        file_name = part.get_param("name")
        if file_name:
            data = part.get_payload(decode=True)
            if data != None:
                att_file = open('./src/' + filename, 'wb')
                att_file.write(data)
                att_file.close()
            else:
                pass

邮件正文内容,我们直接解析html,将文本内容直接保存到.txt文件中,方便读取。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
def get_text_from_HTML(msg):
    """获取邮件中的html"""
    filename = Email_parse.get_email_name(msg)
    current_title = Email_parse.get_email_title(msg)
    print("filename:",filename,type(filename))
    for part in msg.walk():
        if not part.is_multipart():
            result = part.get_payload(decode=True)
            result = result.decode('gbk')
            f = open(f'./src/{current_title}.txt','w')
            f.write(result)
            f.close()
            return result

完整代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
import email
import imaplib
from email.header import decode_header
import pandas as pd
import datetime
 
 
class Email_parse:
    def __init__(self,remote_server_url,email_url,password):
        self.remote_server_url = remote_server_url
        self.email_url = email_url
        self.password = password
 
    def get_att(msg):
        filename = Email_parse.get_email_name(msg)
        for part in msg.walk():
            file_name = part.get_param("name")
            if file_name:
                data = part.get_payload(decode=True)
                if data != None:
                    att_file = open('./src/' + filename, 'wb')
                    att_file.write(data)
                    att_file.close()
                else:
                    pass
 
    def get_email_title(msg):
        subject = email.header.decode_header(msg.get('subject'))
        if type(subject[-1][0]) == bytes:
            title = subject[-1][0].decode(str(subject[-1][1]))
        elif type(subject[-1][0]) == str:
            title = subject[-1][0]
        print("title:", title)
        return title
 
 
    def get_email_name(msg):
        for part in msg.walk():
            file_name = part.get_param("name")
            if file_name:
                h = email.header.Header(file_name)
                dh = email.header.decode_header(h)
                filename = dh[0][0]
                if dh[0][1]:
                    value, charset = decode_header(str(filename, dh[0][1]))[0]
                    if charset:
                        filename = value.decode(charset)
                        print("附件名称:", filename)
                        return filename
 
 
    def main_parse_Email(self):
        server = imaplib.IMAP4_SSL(self.remote_server_url, 993)
        server.login(self.email_url, self.password)
        server.select('INBOX')
        status,data = server.search(None,"ALL")
        if status != 'OK':
            raise Exception('read email error')
        emailids = data[0].split()
        mail_counts = len(emailids)
        print("count:",mail_counts)
        for i in range(mail_counts - 1, mail_counts - 2, -1):
            status, edata = server.fetch(emailids[i], '(RFC822)')
            msg = email.message_from_bytes(edata[0][1])
            subject = email.header.decode_header(msg.get('subject'))
            if type(subject[-1][0]) == bytes:
                title = subject[-1][0].decode(str(subject[-1][1]))
            elif type(subject[-1][0]) == str:
                title = subject[-1][0]
            print("title:", title)
            Email_parse.get_att(msg)
            Email_parse.get_text_from_HTML(msg)
 
 
    def get_text_from_HTML(msg):
        filename = Email_parse.get_email_name(msg)
        current_title = Email_parse.get_email_title(msg)
        print("filename:",filename,type(filename))
        for part in msg.walk():
            if not part.is_multipart():
                result = part.get_payload(decode=True)
                result = result.decode('gbk')
                f = open(f'./src/{current_title}.txt','w')
                f.write(result)
                f.close()
                return result
 
if __name__ == "__main__":
    remote_server_url = 'imap.qq.com'
    email_url = "*********@qq.com"
    password = "**********"
    demo = Email_parse(remote_server_url,email_url,password)
    demo.main_parse_Email()

运行结果:

Python实现邮件自动下载的示例详解

Python实现邮件自动下载的示例详解

以上就是Python实现邮件自动下载的示例详解的详细内容,更多关于Python邮件自动下载的资料请关注服务器之家其它相关文章!

原文链接:https://blog.csdn.net/weixin_44784088/article/details/125662206

延伸 · 阅读

精彩推荐
  • PythonPython 比较两个数组的元素的异同方法

    Python 比较两个数组的元素的异同方法

    下面小编就为大家带来一篇Python 比较两个数组的元素的异同方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    bymo10422020-12-02
  • PythonPython3时间转换之时间戳转换为指定格式的日期方法详解

    Python3时间转换之时间戳转换为指定格式的日期方法详解

    这篇文章主要介绍了Python3时间转换之时间戳转换为指定格式的日期,需要的朋友可以参考下...

    脚本之家9052021-10-03
  • Pythonnumpy数组合并和矩阵拼接的实现

    numpy数组合并和矩阵拼接的实现

    这篇文章主要介绍了numpy数组合并和矩阵拼接的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下...

    小白不白嘿嘿嘿5732021-09-26
  • Pythonpython机器学习案例教程——K最近邻算法的实现

    python机器学习案例教程——K最近邻算法的实现

    本篇文章主要介绍了python机器学习案例教程——K最近邻算法的实现,详细的介绍了K最近邻算法的概念和示例,具有一定的参考价值,有兴趣的可以了解一...

    栾鹏9312020-12-29
  • Python如何用pandas处理hdf5文件

    如何用pandas处理hdf5文件

    这篇文章主要介绍了如何用pandas处理hdf5文件,帮助大家更好的理解和学习使用python进行数据处理,感兴趣的朋友可以了解下...

    古明地盆5562021-09-22
  • Python使用Python的判断语句模拟三目运算

    使用Python的判断语句模拟三目运算

    这篇文章主要介绍了使用Python的判断语句模拟三目运算,Python中没有类似C语言那样的三目运算符,不过可以进行简单地模拟实现,需要的朋友可以参考下...

    C Wong2822020-06-12
  • Pythonpython类中super()和__init__()的区别

    python类中super()和__init__()的区别

    这篇文章主要介绍了python类中super()和__init__()的区别,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下...

    脚本之家9482020-09-10
  • Python约瑟夫问题的Python和C++求解方法

    约瑟夫问题的Python和C++求解方法

    这篇文章主要介绍了约瑟夫问题的Python和C++求解方法,通过其示例我们也可以看出如今写法最简洁的编程语言和最复杂的语言之间的对比:D 需要的朋友可以参...

    prehistoric3482020-07-30