如图所示,要处理的数据是一个json数组,而且非常大
下图为电脑配置,使用 json.load() 方法加载上述json文件电脑直接卡死
解决思路:
先用python进行预处理,即一整个json数据加载慢,那就分开加载,每次加载一个json对象,然后使用 json.dumps()方法 存储到txt中,方便读取。当然也可以存储到内存中,根据情况而定。
算法思想:因为 json 是一种结构化的数据,所以 {} 是成对存在的。因为使用逐行读取的方法读入json文件,所以根据 {} 的数量来判断是否读取了一个完整的json对象,如果是完整的,则使用 json.dumps()方法 存储到txt中。
getUsefullData(temp + line,id)这个方法是提取自己需要的数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
def jsonProcess(fileName, round ): id = 1 with open (fileName, 'r' , encoding = 'utf-8' ) as f, open ( '../tempData/tempFile' + str ( round ) + '.txt' , 'w' ) as tempFile: line = f.readline() line = f.readline() temp = '' khNum = 0 id = 1 while line: # print(line) if line.find( '{' ) ! = - 1 : khNum + = 1 if line.find( '}' ) ! = - 1 : khNum - = 1 if khNum = = 0 : line = line.replace( ',' ,'') data = getUsefullData(temp + line, id ) id + = 1 if len (data) > 1 : # print(data) try : tempFile.write(json.dumps(data) + '\n' ) except 'json.decoder.JSONDecodeError' : break temp = '' line = f.readline() continue temp + = line line = f.readline() |
读取方法:
1
2
3
4
5
|
with open ( '../tempData/tempFile' + str ( round ) + '.txt' ) as f: dataList = f.readlines() # 解析保存好的list for data in dataList: data = json.loads(data) |
到此这篇关于python处理大型json文件的方法的文章就介绍到这了,更多相关python处理大型json文件内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!
原文链接:https://www.cnblogs.com/sk-lqbzblogs/p/15979192.html