【原】盤點Python中4種讀取json文件和提取json文件內(nèi)容的方法

Python進階者 2023-02-10 發(fā)布于廣東

展開全文

今

日

雞

湯

古調(diào)雖自愛，今人多不彈。

大家好，我是Python進階者。

前言

前幾天在才哥的交流群有個叫【杭州-學生-飛飛飛】的粉絲在群里問了一個json文件處理的問題。

看上去他只需要follower和ddate這兩個字段下的對應的值。

我們知道json是一種常見的數(shù)據(jù)傳輸形式，所以對于爬取數(shù)據(jù)的數(shù)據(jù)解析，json的相關操作是比較重要的，能夠加快我們的數(shù)據(jù)提取效率。

思路

關于這個問題，倒不是很難，群里提出了三個方法，第一個是才哥說的pd處理或者正則表達式，第二個是小編自己提出的json處理，第三個是【成都-IT技術(shù)支持-小王】提出的jsonpath，總之方法很多，這里給出4個處理方法，希望下次粉絲們再遇到類似問題的時候，有章可循。

實現(xiàn)過程

1、正則表達式

這個方法可以看看，通過匹配的方法進行提取，代碼如下所示：

import re
import json

file = open('漫畫.txt', 'r', encoding='utf-8')
content = file.readline()
ddate_result1 = re.findall('"ddate":"(\d+\-\d+\-\d+)"', content)
ddate_result2 = re.findall('"ddate":"(.*?)"', content)
follower_result1 = re.findall('"follower":(\d+),"', content)

print(ddate_result1)
print(ddate_result2)
print(follower_result1)

運行之后，可以得到結(jié)果：

關于ddate，follower獲取的方法肯定還有很多其他寫法，這里只是拋磚引玉，歡迎大家多多嘗試。

2、jsonpath方法一

關于jsonpath的用法，之前在這篇文章中有提及，感興趣的小伙伴也可以去看看：數(shù)據(jù)提取之JSON與JsonPATH。

下面是【成都-IT技術(shù)支持-小王】大佬給的代碼：

from jsonpath import jsonpath
import json

"""follower和ddate"""
with open("漫畫.txt", encoding="utf-8") as file:
    file_json = json.loads(file.readline())

follower = jsonpath(file_json, "$..follower")
ddate = jsonpath(file_json, "$..ddate")
print(follower)
print(ddate)

代碼運行之后，就會得到想要的數(shù)據(jù)，如下圖所示：

這個..就和xpath里面的//一樣，子孫節(jié)點，$是根節(jié)點。

3、jsonpath方法二

這個是另外一個用法了，小號【皮皮】提供的，直接上代碼。

import json
import jsonpath


# obj = json.load(open('羅翔.json', 'r', encoding='utf-8'))  # 注意，這里是文件的形式，不能直接放一個文件名的字符串
file = open('漫畫.txt', 'r', encoding='utf-8')  # 注意，這里是文件的形式，不能直接放一個文件名的字符串
obj = json.loads(file.readline())
follower = jsonpath.jsonpath(obj, '$..follower')  # 文件對象   jsonpath語法

ddate = jsonpath.jsonpath(obj, '$..ddate')  # 文件對象   jsonpath語法
print(follower)
print(ddate)

代碼運行之后，也可以得到預期的結(jié)果。

當然了，如果你的文件本來就是json文件，也可以直接讀取，代碼類似：

import json
import jsonpath


obj = json.load(open('羅翔.json', 'r', encoding='utf-8'))  # 注意，這里是文件的形式，不能直接放一個文件名的字符串
# file = open('羅翔.json', 'r', encoding='utf-8')  # 注意，這里是文件的形式，不能直接放一個文件名的字符串
# obj = json.loads(file.readline())
follower = jsonpath.jsonpath(obj, '$..follower')  # 文件對象   jsonpath語法

ddate = jsonpath.jsonpath(obj, '$..ddate')  # 文件對象   jsonpath語法
print(follower)
print(ddate)

運行之后，也可以得到預期的結(jié)果：

4、jsonpath方法三

這個是群里【深圳-Hua Bro】華博提供的，代碼如下：

import json
import jsonpath

with open("羅翔.txt", 'r', encoding="UTF-8") as fr:
    file_json = eval(fr.read().replace('\n\u200b', ''))  # 讀取的str轉(zhuǎn)為字典
follower = jsonpath.jsonpath(file_json, '$..follower')  # 文件對象   jsonpath語法
ddate = jsonpath.jsonpath(file_json, '$..ddate')  # 文件對象   jsonpath語法
print(follower)
print(ddate)