文本分析

下载西游记

网上搜索,或者私信我。

西游记一共有多少行

1
2
xiyouji = open('西游记.txt','r')
print(len(xiyouji.readlines()))

统计西游记有多少字

1
2
xiyouji = open('西游记.txt','r')
print(len("".join(xiyouji.readlines())))

西游记一共有多少回

1
2
3
4
5
import re
xiyouji = open('西游记.txt','r')
txt = "".join(xiyouji.readlines())
arr = re.findall('第[\u4e00-\u9fa5]+回', txt)
print(f"西游记共 {len(arr)} 回")

估算下需要多长时间读完

总字数 / 每分钟阅读字数。假设阅读速度 300个字每分钟

1
2
3
4
5
6
7
import re


xiyouji = open('西游记.txt','r')
txt = "".join(xiyouji.readlines())
print(f"共 {int(len(txt)/300)} 分钟")
print(f"共 {int(len(txt)/300/60 + 1)} 小时")

西游记中出现了多少次 妖怪

1
2
3
4
5
6
7
import re

xiyouji = open('西游记.txt','r')
txt = "".join(xiyouji.readlines())

print(re.findall('妖怪',txt))
print(len(re.findall('妖怪',txt)))

西游记中出来了多少次 如来

1
2
3
4
5
6
7
import re

xiyouji = open('西游记.txt','r')
txt = "".join(xiyouji.readlines())

# print(re.findall('妖怪',txt))
print(len(re.findall('如来',txt)))

西游记中那个字出现的次数最多

1
2
3
4
5
6
7
8
9
10
11
12
import re
import collections



xiyouji = open('西游记.txt','r')
txt = "".join(xiyouji.readlines())

txt_count = collections.Counter(txt)
print(txt_count)

# 道 11080

西游记中那个词语出现的次数最多

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re
import jieba
import collections


xiyouji = open('西游记.txt','r')
txt = "".join(xiyouji.readlines())

# jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持,早期版本不支持
seg_list = jieba.cut(txt, cut_all=True)

word_count = collections.Counter(seg_list)


print(word_count.most_common(20))

#行者

视频课程

https://www.bilibili.com/video/BV19V41167zT/