使用Python调用mdx字典文件进行查词

时间：09-17来源：作者：点击数：104

简介

本文只是记录一下，自己用python从mdx字典文件中批量提取单词和所需部分词义的代码。
如果你是需要自己打包制作或编辑mdx文件，可以去pdawiki论坛，那里有完整的字典制作专区，可以了解方法。

正文

mdx离线自制字典、或者是anki这种学习工具，以及其扩展衍生工具很多都是Python编写的，各种工具模块其实非常多。

如果你只想从mdx中查词返回词义，其实很简单的模块调用就能办到。

from readmdict import MDX, MDD  # pip install readmdict
from pyquery import PyQuery as pq    # pip install pyquery

'''
# 如果是windows环境，运行提示安装python-lzo，但
> pip install python-lzo
报错“please set LZO_DIR to where the lzo source lives” ，则直接从 https://www.lfd.uci.edu/~gohlke/pythonlibs/#_python-lzo 下载 "python_lzo‑1.12‑你的python版本.whl" 
> pip install xxx.whl 
装上就行了，免去编译的麻烦
'''

# 加载mdx文件
filename = "TLD.mdx"
headwords = [*MDX(filename)]       # 单词名列表
items = [*MDX(filename).items()]   # 释义html源码列表
if len(headwords)==len(items):
    print(f'加载成功：共{len(headwords)}条')
else:
    print(f'【ERROR】加载失败{len(headwords)}，{len(items)}')

# 查词，返回单词和html文件
queryWord = 'Walkman'
wordIndex = headwords.index(queryWord.encode())
word,html = items[wordIndex]
word,html = word.decode(), html.decode()
#print(word, html)

# 从html中提取需要的部分，这里以the litte dict字典为例。到这一步需要根据自己查询的字典html格式，自行调整了。
doc = pq(html)
coca2 = doc('div[class="coca2"]').text().replace('\n','')
meaning = doc("""div[class="dcb"]""").text()
print(coca2)
print(meaning)

377924
377924
随身听(100%)
n.随身听（商标名称）

简单说一下mdx的构成，里面的每个单词其实都是一个单独的html文件。按照特定格式转换添加索引变成一个压缩包，就变成了mdx字典文件。

这里不需要了解如何解包，直接安装readmict模块就可以实现对mdx的加载得到每个单词的html文件。至于从html里提取词义，和爬虫从网页中提取内容一样，了解一下BeautifulSoup、pyquery之类就可以了，我这里用的是pyquery。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:Python+PyQt5创建Windows窗口程序的基础案例（适合新手学习）下一篇:直接将ADB授权写入到手机的方法（手机需要有root权限）

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

首页

学习

工作

生活

兴趣组

电子

计算机

掌上机件

图库

游戏

考试与竞赛

黑板报

国学

外语

下载

故事汇

社区

课程

使用Python调用mdx字典文件进行查词

简介

正文