越来越多的数据科学家开始使用Python,并且网上也有成千上万个Python包,但几乎没人能够全部使用它们。而本文将向大家介绍一些非常实用,但却不被大家熟知的Pytho库。
目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单 PyPi上就有超过47000个包列表。
现在,越来越多的数据科学家开始使用Python,虽然他们从 pandas, scikit-learn, numpy中获得了不少好处,但我仍想向他们介绍一些年长且非常实用的Python库。在本文中,我将列一些不太知名的库,即使你是经验丰富的Python的开发者,也值得过来一看。
Dolorean是一个非常酷的日期/时间库。类似JavaScript的moment,拥有非常完善的技术文档。
from delorean import Delorean
EST = "US/Eastern"
d = Delorean(timezone=EST)
你可能从未听过该库,因为它托管在GoogleCode。prettytable主要用于在终端或浏览器端构建很好的输出。
from prettytable import PrettyTable
table = PrettyTable(["animal", "ferocity"])
table.add_row(["wolverine", 100])
table.add_row(["grizzly", 87])
table.add_row(["Rabbit of Caerbannog", 110])
table.add_row(["cat", -1])
table.add_row(["platypus", 23])
table.add_row(["dolphin", 63])
table.add_row(["albatross", 44])
table.sort_key("ferocity")
table.reversesort = True
+----------------------+----------+
| animal | ferocity |
+----------------------+----------+
| Rabbit of Caerbannog | 110 |
| wolverine | 100 |
| grizzly | 87 |
| dolphin | 63 |
| albatross | 44 |
| platypus | 23 |
| cat | -1 |
+----------------------+----------+
好吧,我也是首次安装该库。这是一款非常瘦小的语言转换库,支持15种语言。
from snowballstemmer import EnglishStemmer, SpanishStemmer
EnglishStemmer().stemWord("Gregory")
# Gregori
SpanishStemmer().stemWord("amarillo")
# amarill
你是否还记得,每一次都会因为某个目的而编写网络爬虫工具,以后再也不用了,因为wget就足够你使用了。wget是Python版的网络爬虫库,简单好用。
import wget
wget.download("http://www.cnn.com/")
# 100% [............................................................................] 280385 / 280385
备注:linux和osx用户这样用:from sh import wget。但是,wget模块还有一个更好的argument handline。
scikit-learn似乎是所有人的宠儿,但在我看来,PyMC更有魅力。PyMC主要用来做Bayesian分析。
from pymc.examples import disaster_model
from pymc import MCMC
M = MCMC(disaster_model)
M.sample(iter=10000, burn=1000, thin=10)
[-----------------100%-----------------] 10000 of 10000 complete in 1.4 sec
sh库用来将shell命令作为函数导入到Python中。在bash中使用是非常实用的,但是在Python中不容易记住怎么使用(即递归搜索文件)。
from sh import find
find("/tmp")
/tmp/foo
/tmp/foo/file1.json
/tmp/foo/file2.json
/tmp/foo/file3.json
/tmp/foo/bar/file3.json</pre>
Fuzzywuzzy是一个可以对字符串进行模糊匹配的库,大家有空可以去 查看源码。
from fuzzywuzzy import fuzz
fuzz.ratio("Hit me with your best shot", "Hit me with your pet shark")
# 85
progressbar是一个进度条库,该库提供了一个文本模式的progressbar。
from progressbar import ProgressBar
import time
pbar = ProgressBar(maxval=10)
for i in range(1, 11):
pbar.update(i)
time.sleep(1)
pbar.finish()
# 60% |######################################################## |</pre>
colorama主要用来给文本添加各种颜色,并且非常简单易用。
uuid是基于Python实现的UUID库,它实现了UUID标注的1,3,4和5版本,在确保唯一性上真的非常方便。
import uuid
print uuid.uuid4()
# e7bafa3d-274e-4b0a-b9cc-d898957b4b61</pre>
bashplotlib是一个绘图库,它允许你使用stdin绘制柱状图和散点图等。
$ pip install bashplotlib
$ scatter --file data/texas.txt --pch x</pre>
Speedtest模块可以测试电脑的网络带宽大小。
使用百度源安装库。
# 安装speedtest
pip install speedtest -i https://mirror.baidu.com/pypi/simple/
使用时,需要取消证书验证。
import speedtest
# 全局取消证书验证
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
test = speedtest.Speedtest()
down = test.download()
upload = test.upload()
print(f"上传速度:{round(upload/(1024 * 1024),2)} Mbps")
print(f"下载速度:{round(down/(1024 * 1024),2)} Mbps")
得到结果如下。
上传速度:31.3 Mbps
下载速度:86.34 Mbps
看起来,小F的网速还挺快的。
使用socket,先获取电脑的主机名后,再获取本机的IP地址。
其中socket是Python内置标准库,无需安装。
import socket as f
hostn = f.gethostname()
Laptop = f.gethostbyname(hostn)
print("你的电脑本地IP地址是:" + Laptop)
得到结果如下,此IP为局域网内IP。
你的电脑本地IP地址是:192.168.2.101
如若想获取电脑的公网IP地址,可以借助一些第三方网站,比如下面这个。
# 浏览器访问, 返回公网IP地址
https://jsonip.com
代码如下,同样取消证书验证。
import json
from urllib.request import urlopen
# 全局取消证书验证
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
with urlopen(r'https://jsonip.com') as fp:
content = fp.read().decode()
ip = json.loads(content)['ip']
print("你的电脑公网IP地址是:" + ip)
对网站发起请求,解析返回的结果。
最后成功得到公网IP地址。
# 这里随便写了一个~
你的电脑公网IP地址是:120.236.128.201
TextBlob是一个用于处理文本数据的Python库,仅为英文分析。
中文则可以使用SnowNLP,能够方便的处理中文文本内容,是受到了TextBlob的启发而写的。
下面就给英文做一个拼写检查。
from textblob import TextBlob
a = TextBlob("I dream about workin with goof company")
a = a.correct()
print(a)
结果如下
I dream about working with good company
可以看到,句子中的单词被更正了。
pygame,一个制作游戏的Python库。
不仅给开发人员提供了制作游戏的图形、声音库,还可以使用内置的模块来实现复杂的游戏逻辑。
下面我们使用pygame来制作一个小型的音乐播放器。
from pygame import mixer
import pygame
import sys
pygame.display.set_mode([300, 300])
music = "my_dream.mp3"
mixer.init()
mixer.music.load(music)
mixer.music.play()
# 点击×可以关闭界面的代码
while 1:
for event in pygame.event.get():
if event.type == pygame.QUIT:
sys.exit()
运行上面的代码,电脑就会播放音乐。
必须给pygame添加图形化界面,要不然没声音。
二维码简称QR Code(Quick Response Code),学名为快速响应矩阵码,是二维条码的一种。由日本的Denso Wave公司于1994年发明。
现随着智能手机的普及,已广泛应用于平常生活中,例如商品信息查询、社交好友互动、网络地址访问等等。
pyqrcode模块则是一个QR码生成器,使用简单,用纯python编写。
安装
# 安装pyqrcode
pip install pyqrcode -i https://mirror.baidu.com/pypi/simple/
下面就将「百度一下」生成一个二维码。
import pyqrcode
import png
from pyqrcode import QRCode
inpStr = "www.baidu.com"
qrc = pyqrcode.create(inpStr)
qrc.png("baidu.png", scale=6)
得到二维码图片如下
微信扫描出来是文本内容,为百度网址,应该是有所操作。
用手机的浏览器扫描,则可以正常跳转网页。
使用文档:https://pythonhosted.org/PyQRCode/
pyshorteners是一个简单的URL缩短Python库,提供了18种短链根域名供使用。
安装
# 安装pyshorteners
pip install pyshorteners -i https://mirror.baidu.com/pypi/simple/
以clck.ru格式为例
import pyshorteners as psn
url = "http://www.shuhai.com/"
u = psn.Shortener().clckru.short(url)
print(u)
得到结果如下
# 结果
https://clck.ru/WPJgg
是可以正常访问的。
使用文档:https://pyshorteners.readthedocs.io/en/latest/
Googletrans是一个免费且无限制的Python翻译库,可以用来自动侦测语言种类、翻译之类。
安装3.1.0a0版本,最新版无法使用。
# 安装googletrans
pip install googletrans==3.1.0a0 -i https://mirror.baidu.com/pypi/simple/
查看所有支持的语言。
import googletrans
from googletrans import Translator
print(googletrans.LANGUAGES)
结果如下,其中中文有简体和繁体两种。
LANGUAGES = {
'af': 'afrikaans',
'sq': 'albanian',
'am': 'amharic',
'ar': 'arabic',
'hy': 'armenian',
'az': 'azerbaijani',
'eu': 'basque',
'be': 'belarusian',
'bn': 'bengali',
'bs': 'bosnian',
'bg': 'bulgarian',
'ca': 'catalan',
'ceb': 'cebuano',
'ny': 'chichewa',
'zh-cn': 'chinese (simplified)',
'zh-tw': 'chinese (traditional)',
'co': 'corsican',
'hr': 'croatian',
'cs': 'czech',
'da': 'danish',
'nl': 'dutch',
'en': 'english',
'eo': 'esperanto',
'et': 'estonian',
'tl': 'filipino',
'fi': 'finnish',
'fr': 'french',
'fy': 'frisian',
'gl': 'galician',
'ka': 'georgian',
'de': 'german',
'el': 'greek',
'gu': 'gujarati',
'ht': 'haitian creole',
'ha': 'hausa',
'haw': 'hawaiian',
'iw': 'hebrew',
'he': 'hebrew',
'hi': 'hindi',
'hmn': 'hmong',
'hu': 'hungarian',
'is': 'icelandic',
'ig': 'igbo',
'id': 'indonesian',
'ga': 'irish',
'it': 'italian',
'ja': 'japanese',
'jw': 'javanese',
'kn': 'kannada',
'kk': 'kazakh',
'km': 'khmer',
'ko': 'korean',
'ku': 'kurdish (kurmanji)',
'ky': 'kyrgyz',
'lo': 'lao',
'la': 'latin',
'lv': 'latvian',
'lt': 'lithuanian',
'lb': 'luxembourgish',
'mk': 'macedonian',
'mg': 'malagasy',
'ms': 'malay',
'ml': 'malayalam',
'mt': 'maltese',
'mi': 'maori',
'mr': 'marathi',
'mn': 'mongolian',
'my': 'myanmar (burmese)',
'ne': 'nepali',
'no': 'norwegian',
'or': 'odia',
'ps': 'pashto',
'fa': 'persian',
'pl': 'polish',
'pt': 'portuguese',
'pa': 'punjabi',
'ro': 'romanian',
'ru': 'russian',
'sm': 'samoan',
'gd': 'scots gaelic',
'sr': 'serbian',
'st': 'sesotho',
'sn': 'shona',
'sd': 'sindhi',
'si': 'sinhala',
'sk': 'slovak',
'sl': 'slovenian',
'so': 'somali',
'es': 'spanish',
'su': 'sundanese',
'sw': 'swahili',
'sv': 'swedish',
'tg': 'tajik',
'ta': 'tamil',
'te': 'telugu',
'th': 'thai',
'tr': 'turkish',
'uk': 'ukrainian',
'ur': 'urdu',
'ug': 'uyghur',
'uz': 'uzbek',
'vi': 'vietnamese',
'cy': 'welsh',
'xh': 'xhosa',
'yi': 'yiddish',
'yo': 'yoruba',
'zu': 'zulu',
}
翻译一句「你好」试一下。
translater = Translator()
out = translater.translate("你好", dest='en', src='auto')
print(out)
结果如下
# 翻译结果
Translated(src=zh-CN, dest=en, text=Hello, pronunciation=None, extra_data="{'translat...")
src:源文本的语言
dest:将源文本转换为的语言。
text:翻译的结果
使用文档:https://py-googletrans.readthedocs.io/en/latest/
Pendulum是一个处理日期和时间的Python库,该库在涉及时区的情况下非常有用。
安装
# 安装pendulum
pip install pendulum -i https://mirror.baidu.com/pypi/simple/
来看一下2分钟前的时间
import pendulum
past = pendulum.now().subtract(minutes=2)
print(past.diff_for_humans())
print(past)
结果如下
2 minutes ago
2021-07-25T19:10:09.222953+08:00
还有很多方便使用的地方,可以查看使用文档。
使用文档地址:https://pendulum.eustace.io/
如果你是在命令行上运行Python程序,那么输出都是相同颜色,不方便观察。
使用Fabulous,则可以添加图像、彩色文本来凸显输出。
安装
# 安装fabulous
pip install fabulous -i https://mirror.baidu.com/pypi/simple/
下面来看一个示例吧!
from fabulous.color import bold, magenta, highlight_red
print(bold(magenta(
"""
hello world
this is some new line
and here is the last line. :)
"""
)))
结果如下,输出字体加粗且有颜色。
更多配置,可以访问使用文档:https://jart.github.io/fabulous/
pywebview是一个Python库,用于以GUI形式显示HTML、CSS、和JavaScript内容。
这意味着使用这个库,你可以在桌面应用程序中显示网页。
安装
# 安装pywebview
pip install pywebview -i https://mirror.baidu.com/pypi/simple/
启动一个给定网站的窗口,运行下面的代码。
import webview
window = webview.create_window(
title='百度一下,全是广告',
url='http://www.baidu.com',
width=850,
height=600,
resizable=False, # 固定窗口大小
text_select=False, # 禁止选择文字内容
confirm_close=True # 关闭时提示
)
webview.start()
结果如下