本文将介绍10个获取所需数据的网站,助力数据科学项目。
当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。
本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。
如果你在本文中看到一个网站,那是因为它包含的数据是:
让我们来挖掘一下最好的网站,以找到你真正关心并想用数据科学来探索的数据。
网站 | 特点 |
---|---|
Google Dataset Search | 超级广泛,质量不一 |
Kaggle | 更为有限,但有很多背景和社区 |
KDNuggets | 专门针对AI、ML、数据科学的网站 |
Government websites | 种类繁多,学习资源丰富 |
Pudding.cool | 流行文化、散文 |
538 | 体育、政治、清洁数据 |
Tidy Tuesdays | 混乱的数据,伟大的社区 |
GitHub | 大量的可搜索数据,有评论,质量不一 |
Buzzfeed | 流行文化、散文、严谨的科学 |
Awesome Public Datasets | 种类繁多,只有数据集,没有评论 |
链接:https://datasetsearch.research.google.com/
实际上这并不是一个真正的数据集的网站,而是一个数据集的搜索引擎。但它太好了,必须包括在内。
Google的数据集搜索就像Google一样,但针对的是数据集。你输入你的查询,Google就会返回它所拥有的关于该主题的尽可能多的数据集。
例如,搜索“猫”会给我带来一百多个数据集,其中一个数据集包含9000多张猫的图像。
来源:Google Dataset Search
推荐这个网站的原因:
这是一个很好的开始。
链接:https://www.kaggle.com/datasets
Kaggle的Datasets也是一个搜索引擎,但它的局限性更大,也更有针对性。
它更有局限性,因为它只包含人们在Kaggle发布的数据集。但它更有针对性,因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所,所以它收集的数据集与数据科学极为相关。
这使得你可以根据自己的特定兴趣进行筛选。例如,如果我在启用“计算机视觉”过滤器的情况下搜索“猫”,我可能会偶然发现同一个猫数据集。
来源:Kaggle Datasets
推荐这个网站的原因:
链接:kdnuggets.com/datasets/index.html
KDNuggets策划了一套庞大的数据集,这些数据集专门用于数据科学、机器学习、AI和分析,非常好用。
其中许多不是KDNuggets的独家产品,但这是一个很好的列表,可以在其中探究。值得注意的是,当你注册成为KDNuggets的电子邮件订阅者时,你也可以访问World Data AI(https://worlddata.ai/partners/kdnuggets),它本身包含35亿个数据集。
来源:KDnuggets Datasets
推荐这个网站的原因:
可以很容易地将获取政务数据集的网站清单扩大到大约一百万个,这里提供一个小清单:
各国政府不断收集数据进行研究,其中许多政府在网上公布这些数据。
推荐这些网站的原因:
链接:https://pudding.cool/2023/01/lit-canon/
如果你喜欢让数据紧随流行文化,那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样,如重复的流行歌词、女性的口袋,以及《生活大爆炸》多么受欢迎。
这更像是一本数字杂志,撰写关于文化的长篇文章,同时在旁边展示大量的数据。我把它放在这里,是因为他们讲述了很棒的故事并分享了他们的数据。
来源:The Pudding
推荐这个网站的原因:
链接:https://data.fivethirtyeight.com/
另一个以论文为导向的流行文化网站,提供你可以使用的免费数据。他们更专注于体育和政务。
来源:FiveThirtyEight Data
推荐这个网站的原因:
链接:https://github.com/rfordatascience/tidytuesday
Tidy Tuesdays本身并不完全是一个包含数据集的网站,但它是一个每周一次的活动和社区,重点是使用数据科学来探索杂乱的数据。
每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。
来源:TidyTuesday GitHub
推荐这个网站的原因:
链接:https://github.com/
GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据,以便自己使用。然而,数据的质量参差不齐。因为任何人都可以上传数据,所以数据的状况并不总是很好。
但是,我觉得它的好处弥补了这一点。
来源:GitHub Cat Data
推荐这个网站的原因:
链接:https://github.com/BuzzFeedNews
Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名,但Buzzfeed做了很多高质量的数据新闻。
这也都是开源的。
来源:BuzzFeed News GitHub
推荐这个网站的原因:
链接:https://github.com/awesomedata/awesome-public-datasets
Awesome Public Datasets位于GitHub上,包含了(大部分)免费的数据集,供人们探索。它们来自在线数据集、用户建议和研究论文。
来源:Awesome Public Datasets GitHub
推荐这个网站的原因:
深入挖掘,你不仅可以利用数据,而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。
有了如此大量的可用数据,你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。