欢迎关注 “小白玩转Python”,发现更多 “有趣”
引言
机器学习经常被当作是一个神奇的工具,你可以把你的数据和知识转换成预测。然而,要做到这一点,您需要收集、清理和合并大量的数据。
我们今天将简化你的上述工作,并为您提供一个最好的地方,可以找到比较合适的数据集。从地理数据到犯罪数据,视察的潜在领域都很吸引人。
1. Google 的数据集搜索引擎
网址:https://datasetsearch.research.google.com/
与谷歌的核心产品一样,你可以使用文本轻松搜索数据集。此外,还可以根据日期、数据格式和使用权限筛选查询。本网站的数据集包括公司免费提供的现实生活数据集和个人项目免费使用的数据集。
如果你正在寻找一个物品的所有数据集,并没有任何具体的限制,谷歌可以帮助你快速开始~
来自谷歌数据集搜索引擎的屏幕截图
2. Kaggle 数据集
网址:https://www.kaggle.com/datasets
如果你曾经参加过与数据科学相关的课程,你可能会遇到 Kaggle。Kaggle 是世界领先的数据科学相关编程平台。它还允许用户查找和发布数据集,更重要的是,它允许用户在如何从数据集中提取价值方面与其他数据科学人员进行工作和竞争。
如果你想了解更多关于一个特定类型的问题,并且想和世界各地的数据科学家讨论学习的问题,Kaggle 是适合你的地方。
3. 地球数据
网址:https://earthdata.nasa.gov/
对于那些喜欢地球数据的小伙伴来书,美国宇航局绝对值得浏览。它可能拥有最大的地理相关数据集,例如关于地球,气候和水体等。
这些数据集是由世界各地的研究人员和机构提供和创建的,肯定是各个领域现有的最高质量的数据集。如果你正在寻找一个专注于时间序列或地理空间数据的项目,这无疑是开始寻找的最佳地点。
来自地球数据的截图
4. Amazon and Microsoft 数据集:Azure and AWS
网址:https://registry.opendata.aws/
网址:https://azure.microsoft.com/en-us/services/open-datasets/catalog/?q=
大型科技巨头在他们的开放数据注册中包含了来自世界各地的数据集。我把它做成一个联合的地方,因为虽然它们数据集的种类并非最多,但每个数据集的数量确实非常庞大。
他们在云计算和大数据存储方面的经验,并将这些数据集提供给公众。目前 AWS 拥有大约200个数据集,Azure 拥有大约20个数据集。
如果你正在大数据领域寻找一个项目,并且想要处理海量数据,那么这些地方是最好的。
5. FBI 犯罪数据浏览器
网址:https://crime-data-explorer.fr.cloud.gov/downloads-and-docs
如果你想知道那些没有很好地注释他们的代码的人会发生什么,FBI 的犯罪数据浏览器可能会给你一个提示。这可能是围绕犯罪和非犯罪执法数据的最大数据收集。它的特色数据从国家基础犯罪到人类交通相关的数据。
虽然这通常是一个悲伤的故事,但它也是最令人兴奋的数据类型之一。如果你正在寻找一个变化和一个新的令人兴奋的项目,它肯定是一个金矿。
来自被授权为 CC0的 FBI 数据浏览器的屏幕截图
6. Data World
网址:https://data.world/
一个很少被提及的数据集便是Data World,它非常类似于谷歌数据集搜索引擎。然而,我发现更令人愉快的其实是搜索深度,当输入查询时,它不仅显示数据集本身,还可能包含所需数据的子文件。当然,在查找诸如人口统计和地理位置集合等辅助数据时,这可能特别有用。
7. CERN Open Data Portal
网址:http://opendata.cern.ch/
位于日内瓦附近的欧洲核子研究组织(CERN)向公众提供了许多令人难以置信的研究数据。
欧洲粒子物理研究所的开放数据门户网站非常吸引人。他们收集并提供了很多关于最小事物的数据——粒子物理学。这是 Europes 最负盛名的研究机构之一,他们的粒子碰撞数据质量无人能及。
来自欧洲核子研究中心授权为 CC0的开放数据的屏幕截图
8. Lionbridge AI 数据集
网址:https://lionbridge.ai/datasets/
Lionbridge 是一家提供数据收集、注释和验证服务的公司。在其他事情中,自定义标签和我们今天感兴趣的各种数据集你可以通过他们的网站找到。
在他们的数据集部分,他们向你展示了几篇包含各种来源的文章。比如11个最适合机器学习的气候变化数据集和50个最适合机器学习的免费数据集。因为他们是一个围绕数据集建立的公司,所以他们的推荐肯定很棒。
如果您正在寻找专用数据集之间的比较,那么这是最佳网站。
9. UCI 机器学习库
网址:
https://archive.ics.uci.edu/ml/index.php
加利福尼亚大学欧文分校维护超过550个数据集免费供你使用。我发现这个网站特别有趣的教育目的,因为它提供过滤的问题。因此,分类、回归和聚类,您可以很容易地找到一个与您当前正在探索的技术相匹配的数据集。
除了知道如何教育学生,他们的团队肯定知道很多关于机器学习数据集和如何评估它们。
其他:
可视化数据——特别适用于图像/视频工作
https://www.visualdata.io/discovery
总结
正如我们所看到的,数据世界正在迅速扩张。
希望你已经了解了将用于下一个项目的数据集,现在可以根据如何以及在哪里找到所有你可能需要的数据做出有根据的决定。
· END ·
HAPPY LIFE
转载:https://blog.csdn.net/weixin_38739735/article/details/113778070