人工智能领域有哪些好的数据集,公开可用的
现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如TensorFlow、Torch和Spark,再加上通过AWS的大规模计算力、GoogleCloud或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。
虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。
然而,涉及到机器学习或人工智能的大多数产品强烈依赖于那些通常没有开放的私有数据集,而本文将指出解决这种困境的办法。
事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,因为那些有用的开放数据集必须是可概念证明的,而什么数据集对产品或确认特征是有用的,在你收集你自己所有数据之前是不知道的。
重要的是,如果数据集有良好的表现并不能保证其训练的机器学习系统在实际产品场景中表现良好。许多人在构建人工智能系统时常常忘了构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点。
我和一些机器学习专家们讨论的都是有关标准数据集的问题。为了让你能更轻松地构建人工智能系统,我们搜集了一些开源数据集,这些开源数据集是我们认为在人工智能的世界里你所需要了解的。
计算机视觉MNIST:最通用的健全检查。25x25的数据集,中心化,B&W手写数字。这是个容易的任务——但是在MNIST有效,不等同于其本身是有效的。
地址:
CIFAR10&CIFAR100:32x32彩色图像。虽不再常用,但还是用了一次,可以是一项有趣的健全检查。
地址:
ImageNet:新算法实际上的图像数据集。很多图片API公司从其REST接口获取标签,这些标签被怀疑与ImageNet的下一级WordNet的1000个范畴很接近。
地址:
LSUN:场景理解具有很多辅助任务(房间布置评估、显著性预测等)和一个相关竞争。
地址:
PASCALVOC:通用图像分割/分类:对于构建真实世界的图像注释毫无用处,对于基线则意义重大。
地址:
SVHN:来自谷歌街景视图(GoogleStreetView)的房屋数量。把这想象成荒野之中的周期性MNIST。
地址:
MSCOCO:带有一个相关性竞争的通用图像理解/字幕。
地址:
VisualGenome:非常详细的视觉知识库,并带有100K图像的深字幕。
地址:
LabeledFacesintheWild:通过名称标识符,已经为被裁剪的面部区域(用Viola-Jones)打了标签。现有人类的子集在数据集中有两个图像。对于这里做面部匹配系统训练的人来说,这很正常。
地址:
自然语言文本分类数据集(2015年来自Zhang等人):一个用于文本分类的合8个数据集为1个的大型数据集。这些是用于新文本分类的最常被报道的基线。样本大小从120K到3.6M,问题从2级到14级。数据集来自DBPedia、Amazon、Yelp、Yahoo!、Sogou和AG。
地址
WikiText:来自由SalesforceMetaMind精心策划的维基百科文章中的大型语言建模语料库。
地址:
QuestionPairs:从包含重复/语义相似性标签的Quora释放出来的第一个数据集。
地址:
SQuAD:斯坦福大学问答数据集(TheStanfordQuestionAnsweringDataset)——一个被广泛应用于问题回答和阅读理解的数据集,其中每个问题的答案形式是文本的一个片段或碎片。
地址:
CMUQ/ADataset:手动生成的仿真陈述问题/回答与维基百科文章的难度评级相对应。
地址:
MaluubaDatasets:用于状态性自然语言理解研究的人工生成的精密数据集。
地址:
BillionWords:大型,有统一目标的语言建模数据集。常被用来训练诸如word2vec或Glove的分布式词表征。
地址:
CommonCrawl:PB级规模的网络爬行——常被用来学习词嵌入。可从AmazonS3上免费获取。由于它是WWW的抓取,同样也可以作为网络数据集来使用。
地址:
bAbi:来自FAIR(FacebookAIResearch)的合成式阅读理解与问答数据集。
地址:
TheChildren’sBookTest:从来自古登堡计划的童书中提取(问题+上下文,回答)组的基线。这对问题回答、阅读理解和仿真陈述查询有用。
地址:
StanfordSentimentTreebank:标准的情感数据集,在每一个句子解析树的节点上带有细腻的情感注解。
地址:
20Newsgroups:文本分类经典数据集中的一个。通常可用作纯分类或任何IR/索引算法的基准。
地址:
Reuters:旧的,纯粹基于分类的数据集与来自新闻专线的文本。常用于教程。
地址:
IMDB:一个用于二元情感分类的更旧更小的数据集。
地址:
UCI’sSpambase:来自著名的UCI机器学习库较久的经典垃圾电子邮件数据集。由于数据集的策划细节,这可以是一个学习个性化过滤垃圾邮件的有趣基线。
地址:
语音大多数语音识别数据集是有所有权的,这些数据为收集它们的公司带来了大量的价值,但在这一领域里,许多可用的数据集都是比较旧的。
2000HUB5English:仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(DeepSpeech:Scalingupend-to-endspeechrecognition)》就是使用了该语音数据集。
地址:
LibriSpeech:包括文本和语音的有声读物数据集。它是近500小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。
地址:
VoxForge:带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。
地址:
TIMIT:只包含英语的语音识别数据集。
地址:
CHIME:包含噪声的语音识别数据集。该数据集包含真实、模拟和清洁的语音记录。实际上是记录四个说话者在四个噪声源的情况下近9000份记录,模拟数据是在结合话语行为和清洁无噪语音记录的多环境下生成的。
地址:
TED-LIUM:TED演讲的语音转录数据集。1495份TED演讲的语音记录,并且这些语音记录有对应的全文本。
地址:
推荐和排序系统NetflixChallenge:第一个主要Kaggle风格的数据库。因为存在隐私问题,只能非正式地获得授权。
地址:
MovieLens:各种电影的评论数据库,通常用于基线协同过滤(collaborativefilteringbaselines)。
地址:
MillionSongDataset:在Kaggle上大量、富元数据(metadata-rich)、开源的数据集,有利于人们试验混合推荐系统(hybridrecommendationsystems)。
地址:
Last.fm:音乐推荐数据集,该数据集能有权访问底层社交网络和其他元数据,而这样的数据集正对混合系统有巨大的作用。
地址:
网络和图表AmazonCo-Purchasing和AmazonReviews:从亚马逊以及相关产品评论数据网络爬取的如「用户买了这个同时也会买哪个」这样的语句。适合在互联网中进行推荐系统的测试。
地址:和
FriendsterSocialNetworkDataset:在Friendster的重心转入到游戏网站之前,这家网站发布了包含103,750,348个用户好友列表的匿名数据集。
地址:
地理测绘数据库OpenStreetMap:免费许可的全球矢量数据集。其包含了旧版的美国人口统计局的TIGER数据。
地址:
Landsat8:整个地球表面的卫星拍摄数据,每隔几周会更新一次。
地址:
NEXRAD:多普雷达扫描的美国大气环境。
地址:
人们常常认为解决一个数据集上的问题就相当于对产品进行了一次完整的审视。因为我们可以使用这些数据集进行验证或证明一个概念,但是也不要忘了测试模型或原型是如何获取新的和更实际的数据来提高运算效果,获得优良产品的。数据驱动的成功公司通常从他们收集新数据、私有数据的能力中获得力量,从而以一种具有竞争力的方式提高他们的表现。
最后的话好数据集还有很多,这份列表当然不可能完全覆盖,如果你知道还有很好的数据集值得推荐,请通过评论与我们分享。
详情请参与机器之心官网文章:
人工智能涉及哪些领域
1、智能制造
随着工业制造4.0时代的推进,传统的制造业在人工智能的推动下迅速爆发。人工智能在制造的应用领域主要分为三个方面:
(1)智能装备:主要包括自动识别设备、人机交互系统、工业机器人和数控机床等。
(2)智能工厂:包括智能设计、智能生产、智能管理及集成优化等。
(3)智能服务:个性化定制、远程运维及预测性维护等。
2、智能家居
智能家居主要是引用物联网技术,通过智能硬件、软件、云计算平台等构成一套完整的家居生态系统。这些家居产品都有一个智能AI你可以设置口令指挥产品自主运行,同时AI还可以搜索你的使用数据,最后达到不需要指挥的效果。
?
3、智慧金融
人工智能在金融方面可以进行自动获客、身份识别、大数据风控、智能投顾、智能客服和金融云等。
4、智能医疗
智能医疗主要是通过大数据、5G、云计算、大数据、AR/VRh和人工智能等技术与医疗行业进行深度融合等。智能医疗主要是起到辅助诊断、医疗影像及疾病检测、药物开发等作用。
5、智慧教育
主要是指人工智能在教育领域实现信息化,利用数字化、网络化、智能化和多媒体化等基本特征进行开放、交互、共享、协作、泛在等信息技术促进教育现代化交流。
6、智能安防
智能安防主要是利用人工智能系统实施的安全防范控制,在当前安全防范意识不断加强的环境下,智能安防市场应用广泛。其中主要应用在人体、行为、车辆、图像方面进行分析。
7、智慧物流
物流行业在人工智能、5G技术的推动下迅速发展。物流利用智能搜索、推理规划及计算机视觉等技术仓储、运输、配送和装卸等自动化改革,实现了无人操作一体化。
?
8、智慧交通
智能交通是通信、信息和控制技术在交通系统中集成应用的产物。主要通过智能设计路线出行的方法改善堵车、拥挤及交通事故等。
9、智慧零售
人工智能在零售领域应用广泛,包括无人便利店、智慧供应链、客流统计、无人车和无人仓等。
人工智能在社会各领域应用
目前人工智能应用领域比较多,具体如下:
机器人领域:人工智能机器人,如RET聊天机器人,它能理解人的语言,用人类语言进行对话,并能够用特定传感器采集分析出现的情况调整自己的动作来达到特定目的
语言识别领域:该领域其实与机器人领域有交叉,设计的应用是把语言和声音转换成可处理的信息,如语音开锁、语音邮件以及未来的计算机输入等方面
图像识别领域:利用计算机进行图像处理、分析和理解,以识别各种不同模式的目标和对象的技术;例如人脸识别,汽车牌号识别等。
推荐阅读美国担心人工智能领域(美国人工智能出问题)
创业人工智能领域,创业人工智能领域包括
mit 人工智能领域(mit首次提出人工智能)
小米人工智能领域加盟,小米人工智能家居加盟
人工智能领域工程 人工智能领域工程有哪些
医疗人工智能领域 医疗人工智能领域包括
医疗领域人工智能融资(医疗领域人工智能融资现状)
人工智能领域规范,人工智能领域规范文件