首页 理论教育 使用新方法获取互联网升级数据

使用新方法获取互联网升级数据

时间:2023-06-15 理论教育 版权反馈
【摘要】:每个联网用户都在随时随地提供数据,为机器学习人类智慧提供依据和分析样本。目前,通过深度学习让机器自动提取特征量的人工智能算法需要数据量进行学习、数据的处理和特征量的提取,以及输出结果后的验证,机器和数据都还不能理解计算结果的意义和产生背景,很多时候仍然需要通过人工提炼结果或修正特征量。

使用新方法获取互联网升级数据

计算机与互联网发展之前,人类所有的痕迹都是由一部分被指定身份的人去记载。除了重要的事件,人类的日常行为数据基本被选择性地不去记录。计算机与互联网发展之后,碎片化信息大量产生和被记录,人类的行为痕迹及环境数据慢慢体现出商业价值,并对生产、生活方式产生影响。

互联网的发展产生并积累了包括cookie、访问路径、搜索结果、在线百科词条等在内的海量数据。通过移动终端的联网,部分场景数据和用户使用数据的收集变得更为容易。每个联网用户都在随时随地提供数据,为机器学习人类智慧提供依据和分析样本。

目前,通过深度学习让机器自动提取特征量的人工智能算法需要数据量进行学习、数据的处理和特征量的提取,以及输出结果后的验证,机器和数据都还不能理解计算结果的意义和产生背景,很多时候仍然需要通过人工提炼结果或修正特征量。(www.xing528.com)

众包是一种整合资源、提升效率的方式,通过众包可以集合海量数据,筛选符合一定标准的有效数据,能够降低数据收集的成本,提高机器学习训练的效率。麻省理工学院开发的全球最大图片数据库ImageNet通过亚马逊Mechanical Turk众包平台,集合全球167个国家,近5万人的工作,筛选、标记了近10亿张备选照片,建立起的图片库总容量超过1400万张,平均每个名词有超过500张图片数据可供计算机“学习”,成为目前最有价值的图像识别数据库之一[12]

2012年罗切斯特大学的研究人员开发出Chorus系统,通过众包贡献者提供的信息创建了一个能够智能聊天的虚拟个人助理,在提供旅行建议时能够综合所有已知信息给出答案[13]。2014年,谷歌面向用户开放翻译社区,通过众包方式对翻译结果进行比对,这些结果将影响谷歌的机器翻译算法[14]。基于众包的数据获取方式让更多人参与到人工智能迭代中,也最大限度集合现有的人类集体智慧并发挥价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈