首页 理论教育 互联网简史:算法的力量

互联网简史:算法的力量

时间:2023-11-08 理论教育 版权反馈
【摘要】:答案就是依靠算法!这就意味着,以算法为基础构建的网络世界虽然充斥着许多不确定性,但我们至少能够通过把握一定的概率来计算具体的结果。真正推动算法与计算机建立联系的是英国数学家阿兰·麦席森·图灵。图灵也因此被称为“计算机科学之父”和“人工智能之父”。辩证看待算法,才能正确运用算法,而不是被动地被“计算”。算法必须和数据、结论一起来理解。

互联网简史:算法的力量

史海钩沉

20世纪90年代初,6名关系要好的青年从斯坦福大学毕业,其中5名是计算机科学学士,而另一名是政治科学学士。他们聚集在硅谷的一家墨西哥快餐馆,商量今后的去向。几乎同所有斗志昂扬的青年一样,他们拥有“干大事”的雄心和抱负,希望能一起创办公司,但对于干什么样的“大事”,他们却并没有确定的方向。

但他们一致决定,由政治学士乔·克劳斯(Joe Krsus)担任公司总裁,负责接电话、找钱和其他外部事务;计算机学士格雷姆·斯宾塞(Graham Spencer)任技术总管,负责总体设计、任务分派和系统集成。6名青年把自己的积蓄都贡献出来,凑了15 000美元,在硅谷租了一个小房子,开始行动起来——哪怕还是没有确定具体要做什么。

经过仔细讨论,这群年轻人决定开发一个“搜索引擎”(Search Engine)软件。它的功能是,只要用户输入关键词,软件就能从一个庞大的数据库或信息库中把含有这些关键词的文件找出来。这个软件后来被命名为Excite。

创业之初的工作忙碌又紧张,大家工作、吃饭、睡觉都在由小屋的车库改成的开发区里,每人每周最少工作100小时。公司总裁克劳斯常常要工作到凌晨四点钟,然后在早饭时间会见客人。

三个月后,他们确信已经开发出了很好的核心技术,然而,就在这时,一个坏消息传来了:东海岸有一家大公司也在开发同样的产品。六人团队怎么能与大公司抗衡呢?

克劳斯宣布公司进入冲刺阶段,大家不分昼夜地工作,直到把产品原型做出来。同时,克劳斯加紧寻找风险投资

第一个给他们投资的是美国KPCB风险投资公司。演示成功后,美国KPCB注入了第一笔金额为30万美元的风险资金。

1995年10月,第一代产品发布了,公司也正式改名为“Excite”。

1996年9月,万维网上近四分之一的用户使用Excite网站。

1999年1月,Excite公司被另一家因特网大公司@HOME收购,收购价格为67亿美元。

今天,Excite搜索引擎仍然是互联网和万维网上一个主要的搜索引擎,而搜索引擎所依赖的,正是算法(Algorithm)。

溯源揽胜

随着互联网技术的迅猛发展和智能手机的广泛普及,我们的生活被各式各样的手机APP所包裹。我们渐渐发现,最懂我们的,往往不是我们的父母和朋友,而是这些“机灵”的手机APP。比如我们在逛淘宝时会经常在首页推荐中发现自己心仪的商品;看新闻时,相关的APP也会给我们推荐感兴趣的内容;刷抖音时,总是刷到自己喜欢的视频;就连早上起床打开音乐APP后随意播放一首推荐列表中的歌曲,也能“正中下怀”。那么,这些如同“知己”的APP是如何做到的呢?答案就是依靠算法!

算法是指解题方案中准确而完整的描述方法,是一系列用于解决问题的清晰指令,算法代表着用系统的方法去描述待解决问题的策略机制。“算法”一词的英文名“algorithm”起源于波斯数学家阿尔·花拉子米的名字“algoritmi”,正是他率先提出的“未知数”概念奠定了我们从特定的、浅层的数据当中总结出普遍、本质规律的基础。

到了18世纪,托马斯·贝叶斯进一步搭好了算法的骨架。他将归纳推理运用于概率论的基础理论,提出了一种偶然性,并将其用来估计一个可能的因果关系。这就意味着,以算法为基础构建的网络世界虽然充斥着许多不确定性,但我们至少能够通过把握一定的概率来计算具体的结果。

然而,算法若没有严谨的逻辑做支撑,就无法帮助我们过滤掉冗杂无用的信息,算法本身也会失去灵魂。当逻辑理顺后,我们便需要帮助机器理解信息。为了将逻辑数学化,乔治·布尔发明了二进制编码。他最初的设想是,人们用算法完成加减乘除,用逻辑讨论“或”和“与”,那为何不将二者相结合呢?他的研究最终得出了一个方程式,而这个方程只有在未知数等于0或1时才能成立。将二进制变为机器语言的,是克劳德·香农。香农努力探索着可以用来管理信息的规则和基本概念,他在1948年发表的论文中论述了信息的定义,怎样数量化信息,以及怎样更好地对信息进行编码,并提出了信息熵的概念,用于衡量消息的不确定度。

真正推动算法与计算机建立联系的是英国数学家阿兰·麦席森·图灵。1936年5月,图灵完成了表述他最重要的数学成果的一篇论文——《论可计算数及其在判定问题中的应用》,他在论文中描述了一种可以辅助数学研究的机器,后来被人称为“图灵机”。图灵机首次将纯数学符号与实体世界建立了联系,为电脑人工智能的发明奠定了基石。图灵也因此被称为“计算机科学之父”和“人工智能之父”。

随着计算机的发展,算法在计算方面已有广泛的发展及应用,比如用信息加密算法来保护通过网络传输的信息的安全和隐私,而我们之前谈到的手机APP的精准推荐,就是采用的推荐算法,如基于内容的推荐算法、协同过滤推荐算法等。可以说,算法正改变着我们生活的方方面面。(www.xing528.com)

知史明智

算法能够帮助我们将纷繁复杂的数据转化为特定的、符合数学逻辑的关系结构,可以让我们从这个关系中得出有指导性的结论。例如在内容方面,一套优秀的算法是可以寻找到用户的个人特点和内容的关联性的,进而程序就可以自动给用户推荐最适合他们的内容。这样看来,算法好像有百利而无一害,精准为我们推荐我们感兴趣的内容总比我们在网络中盲目搜寻要便捷得多,但实际情况是,在互联网时代,我们的网络行为被分解为一个一个的数据,而这些数据作为我们的行为轨迹被记录,随后被计算。当计算机比我们自己还要了解自己时,我们的隐私又被置于何处呢?辩证看待算法,才能正确运用算法,而不是被动地被“计算”。

第一,算法实际上不能被孤立地理解。算法必须和数据、结论一起来理解。算法的出现,实际上背后隐藏着人们网络行为的“数据化”。我们知道,个人行为是一种私密的行为,而个人网络行为是基于个人通过互联网的连接而进行的行为,网络是连接世界的桥梁,在世界环境变化如此快的情况下,我们每个人都在通过网络与世界建立着专属于我们的联系。所以,当我们使用互联网数据的时候,我们每个人的使用数据会同时被保存,比如我们在网上经常看文学作品,那么我们喜欢的这个文学作品类型便会被电脑独有的记忆存储,当每个人的喜好都变为数据,实际上意味着每个人的爱好都能够被迅速存储。而算法则是基于这样的大数据,利用一套独有的自我关联体系而形成的一套精准分析系统。这样的分析系统能够最有效率地对人们的爱好和行为进行判断和分析。从用户的角度分析,这既带来了方便,也是隐私的暴露。但从商业角度来看,当数据和算法达到一定水平之后就可以判断人们的爱好和规律,进而推荐符合个人期待且吸引个人眼球的商品。因此,可以说算法是未来商业数据最核心、最重要的资源。

第二,算法意味着预测,意味着在人们的意识之外发现他还没有找到的需求。这是很有意思的。因为算法的精准度、计算速度、发展速度等是超出了人们的想象的,我们可能会以为算法的结论比我们自己更加了解自己。从商业应用的角度来说,这是一个非常有趣的现象,这对商业的发展趋势会有一定的影响,我们可以从算法结论中得出现在的需求,同时,也许这里面会有我们不曾注意的潜在需求,而这样的潜在需求也许会在某一天成为下一个商业的发展机遇。算法不是人工智能,但它可以带来人工智能。算法是一个关键的入口,人的个人偏好和情感这种意识层面的东西和数据得出的科学结论得以融合。但反过来,我们也需要警惕,算法的这种功能是不是掌握在社会的良性力量手里?如果社会不良力量掌握了算法和数据资源,是否会对社会带来一些不良影响?这也是我们需要思考的问题。

第三,算法最精妙绝伦的地方在于它是自我成长的。我们的精力和接受知识体系的能力是有限的,因为我们的思维模式几乎是固定的,学习能力会在成年后随着时间慢慢递减。但是算法,就像阿尔法狗(AlphaGo),在短短几年时间的技术研究中,竟然赢了有十几年围棋学习经验的选手柯洁。这就是因为随着人们的使用,算法会获得越来越多的反馈,也会越来越精确,甚至也许会发展到人们难以想象的地步。

网事拾遗

推荐算法是计算机专业中的一种算法。推荐算法在生活中的运用就是将用户的一些行为经过一系列的数学分析编成计算机语言,从而通过网络的传输推测出用户可能喜欢的东西。推荐算法主要采用的是基于用户行为的推荐,而基于用户行为的分析主要来自以下两个方面:一是用户自身填写的信息。每当我们想要在某一个平台注册自己的账号的时候,通常会需要我们填写自己的出生年月日、性别、手机号,甚至身份证号。二是用户使用时的数据信息。我们在使用软件的时候习惯性地输入的内容,高频率的点击也会给推荐算法提供便利。

常见的推荐算法有以下三种:

一是基于内容的推荐,根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品。比如我们经常输入“跳舞”,那么这个推荐算法也会推荐同样含有“跳舞”字样的内容给我们。

二是协同过滤推荐。协同过滤推荐又分成了两种,一种是基于物品的协同过滤推荐,另一种是基于用户的协同过滤推荐。基于物品的协同过滤推荐,是基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好推荐相似的物品。比如在网上挑选水果时,西瓜苹果都被用户A和用户B所查看,又由于用户C也看了西瓜,所以我们就会推荐与之相似的苹果给用户C。基于用户的协同过滤,是基于用户对物品的偏好找到相似用户,然后将相似用户喜欢的东西推荐给当前用户。比如我们在网上挑选A品牌衣服的时候,会有其他用户也喜欢A品牌的衣服,可是他们除了喜欢A品牌的衣服也会喜欢B品牌的衣服,又因为B品牌的衣服与A品牌的风格类似,那么就会将其他用户喜欢的B品牌衣服推荐给我们。

三是基于关联规则的推荐,关联规则的推荐是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则可以挖掘、发现不同商品在销售过程中的相关性。比如我们在购买电动牙刷的时候,会默认给我们推荐电动牙刷头;又如我们在购买面包的时候,牛奶也是与之搭配售卖的物品。

历史回声

过去你是一个消费机器,人们谈论他们的消费者和他们的用户。(英语中用户和消费者描述的是一个非常被动的人。)

——美国计算机科学家 尼古拉斯·尼葛洛庞帝

互联网技术也被称为基础系统。如果没有了互联网,产业技术也不会革新。互联网成了社会性基础设施,作为社会性的通讯基础,没有了互联网的话,谁也过不下去吧。

——日本互联网发展时期的记者 高桥彻

正如达尔文进化论改变了我们在这个世界和更大的宇宙范围内对自己的认识,在这种新的神经传统下,神经技术也有可能会带来全新的观念,让我们认清自己在宇宙中的位置。

——美国神经科技工业组织的创立者 扎克·林奇

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈