注:Notes绝大部分为中译本原文,tag: [runner2011]下的notes是我的评论
[从数据中推断模式]
神经网络算法的目标不是用离散的规则来描述笔迹(1是直的,2是弯的,3是对称的,诸如此类),而是从数据中推断出模式。
[人工智能-从“通过明确编程来解决问题”转变“从示例中发现模式”]
此前的几代人试图用规则详尽描述智能,算法相对僵化,这种人工智能通常被称 “符号人工智能”(symbolic AI);20 世纪80年代未到90年代初,潮流开始转向更自然的方法。杨立昆的成果就预示着一个大胆的未来。随着时间的推移,行业研究重点从“通过明确编程来解决问题”转变“从示例中发现模式”。换言之,算法不是被告知该做什么,而是去学习该做什么。研究人员给它起了一个贴切的名字:“机器学习”(machine learning ).
[图灵]
机器学习的历史可以说是人工智能发展历史中不太为人所知的章节。尽管图灵本人很早就认可过机器学习,但这一概念相对来说仍然比较小众。1950年,图灵发表了一篇题为《计算机器与智能》的论文,简要对比了“基于规则的人工智能”(rule-based AI)和机器学习。基于规则的人工智能是指从零开始构建具有智能行力能力的完整体,而机器学习指的是允许智能体自主发展
[神经元-生物学原理数学化深远影响 ]
1943 年,研究人员沃伦·麦卡洛克(Warren S. McCulloch)和沃尔特·皮茨(Walter Pitts)共同发表文章,介绍了一项关于大脑基本单位“神经元”的新探索,把其中的生物学原理简化为数学的本质概念,从而推动了神经科学的重要进展。他们的方法的关键在于抽象化:通过剔除真实大脑中变幻莫测的电化学过程,将神经元简化为相对简单的信号交换。这种纯粹的交换性分析——输入什么、输出什么,以及两者之间如何相互关联——产生了深远的影响。不同于身体的其他部位,也不同于任何已知的自然结构,大脑似乎是唯一适合处理信息的器官。从某种意义上说,这个发现相当于神经科学领域的原子裂变,它揭示了在整个大脑中重复出现的根本模式, 展现出惊人的一致性和稳定性:大脑可以被看作由简单元素组成的大型网络,元素之间的联系可以随着时间的推移而改变;通过将复杂的行为分布于网络中,我们几乎可以完成无限的任务,并且可以不断学习新的任务,即使到了晚年也可以。
[大脑复杂但优雅,把复杂性都掩藏]
人类大脑的复杂性远远超越已知宇宙中的任何其他事物,但其构造又极其优雅,几乎把复杂性全部掩藏。汽车或手机都是由清晰区分的零件组装而成,这是人类设计师认为直观的形式。但大脑的构造与此不同,它是由近 1000 亿个神经元构成的巨大网络,其中神经元就是一个个互相连接的微小单元,可以在电化学传输中精细聚焦。尽管整个大脑中的神经元行为受到类似概念的支配(至少在麦卡洛克和皮茨的模型层面上是如此),但神经无可以形成不同的网络,其排列和位置各不相同,可以应对各类挑战,如视觉、听觉、运动,甚至进行抽系思考。此外,大脑在最初在子宫内形成后的很长时间里。才通过学习形成了(或者至少是逐渐完善了)这些网络结构。这就是为什么尽管我们的灰质在解剖学上看起来并无二致,但每个人的个性、技能和记忆都是独一无二的。
[模型的意义]
有了这样清晰的模型,技术进步迟早会赶上研究界的好奇心。
[感知机-学习的本质-归类或逆熵]
认为,有些输入对神经元行为的影响更大,这就好比不同的读者可能会对阅读的内容产生不同程度的信任和怀疑。如果允许这些影响随着时间的推移而变化,随着任务的成功或失败而增强或减弱,那么从本质上看,神经元网络本质上就可以进行学习了。
[专注-持续]
在学习方面,我还是一如既往地专注于数学和物理学—它们首先是我的激情所在,其次才是大学先修课程。过去三年,我一直夜以继日地学习、工作,现在刚刚克服了英语障碍。我感觉可以适当放慢脚步了–这也许是我有生以来第一次这么想.
[在道路行进中发现]
虽然干洗行业本身利润微薄,但改衣业务却是有利可图
[真切的置身其中的感觉]
我甚至养成了每周五参加高等研究院员工下午茶的习惯。虽然我跟高等研究院没什么关系,但这个下午茶活动并不是严格意义上的闭门研讨会。有时,我会遇到一些研究生,可以一起讨论学业。但我真正渴望的是一种真切的置身其中的感觉,
[智慧的描述-可以基于规则和原则-计算的哲学意义]
更重要的是,正是从这两本书中,我首次接触到了“用离散的数学术语来理解心智”这一观点。它们都提出了令人信服的理由:从本质上说,对智慧的全面描述揭示的不是魔法,而是一种过程,是规则和原则的运作。这些规则和原则在可测量的量上,以可理解甚至可预测的方式发挥作用。换句话说,它们为我揭示了计算所包含的哲学意义。
科学史往往是曲折、讽刺而又残酷的。新的思想被发现,然后被丢弃,接着又有新的思想被发现。被几代人视为基石的范式有时会在一夜之间被推翻,而推翻这一切的常常是显而易见的观察结果。恰恰因为这些观察太过简单,反而更容易被领域内最杰出的人物所忽视,从而为局外人发起革命创造了条件。正是这种既和谐又冲突的摇摆节奏,才使得科学追求如此戏剧化。
[runner2011- 进步可能无法一蹴而就]
进步可能无法一蹴而就, 如同感知机和杨立昆的成就虽然是正确的方向, 但由于缺乏计算条件(天时地利人和), 而被暂时的搁置. 因为往往无法一蹴而就, 做事可能无法考虑所有, 而是去产生价值. 专注自己的领域, 静待花开.
[量变引起质变]
尽管构成大脑大部分结构的神经元相对简单,但大脑也许是最能充分诠释“量变引起质变”这一公理的例子。当神经元以千亿计的数量级复制,当它们之间的连接达到10的11次方时,质变就发生了。物质变成了思维,产生了爱、喜悦、悲伤、愤怒、恐惧和欢笑,也造就了我们在科学、艺术、音乐和数学等方面的能力。
[淘汰-幸存-形成新的基线-淘汰来自秩序的改变]
生命进化是在一连串动荡中颠覆自然秩序,然后在新的基线上稳固下来,并很快在此基础上建立起更强大的能力
[随着物理条件的逐渐满足, 新的范式形成]
神经网络(*注:原文这里的神经网络上下文是生物学的神经网络)是一种生物电系统,原理简单,但功能强大。
[runner2011- 环境的变化, 对生物进化的巨大影响]
生物进化这一章, 展示了环境的变化, 对生物进化的巨大影响.
数字世界的机会也不胜枚举。
[runner2011]
脑科学的研究结果应该对神经网络架构设计提供了重要帮助。包括不限于:
– 神经元
– 视觉神经关联结构,特定的皮质区域对视觉神经的感知处理
– 学习影响神经元的连接(神经网络:学习过程中对神经元参数的调节)
– 注意力机制
[单样本学习]
我们选择的机器学习算法的数学核心是“贝叶斯网络”,这是一种概率技术。
数据被公然视为一种惰性商品,只有在算法需要时才重要,虽然这种观点并不稀奇,单我开始意识到,有一些重要的东西一直都被低估了。
我们算法的决定特征是能够从只看过一次的图像中学习新的事物类别,而这一特征对数据的依赖极大。
[背景:大约2005左右,重视算法,轻视数据]
生物智能与算法存在区别–前者是进化而来的,而进化的本质是环境对生物产生影响。
李凯教授是微处理器架构领域的领军人物。微处理器架构是一门将数百万纳米级晶体管排列到世界上最复杂的设备中的艺术,因此他比大多数人都更了解指数思维的力量
[保持谦卑-意外之力]
ImageNet 之所以能够存在,要归功于互联网、数码相机和搜索引擎等众多技术的融合。现在,一个一年前还几乎不存在的平台提供的众包服务,成为让我们的项目臻于圆满的关键因素。这件事就是最好的例证,它让我深刻了解到,任何一个科学家的默认立场都应该是绝对谦卑,他们应该明白,没有哪个个体的智慧能有意外之力一半强大。
亚马逊土耳其机器人拯救了ImageNet项目(成本和时间)
[图像数据集-计算机视觉的语言-概念的集合]
如果说可以把图像数据集视为计算机视觉的语言(也就是算法及其开发人员可以探索的概念集合),那么ImageNet就是词汇量的突然爆发性增长。(runner2011: 如果数据集是语言,那么算法应该就是思想,如何去组织语言)
[数据标准]
我一直在思考这次的获胜算法。它的识别准确率高达85%,比上一年的冠军高出10个百分点,创造了计算机视觉领域的世界纪录。
[卷积神经网络]
卷积神经网络的叫法源于图形卷积过程。在这个过程中,一系列滤波器在图上上扫过,寻找与网络所识别事物相应的特征。这是一种独特的有机设计,灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察,即视觉处理在多个层次上进行。
在经过,140万轮标注后,最后几张图片与其说是一场磨炼,不如说是一场加冕礼。网络的焦点穿过像素,随着熟悉模式的识别而亮起,并传递到下一层,与其他模式相结合,形成越来越强大的感知。
受生物学启发的算法几十年来一直凝视着我们,它只是需要适当的挑战,才能充分展现出来。
[生物视觉和机器视觉]
生物视觉的出现导致远古海洋波涛下的寒武纪大爆发,距今已经5亿年。而如今,我们很难不去联想:我们是不是正处于一个类似拐点的边缘?机器视觉的兴起是否会引发一轮数字进化新浪潮呢?
把视觉敏锐度和百科全书式的知识深度结合,可以带来一种全新的能力。这种新能力是什么尚不可知,但我相信,它绝不仅仅是机器版的人眼。它是一种全新的存在,是一种更深入、更精细的透镜,能够从我们从未想象过的角度揭示这个世界。
[目标-收获-值得]
我们能如愿以偿、得到回报吗?我们没有浪费时间去担心这个问题,而是选择拥抱世界,接受世界的真实面貌,不妥协、不简化——仅仅是这一点,就让我们觉得这是一项值得为之献身的使命。无论我们了解世界的窗口是汽车模型、鸟类物种,还是其他事物(也许我们的下一个项目将探索各种铺设道路、爬行动物的鳞片、小提琴的饰面),每一步都让人感觉距离用全新的眼光看待现实的时刻更近了一点。无论我们发现了什么,我都相信这趟旅程是值得的。
无论是否准备就绪,这些问题都需要以商业速度加以解决。灭个问题单独来看都令人担忧,但它们共同指向了一个未来,其特点都是监督减少,不平等加剧,如果处理不当,甚至可能导致迫在眉睫的数字独裁主义问题。
即使是现代人工智能,也更接近于牛顿出现前伽利略和第谷•布拉赫所处的时代,当时人们正在对各种现象进行观察、归纳和预测,但统一的模型尚未正式形成。
它们之所以强大,是因为成千上万个才华横溢的人在同一个屋檐下共同努力。但公司只能利用这些人才,而无法塑造他们。
‘尊严’,这是我一直强调的关键词。最重要的问题就是,人工智能如何才能尊重人的尊严呢?
以人为本的人工智能。
最好的研究往往不是在我们各自领域的象牙塔中孤立完成的,而是在科学的整体共享空间中实现的,研究人员应该毫不犹豫地在全球范围内展开跨学科合作。
我的研究成果还非常初级,我到底应该拿多少脑力去研究伦理问题呢?(注:来自一学生)
我的导师门教会了我如何善用威严:要将其作为一种感召,而不是障碍。
如果你真的对这些事物充满热情,无论你是谁,无论你来自哪里,你都属于这里。让我们共同创造未来!(runner2011:热情来自教育的培养)
我早已摆脱了对“格格不入”的恐惧,因为我一路上遇到了太多真诚的人,它们给了我太多善意。移民之路并不平坦,但我始终心存感激。
最好的作品总是在边界上诞生,在哪里,思想永远被困在来去之间