最近关于 AI 的新闻无处不在,相关联的,GPU 生产商英伟达也被推上了舆论中心。再加上前段时间来自于美国对于中国半导体禁令的讨论,半导体行业似乎是每天的新闻头条。

但是半导体行业到底是什么?为什么国家会出手干预?为什么这个行业似乎无处不在?

正好由于工作的关系,我对半导体行业有了些皮毛的了解,所以想通过这篇文章,帮助我自己理清半导体行业的一些基础问题,也希望能够解答读者关于半导体行业的一些疑问。

(声明:1. 我并不在任何一家半导体公司工作,所以如果文章中任何有利益关系的陈述都是基于网络上公开的信息。 2. 我并非半导体行业从业人士,如果文章中有错误,欢迎指正。)

半导体和我们生活的关系是什么?

要理解半导体,我们要从我们最熟悉的电子设备——手机说起。

如果你看到过手机的主板,你会发现上面有很多不同大小的方块集成在一块,这些不同的方块就是芯片了。

这些芯片有不同的功能,有的负责分配任务,有的负责增强图形和视频的显示效果,有的负责存储数据,有的负责接受各种信号。简单来说,芯片就像是电子设备的「大脑」。

不仅仅是在手机上才有,芯片在我们的生活中无处不在,从笔记本电脑到耳机,从冰箱到灯泡,基本上任何需要通电的设备都有芯片。

但是你有没有想过,为什么电子设备在我们通电、或者电池有电的情况下才会工作,其他时间都是处于关闭状态的呢?

这是因为电子设备的核心部件——芯片——是由半导体材料制成的。

半导体材料,如硅,具有一个独特的性质——在没有外部电力供应时处于绝缘状态,而在外部电力供应存在时能够导电,即「半」导电。

这种在特定条件下导电的能力,允许电子设备通过控制电流的流动来执行复杂的计算和处理任务,从而实现其功能。

这个现象也解释了为什么生产芯片的行业被称为「半导体行业」。

半导体材料的存在直接决定了你能和在另一个国家的朋友保持联系,以及明天早上你能被闹钟叫醒。

有意思的是,最常用的半导体材料硅其实非常常见,家门口的沙子里就有——大部分沙子主要由二氧化硅(SiO2),也就是石英组成。通过从沙子(或其他含有二氧化硅的矿石)中提取和纯化二氧化硅,可以生产出硅了。

听上去那么陌生的半导体材料,其实在家门口就能找到!

芯片可以有多复杂?

半导体行业是世界上最复杂的行业之一,最根本的原因在于芯片体积之小但功能之复杂。

也许你心想,芯片的体积不算小啊,这不和我手掌一样大吗。但当你考虑到芯片上的电路的复杂性,你就不会这么觉得了。

为了理解芯片的复杂性,我们需要理解一个重要的概念——晶体管。

晶体管是一种半导体器件,利用电流或电压的变化来控制电流的流动,从而实现放大或开关功能。

想象一下你的房间里有一个灯,晶体管就像是控制灯开关的手指,可以决定灯何时亮起、何时熄灭。

通过这种方式,晶体管可以帮助设备完成复杂的计算和任务,因为电流的这种开和关可以代表计算机语言中的1和0,也就是信息的基本单位。

晶体管的英文单词是「Transistor」,这个英文单词来源于「transfer」(转移)和「resistor」(电阻器)的结合,因为在最初发明晶体管时,它被视为一种能够在电阻之间转移信号的装置。

现代芯片包含数十亿甚至更多的晶体管。这些晶体管的尺寸非常微小,有的只有几纳米宽,这意味着它们的大小只有几个原子的宽度。

前段时间苹果宣布将推出 3nm 制程芯片,这里的 3nm 制程其实和晶体管有所联系。

3nm 芯片中的「nm」(纳米),这实际上并不直接指晶体管的体积,而是指晶体管中关键部件的特征尺寸,比如晶体管的栅长(gate length)。想象晶体管是一条水管,而栅长则是控制水流开关的阀门的宽度。这个宽度越小,开关控制就可以更快,设备的工作速度也就更快,同时用的电也更少。

所以栅长是衡量半导体制造工艺先进程度的一个关键参数,它影响着晶体管的开关速度、功耗以及一个芯片上可以集成多少晶体管。

随着半导体技术的发展,这个尺寸越来越小,从而使得晶体管的开关速度更快,功耗更低,以及在同等面积的芯片上可以集成更多的晶体管,从而提高了芯片的性能和效率。

(晶体管示意图,G 指的是文中提到的栅 Gate。图源维基百科)

不过值得注意的是,「nm」标准随着时间的推移而变得越来越抽象,它更多地成为了制造工艺复杂度和集成度的一个标志,而不是直接反映任何单个物理维度的精确尺寸。在现代半导体工艺中,诸如 3nm 或 5nm 的命名更多是市场营销的一部分,而与具体的物理尺寸关系不再像以前那样直接。

世界上最复杂的芯片之一是用于高性能计算和人工智能应用的处理器。例如英伟达(NVIDIA)的 H100 Tensor Core GPU 具有超过 800 亿个晶体管,专用于 AI 计算和数据分析。这种类型的芯片在超级计算机、数据中心以及用于AI 训练和推理的服务器中非常常见(题外话,这款芯片是美国芯片出口禁令到中国名单中的一个)。

芯片的发展趋势

考虑到芯片的复杂性,芯片的体积已经非常小了,但芯片发展的一个重要趋势,就是更小,即微型化(miniaturization)。

讲到微型化,我们就不得不提摩尔定律(Moore‘s Law).

摩尔定律是 1965 年由英特尔共同创始人戈登·摩尔(Gordon Moore)提出的观察和预测。最初,他注意到集成电路上可容纳的晶体管数量每年大约翻一番,且成本相对恒定。这意味着计算能力每年大约增加两倍,而价格保持不变。后来,这个预测被调整为大约每两年翻一番。

简而言之,摩尔定律描述的是这样一个观察现象:芯片上的晶体管数量和处理能力大约每两年翻一番,同时成本相对固定。也就是说,随着技术的进步,我们能够在相同或更小的芯片面积上集成更多的晶体管,这直接提高了处理能力和效率,同时减少了能源消耗。更小的芯片尺寸也意味着可以在有限的空间内,如智能手机和其他便携设备中,实现更强大的功能。

(摩尔定律,图源维基百科) 

然而,近年来人们越来越多地讨论摩尔定律的失效,原因主要包括:

  1. 物理限制:随着晶体管尺寸接近原子尺度,宏观世界中的经典物理定律不一定再适用,量子效应开始显著,这使得进一步缩小晶体管的栅长变得极其困难。
  2. 经济因素:随着技术进步,制造更小尺寸晶体管的成本急剧上升,研发和制造更先进的芯片需要巨大的资本投入。
  3. 创新和替代技术:为了继续提高计算能力,行业开始探索替代方案,比如使用新的材料、发展量子计算和使用更高效的算法和架构(如专用集成电路 ASIC 和可编程逻辑阵列 FPGA)。这些创新提供了提高性能的新途径,但不一定遵循摩尔定律的传统路径。
  4. 能源效率和可持续性问题:随着晶体管数量的增加,能源消耗和散热问题变得更加严峻。寻找能源效率更高的解决方案成为了研究和开发的重点,而这些解决方案可能不直接反映在晶体管数量的增加上。

摩尔定律的这些挑战并不意味着计算能力的增长会停止,而是表明增长可能会采取不同的形式或速度,依靠新的技术和方法继续推进。

但无论摩尔定律是否失效,目前微型化的趋势是毫无疑问的。这就对芯片的生产过程提出了很高的要求。

芯片生产过程

芯片生产过程分为四个环节:1. 设计, 2. 制造,3. 组装、测试与封装,4. 电子产品生产。

这四个环节每个都可以展开讲上几天几夜,我们主要讲讲每一个环节的目的以及主要的公司。

芯片设计

芯片的起点是芯片的设计。

芯片在我们的生活中无处不在,每个场景下的芯片设计自然都是不同的。笔记本电脑里的芯片和数据中心的芯片是不同的,苹果手表里的芯片和 iPad 里的芯片是不同的。

这些差异包括但不限于:尺寸、架构、使用的技术和材料等等。

和其他产品设计类似,芯片的设计也需要考虑外部的因素,诸如客户的需求、何时上市、在哪生产、测试和封装等等。这些问题和需求在设计阶段都需要考虑到。

当这些问题有答案之后,工程师们就可以开始真正着手芯片的逻辑设计了。逻辑设计是指芯片上晶体管及其连接方式,需要注意的是,通常芯片是多层架构,所以不同层级之间的连接方式也需要考虑。

这些设计最终会被反映到一个叫做光掩模(photomask)的物体上。这些光掩模就像画画用的模板一样,通过后期紫外线光的照射,光掩模上的设计会被投射到目标上,从而实现批量「画画」。

芯片的每一层都需要不同的光掩模,但光掩模可以被反复利用,所以增加光掩模这一环节还是很划算的。

像我们熟悉的英伟达、ARM、高通之类公司都设计这一环节,因为这些公司设计芯片、但不生产或不拥有生产芯片的工厂。

而诸如英特尔之类的 IDM (集成设备制造商)则会生成自己的设计芯片。

在整个半导体行业的产业链中,最著名的公司基本上都在这一环节,因为芯片的设计非常复杂,壁垒也最高。

而第二重要的环节,就是下一个环节——芯片制造了。

芯片制造

芯片的制造其实可以分为两个两个小环节,一个是光掩模的制造,另一个是晶圆的制造。

如上文提到,作为芯片制造的模板,光掩模在生产过程中非常重要,主要生产商有奥地利公司 IMS 以及日本公司 NuFlare。

(光掩模,图源维基百科) 

光掩模生产好后,就轮到大名鼎鼎的光刻机出场了。顾名思义,光刻机使用光(紫外线)照射到光掩模上,把芯片设计投射(「刻」)到晶圆上。

晶圆就是由硅制造而成的一块薄膜,是制作芯片的基础材料。根据投射技术的不同,所使用的光掩模也不同。DUV (深紫外光刻)使用的是透明的光掩模,EUV(极紫外光刻)使用的是发射的光掩模。这也是为什么这副著名的 ASML 的图片中,光线是被反射而不是直接被穿透的:

(ASML 极紫外光刻内部光线示意图,图源 ASML 公司网站) 

制造环节的公司就多了,我们很熟悉的 TSMC (台积电)就是世界最大的芯片制造商之一。 

(晶圆细节图) 

测试、组装与封装

在切割前,仍在晶圆上的芯片需要经过测试才可进入下一步。测试的目的在于检查功能并确保芯片满足设计要求。 

通过测试的芯片将进入下一阶段,而那些未通过测试的芯片将被丢弃或标记为重新评估。

测试后,晶圆将被切割成单独的芯片,然后将每个芯片附着到封装基板上。

封装基板的功能主要在于支撑芯片,并为其提供与外部设备通信的连接点。这种设置提供了稳定的基础,并确保芯片可以轻松地连接到其他电子元件。

一旦芯片被牢固地组装在其封装中,它就会被封装在一个保护壳中。 该外壳可保护敏感电子设备免受物理损坏、静电、潮湿和其他环境风险的影响。 

最后一步是再次测试封装的芯片,以确保它们在组装过程后仍能正常工作。

这一环节的公司就比较少为人知了,主要是因为相对技术没那么先进。许多集成设备制造商都会在自己的工厂里完成这一环节。

(封装好的芯片) 

电子产品生产

经过测试、组装和封装后,芯片将转移到消费电子制造环节,并在装配线上集成到设备中。 

在这一环节,芯片与其他组件组合形成完整的电子系统,然后安装操作系统和基本应用程序等软件。

组装好的设备经过测试之后,就会被包装,分发给零售商,并在市场上推出,供消费者购买和使用。

(集成到设备母板上各种各样的芯片) 

这一环节涉及到的公司为大众所熟知,主要是因为离我们近,例如苹果、戴尔、惠普等等。

芯片的生产环节多,机器昂贵,上下游依赖性强。同时由于对精确性有很高的要求,生产环境也有许多特殊的标准。

因此,只有很少数的公司有资本能够覆盖整个链条,最接近于这一标准的有英特尔、三星等集成设备制造商,但即使如此,这些公司还是需要依赖于别的公司提供生产的机器或者原材料。

结语

回望 1954 年,世界上第一台晶体管收音机 TR-1 有 4 个晶体管;今天,一个 CPU 上的晶体管可以达到近百亿个。

但半导体行业的故事到这里并没有结束,因为科技的发展总会对芯片提出更多的要求:更小、更快、消耗更少、功能更复杂。

更不论 Gen AI 时代的到来,进一步加速了芯片的发展,乃至改变了芯片发展的方向。

毫无疑问,这个行业会越来越复杂,这篇文章里谈到的只是冰山一角。

 

拓展阅读:

https://ig.ft.com/microchips/