当前位置：首页 > 问答 > 正文

OpenStack里双层VLAN的那些事儿，运维中怎么用才靠谱

水靖荷
问答
2026-01-14 18:43:43
2

说到OpenStack里的双层VLAN，这确实是个在特定网络环境下挺实用但又容易让人迷糊的技术，咱们就把它掰开揉碎了，用大白话聊聊它到底是怎么回事,以及在运维中怎么用它才算靠谱。

双层VLAN到底是个啥？

你可以把它想象成给网络数据包穿了两件“马甲”。（来源：基于通用VLAN封装原理的解释）

第一层马甲（外层VLAN）：这一层通常是由你的物理网络设备（比如机房的核心交换机、接入交换机）打上的标签，它的主要任务是解决一个很实际的问题：网络隔离和通道复用，你的OpenStack云平台可能托管在某个数据中心，数据中心给你分配了几个物理网口，但数据中心不可能为了你一个租户就拉成千上万根独立的物理网线，对吧？他们通常会在给你的那几根物理线路上，划分出几个大的VLAN通道，这个外层VLAN的标签，就是告诉数据中心的网络设备：“我这个包是走‘业务网A通道’的，还是走‘管理网B通道’的”，它负责把数据包从你的物理服务器，安全地送到另一个物理服务器,或者送到网关。
第二层马甲（内层VLAN）：这一层是由OpenStack自己的虚拟网络组件（主要是Neutron里的Open vSwitch或者Linux Bridge）打上的标签，这一层是给云平台内部的租户用的，OpenStack支持多租户，每个租户都可以创建自己私有的网络，为了让这些租户的网络彼此隔离，但又都能跑在底层那有限的几个物理网络通道上，就需要再打上一层标签，这个内层VLAN标签，只在你的OpenStack集群内部有效，用于区分这是“张三租户的虚拟网络10”还是“李四租户的虚拟网络20”。

一个数据包从虚拟机发出来，它的旅程是这样的：先被OpenStack打上内层VLAN标签（比如VLAN 100），当这个包要离开物理服务器的网卡时，又被物理交换机打上外层VLAN标签（比如VLAN 2000），这样，包就在一个“VLAN 2000”的大管道里传输，到了目的地服务器后，物理网卡先剥掉外层VLAN 2000的“马甲”，露出里面的VLAN 100，OpenStack再根据这个内层标签，把包送进正确的虚拟机。（来源：基于OpenStack官方文档中关于VLAN类型网络和供应商网络的概念综合）

这种“马甲套马甲”的方式，专业术语叫“QinQ”或“Stacked VLAN”，它完美地解决了云服务提供商（或大型企业IT部门）在多租户环境下，如何用有限的物理网络资源,支撑海量逻辑网络的需求。

运维中怎么用双层VLAN才靠谱？

光知道原理不行，关键是怎么把它用踏实了，别出乱子,以下是几个核心要点：

规划清晰，井水不犯河水：这是最重要的一步，你得和基础网络团队的同事坐下来，把VLAN ID的规划说清楚。
- 外层VLAN池：你需要从数据中心网络团队那里申请一段专门用于云平台虚拟机流量的外层VLAN ID范围，VLAN 2000到2100，这100个VLAN是给你的OpenStack集群独占的,这部分规划权在物理网络那边。
- 内层VLAN池：然后在OpenStack的Neutron里，你需要创建所谓的“供应商网络”（Provider Network），在定义这个网络时，要指定它使用的物理网络名称（比如physnet1），并分配一段内层VLAN ID范围，比如1到4094（理论上可以全用，但一般会预留一些）。关键点来了：内层VLAN ID和外层VLAN ID是两套独立的编号体系，它们可以重复，但为了避免混淆，最好也规划开。 比如内层用1-4000，外层用2000-2100。（来源：OpenStack官方文档中关于Provider Networks的配置指南）
物理网络配置要到位：光OpenStack这边配置好了没用，连接服务器的物理交换机端口必须配置成中继模式（Trunk Mode），并且要允许你申请到的那个外层VLAN范围（比如2000-2100）通过，端口要支持802.1q隧道（QinQ）功能，这个配置如果没做或者做错了，数据包连服务器的门都出不去,或者出去了回不来。
在OpenStack中正确创建网络：当你为一个租户创建网络时，如果是管理员操作，就会使用上面规划好的“供应商网络”，具体操作是，通过命令行或者管理员界面，创建一个类型为vlan的网络，并明确指定它绑定到哪个物理网络（physnet1），以及使用哪个具体的外层VLAN ID（比如--provider-segment 2001），这样，所有挂在这个网络下的虚拟机，它们的数据包在出物理网卡时，都会被封装上VLAN 2001这个外层标签，而内层标签，则由Neutron自动分配和管理,对租户是透明的。
监控和排障的心法：出了问题怎么查？思路要清晰，按照“从内到外”的顺序：
- 先查内层：登录到虚拟机所在的宿主机，用ovs-vsctl show（如果用的OVS）等命令，查看虚拟机的网卡是否正确地连接到了虚拟交换机上，以及端口的VLAN tag（内层）设置是否正确。
- 再查外层：在宿主机上，用tcpdump抓取物理网卡（比如eth0）的流量，这时候你应该能看到数据包上带着两个VLAN标签，第一个是内层（比如vlan 100），第二个才是外层（比如vlan 2001），如果这里看不到外层标签，说明OpenStack配置可能有问题；如果看到了外层标签但网络还是不通，那问题八成出在物理网络层面——是不是交换机trunk端口没放通VLAN 2001？是不是对端交换机没配置QinQ？
知其局限性：双层VLAN虽然好，但也不是万能的，它主要解决的是二层网络连通性问题，如果你的虚拟机需要直接和外界通信（比如拥有公网IP），通常还需要结合三层路由或者浮动IP等技术，VLAN ID总数上限是4096个，虽然双层VLAN极大地扩展了规模，但外层VLAN的数量仍然受这个限制,所以在设计大规模云平台时也需要考虑。