备忘:Proxmox Virtual Environment(PVE)7.x安装方法、基础使用和配置与常见问题
写在前面
PVE的配置是个很枯燥无味的事情,也时常会出现各种奇奇怪怪的问题,很多时候一个相同的错误会犯好几次,为了尽可能的在提高效率的同时减少错误率,还是写一篇文章备忘吧。同时此文章或许也可以帮助到搜到此博客的有缘人,降低使用门槛。
很惭愧,只为社区做了一点微小的贡献。
此文章假设本机IP为192.168.1.101,子网掩码为255.255.255.0(CIDR /24),网关为192.168.1.1,以此假设为基础进行撰写,需要以root身份执行所有命令。
安装方法
此处仅列出基于Debian 11的安装方法,原系统只安装了“标准系统实用程序”和“SSH 服务器”且无桌面环境。其他版本或直接使用ISO安装可查看PVE wiki。下方列出的安装方法参考了Install Proxmox VE on Debian 11 Bullseye,是此页面的汉化版本,并进行了修改,更加人性化且适合中文母语者阅读,此处列出的每一步都是不可忽略的。
- 安装接下来可能需要的包。
apt install -y vim wget
- 为本机修改hostname。
echo hostname > /etc/hostname
- 为本机IP地址添加“/etc/hosts”条目(此处可能涉及到的vim快捷键:a(或i) -- 进入编辑模式 \ Esc -- 退出编辑模式 \ dd -- 删除光标所在行 \ u -- 撤销 \ ^r -- 回退(反撤销) \ :wq -- 保存并退出)。
vim /etc/hosts #如果主机名为hostname,本机IP为192.168.1.101,那么需要添加(修改)的内容如下所示: 127.0.0.1 localhost 192.168.1.101 hostname hostname #以下行适用于支持IPv6的主机: ::1 localhost ip6-localhost ip6-loopback ff02::1 ip6-allnodes ff02::2 ip6-allrouters
注意:这也意味着删除默认存在的地址127.0.1.1。
- 重启。
reboot
- 使用“hostname”命令验证2、3步操作是否正确。
hostname --ip-address #此命令的输出应为本机IP地址,例如: 192.168.1.101
- 在“sources.list”中添加PVE存储库。
echo "deb [arch=amd64] http://download.proxmox.com/debian/pve bullseye pve-no-subscription" > /etc/apt/sources.list.d/pve-install-repo.list
- 将PVE存储库密钥添加到可信密钥。
wget https://enterprise.proxmox.com/debian/proxmox-release-bullseye.gpg -O /etc/apt/trusted.gpg.d/proxmox-release-bullseye.gpg
- 验证GPG密钥。
sha512sum /etc/apt/trusted.gpg.d/proxmox-release-bullseye.gpg #输出内容应与下列字符串完全相同: 7fb03ec8a1675723d2853b84aa4fdb49a46a3bb72b9951361488bfd19b29aab0a789a4f8c7406e71a69aabbc727c936d3549731c4659ffa1a08f44db8fdcebfa /etc/apt/trusted.gpg.d/proxmox-release-bullseye.gpg
- 更新存储库和系统。
apt update && apt full-upgrade
- 安装PVE软件包。如果配置较低,这可能需要相当长的时间。
apt install proxmox-ve postfix open-iscsi
如果网络中有邮件服务器,应该将postfix配置为“satellite system”。然后,现有的邮件服务器将成为relay host,它会将PVE发送的电子邮件路由到其最终收件人。如果不知道在此处输入什么,应选择“local only”并保持system name不变。安装过程中如出现提示“Configuring grub-pc”,选择“keep the local version currently installed”即可。
- 重启。
reboot
- 删除Debian内核。
apt remove linux-image-amd64 'linux-image-5.10*'
- 更新grub2。
update-grub
- 使用web界面(https://你的IP地址:8006/)管理PVE,必须使用https访问,选择PAM身份验证并使用root帐户凭据登录。
- 登录后,创建一个名为vmbr0的Linux网桥,将第一个网络接口的配置添加到其中并清空原接口内的配置,点击应用配置,如图所示。
- 重启。
reboot
基础使用和配置
创建虚拟机
Debian 11
咕咕咕。
Kali 2022.1
咕咕咕咕。
Windows Server 2019
咕咕咕咕咕。
Windows Server 2022
咕咕咕咕咕咕。
创建CT(LXC容器)
咕咕咕咕咕咕咕。
网络配置
IPv4 NAT
IPv4 NAT主要用于只有一个IP的服务器,IP数量大于1可以不进行设置,但需注意可以连接网络的虚拟机数量不能大于等于IP数量。
- 开启IPv4转发。
vim /etc/sysctl.conf #需要添加以下内容: net.ipv4.ip_forward = 1 net.ipv4.conf.all.forwarding = 1 #以下IPv6相关内容可不添加: net.ipv6.conf.all.forwarding = 1 net.ipv6.conf.all.accept_ra=2 net.ipv6.conf.all.proxy_ndp = 1 net.ipv6.conf.all.autoconf=1
- 配置IPv4 NAT。添加内网网卡,将所有内网出流量转发到公网网卡(vmbr0),内网IP地址和掩码等信息可以自行修改。
vim /etc/network/interfaces auto vmbr1 iface vmbr1 inet static address 10.0.0.254 netmask 255.255.255.0 bridge-ports none bridge-stp off bridge-fd 0
iptables -t nat -A POSTROUTING -s 10.0.0.0/24 -o vmbr0 -j MASQUERADE
- (推荐)为单IP配置端口转发(Port forwarding)。此处以内网设备10.0.0.1为例,将公网所有发送至80和443端口的TCP、UDP流量转发到到内网IP10.0.0.1的相同端口上。
iptables -t nat -A PREROUTING -i vmbr0 -d 192.168.1.101/24 -p tcp -m multiport --dports 80,443 -j DNAT --to 10.0.0.1 iptables -t nat -A PREROUTING -i vmbr0 -d 192.168.1.101/24 -p udp -m multiport --dports 80,443 -j DNAT --to 10.0.0.1
- (推荐)如果执行了第3步,还需配置端口回流(Hairpin NAT),即解决内网设备无法通过本机公网IP访问内网服务的问题。将所有来源为内网网段、目标为本机公网IP且发送至80和443端口的TCP、UDP流量直接发送到内网IP10.0.0.1的相同端口上。
iptables -t nat -A PREROUTING -s 10.0.0.0/24 -d 192.168.1.101 -p tcp -m multiport --dports 80,443 -j DNAT --to-destination 10.0.0.1 iptables -t nat -A PREROUTING -s 10.0.0.0/24 -d 192.168.1.101 -p udp -m multiport --dports 80,443 -j DNAT --to-destination 10.0.0.1
- 将来源和目标均为内网网段的流量直接发送给内网网关。
iptables -t nat -A POSTROUTING -s 10.0.0.0/24 -d 10.0.0.0/24 -j SNAT --to-source 10.0.0.254
- 让内核参数生效。
sysctl -p
- 使用“iptables-save”并搭配开机启动项将iptables nat表条目持久化。
iptables-save -t nat -c > /root/iptout-nat
vim /etc/init.d/iptnat #需要添加以下内容: #! /bin/bash ### BEGIN INIT INFO # Provides: iptnat # Required-Start: $all # Required-Stop: $local_fs $remote_fs $network $syslog # Default-Start: 2 3 4 5 # Default-Stop: 0 1 6 # Description: add some rules to iptables nat table # Short-Description: iptadd ### END INIT INFO nohup iptables-restore -w < /root/iptout-nat &
chmod 755 /etc/init.d/iptnat update-rc.d iptnat defaults 0 0
- 重启并验证配置是否生效。
reboot
- 后续设置虚拟机的网络设备时,需桥接到内网网卡(vmbr1)并按照内网网卡配置进行配置,同一内网IP地址不能同时使用。如果正确按照上述步骤操作后无法正常转发流量,请使用以下命令检查FORWARD链的默认策略是否为ACCEPT:
如果显示为DROP或其他,使用以下命令调整为ACCEPT。iptables -nvL FORWARD
iptables -P FORWARD ACCEPT
独立IPv4(非直通PCI)
咕咕咕。
DHCPv4
咕咕咕。
IPv6支持与SLAAC
咕咕咕。
常见问题
ipcc_send_rec[1] failed
错误描述
ipcc_send_rec[1] failed: Connection refused
解决方案
检查“/etc/hosts”是否按照教程正确配置。
节点或虚拟机状态为未知或离线
错误描述
web管理界面出现问题,所有节点和在其上运行的所有VM/容器都显示为“unknown”状态(或是“offline”状态)。
解决方案
systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatd
如果状态显示仍然异常,请尝试重启宿主机。
虚拟机无法关机和重启
错误描述
新创建的虚拟机在主控端向虚拟机发送关机/重启命令后,命令长时间显示执行中(状态一直为“running”),但虚拟机并没有执行关机/重启命令,最后报错:
TASK ERROR: VM quit/powerdown failed
解决方案
此问题共三种解决方案,根据适合自己的方案任选其一即可。
安装QEMU Guest Agent服务
- 如果在虚拟机选项中启用了QEMU Guest Agent,那么需要为虚拟机安装此管理软件才能解决此问题。此处以Debian为例,其他发行版应使用自己的依赖管理工具,例如Centos需使用“yum”。此外,Windows还需要安装“VirtIO”驱动。
apt install qemu-guest-agent -y
- 安装后启动服务。
systemctl start qemu-guest-agent
- 启动后验证服务是否正常启动。
状态为active(running)即为正常,或使用:systemctl status qemu-guest-agent
ps aux | grep qemu
能找到qemu-ga即为正常。
关闭QEMU Guest Agent选项
在虚拟机选项中禁用QEMU Guest Agent,禁用后将使用ACPI信号关闭虚拟机。
使用停止命令(强制关机)
不推荐此方法,因为可能损坏虚拟机文件系统造成数据丢失或其他更为严重的后果。
在web管理界面中的虚拟机关机按钮右侧下拉框中点击停止按钮。
或在shell中输入停止命令来停止虚拟机,此命令中的vmid是需要关闭的虚拟机的ID。
qm stop vmid
如果执行此命令后报错:
trying to acquire lock...
TASK ERROR: can't lock file '/var/lock/qemu-server/lock-vmid.conf' - got timeout
那么需要先删除报错中提及的锁,然后重新执行停止命令。
rm -f /var/lock/qemu-server/lock-vmid.conf
qm stop vmid
宿主机频繁崩溃(重启)
错误描述
宿主机经常在持续运行几小时到几天后崩溃(重启),“uptime”系统在线时间被刷新、“last reboot”显示有多个条目still running(案例:Debian - two entries in `last reboot` in `still running`)、“/var/log/syslog”和“/var/log/messages”均未显示任何异常,但在重启前可能存在很长一段时间日志记录中断。
解决方案
此问题没有明确的解决方案。在PVE中出现这种问题的通常原因是由于watchdog检测到IO太慢或卡死,认为系统出现异常才使服务器崩溃重启以尝试解决,需要尽快调查硬件方面是否存在问题,或是系统负载是否过高、硬件是否过于老旧并考虑进行硬件升级,尤其是需要监测RAID卡和硬盘是否存在问题。
可以临时使用以下命令停止watchdog以定位崩溃是否由watchdog造成和寻找相关问题原因:
systemctl stop watchdog-mux
注意:不应该因为此问题永久修改watchdog配置,这完全是掩耳盗铃。