分类：技术文章

如何根据PCIE总线编号定位出错设备

通过ipmitool排查机器故障原因时，往往会提示出错的PCIE总线编号，这时候我们就需要根据这串编号找出对应的出错设备

 Critical Interrupt PCIE Fatal Err | Bus Fatal Error ( PCI bus:08 device:00 function:0) | Asserted
 Critical Interrupt PCIE Fatal Err | Bus Fatal Error ( PCI bus:00 device:1c function:7) | Asserted

在PCI或者说PCIe里，每个设备有三个编号：总线编号(Bus Number)、设备编号（Device Number）和功能编号（Function Number），那么对应上面的00:1c.7来说：这个设备的BusNumber是00，DeviceNumber是1c，FunctionNumber是7，需要说明的是这三个都是16进制表示，有些配置里需要填十进制数的，需要做下转换。

明白了前面的编号之后，还有一个疑问，就是要怎么才能知道00:1c.7这个编号对应哪个设备。

lspci这个工具就该出场了，用来查看当前系统连接的所有PCI/PCIe设备

一、确定出错设备

# lspci -nn | grep "00:1c.7"
00:1c.7 PCI bridge [0604]: Intel Corporation C600/X79 series chipset PCI Express Root Port 8 [8086:1d1e] (rev b5)

其中前面的[0604]表示了当前设备的DeviceClass，也就是设备类型，而后面的[8086:1d1e]代表的就是设备的VendorID和DeviceID，lspci命令会默认尝试读取/usr/share/hwdata/pci.ids.gz和/usr/share/hwdata/pci.ids文件，利用DeviceClass、VendorID:DeviceID去匹配相应的设备

二、获取出错总线的具体信息

# lspci -s 00:1c.7 -v                                                                                                                                                                          
00:1c.7 PCI bridge: Intel Corporation C600/X79 series chipset PCI Express Root Port 8 (rev b5) (prog-if 00 [Normal decode])
        Flags: bus master, fast devsel, latency 0
        Bus: primary=00, secondary=08, subordinate=0c, sec-latency=0
        Memory behind bridge: de000000-df7fffff
        Prefetchable memory behind bridge: 00000000d8000000-00000000d8ffffff
        Capabilities: [40] Express Root Port (Slot-), MSI 00
        Capabilities: [80] MSI: Enable+ Count=1/1 Maskable- 64bit-
        Capabilities: [90] Subsystem: Dell Device 04ce
        Capabilities: [a0] Power Management version 2
        Capabilities: [100] Advanced Error Reporting
        Kernel driver in use: pcieport
        Kernel modules: shpchp

三、跟踪端口

 \-[0000:00]-+-00.0
             +-01.0-[02]--+-00.0
             |            \-00.1
             +-01.1-[01]--+-00.0
             |            \-00.1
             +-02.0-[04]--
             +-02.2-[03]----00.0
             +-03.0-[05]--
             +-05.0
             +-05.2
             +-11.0-[06]--
             +-16.0
             +-16.1
             +-1a.0
             +-1c.0-[07]--
             +-1c.7-[08-0c]----00.0-[09-0c]--+-00.0-[0a-0b]----00.0-[0b]----00.0
             |                               \-01.0-[0c]--

四、输出机器可读信息

可以得到设备厂商，设备驱动

# lspci -vmm | grep -C 6 00:1c.7
Slot:   00:1c.7
Class:  PCI bridge
Vendor: Intel Corporation
Device: C600/X79 series chipset PCI Express Root Port 8
Rev:    b5

2025年9月18日

Linux下使用tunasync搭建内网镜像站
内网镜像站对于很多企业限制外网访问来说是非常必要的，极大方便了研发安装各种软件依赖。搭建镜像站的方式很多，这边选用清华大学开源软件镜像站开发的镜像管理器tunasync来搭建。

一、环境准备

对于镜像站，需求最大的就是磁盘。这根据需要同步的源来决定磁盘大小，CentOS最少需要500G；Ubuntu需要1.5T；pypi的不建议同步需要磁盘空间太大

二、系统安装

tunasync 项目提供预编译版程序，可以直接从 Github releases 下载使用预编译版本。

三、同步配置

tunasync主要有manager.conf和worker.conf两个配置文件来控制

manager.conf配置
```
debug = false
[server]
addr = "127.0.0.1"
port = 14242
ssl_cert = ""
ssl_key = ""

[files]
db_type = "bolt"
db_file = "/usr/local/tunasync/db/manager.db"
ca_cert = ""
```
port：监听端口

db_file：数据库文件路径

worker 配置

这边以CentOS为例，如果有其他的源需要同步，则在worker配置文件里添加一个mirrors模块
```
[global]
name = "mirror_worker"
log_dir = "/usr/local/tunasync/log/{{.Name}}"
##镜像下载地址
mirror_dir = "/cache1/mirror"
##并发线程数
concurrent = 10
##同步周期，分钟
interval = 10080

[manager]
##manager地址
api_base = "http://localhost:14242"
token = "some_token"
ca_cert = ""

[cgroup]
enable = false
base_path = "/sys/fs/cgroup"
group = "tunasync"

[server]
hostname = "localhost"
listen_addr = "127.0.0.1"
##worker监听端口
listen_port = 16010
ssl_cert = ""
ssl_key = ""

[[mirrors]]
##镜像名称
name = "centos"
provider = "rsync"
##同步地址，最后的"/"不能少
upstream = "rsync://rsync.mirrors.ustc.edu.cn/repo/centos/"
interval = 240
use_ipv6 = false
```
清华大学开源软件镜像站提供了很多自定义镜像脚本，可以参考 Github releases

四、服务启动

启动 tunasync 需开启 manager 进程与 worker 进程，先启动 manager，后启动 worker。为了便于监控系统进程情况，建立 /usr/local/tunasync/log/ 目录，所有进程的工作日志在该目录中（注意，此处日志为系统终端输出日志，与 tunasync 自身工作日志不同）

开启manager服务（后台进程）：
```
$ tunasync manager --config /usr/local/tunasync/conf/manager.conf >>/usr/local/tunasync/log/manager.log
```
开启 worker 服务：
```
$ tunasync worker --config /usr/local/tunasync/conf/worke.conf
```
五、运行维护

参考Github。有删除、热重载、更新镜像大小

六、WEB前端

服务搭好后，前端可以使用Nginx来部署，这边就不重复说明了。WEB界面找了一个Github访的网易镜像站的WEB界面，个人觉得还不错。直达链接
2025年9月18日

一看就会的kubernetes 1.20.1集群搭建

最近自己琢磨了下K8S集群环境的搭建，环境搭建很简单，这边整理了v1.20.1版本的搭建步骤

一、安装前准备

1、有条件的话直接上腾讯、阿里公有云买3台云主机，最小配置2C2G20G就好

2、没条件的话，就在自己电脑上用Vmware开3台虚拟机，配置一样2C2G20G

3、操作系统CentOS 7.x，本文使用的是7.6版本做演示

二、环境初始化

分别在3台机器上面执行

#根据规划设置主机名
hostnamectl set-hostname master
hostnamectl set-hostname node1
hostnamectl set-hostname node2

#添加hosts
cat >> /etc/hosts << EOF
192.168.153.129 master
192.168.153.130 node1
192.168.153.131 node2
EOF

#关闭防火墙
systemctl stop firewalld && systemctl disable firewalld

#关闭selinux
sed -i 's/enforcing/disabled/' /etc/selinux/config && setenforce 0

#关闭swap
swapoff -a && sed -ri 's/.*swap.*/#&/' /etc/fstab

#时间同步
yum install ntpdate -y && ntpdate ntp2.aliyun.com

#配置内核参数，将桥接的IPv4流量传递到iptables的链
cat > /etc/sysctl.d/k8s.conf <<EOF
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
EOF
sysctl --system

三、安装Docker

分别在3台机器上面执行

# 1: 安装必要的一些系统工具
sudo yum install -y yum-utils device-mapper-persistent-data lvm2
# 2: 添加软件源信息
sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
# 3: 更新并安装Docker-CE
sudo yum makecache fast
sudo yum -y install docker-ce
# 4: 开启Docker服务
sudo systemctl start docker && systemctl enable docker

# 可以通过修改daemon配置文件/etc/docker/daemon.json来使用加速器
sudo mkdir -p /etc/docker
sudo tee /etc/docker/daemon.json <<-'EOF'
{
  "registry-mirrors": ["https://s2q9fn53.mirror.aliyuncs.com"]
}
EOF
sudo systemctl daemon-reload && sudo systemctl restart docker

四、安装kubelet、kubeadm、kubectl

分别在3台机器上面执行

#添加kubernetes阿里YUM源
cat <<EOF > /etc/yum.repos.d/kubernetes.repo
[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
EOF
# 可以用下面的命令查看可以安装的版本
yum list kubeadm --showduplicates | sort -r

#安装
yum install -y kubelet-1.20.1-0 kubeadm-1.20.1-0 kubectl-1.20.1-0 --disableexcludes=kubernetes

# 启动开机启动kubelet
systemctl start kubelet
systemctl enable kubelet

五、部署Kubernetes Master

只在master上面执行

# 创建集群
kubeadm init --kubernetes-version=v1.20.1 --apiserver-advertise-address=192.168.153.129  --image-repository  registry.aliyuncs.com/google_containers --service-cidr=10.10.0.0/16 --pod-network-cidr=10.122.0.0/16

参数说明：
kubernetes-version：要安装的版本
pod-network-cidr：负载容器的子网网段
service-cidr：svc网段
image-repository：指定镜像仓库
apiserver-advertise-address：节点绑定的服务器ip(写master节点IP)
#提示initialized successfully！表示初始化成功

# 接着根据提示拷贝admin.config的内容到当前用户的$HOME/.kube/config中并授权
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

#执行完后可以运行查看node节点情况，这时候可以看到master节点是noready状态，原因是没有部署网络插件
kubectl get nodes

六、部署网络插件

常用的网络插件有flannel和calico，这里选择flannel

# 创建目录
mkdir -p /opt/yaml
# 编辑kube-flannel.yaml
获取部署flannel的yaml文件（https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml）到/opt/yaml目录中，（链接需要翻墙才能访问，这边贴下获取到的内容）
vim /opt/yaml/kube-flannel.yaml

---
apiVersion: policy/v1beta1
kind: PodSecurityPolicy
metadata:
  name: psp.flannel.unprivileged
  annotations:
    seccomp.security.alpha.kubernetes.io/allowedProfileNames: docker/default
    seccomp.security.alpha.kubernetes.io/defaultProfileName: docker/default
    apparmor.security.beta.kubernetes.io/allowedProfileNames: runtime/default
    apparmor.security.beta.kubernetes.io/defaultProfileName: runtime/default
spec:
  privileged: false
  volumes:
  - configMap
  - secret
  - emptyDir
  - hostPath
  allowedHostPaths:
  - pathPrefix: "/etc/cni/net.d"
  - pathPrefix: "/etc/kube-flannel"
  - pathPrefix: "/run/flannel"
  readOnlyRootFilesystem: false
  # Users and groups
  runAsUser:
    rule: RunAsAny
  supplementalGroups:
    rule: RunAsAny
  fsGroup:
    rule: RunAsAny
  # Privilege Escalation
  allowPrivilegeEscalation: false
  defaultAllowPrivilegeEscalation: false
  # Capabilities
  allowedCapabilities: ['NET_ADMIN', 'NET_RAW']
  defaultAddCapabilities: []
  requiredDropCapabilities: []
  # Host namespaces
  hostPID: false
  hostIPC: false
  hostNetwork: true
  hostPorts:
  - min: 0
    max: 65535
  # SELinux
  seLinux:
    # SELinux is unused in CaaSP
    rule: 'RunAsAny'
---
kind: ClusterRole
apiVersion: rbac.authorization.k8s.io/v1
metadata:
  name: flannel
rules:
- apiGroups: ['extensions']
  resources: ['podsecuritypolicies']
  verbs: ['use']
  resourceNames: ['psp.flannel.unprivileged']
- apiGroups:
  - ""
  resources:
  - pods
  verbs:
  - get
- apiGroups:
  - ""
  resources:
  - nodes
  verbs:
  - list
  - watch
- apiGroups:
  - ""
  resources:
  - nodes/status
  verbs:
  - patch
---
kind: ClusterRoleBinding
apiVersion: rbac.authorization.k8s.io/v1
metadata:
  name: flannel
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: flannel
subjects:
- kind: ServiceAccount
  name: flannel
  namespace: kube-system
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: flannel
  namespace: kube-system
---
kind: ConfigMap
apiVersion: v1
metadata:
  name: kube-flannel-cfg
  namespace: kube-system
  labels:
    tier: node
    app: flannel
data:
  cni-conf.json: |
    {
      "name": "cbr0",
      "cniVersion": "0.3.1",
      "plugins": [
        {
          "type": "flannel",
          "delegate": {
            "hairpinMode": true,
            "isDefaultGateway": true
          }
        },
        {
          "type": "portmap",
          "capabilities": {
            "portMappings": true
          }
        }
      ]
    }
  net-conf.json: |
    {
      "Network": "10.244.0.0/16",
      "Backend": {
        "Type": "vxlan"
      }
    }
---
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: kube-flannel-ds
  namespace: kube-system
  labels:
    tier: node
    app: flannel
spec:
  selector:
    matchLabels:
      app: flannel
  template:
    metadata:
      labels:
        tier: node
        app: flannel
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: kubernetes.io/os
                operator: In
                values:
                - linux
      hostNetwork: true
      priorityClassName: system-node-critical
      tolerations:
      - operator: Exists
        effect: NoSchedule
      serviceAccountName: flannel
      initContainers:
      - name: install-cni
        image: quay.io/coreos/flannel:v0.14.0
        command:
        - cp
        args:
        - -f
        - /etc/kube-flannel/cni-conf.json
        - /etc/cni/net.d/10-flannel.conflist
        volumeMounts:
        - name: cni
          mountPath: /etc/cni/net.d
        - name: flannel-cfg
          mountPath: /etc/kube-flannel/
      containers:
      - name: kube-flannel
        image: quay.io/coreos/flannel:v0.14.0
        command:
        - /opt/bin/flanneld
        args:
        - --ip-masq
        - --kube-subnet-mgr
        resources:
          requests:
            cpu: "100m"
            memory: "50Mi"
          limits:
            cpu: "100m"
            memory: "50Mi"
        securityContext:
          privileged: false
          capabilities:
            add: ["NET_ADMIN", "NET_RAW"]
        env:
        - name: POD_NAME
          valueFrom:
            fieldRef:
              fieldPath: metadata.name
        - name: POD_NAMESPACE
          valueFrom:
            fieldRef:
              fieldPath: metadata.namespace
        volumeMounts:
        - name: run
          mountPath: /run/flannel
        - name: flannel-cfg
          mountPath: /etc/kube-flannel/
      volumes:
      - name: run
        hostPath:
          path: /run/flannel
      - name: cni
        hostPath:
          path: /etc/cni/net.d
      - name: flannel-cfg
        configMap:
          name: kube-flannel-cfg

# 将quay.io换成quay.mirrors.ustc.edu.cn（中科大）的镜像
sed -i 's#quay.io/coreos/flannel#quay.mirrors.ustc.edu.cn/coreos/flannel#' /opt/yaml/kube-flannel.yaml

# 部署flannel
kubectl apply -f /opt/yaml/kube-flannel.yaml
#等个几分钟，再看master上节点状态就是ready了

七、扩容node节点进集群

在两台node上面执行添加命令

#命令在第五步，创建集群成功后会显示在界面上
kubeadm join 192.168.153.129:6443 --token 7spol7.nxxabat5ljyws8xo --discovery-token-ca-cert-hash sha256:4f31b94b2beda59334b5da507673752605ab49fde6ef87487c81b314a39b466f

#如果忘记token，可以在master节点重新生成，token有效期24小时
kubeadm token create --print-join-command

#在master节点上运行查看node节点命令，就可以看到3台node节点了

八、检查集群状态

# 查看node状态都是ready
kubectl get nodes

# 看出pod状态都是running
kubectl get pod  --all-namespaces

#查看集群状态都是Healthy ok
kubectl get cs
如果出现unhealthy，分别修改下面两个文件，注释 - --port=0，然后重启kubelet
vim /etc/kubernetes/manifests/kube-controller-manager.yaml
vim /etc/kubernetes/manifests/kube-scheduler.yaml
systemctl restart kubelet.service

2025年9月18日

如何快速删除K8S集群

上文分享了如何快速搭建K8S集群《一看就会的kubernetes 1.20.1集群搭建》，但是当你在搭建环境时出错了想重新部署，该如果快速清理已搭建的环境呢

一、清空K8S集群设置

#在卸载K8s组件前，先执行kubeadm reset命令，清空K8s集群设置
kubeadm reset

二、卸载管理组件

#把之前通过yum安装的管理组件卸载
yum erase -y kubelet kubectl kubeadm kubernetes-cni

三、删除基础组件镜像

#基础组件通过Docker镜像部署，因此只需要强制删除对应镜像即可卸载
docker rmi -f k8s.gcr.io/kube-apiserver:v1.20.1
 
docker rmi -f k8s.gcr.io/kube-controller-manager:v1.20.1
 
docker rmi -f k8s.gcr.io/kube-scheduler:v1.20.1
 
docker rmi -f k8s.gcr.io/kube-proxy:v1.20.1
 
docker rmi -f k8s.gcr.io/pause:3.2
 
docker rmi -f k8s.gcr.io/etcd:3.4.13
 
docker rmi -f k8s.gcr.io/coredns:1.8.1

2025年9月18日

“五分钟学命令系列”之三十五《kubectl命令》
kubectl是一个基础的K8S集群管理命令，可以实现对K8S资源的查询，创建，删除，更新，回退等各种各样的操作。由于其复杂的功能体系，命令灵活度又高，因此需要进行常见的一些命令和使用场景的梳理。

0x00 语法组成
```
$ kubectl [command]  [TYPE]  [NAME] [flags]
```
command：子命令，用于操作k8s集群资源对象的命令

常见的有：get、create、delete、describe、apply、explain、edit、run、set

TYPE：资源对象的类型，区分大小写，能以单数形式，复数形式或者简写形式表示

下面三组的命令是一样的
```
$ kubectl get pod pod1
$ kubectl get pods pod1
$ kubectl get po pod1
```
NAME：资源对象的名称，区分大小写。如果不指定名称，则系统将返回属于TYPE的全部对象的列表
```
$ kubectl get pods

将返回默认namespaces下所有的pod列表
```
flags：kubectl 子命令的可选参数

0x01 使用实例

1、列出可用资源
```
列出所有的pod  ：kubectl get pods 
列出所有的job :  kubectl get job 
全面显示pod信息：kubectl get pods -o wide
```
2、显示有关资源的详细信息
```
$ kubectl describe pod nvjob-lnrxj -n default
-n default 是指定namespace为default里的pod，是语法中的flag
```
3、在Pod中的容器执行命令
```
$ kubectl exec <pod_name>  -n <namespace> date
查看容器时间
```
4、删除pod命令
```
批量删除namespace 是calib中状态为Error的所有pod：
$ kubectl get pods -n calib | grep Error | awk '{print $1}' | xargs kubectl delete pod -n calib
```
5、从容器中打印日志
```
从namespace是calib中的job名称为calijob打印日志
$ kubectl logs calijob  -n calib
```
2025年9月18日
使用阿里云免费SSL开启全站HTTPS

折腾了几天，终于全站支持HTTPS了。这边记录下这次切换HTTPS的步骤

0x00 申请证书

开启HTTPS第一步就是给域名申请个SSL证书，对于小博客来说，免费的SSL证书足够用了。目前BAT都有提供了免费的SSL证书申请，因为我博客用的都是阿里云的资源，所以选择了阿里云免费证书，一键下放部署。如果喜欢自己折腾的话可以选择Let’s Encrypt的解决方案，缺点是每90天就得更新下证书。

0x01 Nginx配置

把申请到的SSL证书下载到服务器上，有两个文件key和pem。

具体配置方法参考文章：《全站开启HTTPS之Nginx配置》

0x02 链接替换

上面两步完成后，网站已经支持HTTPS了。接下去就是要把网页中所有的HTTP替换成HTTPS，不然你的图片，js， css等非HTTPS的连接都会导致浏览器抱怨不安全而被阻止掉。

对于使用wordpress的博客系统来说，完成下面两点就基本上可以了

a、 wordpress的常规设置中的 “WordPress 地址” 和 “站点地址” 需要变更为HTTPS 的方式。

b、文章内的图片等资源的链接需要变更为HTTPS的方式，网上有很多修改数据库替换的文章，喜欢折腾可以去试试。这边推荐使用插件Search Regex替换，简单方便。

至此，你已经可以通HTTPS访问你的网站了。

对于百度分享不支持HTTPS的情况，有两种办法：

a、直接取消百度分享，对于小博客这个分享意义也不是很大

b、把百度分享的JS文件上传到支持HTTPS的空间去，如七牛CDN，阿里云OSS。具体操作可以参考yaozhen`s的博客

2025年9月18日

分类： 技术文章

如何根据PCIE总线编号定位出错设备

Linux下使用tunasync搭建内网镜像站

一看就会的kubernetes 1.20.1集群搭建

如何快速删除K8S集群

“五分钟学命令系列”之三十五《kubectl命令》

使用阿里云免费SSL开启全站HTTPS

分类：技术文章