分类: 技术文章

  • 如何根据PCIE总线编号定位出错设备

    通过ipmitool排查机器故障原因时,往往会提示出错的PCIE总线编号,这时候我们就需要根据这串编号找出对应的出错设备

     Critical Interrupt PCIE Fatal Err | Bus Fatal Error ( PCI bus:08 device:00 function:0) | Asserted
     Critical Interrupt PCIE Fatal Err | Bus Fatal Error ( PCI bus:00 device:1c function:7) | Asserted

    在PCI或者说PCIe里,每个设备有三个编号:总线编号(Bus Number)、设备编号(Device Number)和功能编号(Function Number),那么对应上面的00:1c.7来说:这个设备的BusNumber是00,DeviceNumber是1c,FunctionNumber是7,需要说明的是这三个都是16进制表示,有些配置里需要填十进制数的,需要做下转换。

    明白了前面的编号之后,还有一个疑问,就是要怎么才能知道00:1c.7这个编号对应哪个设备。

    lspci这个工具就该出场了,用来查看当前系统连接的所有PCI/PCIe设备

    一、确定出错设备

    # lspci -nn | grep "00:1c.7"
    00:1c.7 PCI bridge [0604]: Intel Corporation C600/X79 series chipset PCI Express Root Port 8 [8086:1d1e] (rev b5)

    其中前面的[0604]表示了当前设备的DeviceClass,也就是设备类型,而后面的[8086:1d1e]代表的就是设备的VendorID和DeviceID,lspci命令会默认尝试读取/usr/share/hwdata/pci.ids.gz和/usr/share/hwdata/pci.ids文件,利用DeviceClass、VendorID:DeviceID去匹配相应的设备

    二、获取出错总线的具体信息

    # lspci -s 00:1c.7 -v                                                                                                                                                                          
    00:1c.7 PCI bridge: Intel Corporation C600/X79 series chipset PCI Express Root Port 8 (rev b5) (prog-if 00 [Normal decode])
            Flags: bus master, fast devsel, latency 0
            Bus: primary=00, secondary=08, subordinate=0c, sec-latency=0
            Memory behind bridge: de000000-df7fffff
            Prefetchable memory behind bridge: 00000000d8000000-00000000d8ffffff
            Capabilities: [40] Express Root Port (Slot-), MSI 00
            Capabilities: [80] MSI: Enable+ Count=1/1 Maskable- 64bit-
            Capabilities: [90] Subsystem: Dell Device 04ce
            Capabilities: [a0] Power Management version 2
            Capabilities: [100] Advanced Error Reporting
            Kernel driver in use: pcieport
            Kernel modules: shpchp

    三、跟踪端口

     \-[0000:00]-+-00.0
                 +-01.0-[02]--+-00.0
                 |            \-00.1
                 +-01.1-[01]--+-00.0
                 |            \-00.1
                 +-02.0-[04]--
                 +-02.2-[03]----00.0
                 +-03.0-[05]--
                 +-05.0
                 +-05.2
                 +-11.0-[06]--
                 +-16.0
                 +-16.1
                 +-1a.0
                 +-1c.0-[07]--
                 +-1c.7-[08-0c]----00.0-[09-0c]--+-00.0-[0a-0b]----00.0-[0b]----00.0
                 |                               \-01.0-[0c]--
    

    四、输出机器可读信息

    可以得到设备厂商,设备驱动

    # lspci -vmm | grep -C 6 00:1c.7
    Slot:   00:1c.7
    Class:  PCI bridge
    Vendor: Intel Corporation
    Device: C600/X79 series chipset PCI Express Root Port 8
    Rev:    b5
  • Linux下使用tunasync搭建内网镜像站

    内网镜像站对于很多企业限制外网访问来说是非常必要的,极大方便了研发安装各种软件依赖。搭建镜像站的方式很多,这边选用清华大学开源软件镜像站开发的镜像管理器tunasync来搭建。

    一、环境准备

    对于镜像站,需求最大的就是磁盘。这根据需要同步的源来决定磁盘大小,CentOS最少需要500G;Ubuntu需要1.5T;pypi的不建议同步需要磁盘空间太大

    二、系统安装

    tunasync 项目提供预编译版程序,可以直接从 Github releases 下载使用预编译版本。

    三、同步配置

    tunasync主要有manager.conf和worker.conf两个配置文件来控制

    manager.conf配置

    debug = false
    [server]
    addr = "127.0.0.1"
    port = 14242
    ssl_cert = ""
    ssl_key = ""
    
    [files]
    db_type = "bolt"
    db_file = "/usr/local/tunasync/db/manager.db"
    ca_cert = ""

    port:监听端口

    db_file:数据库文件路径

    worker 配置

    这边以CentOS为例,如果有其他的源需要同步,则在worker配置文件里添加一个mirrors模块

    [global]
    name = "mirror_worker"
    log_dir = "/usr/local/tunasync/log/{{.Name}}"
    ##镜像下载地址
    mirror_dir = "/cache1/mirror"
    ##并发线程数
    concurrent = 10
    ##同步周期,分钟
    interval = 10080
    
    [manager]
    ##manager地址
    api_base = "http://localhost:14242"
    token = "some_token"
    ca_cert = ""
    
    [cgroup]
    enable = false
    base_path = "/sys/fs/cgroup"
    group = "tunasync"
    
    [server]
    hostname = "localhost"
    listen_addr = "127.0.0.1"
    ##worker监听端口
    listen_port = 16010
    ssl_cert = ""
    ssl_key = ""
    
    [[mirrors]]
    ##镜像名称
    name = "centos"
    provider = "rsync"
    ##同步地址,最后的"/"不能少
    upstream = "rsync://rsync.mirrors.ustc.edu.cn/repo/centos/"
    interval = 240
    use_ipv6 = false

    清华大学开源软件镜像站提供了很多自定义镜像脚本,可以参考 Github releases 

    四、服务启动

    启动 tunasync 需开启 manager 进程与 worker 进程,先启动 manager,后启动 worker。为了便于监控系统进程情况,建立 /usr/local/tunasync/log/ 目录,所有进程的工作日志在该目录中(注意,此处日志为系统终端输出日志,与 tunasync 自身工作日志不同)

    开启manager服务(后台进程):

    $ tunasync manager --config /usr/local/tunasync/conf/manager.conf >>/usr/local/tunasync/log/manager.log

    开启 worker 服务:

    $ tunasync worker --config /usr/local/tunasync/conf/worke.conf

    五、运行维护

    参考Github。有删除、热重载、更新镜像大小

    六、WEB前端

    服务搭好后,前端可以使用Nginx来部署,这边就不重复说明了。WEB界面找了一个Github访的网易镜像站的WEB界面,个人觉得还不错。直达链接

  • 一看就会的kubernetes 1.20.1集群搭建

    最近自己琢磨了下K8S集群环境的搭建,环境搭建很简单,这边整理了v1.20.1版本的搭建步骤

    一、安装前准备

    1、有条件的话直接上腾讯、阿里公有云买3台云主机,最小配置2C2G20G就好

    2、没条件的话,就在自己电脑上用Vmware开3台虚拟机,配置一样2C2G20G

    3、操作系统CentOS 7.x,本文使用的是7.6版本做演示

    二、环境初始化

    分别在3台机器上面执行

    #根据规划设置主机名
    hostnamectl set-hostname master
    hostnamectl set-hostname node1
    hostnamectl set-hostname node2
    
    #添加hosts
    cat >> /etc/hosts << EOF
    192.168.153.129 master
    192.168.153.130 node1
    192.168.153.131 node2
    EOF
    
    #关闭防火墙
    systemctl stop firewalld && systemctl disable firewalld
    
    #关闭selinux
    sed -i 's/enforcing/disabled/' /etc/selinux/config && setenforce 0
    
    #关闭swap
    swapoff -a && sed -ri 's/.*swap.*/#&/' /etc/fstab
    
    #时间同步
    yum install ntpdate -y && ntpdate ntp2.aliyun.com
    
    #配置内核参数,将桥接的IPv4流量传递到iptables的链
    cat > /etc/sysctl.d/k8s.conf <<EOF
    net.bridge.bridge-nf-call-ip6tables = 1
    net.bridge.bridge-nf-call-iptables = 1
    EOF
    sysctl --system
    

    三、安装Docker

    分别在3台机器上面执行

    # 1: 安装必要的一些系统工具
    sudo yum install -y yum-utils device-mapper-persistent-data lvm2
    # 2: 添加软件源信息
    sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
    # 3: 更新并安装Docker-CE
    sudo yum makecache fast
    sudo yum -y install docker-ce
    # 4: 开启Docker服务
    sudo systemctl start docker && systemctl enable docker
    
    # 可以通过修改daemon配置文件/etc/docker/daemon.json来使用加速器
    sudo mkdir -p /etc/docker
    sudo tee /etc/docker/daemon.json <<-'EOF'
    {
      "registry-mirrors": ["https://s2q9fn53.mirror.aliyuncs.com"]
    }
    EOF
    sudo systemctl daemon-reload && sudo systemctl restart docker
    

    四、安装kubelet、kubeadm、kubectl

    分别在3台机器上面执行

    #添加kubernetes阿里YUM源
    cat <<EOF > /etc/yum.repos.d/kubernetes.repo
    [kubernetes]
    name=Kubernetes
    baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/
    enabled=1
    gpgcheck=1
    repo_gpgcheck=1
    gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
    EOF
    # 可以用下面的命令查看可以安装的版本
    yum list kubeadm --showduplicates | sort -r
    
    #安装
    yum install -y kubelet-1.20.1-0 kubeadm-1.20.1-0 kubectl-1.20.1-0 --disableexcludes=kubernetes
    
    # 启动开机启动kubelet
    systemctl start kubelet
    systemctl enable kubelet
    

    五、部署Kubernetes Master

    只在master上面执行

    # 创建集群
    kubeadm init --kubernetes-version=v1.20.1 --apiserver-advertise-address=192.168.153.129  --image-repository  registry.aliyuncs.com/google_containers --service-cidr=10.10.0.0/16 --pod-network-cidr=10.122.0.0/16
    
    参数说明:
    kubernetes-version:要安装的版本
    pod-network-cidr:负载容器的子网网段
    service-cidr:svc网段
    image-repository:指定镜像仓库
    apiserver-advertise-address:节点绑定的服务器ip(写master节点IP)
    #提示initialized successfully!表示初始化成功
    
    # 接着根据提示拷贝admin.config的内容到当前用户的$HOME/.kube/config中并授权
    mkdir -p $HOME/.kube
    sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
    sudo chown $(id -u):$(id -g) $HOME/.kube/config
    
    #执行完后可以运行查看node节点情况,这时候可以看到master节点是noready状态,原因是没有部署网络插件
    kubectl get nodes

    六、部署网络插件

    常用的网络插件有flannel和calico,这里选择flannel

    # 创建目录
    mkdir -p /opt/yaml
    # 编辑kube-flannel.yaml
    获取部署flannel的yaml文件(https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml)到/opt/yaml目录中,(链接需要翻墙才能访问,这边贴下获取到的内容)
    vim /opt/yaml/kube-flannel.yaml
    ---
    apiVersion: policy/v1beta1
    kind: PodSecurityPolicy
    metadata:
      name: psp.flannel.unprivileged
      annotations:
        seccomp.security.alpha.kubernetes.io/allowedProfileNames: docker/default
        seccomp.security.alpha.kubernetes.io/defaultProfileName: docker/default
        apparmor.security.beta.kubernetes.io/allowedProfileNames: runtime/default
        apparmor.security.beta.kubernetes.io/defaultProfileName: runtime/default
    spec:
      privileged: false
      volumes:
      - configMap
      - secret
      - emptyDir
      - hostPath
      allowedHostPaths:
      - pathPrefix: "/etc/cni/net.d"
      - pathPrefix: "/etc/kube-flannel"
      - pathPrefix: "/run/flannel"
      readOnlyRootFilesystem: false
      # Users and groups
      runAsUser:
        rule: RunAsAny
      supplementalGroups:
        rule: RunAsAny
      fsGroup:
        rule: RunAsAny
      # Privilege Escalation
      allowPrivilegeEscalation: false
      defaultAllowPrivilegeEscalation: false
      # Capabilities
      allowedCapabilities: ['NET_ADMIN', 'NET_RAW']
      defaultAddCapabilities: []
      requiredDropCapabilities: []
      # Host namespaces
      hostPID: false
      hostIPC: false
      hostNetwork: true
      hostPorts:
      - min: 0
        max: 65535
      # SELinux
      seLinux:
        # SELinux is unused in CaaSP
        rule: 'RunAsAny'
    ---
    kind: ClusterRole
    apiVersion: rbac.authorization.k8s.io/v1
    metadata:
      name: flannel
    rules:
    - apiGroups: ['extensions']
      resources: ['podsecuritypolicies']
      verbs: ['use']
      resourceNames: ['psp.flannel.unprivileged']
    - apiGroups:
      - ""
      resources:
      - pods
      verbs:
      - get
    - apiGroups:
      - ""
      resources:
      - nodes
      verbs:
      - list
      - watch
    - apiGroups:
      - ""
      resources:
      - nodes/status
      verbs:
      - patch
    ---
    kind: ClusterRoleBinding
    apiVersion: rbac.authorization.k8s.io/v1
    metadata:
      name: flannel
    roleRef:
      apiGroup: rbac.authorization.k8s.io
      kind: ClusterRole
      name: flannel
    subjects:
    - kind: ServiceAccount
      name: flannel
      namespace: kube-system
    ---
    apiVersion: v1
    kind: ServiceAccount
    metadata:
      name: flannel
      namespace: kube-system
    ---
    kind: ConfigMap
    apiVersion: v1
    metadata:
      name: kube-flannel-cfg
      namespace: kube-system
      labels:
        tier: node
        app: flannel
    data:
      cni-conf.json: |
        {
          "name": "cbr0",
          "cniVersion": "0.3.1",
          "plugins": [
            {
              "type": "flannel",
              "delegate": {
                "hairpinMode": true,
                "isDefaultGateway": true
              }
            },
            {
              "type": "portmap",
              "capabilities": {
                "portMappings": true
              }
            }
          ]
        }
      net-conf.json: |
        {
          "Network": "10.244.0.0/16",
          "Backend": {
            "Type": "vxlan"
          }
        }
    ---
    apiVersion: apps/v1
    kind: DaemonSet
    metadata:
      name: kube-flannel-ds
      namespace: kube-system
      labels:
        tier: node
        app: flannel
    spec:
      selector:
        matchLabels:
          app: flannel
      template:
        metadata:
          labels:
            tier: node
            app: flannel
        spec:
          affinity:
            nodeAffinity:
              requiredDuringSchedulingIgnoredDuringExecution:
                nodeSelectorTerms:
                - matchExpressions:
                  - key: kubernetes.io/os
                    operator: In
                    values:
                    - linux
          hostNetwork: true
          priorityClassName: system-node-critical
          tolerations:
          - operator: Exists
            effect: NoSchedule
          serviceAccountName: flannel
          initContainers:
          - name: install-cni
            image: quay.io/coreos/flannel:v0.14.0
            command:
            - cp
            args:
            - -f
            - /etc/kube-flannel/cni-conf.json
            - /etc/cni/net.d/10-flannel.conflist
            volumeMounts:
            - name: cni
              mountPath: /etc/cni/net.d
            - name: flannel-cfg
              mountPath: /etc/kube-flannel/
          containers:
          - name: kube-flannel
            image: quay.io/coreos/flannel:v0.14.0
            command:
            - /opt/bin/flanneld
            args:
            - --ip-masq
            - --kube-subnet-mgr
            resources:
              requests:
                cpu: "100m"
                memory: "50Mi"
              limits:
                cpu: "100m"
                memory: "50Mi"
            securityContext:
              privileged: false
              capabilities:
                add: ["NET_ADMIN", "NET_RAW"]
            env:
            - name: POD_NAME
              valueFrom:
                fieldRef:
                  fieldPath: metadata.name
            - name: POD_NAMESPACE
              valueFrom:
                fieldRef:
                  fieldPath: metadata.namespace
            volumeMounts:
            - name: run
              mountPath: /run/flannel
            - name: flannel-cfg
              mountPath: /etc/kube-flannel/
          volumes:
          - name: run
            hostPath:
              path: /run/flannel
          - name: cni
            hostPath:
              path: /etc/cni/net.d
          - name: flannel-cfg
            configMap:
              name: kube-flannel-cfg
    # 将quay.io换成quay.mirrors.ustc.edu.cn(中科大)的镜像
    sed -i 's#quay.io/coreos/flannel#quay.mirrors.ustc.edu.cn/coreos/flannel#' /opt/yaml/kube-flannel.yaml
    
    # 部署flannel
    kubectl apply -f /opt/yaml/kube-flannel.yaml
    #等个几分钟,再看master上节点状态就是ready了

    七、扩容node节点进集群

    在两台node上面执行添加命令

    #命令在第五步,创建集群成功后会显示在界面上
    kubeadm join 192.168.153.129:6443 --token 7spol7.nxxabat5ljyws8xo --discovery-token-ca-cert-hash sha256:4f31b94b2beda59334b5da507673752605ab49fde6ef87487c81b314a39b466f
    
    #如果忘记token,可以在master节点重新生成,token有效期24小时
    kubeadm token create --print-join-command
    
    #在master节点上运行查看node节点命令,就可以看到3台node节点了

    八、检查集群状态

    # 查看node状态都是ready
    kubectl get nodes
    
    # 看出pod状态都是running
    kubectl get pod  --all-namespaces
    
    #查看集群状态都是Healthy ok
    kubectl get cs
    如果出现unhealthy,分别修改下面两个文件,注释 - --port=0,然后重启kubelet
    vim /etc/kubernetes/manifests/kube-controller-manager.yaml
    vim /etc/kubernetes/manifests/kube-scheduler.yaml
    systemctl restart kubelet.service

     

  • 如何快速删除K8S集群

    上文分享了如何快速搭建K8S集群《一看就会的kubernetes 1.20.1集群搭建》 ,但是当你在搭建环境时出错了想重新部署,该如果快速清理已搭建的环境呢

    一、清空K8S集群设置

    #在卸载K8s组件前,先执行kubeadm reset命令,清空K8s集群设置
    kubeadm reset

    二、卸载管理组件

    #把之前通过yum安装的管理组件卸载
    yum erase -y kubelet kubectl kubeadm kubernetes-cni

    三、删除基础组件镜像

    #基础组件通过Docker镜像部署,因此只需要强制删除对应镜像即可卸载
    docker rmi -f k8s.gcr.io/kube-apiserver:v1.20.1
     
    docker rmi -f k8s.gcr.io/kube-controller-manager:v1.20.1
     
    docker rmi -f k8s.gcr.io/kube-scheduler:v1.20.1
     
    docker rmi -f k8s.gcr.io/kube-proxy:v1.20.1
     
    docker rmi -f k8s.gcr.io/pause:3.2
     
    docker rmi -f k8s.gcr.io/etcd:3.4.13
     
    docker rmi -f k8s.gcr.io/coredns:1.8.1
    
  • “五分钟学命令系列”之三十五《kubectl命令》

    kubectl是一个基础的K8S集群管理命令,可以实现对K8S资源的查询,创建,删除,更新,回退等各种各样的操作。由于其复杂的功能体系,命令灵活度又高,因此需要进行常见的一些命令和使用场景的梳理。

    0x00  语法组成

    $ kubectl [command]  [TYPE]  [NAME] [flags]

    command:子命令,用于操作k8s集群资源对象的命令

    常见的有:get、create、delete、describe、apply、explain、edit、run、set

    TYPE:资源对象的类型,区分大小写,能以单数形式,复数形式或者简写形式表示

    下面三组的命令是一样的

    $ kubectl get pod pod1
    $ kubectl get pods pod1
    $ kubectl get po pod1

    NAME:资源对象的名称,区分大小写。如果不指定名称,则系统将返回属于TYPE的全部对象的列表

    $ kubectl get pods
    
    将返回默认namespaces下所有的pod列表

    flags:kubectl 子命令的可选参数

     

    0x01   使用实例

    1、列出可用资源

    列出所有的pod  :kubectl get pods 
    列出所有的job :  kubectl get job 
    全面显示pod信息:kubectl get pods -o wide

    2、显示有关资源的详细信息

    $ kubectl describe pod nvjob-lnrxj -n default
    -n default 是指定namespace为default里的pod,是语法中的flag

    3、在Pod中的容器执行命令

    $ kubectl exec <pod_name>  -n <namespace> date
    查看容器时间

    4、删除pod命令

    批量删除namespace 是calib中状态为Error的所有pod:
    $ kubectl get pods -n calib | grep Error | awk '{print $1}' | xargs kubectl delete pod -n calib

    5、从容器中打印日志

    从namespace是calib中的job名称为calijob打印日志
    $ kubectl logs calijob  -n calib
  • 使用阿里云免费SSL开启全站HTTPS

    折腾了几天,终于全站支持HTTPS了。这边记录下这次切换HTTPS的步骤

     

    0x00 申请证书

    开启HTTPS第一步就是给域名申请个SSL证书,对于小博客来说,免费的SSL证书足够用了。目前BAT都有提供了免费的SSL证书申请,因为我博客用的都是阿里云的资源,所以选择了阿里云免费证书,一键下放部署。如果喜欢自己折腾的话可以选择Let’s Encrypt的解决方案,缺点是每90天就得更新下证书。

     

    0x01 Nginx配置

    把申请到的SSL证书下载到服务器上,有两个文件key和pem。

    具体配置方法参考文章:《全站开启HTTPS之Nginx配置 》

     

    0x02 链接替换

    上面两步完成后,网站已经支持HTTPS了。接下去就是要把网页中所有的HTTP替换成HTTPS,不然你的图片,js, css等非HTTPS的连接都会导致浏览器抱怨不安全而被阻止掉。

     

    对于使用wordpress的博客系统来说,完成下面两点就基本上可以了

    a、 wordpress的 常规设置中的 “WordPress 地址” 和 “站点地址” 需要变更为HTTPS 的方式。

    b、文章内的图片等资源的链接需要变更为HTTPS的方式,网上有很多修改数据库替换的文章,喜欢折腾可以去试试。这边推荐使用插件Search Regex替换,简单方便。

     

    至此,你已经可以通HTTPS访问你的网站了。

     

    对于百度分享不支持HTTPS的情况,有两种办法:

    a、直接取消百度分享,对于小博客这个分享意义也不是很大

    b、把百度分享的JS文件上传到支持HTTPS的空间去,如七牛CDN,阿里云OSS。具体操作可以参考yaozhen`s的博客