LinkinStar's Blog

《一起读 kubernetes 源码》ingress-nginx 是如何工作的

2025-03-14T16:00:00.000Z

前言

前面说完了 Service 和 kube-proxy，那就自然轮到了我们的 Ingress 了。Ingress 作为 Kubernetes 中负责外部流量路由的重要组件，其实现原理和设计思路值得我们深入研究。当然，这里也要说明的是，对于 Ingress 其实在这个版本里面已经有一点点 “落伍” ，官方更为推荐的是使用 Kubernetes Gateway API 来做同样的事情，并且能力更为强大。支持更丰富的协议，更精细化的流量控制，以及对于权限的控制等等。不过在这里不涉及这个部分，感兴趣同学可以自行去查看相关源码。

前置知识

Ingress
Ingress Controller

心路历程

之前我也写过对于 Ingress 的基础概念的说明，我称为 service 的 service。其实这个对象的出现是一种顺理成章的事情，对于一个多业务场景下的方案来说，不同域名访问不同服务，一定会需要一个网关这样的角色。而对于大的场景还是小的场景都需要不同的网关去做处理，但实际的能力大差不差。我们最熟悉的就是 https://github.com/kubernetes/ingress-nginx 。所以本文也将以它为源码分析的对象。

码前提问

同样的，在开始源码分析之前，让我们先思考几个问题：

ingress-nginx 本身究竟是个什么东西？
Ingress Controller 是如何监听到 Ingress 资源的变化的？
Ingress Controller 是如何将规则转换为实际的负载均衡配置的？

源码分析

Ingress 数据结构

先看一下我们熟悉的 yaml 配置

rules:
    - host: api.linkinstars.com
      http:
        paths:
          - path: /user
            pathType: Prefix
            backend:
              service:
                name: user
                port:
                  number: 8080

数据结构的部分，我相信你很容易可以找到对应的部分。

// staging/src/k8s.io/api/networking/v1beta1/types.go:35
type Ingress struct {
    metav1.TypeMeta `json:",inline"`
    metav1.ObjectMeta `json:"metadata,omitempty" protobuf:"bytes,1,opt,name=metadata"`
    Spec IngressSpec `json:"spec,omitempty" protobuf:"bytes,2,opt,name=spec"`
    Status IngressStatus `json:"status,omitempty" protobuf:"bytes,3,opt,name=status"`
}

// staging/src/k8s.io/api/networking/v1beta1/types.go:73
type IngressSpec struct {
    IngressClassName *string `json:"ingressClassName,omitempty" protobuf:"bytes,4,opt,name=ingressClassName"`
    Backend *IngressBackend `json:"backend,omitempty" protobuf:"bytes,1,opt,name=backend"`
    TLS []IngressTLS `json:"tls,omitempty" protobuf:"bytes,2,rep,name=tls"`
    Rules []IngressRule `json:"rules,omitempty" protobuf:"bytes,3,rep,name=rules"`
}

所以 Ingress 对象本身很简单，就是记录路由的规则，而这个规则则是 Ingress Controller 最为关注的东西。下面我们就来看看我们今天的重点，也就是 ingress-nginx 的具体实现。注意下面的源码都来自于它，而不是 k8s 主项目中。

ingress-nginx

如果你对于 ingress-nginx 不是特别熟悉，强烈建议使用一次，一次就懂。然后可以先看：ingress-nginx/deploy/static/provider/cloud/deploy.yaml 部署。看了这个文件其实对于它本身你就觉得不是什么很可怕的东西了。其中抛开角色、权限、配置相关对象之外就只有：

一个名叫 ingress-nginx-controller 的 Service
一个名叫 ingress-nginx-controller 的 Deployment
一个名叫 nginx 的 IngressClass

其他可以忽略，重点其实就是他们几个。其实看到 Deployment 的时候，我就已经一下子明白了。其实本质它还是一个 Deployment 服务而已，而 Service 是一个 LoadBalancer 。相信到此你应该已经了解基本的结构了，在没有看源码的时候你就可以大胆去猜测了，可能它就是通过一个服务去获取路由规则，而通过 LB 把流量接进来，通过 nginx 的实例将流量按规则去路由而已。而得益于 nginx 本身的路由强大，性能通常也没有什么问题。

那么本文的两个关键问题就来了：

ingress-nginx 如何知道规则变动了？
ingress-nginx 如何把 ingress 的规则转换为 nginx 的规则？

Ingress Controller 实现原理

还是老套路，由于这是一个独立的服务，所以我们直接从入口着手：

入口到对象

入口特别好找，和大多数项目一样就在 cmd 下面，main 的函数开始。其中我对于入口函数精简了绝大多数代码，留下了与我们最相关的部分

// cmd/nginx/main.go:53
func main() {
    kubeClient, err := createApiserverClient(conf.APIServerHost, conf.RootCAFile, conf.KubeConfigFile)

    _, err = kubeClient.NetworkingV1().IngressClasses().List(context.TODO(), metav1.ListOptions{})
    if err != nil {
        if !errors.IsNotFound(err) {
            if errors.IsForbidden(err) {
                klog.Warningf("No permissions to list and get Ingress Classes: %v, IngressClass feature will be disabled", err)
                conf.IngressClassConfiguration.IgnoreIngressClass = true
            }
        }
    }
    conf.Client = kubeClient

    err = k8s.GetIngressPod(kubeClient)
    if err != nil {
        klog.Fatalf("Unexpected error obtaining ingress-nginx pod: %v", err)
    }

    ngx := controller.NewNGINXController(conf, mc)

    go ngx.Start()

    process.HandleSigterm(ngx, conf.PostShutdownGracePeriod, func(code int) {
        os.Exit(code)
    })
}

其中我们可以看到：

通过 createApiserverClient 创建了一个 kubeClient ，然后尝试调用 API 拉取了一下 Ingress 的信息，如果拉取不到则说明没有权限。
然后获取了一下 IngressPod。
最重要的就是通过 controller.NewNGINXController 创建我们的主角 controller 并通过 Start 启动起来。

啊哈，其实从这里的 ApiserverClient 你就已经大概能猜到如何拿到相关信息的了，当然，所有其实 k8s 相关的扩展能力组件都与这个 apiserver 有着关系，因为就是通过它来控制对象或者获取相关资源的信息。

最后 process.HandleSigterm 其实这部分也是可以抄的，我们放在最后说。

初始化

首先来看看 NewNGINXController 创建的时候究竟干了什么。

// internal/ingress/controller/nginx.go:76
func NewNGINXController(config *Configuration, mc metric.Collector) *NGINXController {
    // ....

    n := &NGINXController{
        // ....
    }

    // ....

    n.store = store.New(
        config.Namespace,
        config.WatchNamespaceSelector,
        config.ConfigMapName,
        config.TCPConfigMapName,
        config.UDPConfigMapName,
        config.DefaultSSLCertificate,
        config.ResyncPeriod,
        config.Client,
        n.updateCh,
        config.DisableCatchAll,
        config.DeepInspector,
        config.IngressClassConfiguration,
        config.DisableSyncEvents)

    n.syncQueue = task.NewTaskQueue(n.syncIngress) // 注意一下这里的这个，后面有用
    // ...

    return n
}

有关 nginx 的部分以及模板的部分都不是我们的重点，因为我们关心的还是 k8s 上，于是在仔细寻找后发现有一个 store 的对象让我找到了关键点。

你别说，这个 store.New 有足足 600+ 行的代码，都看是不可能都看的。

PS：注释特别加了 nolint:gocyclo，可见复杂的别人都懒的动了，不然对于这样长的函数还是拆分为多个可读性会更好

为什么这么长呢？原因其实是因为写了一大堆的闭包在里面，而其实最重要的放在了最后

// internal/ingress/controller/store/store.go:850
if _, err := store.informers.Ingress.AddEventHandler(ingEventHandler); err != nil {
    klog.Errorf("Error adding ingress event handler: %v", err)
}
if !icConfig.IgnoreIngressClass {
    if _, err := store.informers.IngressClass.AddEventHandler(ingressClassEventHandler); err != nil {
        klog.Errorf("Error adding ingress class event handler: %v", err)
    }
}
if _, err := store.informers.EndpointSlice.AddEventHandler(epsEventHandler); err != nil {
    klog.Errorf("Error adding endpoint slice event handler: %v", err)
}
if _, err := store.informers.Secret.AddEventHandler(secrEventHandler); err != nil {
    klog.Errorf("Error adding secret event handler: %v", err)
}
if _, err := store.informers.ConfigMap.AddEventHandler(cmEventHandler); err != nil {
    klog.Errorf("Error adding configmap event handler: %v", err)
}
if _, err := store.informers.Service.AddEventHandler(serviceHandler); err != nil {
    klog.Errorf("Error adding service event handler: %v", err)
}

看到这里其实就很清楚了，关键是就实现了 informer 的各种 event handler，然后对于各种事件做了不同的处理。其中就有 ingress 的事件。而在对应的 ingEventHandler 处理方法中：

ingEventHandler := cache.ResourceEventHandlerFuncs{
    AddFunc: func(obj interface{}) {
        ing, _ := toIngress(obj)

        //...

        store.syncIngress(ing)
        store.updateSecretIngressMap(ing)
        store.syncSecrets(ing)

        updateCh.In() <- Event{
            Type: CreateEvent,
            Obj:  obj,
        }
    },

关键就是将各种事件放到 updateCh 里面去。这里的这个 updateCh 又是我们可以学习的一个小点，它其实是一个 RingChannel 并且其实这库已经不更新了，但这里依旧沿用了，说明一个 10 年前设计的库还是很好用的，特别是它对于暴露功能的设计还是有迹可循的，有兴趣可以看看。而 updateCh 是在哪里消费的呢？其实这一点你通过看之前的 k8s 源码应该有所熟悉了，消费的地方正式在启动的时候设置好了。

启动

Start 并不复杂，精简一下如下：

// internal/ingress/controller/nginx.go:270
func (n *NGINXController) Start() {
    klog.InfoS("Starting NGINX Ingress controller")

    n.store.Run(n.stopCh)
    cmd := n.command.ExecCommand()

    n.start(cmd)

    go n.syncQueue.Run(time.Second, n.stopCh)
    // force initial sync
    n.syncQueue.EnqueueTask(task.GetDummyObject("initial-sync"))

    for {
        select {
        case err := <-n.ngxErrCh:
            if n.isShuttingDown {
                return
            }

            // if the nginx master process dies, the workers continue to process requests
            // until the failure of the configured livenessProbe and restart of the pod.
            if process.IsRespawnIfRequired(err) {
                return
            }

        case event := <-n.updateCh.Out():
            if n.isShuttingDown {
                break
            }

            if evt, ok := event.(store.Event); ok {
                klog.V(3).InfoS("Event received", "type", evt.Type, "object", evt.Obj)
                if evt.Type == store.ConfigurationEvent {
                    // TODO: is this necessary? Consider removing this special case
                    n.syncQueue.EnqueueTask(task.GetDummyObject("configmap-change"))
                    continue
                }

                n.syncQueue.EnqueueSkippableTask(evt.Obj)
            } else {
                klog.Warningf("Unexpected event type received %T", event)
            }
        case <-n.stopCh:
            return
        }
    }
}

我们刚才的关键 updateCh 就在这里，event := <-n.updateCh.Out()，从中获得对应的事件然后放到 syncQueue 里面，而 syncQueue 则是我们在 NewNGINXController 的时候初始化的

1	n.syncQueue = task.NewTaskQueue(n.syncIngress)

所以最终就落到了 syncIngress 方法上：

// internal/ingress/controller/controller.go:175
func (n *NGINXController) syncIngress(interface{}) error {
    n.syncRateLimiter.Accept()

    ings := n.store.ListIngresses()
    hosts, servers, pcfg := n.getConfiguration(ings)

    if n.runningConfig.Equal(pcfg) {
        klog.V(3).Infof("No configuration change detected, skipping backend reload")
        return nil
    }

    n.metricCollector.SetHosts(hosts)

    if !utilingress.IsDynamicConfigurationEnough(pcfg, n.runningConfig) {
        klog.InfoS("Configuration changes detected, backend reload required")

        hash, err := hashstructure.Hash(pcfg, hashstructure.FormatV1, &hashstructure.HashOptions{
            TagName: "json",
        })
        if err != nil {
            klog.Errorf("unexpected error hashing configuration: %v", err)
        }

        pcfg.ConfigurationChecksum = fmt.Sprintf("%v", hash)

        err = n.OnUpdate(*pcfg)

        klog.InfoS("Backend successfully reloaded")
        n.metricCollector.ConfigSuccess(hash, true)
        n.metricCollector.IncReloadCount()

        n.recorder.Eventf(k8s.IngressPodDetails, apiv1.EventTypeNormal, "RELOAD", "NGINX reload triggered due to a change in configuration")
    }

   // ...

    return nil
}

然后让我们把目光聚到 err = n.OnUpdate(*pcfg)（一开始我压根没注意这个部分，也是仔细寻找才发现了）

func (n *NGINXController) OnUpdate(ingressCfg ingress.Configuration) error {
    cfg := n.store.GetBackendConfiguration()
    cfg.Resolver = n.resolver

    // ....

    content, err := n.generateTemplate(cfg, ingressCfg)

    err = n.createLuaConfig(&cfg)

    err = createOpentelemetryCfg(&cfg)

    err = n.testTemplate(content)

    // ....

    err = os.WriteFile(cfgPath, content, file.ReadWriteByUser)

    o, err := n.command.ExecCommand("-s", "reload").CombinedOutput()

    // Reload status checking runs in a separate goroutine to avoid blocking the sync queue
    if workerSerialReloads {
        go n.awaitWorkersReload()
    }

    return nil
}

看到这里其实就很清楚了，首先就是根据 ingress 信息和模板创建对应的配置文件。而生成配置文件所需要的模板是在 rootfs/etc/nginx/template/nginx.tmpl 的位置，而看了模板你也就大概明白了，这不仅是 nginx 的配置吗。

然后发现，这不就是我最常用的 nginx -s reload 命令吗？原来就这样简单。这下，从 k8s 的资源变动到 nginx 配置变化，整个链路就能串起来了。

码后解答

ingress-nginx 本身究竟是个什么东西？回答：本质其实就是个 deployment 而已，而整个就是打包了一组 k8s 的各种资源在里面
Ingress Controller 是如何监听到 Ingress 资源的变化的？回答：其实就是通过 informer 监听了对应资源变更的事件，并且注册了这些事件对应的处理方法，而 SharedInformer 其实是 client-go 里面的实现。
Ingress Controller 是如何将规则转换为实际的负载均衡配置的？回答：关键就是通过这些规则的配置，通过模板来生成的。

总结提升

其实原理上对于 ingress 其实本身并不复杂，而更多的是，我觉得它可以作为我们学习如果制作一个 k8s 扩展组件的一个案例，如何使用 Apiserver，如何处理对应的事件，以及如何操作对应的资源等等，将它作为一个参考确实是不错的选择。

编码上

HandleSigterm

之前在 main 入口的最下面我们看到过下面的代码：

1
2
3

process.HandleSigterm(ngx, conf.PostShutdownGracePeriod, func(code int) {
os.Exit(code)
})

其中的 HandleSigterm 的实现其实非常简单，对于一个小型项目的优雅关闭是一个非常不错的案例，可以直接拿来用。

// pkg/util/process/sigterm.go:32
func HandleSigterm(ngx Controller, delay int, exit exiter) {
    signalChan := make(chan os.Signal, 1)
    signal.Notify(signalChan, syscall.SIGTERM)
    <-signalChan
    klog.InfoS("Received SIGTERM, shutting down")

    exitCode := 0
    if err := ngx.Stop(); err != nil {
        klog.Warningf("Error during shutdown: %v", err)
        exitCode = 1
    }

    klog.Infof("Handled quit, delaying controller exit for %d seconds", delay)
    time.Sleep(time.Duration(delay) * time.Second)

    klog.InfoS("Exiting", "code", exitCode)
    exit(exitCode)
}

syncQueue

还有一个 syncQueue 其实也可以简单参考下，它是对于 client-go 里面的 workqueue 的封装，本来其实我觉得 workqueue 的实现已经非常好用了，特别是拿他来做泛型的使用案例特别好，所以比较值得一看，以后很大机会能用上。其中有一个取巧的封装是对于 EnqueueSkippableTask 方法，我一开始还在想什么是 skippable 可以跳过的任务，仔细一看发现其实就是任务的优先级，而当可以 skippable 也就是优先级低的时候，只不过将时间延迟了而已。

// internal/task/queue.go:74
func (t *Queue) enqueue(obj interface{}, skippable bool) {
    if t.IsShuttingDown() {
        klog.ErrorS(nil, "queue has been shutdown, failed to enqueue", "key", obj)
        return
    }

    ts := time.Now().UnixNano()
    if !skippable {
        // make sure the timestamp is bigger than lastSync
        ts = time.Now().Add(24 * time.Hour).UnixNano() // 就只是这样而已
    }
    klog.V(3).InfoS("queuing", "item", obj)
    key, err := t.fn(obj)
    if err != nil {
        klog.ErrorS(err, "creating object key", "item", obj)
        return
    }
    t.queue.Add(Element{
        Key:       key,
        Timestamp: ts,
    })
}

对应到实际使用上，其实就是对于外部的 event 的相应任务可以慢慢处理，而对于文件配置的变动需要立刻做出相应，优先级更高。

向量数据库简单使用对比

2025-02-28T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

AI 带火了向量数据库，来对比几个不同的向量数据库，使用感受和差异，个人非标测试，仅供参考。

具体每个我就不多介绍了，官网都有

使用场景

正所谓不设定场景的测试和比较都是耍流氓，所以先说明一下使用场景。由于大厂的技术选型往往就直接冲着数据量、扩展性等等方向去了，而这次我们的角度不一样，更贴近与个人用户使用，准备用在个人项目中，并且直接安装在个人电脑上。

本来就是单点，不需要考虑什么扩展
数据量不大，一个人撑死能有多大的数据
使尽可能减少资源占用

安装

全部使用 docker 一把梭，使用的宿主机相同配置，都是足够的。

milvus

其中 attu 是专门用来查看的，默认自带的功能比较少，没法直接操作

version: '3.5'
services:
  etcd:
    container_name: milvus-etcd
    image: quay.io/coreos/etcd:v3.5.18
    environment:
      - ETCD_AUTO_COMPACTION_MODE=revision
      - ETCD_AUTO_COMPACTION_RETENTION=1000
      - ETCD_QUOTA_BACKEND_BYTES=4294967296
      - ETCD_SNAPSHOT_COUNT=50000
    command: etcd -advertise-client-urls=http://127.0.0.1:2379 -listen-client-urls http://0.0.0.0:2379 --data-dir /etcd
    healthcheck:
      test: ["CMD", "etcdctl", "endpoint", "health"]
      interval: 30s
      timeout: 20s
      retries: 3

  minio:
    container_name: milvus-minio
    image: minio/minio:RELEASE.2023-03-20T20-16-18Z
    environment:
      MINIO_ACCESS_KEY: minioadmin
      MINIO_SECRET_KEY: minioadmin
    ports:
      - "9001:9001"
      - "9000:9000"
    command: minio server /minio_data --console-address ":9001"
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9000/minio/health/live"]
      interval: 30s
      timeout: 20s
      retries: 3

  standalone:
    container_name: milvus-standalone
    image: milvusdb/milvus:v2.5.5
    command: ["milvus", "run", "standalone"]
    security_opt:
    - seccomp:unconfined
    environment:
      ETCD_ENDPOINTS: etcd:2379
      MINIO_ADDRESS: minio:9000
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9091/healthz"]
      interval: 30s
      start_period: 90s
      timeout: 20s
      retries: 3
    ports:
      - "19530:19530"
      - "9091:9091"
    depends_on:
      - "etcd"
      - "minio"

  attu:
    container_name: milvus-attu
    image: zilliz/attu:v2.4
    environment:
      MILVUS_URL: milvus:19530
    ports:
      - "7000:3000"
    networks:
      - default

networks:
  default:
    name: milvus

pgvector

pgvector 是 postgresql 的一个插件，所以安装之后需要执行命令去启用

1	$ docker run --name postgresql -e POSTGRES_USER=postgres -e POSTGRES_PASSWORD=password -p 5432:5432 -d pgvector/pgvector:pg17

1
2
3

$ docker exec -it postgresql psql -h 127.0.0.1 -p 5432 -U postgres
psql (17.4 (Debian 17.4-1.pgdg120+2))
Type "help" for help.

$ postgres=# select * from pg_extension;
  oid  | extname | extowner | extnamespace | extrelocatable | extversion | extconfig | extcondition
-------+---------+----------+--------------+----------------+------------+-----------+--------------
 13569 | plpgsql |       10 |           11 | f              | 1.0        |           |
(1 row)

$ postgres=# CREATE EXTENSION vector;
CREATE EXTENSION

$ postgres=# select * from pg_extension;
  oid  | extname | extowner | extnamespace | extrelocatable | extversion | extconfig | extcondition
-------+---------+----------+--------------+----------------+------------+-----------+--------------
 13569 | plpgsql |       10 |           11 | f              | 1.0        |           |
 16388 | vector  |       10 |         2200 | t              | 0.8.0      |           |
(2 rows)

qdrant

1	docker run -p 6333:6333 -p 6334:6334 qdrant/qdrant

elasticsearch

docker run -d \
--name elasticsearch \
    -e "ES_JAVA_OPTS=-Xms2048m -Xmx2048m" \
    -e "discovery.type=single-node" \
    --privileged \
    -p 9200:9200 \
    -p 9300:9300 \
elasticsearch:7.17.7

测试

前提

相同的向量数据，是同一个模型 embedding 生成相同的向量数据，维度 1024
相同的索引算法， HNSW (Hierarchical Navigable Small World)
相同的计算方法，COSINE 余弦相似度

查询速度

小数据量下区别不大，大数据量下这个差距会扩大

milvus 执行时间：452.41ms
pgvector 执行时间：180.65ms
qdrant 执行时间：69.00ms
elasticsearch 执行时间：314.35ms

CPU

pgvector 的 CPU 波动最不明显，qdrant 和 elasticsearch 相差不大，而 milvus 显然 CPU 敏感，测试多次效果基本一致。

内存

从内存的角度上来说，很明显 elasticsearch 和 milvus 占用更多，而 qdrant 和 pgvector 从图片中很难看出区别，但实际数据值可以看到一个是 172MiB(pgvector) 一个是 152.9MiB(qdrant) 也区别不大。

CONTAINER ID   NAME                CPU %     MEM USAGE / LIMIT     MEM %     NET I/O           BLOCK I/O         PIDS

4c3b1922b36b   elasticsearch       0.46%     1.619GiB / 5.126GiB   31.59%    378MB / 31.9MB    201MB / 7.75GB    100

1c0febeff728   postgresql          0.00%     172MiB / 5.126GiB     3.28%     1.28GB / 125MB    342MB / 6.08GB    12

58fa2a1d8558   qdrant              1.37%     152.9MiB / 5.126GiB   2.91%     648MB / 9.41MB    291MB / 8.23GB    52

bb05db1d3099   milvus-standalone   6.92%     368.5MiB / 5.126GiB   7.02%     18.9GB / 14GB     776MB / 5.62GB    88
b0c0ff71478e   milvus-attu         0.36%     28.27MiB / 5.126GiB   0.54%     9.66MB / 27.3MB   41.7MB / 96.6MB   23
edad780e6197   milvus-minio        14.68%    133.1MiB / 5.126GiB   2.54%     13.8GB / 18.1GB   18.5GB / 17.5GB   27
fc8e6e0012ae   milvus-etcd         0.53%     30.41MiB / 5.126GiB   0.58%     156MB / 118MB     67.9MB / 12.3GB   15

使用

我使用的 go 连接的每个数据库，具体代码就不展示了，每个仓库的使用方式的各有不同，但好在 sdk 都完整所以直接将官方的案例拷贝过来都能用。说几个实际中遇到的问题。

milvus

相比于其他几个，它的使用需要额外在查询之前 LoadCollection ，需要手动 load 到内存里面去。然后如果使用完之后不用了，可以关掉。

解析结果的时候一定注意查询结果还在内侧，而非最外面

searchResult, err := m.client.Search(

// 需要两个循环
for i := 0; i < len(searchResult); i++ {
for j := 0; j < searchResult[i].ResultCount; j++ {

别问我怎么知道的，说多了也难受，不知道为什么要这样设计…

pgvector

如果没有使用 orm 的话需要手写 SQL 相较于其他的 API 使用会有一点点门槛，比如：

SELECT title, 1 - (embedding <=> $1) as similarity
FROM embeddings
ORDER BY embedding <=> $1
LIMIT $2

其他

一定注意使用的索引算法和向量的维度，有的时候创建的维度和插入数据维度不一样也不会异常报错的，需要特别注意。特别是在测试不同模型下生成不同维度向量数据效果的时候。

查询结果的说明

从理论上来说在使用相同算法的情况下，无论哪一个数据库查询结果应该都是相同的

实际测试下来发现

milvus
qdrant
elasticsearch

相同的查询条件下，以上三者的查询结果相同，而 pgvector，在一些查询条件下结果与其他会有一两个差异，相似度越高差异越小，比如 top5 就没差异，top10 可能就相差一个。这是由于 pgvector 实现的算法逻辑应该是近似的，而非 100%，不过不影响实际使用，后面会有说明。

总结

注意，搜索结果与使用数据库无关，仅与算法有关。
由于有索引存在，不同的向量数据库在个人使用的场景下均能满足对于查询速度的要求。
插入，虽然这里的测试并没有提到插入数据，因为实际的使用中对于插入数据来说并不敏感。但由于测试的时候插入的数据量巨大，导致明显 qdrant 遥遥领先于其他插入的时间，对于测试会友好很多。

个人总结：

在其他条件类似的情况下，显然使用不同底层语言实现的，计算和内存资源的使用上 Java(elasticsearch) > golang(milvus) > rust(qdrant) ≈ c(pgvector) 感受太明显了，所以那么多人才会用 rust 去重写各种中间件。没办法，底层就直接决定了能力所不同。

单一向量方式的的相似度对于搜索来说有效，但还不够，一方面取决与向量化模型本身，另一方面用过的都知道，仅用 COSINE 余弦相似度去比较，最终的查询结果没有那么的符合人的直觉。所以才会有那么多的搜索系统才有召回、粗排、精排、匹配。所以，单一能力并不能足以胜任工作，如果做的更准，还有很多工作要做的。当然，对于个人使用者来说，就我的使用感受来说，显然比一些正常的分词后做匹配要来的更好用。

博客装修(2025年3月)

2025-02-27T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

春风拂柳燕归来，细雨轻敲绿满台。桃李争艳芳草盛，人间三月尽芳怀。
时间还是真的快啊，但这次几乎没有什么大的变动，好像有点退烧了，算是优化到了一个自己认为非常不错的阶段。

butterfly 主题升级

更新主题版本至 5.3.4 https://github.com/jerryc127/hexo-theme-butterfly

这次跨度比较大，直接从 4.x 到了 5.x ，然后所以的配置文件安装更新的要求全部都要重新设置过了，所以这次过段等上了一段时间才进行了更新，从中将原有的相关部分做了替换。

改动最大的莫过于原来的自定义页面部分了，特别是主页部分的改动，由于之前的 pug 文件已经不再适用，所以我直接将原有的 pug 文件全部替换成了新的 pug 文件。

extends includes/layout.pug

block content
  include ./includes/mixins/post-ui.pug
  #recent-posts.recent-posts
    include includes/categoryGroup.pug
    include includes/categoryBar.pug
    +postUI
    include includes/pagination.pug

评论系统

评论组件依旧是自建的 twikoo 很喜欢，配置简单。今年我暂时没有升级版本和换评论系统，因为我觉得现在的评论系统已经很好用了，而且我也没有什么特别的需求。

Notion Paper

为什么叫 Notion Paper?
相比 idea, thought 等，notion 指的是一种模糊的，变化的莫测的想法，无可靠的基础的，未经深思熟虑的观点。这里汇集了一些好的 news，但不是一份 newspaper，而包含了我那些不成熟的 notion，所以我称它为 Notion Paper 。

Notion Paper 这部分保持着一定的更新频率，算是我对于博客部分的一种补充，也是去年新加入的一个板块，改动最大的一个部分。今年也将继续保持更新。

专栏

其中一个专栏还在不断更新（差点断了线），另一个因为一直找不到合适的素材，所以一直没有更新，这个部分我会继续努力。这部分确实就和其他大神的作者一样，越到后面越难写，知道的越多不知道的就越多这句话是真的，现在让我重新去写网络相关的东西，我可能也会有点手足无措。

公众号

这部分我一直没有更新，发现了一个问题就是阅读的数量其实并不多，所以我也没有继续更新，这部分我会继续观察，如果有好的内容我会继续更新。

总结

想趁着这次机会说说 AI 来了，Blog 还能写吗？答案是一定的。如果是个人的 Blog，那么它的价值就在于记录，记录的是你的生活，你的思考，你的感悟，你的成长。AI 可以帮你写文章，但它写不出你的文章。如果单纯是为了 SEO，为了流量，广告去写，那么用 AI 产出内容就一定会“水到渠成”，毕竟 AI 的产出成本远远低于人类。

所以，个人的 Blog 还能写，而且是越来越有价值的。这是我对于 Blog 的看法，也是我一直坚持写 Blog 的原因。

这也是我最近看到这篇文章给自己的一个思考，也分享给你: https://www.gilesthomas.com/2025/02/blogging-in-the-age-of-ai

《一起读 kubernetes 源码》kube-proxy 默默做了什么？

2025-01-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

前一节我们了解了 Service 和 Endpoint 的创建，发现他们本质上还是在改 k8s 内部的配置(数据)，并没有实际去干活，也就是最终没有反应在机器的网络配置上。我们知道，想要让你的 pod 可以被 ClusterIP 访问或者是通过外部访问，都需要对于网络设备做一些规则的调整，也就是我们常说的 iptables 或 ipvs。而 kube-proxy 组件就是来做这个工作的，它会将所需要的路由规则最终配置好。那么它究竟是如何做的呢？

前置知识

ipvs、iptables 的基础

码前提问

kube-proxy 是什么类型的对象？
ipvs 是由谁来配的？
ipvs 后续如何更新？

源码分析

首先我们需要找到 kube-proxy 在哪。和之前不一样的是，之前我们看到都是一个个对象，而这次它是一个独立的组件。如果你之前没看过，也没了解过，你可以先思考一个问题 kube-proxy 应该是一个什么类型的对象呢？deployment 还是 statefulset 呢？最后我们再来验证一下。

启动

启动命令

一个独立的组件，其实也就是一个二进制，运行的一个程序而已，从 yaml 中启动的命令我们可以看到，参数是一个配置文件，还有一个 node 名称。

command:
    - /usr/local/bin/kube-proxy
    - '--config=/var/lib/kube-proxy/config.conf'
    - '--hostname-override=$(NODE_NAME)'

入口

这样的组件我们非常容易通过 cmd 找到入口 kubernetes/cmd/kube-proxy/proxy.go。之前没有提到过，k8s 中是使用 cobra 来实现命令行的功能的，非常好用的一个库。然后 kube-proxy 就一个命令直接 run。

在 cmd/kube-proxy/app/server.go:501 很容易顺着路径找到。NewProxyCommand -> opts.Run() -> newProxyServer -> createProxier

// cmd/kube-proxy/app/server.go:359
func (o *Options) Run() error {
    defer close(o.errCh)
    if len(o.WriteConfigTo) > 0 {
        return o.writeConfigFile()
    }

    if o.CleanupAndExit {
        return cleanupAndExit()
    }

    proxyServer, err := newProxyServer(o.config, o.master)
    if err != nil {
        return err
    }

    o.proxyServer = proxyServer
    return o.runLoop()
}

记住这里的，等下还要回来的，其实就是 newProxyServerr 然后 runLoop ，熟悉的感觉。

Proxier

然后是第一个要点，运行的模式。

// cmd/kube-proxy/app/server_others.go:128
func (s *ProxyServer) createProxier(config *proxyconfigapi.KubeProxyConfiguration, dualStack bool) (proxy.Provider, error) {
    var proxier proxy.Provider
    var err error

    // ....
    if config.Mode == proxyconfigapi.ProxyModeIPTables {
        klog.InfoS("Using iptables Proxier")
        // ....
    } else if config.Mode == proxyconfigapi.ProxyModeIPVS {
        // ....
    }
    return proxier, nil
}

const (
ProxyModeIPTables    ProxyMode = "iptables"
ProxyModeIPVS        ProxyMode = "ipvs"
ProxyModeKernelspace ProxyMode = "kernelspace"
)

iptables 和 ipvs 也就是 proxy 的模式，也就是 kube-proxy 最重要的实现了。

这里我们其实可以看到里面 NewProxier 这样类似的方法参数是非常多的，而且并没有封装成对象，可以看到观感是并不好的，而且如果改动起来还是比较麻烦的，你必须仔细核对每个参数的顺序。如果是实际中，我是不会建议这样写的。

我们知道 iptables 的实现是存在性能问题的，相较于它我们更关注 ipvs 的实现，而对于 NewProxier 里面的参数太多这里不一一说明。看一个小点。

// pkg/proxy/ipvs/proxier.go:309
func NewProxier(ipFamily v1.IPFamily,
    // ...
) (*Proxier, error) {
    // ...

    proxier := &Proxier{
        // ...
    }
    // ...
    proxier.syncRunner = async.NewBoundedFrequencyRunner("sync-runner", proxier.syncProxyRules, minSyncPeriod, syncPeriod, burstSyncs)
    proxier.gracefuldeleteManager.Run()
    return proxier, nil
}

记住这里的 syncRunner 是一个 NewBoundedFrequencyRunner 类型，而其具体里面内部调用的方法其实是 proxier.syncProxyRules

Run

然后创建完，就是启动了，Run 里面的启动，关键就在下面这部分我精简了一下：

// cmd/kube-proxy/app/server.go:844
func (s *ProxyServer) Run() error {
    // ...

    // Create configs (i.e. Watches for Services and EndpointSlices)
    // Note: RegisterHandler() calls need to happen before creation of Sources because sources
    // only notify on changes, and the initial update (on process start) may be lost if no handlers
    // are registered yet.
    serviceConfig := config.NewServiceConfig(informerFactory.Core().V1().Services(), s.Config.ConfigSyncPeriod.Duration)
    serviceConfig.RegisterEventHandler(s.Proxier)
    go serviceConfig.Run(wait.NeverStop)

    endpointSliceConfig := config.NewEndpointSliceConfig(informerFactory.Discovery().V1().EndpointSlices(), s.Config.ConfigSyncPeriod.Duration)
    endpointSliceConfig.RegisterEventHandler(s.Proxier)
    go endpointSliceConfig.Run(wait.NeverStop)

    // ...
    nodeConfig.RegisterEventHandler(s.Proxier)

    go nodeConfig.Run(wait.NeverStop)

    // Birth Cry after the birth is successful
    s.birthCry()

    go s.Proxier.SyncLoop()

    return <-errCh
}

可以看到三个

serviceConfig.RegisterEventHandler(s.Proxier)
endpointSliceConfig.RegisterEventHandler(s.Proxier)
nodeConfig.RegisterEventHandler(s.Proxier)

分别对应与三种不通类比的事件，service、endpoint、node。看到这里，我相信你应该也已经明白了，至少当这些资源出现变化的时候，显然 kube-proxy 也许需要做相应的处理。

不仅如此，让我们关注到最后的 go s.Proxier.SyncLoop() 也就是说，它自己本身也有一个同步循环在的。而上面三个，最后也落在来循环上，有兴趣你可以进去继续看看。

注意此时开始，我们不能通过简单的点击来查看源码了，因为这里涉及了两个看源码的容易迷糊的点。
Proxier 有不同的实现，对此我们直接来到 pkg/proxy/ipvs/proxier.go 目录下看即可，不需要点，直接看具体方法实现
在 SyncLoop 里面其实是调用了 syncRunner.Loop 而如果你直接点击，啪，晕了，因为没有具体实现，而这就是我们前面提到的 NewBoundedFrequencyRunner，调用的方法其实是初始化的时候就传递进去了，也就是内部调用的方法其实是 proxier.syncProxyRules

syncProxyRules

重点来了，本文的重点是它 syncProxyRules。

1 2	// This is where all of the ipvs calls happen. func (proxier *Proxier) syncProxyRules()

注释写的非常清楚，这就是 ipvs 干的全部的事情了，都在里面 600 行左右的代码。当然，如果不是为了研究 ipvs 本身，我觉得你没必要仔细研究里面内部的配置。

无论是 iptables 和 ipvs 其本质是什么？路由规则，或者说路由表。它就是需要知道一个 ip 的路由规则是什么，应该怎么走。围绕这一点，你就可以大致了解到整个方法的内容了。

func (proxier *Proxier) syncProxyRules() {
    serviceUpdateResult := proxier.svcPortMap.Update(proxier.serviceChanges)
    endpointUpdateResult := proxier.endpointsMap.Update(proxier.endpointsChanges)

    // Build IPVS rules for each service.
    for svcPortName, svcPort := range proxier.svcPortMap {
        // ...
    }

    proxier.writeIptablesRules()

    proxier.iptablesData.Reset()
    proxier.iptablesData.Write(proxier.natChains.Bytes())
    proxier.iptablesData.Write(proxier.natRules.Bytes())
    proxier.iptablesData.Write(proxier.filterChains.Bytes())
    proxier.iptablesData.Write(proxier.filterRules.Bytes())

    err = proxier.iptables.RestoreAll(proxier.iptablesData.Bytes(), utiliptables.NoFlushTables, utiliptables.RestoreCounters)

    if err := proxier.serviceHealthServer.SyncServices(proxier.svcPortMap.HealthCheckNodePorts()); err != nil {
        klog.ErrorS(err, "Error syncing healthcheck services")
    }
    if err := proxier.serviceHealthServer.SyncEndpoints(proxier.endpointsMap.LocalReadyEndpoints()); err != nil {
        klog.ErrorS(err, "Error syncing healthcheck endpoints")
    }

    metrics.SyncProxyRulesNoLocalEndpointsTotal.WithLabelValues("internal").Set(float64(proxier.serviceNoLocalEndpointsInternal.Len()))
    metrics.SyncProxyRulesNoLocalEndpointsTotal.WithLabelValues("external").Set(float64(proxier.serviceNoLocalEndpointsExternal.Len()))
}

没错，精简之后就是这部分。其中最为关键的就是 for svcPortName, svcPort := range proxier.svcPortMap { 这个循环了，里面将所有需要 ipvs 的规则找出来了。整个方法的过程可以简单总结为：

遍历 service、endpoint 配置
根据需要找到所有需要设置的 ipvs 规则
设置 ipvs 规则
同步 iptables 的配置

最终我们能通过 ipvsadm -ln 命令看到它配置的具体情况，当然还能通过 ip addr 命令看到 kube-ipvs 的虚拟网络设备

$ ipvsadm -ln
.....
TCP  10.94.0.1:443 rr
  -> 192.168.51.101:6443
.....

总结一下，其实 kube-proxy 做的核心事情非常简单，就是监听并定期更新 service 和 endpoint 对象所需要配置的路由规则，最终的访问就是通过这些路由规则来完成找到对应服务的。

码后解答

kube-proxy 是什么类型的对象？
1. 答案是在 kube-system namespace 下的一个 DaemonSet，其实容易想到的，因为每个网络规则的配置最终应该配置到宿主机上，而每一个节点就对应了一个宿主机，而 DaemonSet 正好每个节点一个，非常适合。
ipvs 是由谁来配的？
1. 当然就是我们的 kube-proxy 组件咯
ipvs 后续如何更新？
1. 通过监听并定期更新

总结提升

其实从 kube-proxy 你更能体会到 Linux 的强大，无论是 docker 还是 k8s 其实最终极的技术本质都是建立在已有的 Linux 功能上的，无论是这里提到的 ipvs 还是 namespace、cgroup 等等都是。当我们慢慢构建整个系统的过程中，会遇到一个又一个问题，寻找并使用已有的技术手段去解决，同时在规模不断变大，会再次出现问题，然后再寻找更好更优秀的解决方案并优化迭代，这就是软件开发的魅力。

编码上

OOMAdjuster

在 ProxyServer 启动的时候有这样一部分代码

func (s *ProxyServer) Run() error {
    // To help debugging, immediately log version
    klog.InfoS("Version info", "version", version.Get())

    klog.InfoS("Golang settings", "GOGC", os.Getenv("GOGC"), "GOMAXPROCS", os.Getenv("GOMAXPROCS"), "GOTRACEBACK", os.Getenv("GOTRACEBACK"))

    // TODO(vmarmol): Use container config for this.
    var oomAdjuster *oom.OOMAdjuster
    if s.Config.OOMScoreAdj != nil {
        oomAdjuster = oom.NewOOMAdjuster()
        if err := oomAdjuster.ApplyOOMScoreAdj(0, int(*s.Config.OOMScoreAdj)); err != nil {
            klog.V(2).InfoS("Failed to apply OOMScore", "err", err)
        }
    }

你有没有好奇 oomAdjuster 是什么东西，它是做什么用的？

首先你需要承认 kube-proxy，是一个非常重要的组件，因为如果网络不通的话，那么其他服务都是“白给”。所以你需要保证它的正常稳定运行，而我们常见的一个机制 OOM(out of memory) 当内存不够的时候是有概率去 Kill 你的应用的，而 OOMAdjuster 目的就是去调整分数，让进程的优先级提高，让自己变得重要，从而让 OOM 机制先 Kill 别人。

算是一个小的科技，可以记下来，说不定什么时候也能用上。

birthCry

还有一个非常形象的方法命名是 birthCry

// Birth Cry after the birth is successful
s.birthCry()


func (s *ProxyServer) birthCry() {
    s.Recorder.Eventf(s.NodeRef, nil, api.EventTypeNormal, "Starting", "StartKubeProxy", "")
}

就好像刚出生的孩子的第一声啼哭一样，表示整个系统成功启动了。

2024 读书总结

2024-12-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

2024 年度读书总结

读书列表

仅罗列，顺序是随机。怕链接会过期，失效的建议直接搜书名。

读了《如何阅读一本书》，这次简单按里面分了两个类别，小说和非小说：

非小说

小说

2024 最佳

并不是说其他的书不好，而是它对我的影响最大，印象最深刻

《埃隆马斯克传》

今年挺纠结的，想了想还是给它，其实其中对我产生影响的就是几个思维模式的改变，其他有的没的内容也都是听听就好，毕竟成功无法复制，而八卦也只是传记的一部分。当然我还是非常推荐读的，特别是对于工程师来说。其中的五步工作法直接被我简化为：强行删除、优化迭代、自动化。放入到实际工作中，我现在会经常问自己一句话，这部分删掉行不行？

打卡日历

看到打卡日历简单回顾了下 2024 读书和摸鱼的日子，除了放假的时间，年中部分的周末都在摸鱼看小说。今年还有两本比较重(要)的书买了还来不及啃，放到明年去了，可以好好期待一下，都是非常不错的技术书。

今年其实有重新读一些书，比如熟知的 DDIA，渐渐发现了有的书在不同的时间读就是会有不同的收获。然后也有读一些 AI 的书，但要么就是深奥至极，完全无用，要么就是知识普及，随着发展立刻就失效(感叹 AI 迭代的速度)，最后都不如直接用工具来的实在。

新年新气象

今年还发现一下质量很不错的播客，回头整理一下明年可以一起打卡。依旧还是和以前一样，现在已经没了新年计划的习惯，新的一年准备让自己换换脑子，改变一下。且将新火试新茶，诗酒趁年华。

k8s pod 之间是如何通过 DNS 访问的

2024-12-19T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 最近一直没有更新 k8s 源码的部分是因为看到这部分的时候发现对于 service 的一些细节还并不是非常的清晰，所以从原理的角度上来看有的地方不是特别好解释清楚。所以需要先补充一些小细节以帮助消化。~~嗯，这是一个非常让人同情的拖更理由了。~~

我之前有写过 K8S 之跨主机通信是深入到了 ip 包内部的路由，但是回过头发现好像没有记录从应用层的流转是如何做的。也就是说，在 k8s 内部，pod1 访问 pod2 可以如何进行访问呢？这里面的链路是怎么走的呢？其实非常简单，让我们今天一起来看看。

如何访问

首先，k8s 官方文档中给出了访问的方式。

相同的 namespace 下

在相同的 namespace 下，我们可以很容易的通过对应 pod 的 service 的 name 来访问，比如 pod1 的 service 的 name 是 pod1-service。我们就可以通过

1	$ curl http://pod1-service:port/

来访问，其中端口就是 service 申明的 port

不同的 namespace 下

而如果两个 pod 在不同的 namespace 下，也简单，只需要加上 namespace 的名称就可以了。

1	$ curl http://pod1-service.pod1-namespace:port/

其中 pod1-namespace 就是 pod1 所在的 namespace

为什么可以访问？

那么为什么通过一个简单的名字就可以访问了呢？

寻找路由

首先我们来看看路由，对于我们访问的整个 url 地址，那么端口前面的一定是域名了，也就是说在 k8s 内部可以对这样的域名做解析。

$ ping pod-1
PING pod-1 (10.105.44.235): 56 data bytes
64 bytes from 10.105.44.235: seq=0 ttl=64 time=0.187 ms
64 bytes from 10.105.44.235: seq=1 ttl=64 time=0.056 ms

可以看到解析到了对应 pod 的 ip。ping 还不够清楚，我们用 traceroute 来看看。

1
2
3

$ traceroute pod-1
traceroute to pod-1 (10.105.44.235), 30 hops max, 46 byte packets
 1  pod-1.pod1-namepsace.svc.cluster.local (10.105.44.235)  0.018 ms  0.024 ms  0.014 ms

可以非常清楚的看到，先被解析到了 pod-1.pod1-namepsace.svc.cluster.local 这样一个地址。你这个地址是哪里来的呢？那就要问问 DNS 了。

$ cat /etc/resolv.conf
nameserver 10.96.0.10
search pod1-namepsace.svc.cluster.local svc.cluster.local cluster.local
options ndots:5

可以看到我们的域名服务 nameserver 10.96.0.10 并且会尝试搜索下面 search 的名字，举例来说：

$ nslookup pod-1
Server:         10.96.0.10
Address:        10.96.0.10:53

** server can't find pod-1.cluster.local: NXDOMAIN

** server can't find pod-1.cluster.local: NXDOMAIN

** server can't find pod-1.svc.cluster.local: NXDOMAIN


** server can't find pod-1.svc.cluster.local: NXDOMAIN

Name:   pod-1.pod1-namespace.svc.cluster.local
Address: 10.105.44.235

关键来了 10.96.0.10 是个什么服务呢？

CoreDNS

然后我们就可以去 kube-system 的 namespace 下找找这样的 service ，于是乎你就会发现有一个 kube-dns 的 service 它的 clusterIP 就是 10.96.0.10 我们在 resolv.conf 里面看到的这个。那么它对应的 pod 服务也就是我们的 coreDNS 了。通过

1 2	labels: k8s-app: kube-dns

关联上了。

总结

其实总的链路并不复杂：

域名
查看 /etc/resolv.conf 找到了 DNS 服务器
访问服务器也就是 CoreDNS 服务
服务返回了对应 DNS 的 ip 记录
最终通过 ip 访问到服务

这就是 k8s pod 之间是通过 DNS 访问的链路了。理解了它，无论是使用还是排查相信都能帮助到你。

Golang 捕获意外丢失的 Panic 日志

2024-11-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

你是否曾经遇到过 Golang 应用意外重启但没有任何错误日志停留，怀疑出现 panic 但是苦于没有证据？那么今天就来解决一下可能出现的一个问题，捕获哪些可能被我遗漏的 panic 日志。

原因

首先我们要清楚一下出现这样情况的可能原因是什么。(之所以我说可能的原因，是因为不是所有没有日志的情况都是这个原因) 。对于日志的处理方式，通常我们会使用一些日志框架帮助我们进行处理，特别是对于文件，将日志打印到文件中的情况。而当一个 panic 出现的时候，如果我们没有捕获它，它的错误信息只会被打印到 stderr 中去，也就是标准错误输出。

所以，对于一些容器化部署的项目来说，特别是部署到 k8s 上的时候，会统一使用 std 作为日志捕获和处理的手段，无论是采用 sidecar 还是其他方式采集，将 std 的输出直接采集发送到日志系统，所有日志系统进行归档统一处理就一般没啥问题。而对于一些仅使用二进制或者是 docker 部署的情况，又或是没有采用日志采集 std 的时候就可能会出现了。

实验

这里我使用 zap 作为日志组件引入，如果你不熟悉可以直接忽略这部分的代码。然后快速实验一下，对于日志文件是否有 panic 记录。

package main

import (
    "fmt"
    rotatelogs "github.com/lestrrat-go/file-rotatelogs"
    "go.uber.org/zap"
    "go.uber.org/zap/zapcore"
    "os"
    "runtime"
    "syscall"
    "time"
)

func main() {
    logger := initLogger()
    logger.Debug("debug")
    logger.Info("info")
    logger.Warn("warn")
    logger.Error("error")

    go func() {
        panic("exit")
    }()

    time.Sleep(time.Second * 3)
}

func initLogger() *zap.Logger {
    errWriter, err := rotatelogs.New(
        "linkinstar_err_%Y-%m-%d.log",
    )
    if err != nil {
        panic(err)
    }

    consoleDebugging := zapcore.Lock(os.Stdout)
    consoleEncoderConfig := zap.NewDevelopmentEncoderConfig()
    consoleEncoderConfig.EncodeTime = zapcore.ISO8601TimeEncoder
    consoleEncoderConfig.EncodeLevel = zapcore.CapitalColorLevelEncoder
    consoleEncoder := zapcore.NewConsoleEncoder(consoleEncoderConfig)
    consoleCore := zapcore.NewCore(consoleEncoder, consoleDebugging, zapcore.DebugLevel)

    errorCore := zapcore.AddSync(errWriter)
    fileEncodeConfig := zap.NewProductionEncoderConfig()
    fileEncodeConfig.EncodeTime = zapcore.ISO8601TimeEncoder
    fileEncoder := zapcore.NewConsoleEncoder(fileEncodeConfig)
    lowPriority := zap.LevelEnablerFunc(func(lvl zapcore.Level) bool {
        return lvl >= zapcore.DebugLevel
    })

    core := zapcore.NewTee(consoleCore, zapcore.NewCore(fileEncoder, errorCore, lowPriority))
    caller := zap.AddCaller()
    logger := zap.New(core, caller, zap.Development())
    zap.ReplaceGlobals(logger)
    return logger
}

可以看到日志文件里面输出的是：

2024-12-10T15:56:15.505+0800debugmain.go:15debug
2024-12-10T15:56:15.506+0800infomain.go:16info
2024-12-10T15:56:15.506+0800warnmain.go:17warn
2024-12-10T15:56:15.506+0800errormain.go:18error

并没有 panic 日志。而在实际项目中，如果有第三方的依赖意外导致了 panic 那么就很有可能是这样的情况，容器重启，但没有任何现场日志保留。

解决方案

说起来很简单，也是网上来的方案，非常行之有效，就是将 stderr 重写到你需要的文件里面。即下面的 RewriteStderrFile

package main

import (
    "fmt"
    rotatelogs "github.com/lestrrat-go/file-rotatelogs"
    "go.uber.org/zap"
    "go.uber.org/zap/zapcore"
    "log"
    "os"
    "runtime"
    "syscall"
    "time"
)

func main() {
    RewriteStderrFile("linkinstar_panic.log")

    logger := initLogger()
    logger.Debug("debug")
    logger.Info("info")
    logger.Warn("warn")
    logger.Error("error")

    log.Println("print to std")
    fmt.Fprintf(os.Stderr, "print to stderr\n")

    go func() {
        panic("exit")
    }()

    time.Sleep(time.Second * 3)
}

func initLogger() *zap.Logger {
    errWriter, err := rotatelogs.New(
        "linkinstar_err_%Y-%m-%d.log",
    )
    if err != nil {
        panic(err)
    }

    consoleDebugging := zapcore.Lock(os.Stdout)
    consoleEncoderConfig := zap.NewDevelopmentEncoderConfig()
    consoleEncoderConfig.EncodeTime = zapcore.ISO8601TimeEncoder
    consoleEncoderConfig.EncodeLevel = zapcore.CapitalColorLevelEncoder
    consoleEncoder := zapcore.NewConsoleEncoder(consoleEncoderConfig)
    consoleCore := zapcore.NewCore(consoleEncoder, consoleDebugging, zapcore.DebugLevel)

    errorCore := zapcore.AddSync(errWriter)
    fileEncodeConfig := zap.NewProductionEncoderConfig()
    fileEncodeConfig.EncodeTime = zapcore.ISO8601TimeEncoder
    fileEncoder := zapcore.NewConsoleEncoder(fileEncodeConfig)
    lowPriority := zap.LevelEnablerFunc(func(lvl zapcore.Level) bool {
        return lvl >= zapcore.DebugLevel
    })

    core := zapcore.NewTee(consoleCore, zapcore.NewCore(fileEncoder, errorCore, lowPriority))
    caller := zap.AddCaller()
    logger := zap.New(core, caller, zap.Development())
    zap.ReplaceGlobals(logger)
    return logger
}

// 从此处开始为解决方案
var stdErrFileHandler *os.File

func RewriteStderrFile(panicFilePath string) error {
    if runtime.GOOS == "windows" {
        return nil
    }

    file, err := os.OpenFile(panicFilePath, os.O_RDWR|os.O_CREATE|os.O_APPEND, 0666)
    if err != nil {
        fmt.Println(err)
        return err
    }
    stdErrFileHandler = file
    if err = syscall.Dup2(int(file.Fd()), int(os.Stderr.Fd())); err != nil {
        fmt.Println(err)
        return err
    }
    runtime.SetFinalizer(stdErrFileHandler, func(fd *os.File) {
        fd.Close()
    })
    return nil
}

这样我们就会额外得到一个 panic.log

2024/12/10 16:01:03 print to std
print to stderr
panic: exit

goroutine 35 [running]:
main.main.func1()
xxx/main.go:28 +0x2c
created by main.main in goroutine 1
xxx/main.go:27 +0x138

方案本质是利用 syscall.Dup2 方法重定向输出。注意 Windows 上没有这个方法，文末链接中有解决方案，我手边暂时没有设备可测。

其他提醒

以上的解决方案是一个保底，在一些无法预知情况下帮你兜底。而实际中的最佳实践中你依旧需要保证，在可能出现 panic 的位置提前主动 recover 进行处理。

参考链接

https://stackoverflow.com/questions/34772012/capturing-panic-in-golang 这里也提到了 Windows 平台下的解决方案
https://juejin.cn/post/6872582459205582862

Golang 下载文件时重命名

2024-11-29T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

通常用户上传文件之后会进行重命名(随机)，而下载的时候如果还是使用重命名的话对用户来说保存下来不够友好，所以在下载的时候我们通常会对于名字再次做重命名，方便用户下载之后进行分类和使用。

前端实现

当然如果使用 a 标签实现，我们可以非常快速的通过 download 属性来实现，主流的浏览器也支持了这个属性。

1	<a href="link/to/your/download/file" download="filename">Download linka>

后端实现

其实通过后端来实现也非常简单，以 gin 框架举例，可以直接使用 FileAttachment 方法。

r.GET("/download", func(c *gin.Context) {
// ...
c.FileAttachment(fileLocalPath, originalFilename)
})

其中 fileLocalPath 是文件本地目录，而 originalFilename 则是下载时要指定的文件名字。

当然不使用 FileAttachment 方法也可以，通过指定 Content-Disposition header 实现的

func (c *Context) FileAttachment(filepath, filename string) {
if isASCII(filename) {
c.Writer.Header().Set("Content-Disposition", `attachment; filename="`+escapeQuotes(filename)+`"`)
} else {
c.Writer.Header().Set("Content-Disposition", `attachment; filename*=UTF-8''`+url.QueryEscape(filename))
}
http.ServeFile(c.Writer, c.Request, filepath)
}

然后指定 attachment; filename*=UTF-8'' + 文件名称就可以了

Golang gin 返回 XML 的小坑点

2024-11-19T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

现在绝大多数系统已经都使用 json 格式来返回和传输数据。但实际中还是有一些客户需要返回 XML 数据做处理，而在这不服处理过程中最近遇到了两个小问题：

如何返回 xml 协议头？
如何返回小写的节点？

如果我们像 JSON 格式一样使用 ctx.XML 方法直接返回数据的话就会遇到这样的问题。所以具体使用场景中没有像 JSON 一样那么容易直接使用 ctx.JSON 就可以完成，还需要做一些额外的处理。

如何返回协议头

第一个问题比较简单，就是返回的 xml 通常会有一个 header ，可能像下面这样

1	"1.0" encoding="UTF-8"?>

但其实默认直接返回是没有的，于是就需要主动去写一次，解决方式也非常简单

import (
    "encoding/xml"
)

func Controller(ctx *gin.Context) {
    // ...
    ctx.Writer.Write([]byte(xml.Header))
    // ...
}

xml 库中默认就呀这个 header，所以直接用就可以了。

如何返回小写的节点？

package main

import (
    "net/http"


    "github.com/gin-gonic/gin"
)

type Resp struct {
    Code    string   `xml:"code"`
    Data    string   `xml:"data"`
}

func main() {
    r := gin.New()
    r.GET("/hello", func(ctx *gin.Context) {
    resp := &Resp{
    Data: "aaa",
    Code: "bbb",
    }
    ctx.XML(http.StatusOK, resp)
    })

    err := r.Run(":8080")
    if err != nil {
    panic(err)
    }
}

如果按照上述代码编写返回的时候数据就是

1 2	curl http://127.0.0.1:8080/hello `bbb`aaa

可以看到最外层返回的节点是 struct 的名称，而通常这不是我们想要的，我们需要指定最外层的 root 节点的名称。

经过踩坑，发现在 golang 中，可以在通过 xml.Name 来实现。

package main

import (
    "net/http"

    "encoding/xml"

    "github.com/gin-gonic/gin"
)

type Resp struct {
    XMLName xml.Name `xml:"root"`
    Code    string   `xml:"code"`
    Data    string   `xml:"data"`
}

func main() {
    r := gin.New()
    r.GET("/hello", func(ctx *gin.Context) {
        resp := &Resp{
            Data: "aaa",
            Code: "bbb",
        }
        ctx.XML(http.StatusOK, resp)
    })

    err := r.Run(":8080")
    if err != nil {
        panic(err)
    }
}

加上之后，返回的内容就会变成

1 2	curl http://127.0.0.1:8080/hello `bbb`aaa

Golang 快速接入两步验证 2FA

2024-11-09T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

自从 GitHub 开启强制 2FA 之后，如今很多应用紧跟着接入了这个功能，两步验证，是当用户在输入密码之后，还需要输入一个一次性的验证码来进行额外的第二次验证。相比于国外环境，国内更喜欢也更普遍的是短信验证码，动不动就发一条短信。而 2FA 的强大在于是可以离线完成的，那么如何接入这个功能呢？其实了解过程和原理之后，实现是非常简单的。

快速体验

先二话不说，先体验一下最终实现的效果，利用 github.com/xlzd/gotp 我们可以非常容易的实现整个过程。

准备一个 APP

首先你需要准备一个 2FA 的 APP，如：Google Authenticator, 1Password, Authy, Microsoft Authenticator 都可以

运行并验证

package main

import (
"bufio"
"fmt"
"os"
"time"

"github.com/skip2/go-qrcode"
"github.com/xlzd/gotp"
)

func main() {
// 生成一个随机的密钥
randomSecret := gotp.RandomSecret(16)
randomSecret = "ENRVL5I4WPXURPIJRC7XZAI7U4" // 此处为了测试方便固定密钥

// 生成二维码，此处需要提供用户名称和机构名称
uri := gotp.NewDefaultTOTP(randomSecret).ProvisioningUri("user@linkinstars.com", "LinkinStar")
fmt.Println(uri)
qrcode.WriteFile(uri, qrcode.Medium, 256, "qr.png")

fmt.Print("扫描二维码后，请输入 APP 上的验证码：")
scanner := bufio.NewScanner(os.Stdin)
scanner.Scan()
userInput := scanner.Text()

if gotp.NewDefaultTOTP(randomSecret).Verify(userInput, time.Now().Unix()) {
fmt.Println("验证成功")
} else {
fmt.Println("验证失败")
}
}

运行上面的代码后会生成一个 qr.png 的二维码图片，用 APP 扫码后，输入验证码，验证通过即成功 ✌️

1
2
3

otpauth://totp/LinkinStar:user@linkinstars.com?issuer=LinkinStar&secret=ENRVL5I4WPXURPIJRC7XZAI7U4
扫描二维码后，请输入 APP 上的验证码：221456
验证成功

实际使用

准备参数

用户的唯一标识 email，通常可以是邮箱
机构名称 appName，也就是分发这个 2FA 的应用厂商，通常是你应用的名称
一个随机密钥 secret，可以使用 gotp.RandomSecret(16) 生成，每个用户一个，注意存储

过程

用户初次绑定，使用上述三个参数生成一个 URI。

1	uri := gotp.NewDefaultTOTP(secret).ProvisioningUri(email, appName)

内容大致为：otpauth://totp/LinkinStar:user@linkinstars.com?issuer=LinkinStar&secret=ENRVL5I4WPXURPIJRC7XZAI7U4

然后用这个 URI 生成一个二维码，供用户扫码绑定并输入验证码进行验证。

注意，此处的二维码仅仅展示一次，一旦验证通过，如不必要不进行展示，再次展示也需要做验证

最后验证是否正确即可

1	gotp.NewDefaultTOTP(randomSecret).Verify(userInput, time.Now().Unix())

之后用户每次登录，需要验证 2FA 时，仅仅输入验证码，然后进行验证即可

简述原理

其本质是利用了 TOTP，全称为”基于时间的一次性密码”（Time-based One-time Password），已被纳入国际标准 RFC6238 中。

用户开启双因素认证后，服务器生成一个密钥。
服务器要求用户扫描二维码或以其他方式将密钥保存到用户的手机，确保服务器和用户手机拥有相同的密钥。
用户登录时，手机客户端基于该密钥和当前时间戳生成一个哈希，该哈希在 30 秒内有效。用户需在有效期内将哈希提交给服务器。注意，密钥与用户手机绑定，更换手机时需要生成新密钥。
服务器也使用密钥和当前时间戳生成一个哈希，与用户提交的哈希进行比对。只有在两者一致时，用户才能成功登录。

RFC6238 规定了以下实现细节：

生成任意字节的密钥 K，并与客户端安全地共享。
基于 T0 协商后，Unix 时间从时间间隔（TI）开始计算时间步骤，TI 用于计算计数器 C（默认情况下，TI 的值为 T0 和 30 秒）。
协商加密哈希算法（默认为 SHA-1）。
协商密码长度（默认为 6 位）。

所以原理其实说起来也简单，就是通过时间和密钥做了 hash，并且以 30 秒为界限。故最重要的一点就是需要保证服务器时间和客户端时间是一致(几乎)的。当然，绝大多数情况下是一致的。

最后注意点

最好需要设计一个恢复码，因为开启 2FA 之后没有手机在旁边的时候是无法使用的，万一手机因为意外丢失，则永远无法登录使用了。那么恢复码可以临时让我们使用并进入应用从而避免意外。其主要的作用是为了以防万一和将责任推给用户。

使用 Rust 快速体验 eBPF

2024-10-31T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

可能你听过 eBPF 这个听上去非常高大上的技术，但实际并没有使用过。今天让我们来用 rust 快速体验一下 eBPF 的能力。

之所以使用 Rust 是因为 aya 框架确实很容易上手，当然如果使用 golang 也有 https://github.com/cilium/ebpf 的帮助也非常容易的。

因为只是体验，你可以几乎没有语言本身的使用经验，就能直接运行并感受到 eBPF 的能力。当然整体几乎也不需要写代码。

环境准备

开发环境，如果直接在 Linux 环境上开发自然最好，博主使用的是 M 系列的 MacOS 环境，然后交叉编译到 Linux 上运行
运行环境，当然你需要一个 Linux 环境能运行，并且内核版本要足够，前提就是需要支持 eBPF 和 XDP 才可以

前置知识点

由于只是体验，我也不过多深入其中的原理和内容，就简单快速让你了解什么是 eBPF 和 XDP。详细原理可参考各种文档。

eBPF

在不更改内核源代码的情况下，向操作系统添加额外的功能

简单的来说就是通过一些钩子在运行一些调用方法的前后添加一些处理逻辑，以便实现一些功能。有点像 Java 的 AOP，又或者是像一种插件机制，总之我称为是一种动态扩展的能力。强大的地方在于，他是建立在内核上的，也就是说，它获取的都是最原始的信息，拿到了几乎无所不能（因为在系统底层，通常越底层能做的就越多也越复杂）。而还有一个强大的点是无侵入、或者说透明，因为对上层的系统来说是无感知的。

上图就很清楚的描述了他的作用。

XDP

我们知道了 eBPF 其实 XDP 就很容易理解，XDP 就是其中一种钩子，专门用来在网络数据包到达网卡驱动层时对其进行处理。XDP 全称是 eXpress Data Path，XDP 能够在数据包到达内核网络栈之前拦截并处理它们。关键就是快，网络包实在是太多了，所以性能非常的重要。

安装开发环境依赖

话不多说，我们赶紧实际上手感受一下吧。首先是我们今天最困难的一个步骤，安装环境。由于环境各种各异，所以遇到的问题也各种各样，对于第一次上手的同学来说这或许就是最困难的一步了。

文档参考：https://aya-rs.dev/book/start/development/

安装 rust 环境

1 2	$ rustup install stable $ rustup toolchain install nightly --component rust-src

安装 bpf-linker

如果是 x86 的 linux 可以直接装

1	$ cargo install bpf-linker

由于我是 macOS 环境，使用下面的命令先安装 llvm 再进行安装

1 2	$ brew install llvm $ LLVM_SYS_180_PREFIX=$(brew --prefix llvm) cargo install --no-default-features bpf-linker

注意此处可能会出现各种问题，由于之前的环境会有影响，总是就是如果有提示报错，不要由于一定是少了什么，直接安装提示安装对应没有的命令和依赖就可以了。

安装 cargo-generate

1	$ cargo install cargo-generate

至此基本环境到位，后面还需安装一些交叉编译所需的工具。

构建第一个 eBPF 程序

我们使用官方推荐的例子程序直接使用模板进行构建，构建一个 xdp 的 eBPF 程序，用于监听网络包，这也是我们非常用的一个使用场景了

1	$ cargo generate --name myapp -d program_type=xdp https://github.com/aya-rs/aya-template

执行这个命令就会按照模板创建以嗯 myapp 的 eBPF 应用程序，然后安装一些交叉编译所需的工具

1	$ brew install filosottile/musl-cross/musl-cross

然后以目标设备 x86 举例

1 2	$ export ARCH=x86_64 $ rustup target add ${ARCH}-unknown-linux-musl

这一部分在生成的 README 中有，如果不清楚可以直接查看。

编译并运行调试

最后二话不说，直接编译

$ export ARCH=x86_64
$ CC=${ARCH}-linux-musl-gcc cargo build --package myapp --release \
  --target=${ARCH}-unknown-linux-musl \
  --config=target.${ARCH}-unknown-linux-musl.linker=\"${ARCH}-linux-musl-gcc\"

如果没问题，就会在 myapp/target/x86_64-unknown-linux-musl/release 文件夹下生成一个 myapp 的文件就成功了，然后 scp 到目标 Linux 设备上进行调试。

1	$ RUST_LOG=info ./myapp --iface lo

这里一定注意需要先指定 LOG 等级，以便能看到日志输出，然后 --iface lo 是指监听本地的回环网卡默认不写是 eth0，这里我们测试所以写 lo 其实也就是我常说的 127.0.0.1 啦，新开一个窗口 ping 测试

1	$ ping -c 1 127.0.0.1

然后你就能看到输出的日志 received a packet 了

RUST_LOG=info ./myapp --iface lo
Waiting for Ctrl-C...
[INFO  myapp] received a packet
[INFO  myapp] received a packet

输出这个代表了什么意思呢？其实就相当于已经拿到了我们网络包了。

尝试修改

大致浏览代码结构，囫囵吞枣就可以，反正第一次看也看不明白(手动狗头)。首先我们直接搜代码 received a packet 。

在 myapp/myapp-ebpf/src/main.rs 文件中你可以看到如下代码：

#[xdp]
pub fn myapp(ctx: XdpContext) -> u32 {
    match try_myapp(ctx) {
        Ok(ret) => ret,
        Err(_) => xdp_action::XDP_ABORTED,
    }
}

fn try_myapp(ctx: XdpContext) -> Result<u32, u32> {
    info!(&ctx, "received a packet");
    Ok(xdp_action::XDP_PASS)
}

很显然，myapp 直接去调用了 try_myapp 而 try_myapp 输出了日志，也就是拿到了网络包，可想而知在这个方法里面就能拿到网络包的相关数据了。也就是入参 XdpContext。那我们稍作修改，简单解析一下试试看。

首先解释一下 myapp 其实就是看 try_myapp 返回的是什么，如果是返回了错误，那么直接就 ABORTED 了这个包，也就是直接将这个包给扔掉了。其他情况就是返回什么就是什么。

解析 XdpContext

考验你计算机网络基础知识是否扎实的挑战来了，还好我之前写过回首网络知识之 TCP 协议，里面有报文格式的图片可以供你回忆

其实 ip 报文最关键的信息就前面，所以我们就尝试修改拿到一下源 ip + 端口这个信息

use network_types::{
    eth::{EthHdr, EtherType},
    ip::{IpProto, Ipv4Hdr},
    tcp::TcpHdr,
    udp::UdpHdr,
};

#[xdp]
pub fn myapp(ctx: XdpContext) -> u32 {
    match try_myapp(ctx) {
        Ok(ret) => ret,
        Err(_) => xdp_action::XDP_ABORTED,
    }
}

fn try_myapp(ctx: XdpContext) -> Result<u32, ()> {
    info!(&ctx, "received a packet");

    // 获取以太网报文头部
    let ethhdr: *const EthHdr = ptr_at(&ctx, 0)?;
    // 如果不是IPv4报文，直接放行
    match unsafe { (*ethhdr).ether_type } {
        EtherType::Ipv4 => {}
        _ => return Ok(xdp_action::XDP_PASS),
    }

    // 获取IPv4报文头部
    let ipv4hdr: *const Ipv4Hdr = ptr_at(&ctx, EthHdr::LEN)?;

    // 获取源IP地址
    let source_addr = u32::from_be(unsafe { (*ipv4hdr).src_addr });
    // 获取源端口
    let source_port = match unsafe { (*ipv4hdr).proto } {
        IpProto::Tcp => {
            let tcphdr: *const TcpHdr = ptr_at(&ctx, EthHdr::LEN + Ipv4Hdr::LEN)?;
            u16::from_be(unsafe { (*tcphdr).source })
        }
        IpProto::Udp => {
            let udphdr: *const UdpHdr = ptr_at(&ctx, EthHdr::LEN + Ipv4Hdr::LEN)?;
            u16::from_be(unsafe { (*udphdr).source })
        }
        // ICMP报文打印日志并直接丢弃
        IpProto::Icmp => {
            info!(&ctx, "ICMP packet");
            return Err(());
        }
        _ => return Err(()),
    };

    info!(&ctx, "SRC IP: {:i}, SRC PORT: {}", source_addr, source_port);
    Ok(xdp_action::XDP_PASS)
}

#[inline(always)]
fn ptr_at(ctx: &XdpContext, offset: usize) -> Result<*const T, ()> {
    let start = ctx.data();
    let end = ctx.data_end();
    let len = mem::size_of::();

    if start + offset + len > end {
        return Err(());
    }

    Ok((start + offset) as *const T)
}

这里我们做了两件重要的事情：

解析报文并拿到源 IP 和端口
拒绝掉 ICMP 报文也就 ping 请求

这其实是我们最常用的两个基本场景，一个就是判断来源，一个就是拦截报文。你可以想到，如果你想要封禁一些 ip 的访问，你就可以直接在这里做判断，并拦截直接丢弃，太强了。

注意：其中由于用到了 network_types 需要 add 一下，在 myapp-ebpf ，目录下执行下 cargo add network-types，然后重新编译并运行试试看。

调试看看

$ RUST_LOG=info ./myapp --iface lo
Waiting for Ctrl-C...
[INFO  myapp] received a packet
[INFO  myapp] ICMP packet
[INFO  myapp] received a packet
[INFO  myapp] SRC IP: 127.0.0.1, SRC PORT: 41102
[INFO  myapp] received a packet
[INFO  myapp] SRC IP: 127.0.0.1, SRC PORT: 9090

$ ping -c 1 127.0.0.1
PING 127.0.0.1 (127.0.0.1) 56(84) bytes of data.

--- 127.0.0.1 ping statistics ---
1 packets transmitted, 0 received, 100% packet loss, time 0m

$ curl http://127.0.0.1:9090

可以看到使用 ping 的时候直接就丢包了，而使用 http 情况的时候拿到了源 ip+端口，非常棒棒。

总结

整体体验下来，你一定会认为我说的没错，除了一开始安装环境很麻烦，本身其实非常容易上手，由于整体框架已经很容易做开发了，简单的改改就能实现你的需求。通过这次你一定能快速体验 eBPF 究竟是什么样一个东西 XDP 到底厉害在哪里。有了这样的体验之后，我相信你再去深入学习会事半功倍。

有需要其他的 aya 使用案例可以直接参考官方的其他例子，也非常容易上手。https://github.com/aya-rs/book/tree/main/examples

《一起读 kubernetes 源码》Service 创建之后发生了什么？

2024-10-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

在了解了基础的 pod 再到常用的 deployment，我们对于应用常用的 k8s 中对象应该已经了一个比较清晰的认识。对内没有问题之后，让我们来看看对外。要想让你部署的服务能被外部访问到，那么离不开的就是 service，也是我们最常见到的第一个有关与外部访问的对象了。所以在这一章的第一节我们先来看看 Service 是如何实现的。

在看源码之前问自己一个问题，为什么需要 service 呢？其实能想到的重要原因有两个：一个是默认情况下，容器没办法直接被外部访问到，就像我们使用 docker 一样，如果不绑定宿主机的端口是没办法为外部服务的；另一个就是负载均衡，因为我们的 pod 常常是有多个的，并且关键的是 pod 还会可能分在不同的机器上，如果没有一个合理的策略去将外部的流量转到对应的服务上就如同没有了导航方向标。

前置知识

Service 的基本使用
Service 的类型

心路历程

这里看源码很容易被陷入进去，由于 Service 功能并没有那么的直接涉及的细节和点(技术方案)很多，如果直接搜索，然后看名字然后一个个看下来容易迷茫并且很难串起来。让我们回到第一章第一节看源码的时候，重新出发。抛开所有我们暂时不关心的地方，仅仅看主线，所以我们应该关注什么呢？从类型来看 ClusterIP、NodePort、LoadBalancer 这几种，ClusterIP 是用来内部访问的，NodePort 将绑定每个节点的一个端口来访问。我觉得这两个应该是我们最先接触 k8s 用到的，一个用于服务与服务之间的访问，一个用于外部访问做测试，内网或者本地测试经常用到。

而我们先不聚焦使用，或者说原理，第一节我们就最基本的看下 Service 这个对象是如何被创建的，创建了之后做了什么。有经验的同学可能了解并知道 kube-proxy 以及 iptables、ipvs 等等，那么 service 的创建之后会对他们有什么影响吗？

这下其实就变得非常简单的，只要找到 Service 对象和创建、控制的过程就可以了。没错，这一节我们就仅仅看这么多，所以特别简单不用担心。

码前提问

Service 创建之后做了些什么？

源码分析

数据结构

看源码的方式还是一样的，首先我们最容易的也是最熟悉的是 Service 的数据结构，也就是我们常常看到的 yaml 文件

apiVersion: v1
kind: Service
spec:
  type: ClusterIP
  ports:
    - protocol: TCP
      port: 80
      targetPort: 80
  clusterIP: x.x.x.x

只要他是一个对象，那么在源码里面一定是一个 struct 的。

// staging/src/k8s.io/api/core/v1/types.go:5049
// vendor/k8s.io/api/core/v1/types.go:5049 （也是一样的）
type Service struct {
metav1.TypeMeta `json:",inline"`
metav1.ObjectMeta `json:"metadata,omitempty" protobuf:"bytes,1,opt,name=metadata"`
Spec ServiceSpec `json:"spec,omitempty" protobuf:"bytes,2,opt,name=spec"`
Status ServiceStatus `json:"status,omitempty" protobuf:"bytes,3,opt,name=status"`
}

// staging/src/k8s.io/api/core/v1/types.go:4743
type ServiceSpec struct {
Ports []ServicePort `json:"ports,omitempty" patchStrategy:"merge" patchMergeKey:"port" protobuf:"bytes,1,rep,name=ports"`
Selector map[string]string `json:"selector,omitempty" protobuf:"bytes,2,rep,name=selector"`
ClusterIP string `json:"clusterIP,omitempty" protobuf:"bytes,3,opt,name=clusterIP"`
ClusterIPs []string `json:"clusterIPs,omitempty" protobuf:"bytes,18,opt,name=clusterIPs"`
Type ServiceType `json:"type,omitempty" protobuf:"bytes,4,opt,name=type,casttype=ServiceType"`
//...
}

显然这个结构就是我们常常见到 yaml 的对应了

控制器

有了之前第二章的经验，我们知道，在 k8s 中往往对象的控制都是通过一个控制器(controller)去控制的，并且控制的方式也都是通过 Informer 的方式，Service 也不例外，不过它不太好找。之前我们看 Deployment 那我们去找 DeploymentController 对吧，但我们这次可没找到一个叫做 ServiceController 的东西。并且你搜 ServiceController 容易误区找到其他一个对象。而它其实称为 EndpointController ，我们可以通过 ServiceInformer 找到它。先来看看 NewEndpointController 也就是创建的过程。

// pkg/controller/endpoint/endpoints_controller.go:73
func NewEndpointController(podInformer coreinformers.PodInformer, serviceInformer coreinformers.ServiceInformer,
endpointsInformer coreinformers.EndpointsInformer, client clientset.Interface, endpointUpdatesBatchPeriod time.Duration) *Controller {
broadcaster := record.NewBroadcaster()
recorder := broadcaster.NewRecorder(scheme.Scheme, v1.EventSource{Component: "endpoint-controller"})

e := &Controller{
client:           client,
queue:            workqueue.NewNamedRateLimitingQueue(workqueue.DefaultControllerRateLimiter(), "endpoint"),
workerLoopPeriod: time.Second,
}

serviceInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc: e.onServiceUpdate,
UpdateFunc: func(old, cur interface{}) {
e.onServiceUpdate(cur)
},
DeleteFunc: e.onServiceDelete,
})
e.serviceLister = serviceInformer.Lister()
e.servicesSynced = serviceInformer.Informer().HasSynced

podInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc:    e.addPod,
UpdateFunc: e.updatePod,
DeleteFunc: e.deletePod,
})
e.podLister = podInformer.Lister()
e.podsSynced = podInformer.Informer().HasSynced

endpointsInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
DeleteFunc: e.onEndpointsDelete,
})
e.endpointsLister = endpointsInformer.Lister()
e.endpointsSynced = endpointsInformer.Informer().HasSynced

e.staleEndpointsTracker = newStaleEndpointsTracker()
e.triggerTimeTracker = endpointsliceutil.NewTriggerTimeTracker()
e.eventBroadcaster = broadcaster
e.eventRecorder = recorder

e.endpointUpdatesBatchPeriod = endpointUpdatesBatchPeriod

return e
}

无须细看，这套路我们再熟悉不过了，和之前一样的模式，Informer、Event 我们关注的 Service 就在里面。

serviceInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
    AddFunc: e.onServiceUpdate,
    UpdateFunc: func(old, cur interface{}) {
        e.onServiceUpdate(cur)
    },
    DeleteFunc: e.onServiceDelete,
})
e.serviceLister = serviceInformer.Lister()
e.servicesSynced = serviceInformer.Informer().HasSynced

在 onServiceUpdate 里面就只是简单入队而已，然后依旧和之前一样，还是看它的 Run 方法，然后通过启动多个 worker 执行 worker 方法就

// pkg/controller/endpoint/endpoints_controller.go:166
func (e *Controller) Run(ctx context.Context, workers int) {
defer utilruntime.HandleCrash()

// Start events processing pipeline.
e.eventBroadcaster.StartStructuredLogging(0)
e.eventBroadcaster.StartRecordingToSink(&v1core.EventSinkImpl{Interface: e.client.CoreV1().Events("")})
defer e.eventBroadcaster.Shutdown()

defer e.queue.ShutDown()

logger := klog.FromContext(ctx)
logger.Info("Starting endpoint controller")
defer logger.Info("Shutting down endpoint controller")

if !cache.WaitForNamedCacheSync("endpoint", ctx.Done(), e.podsSynced, e.servicesSynced, e.endpointsSynced) {
return
}

for i := 0; i < workers; i++ {
go wait.UntilWithContext(ctx, e.worker, e.workerLoopPeriod)
}

go func() {
defer utilruntime.HandleCrash()
e.checkLeftoverEndpoints()
}()

<-ctx.Done()
}

然后 worker -> processNextWorkItem -> syncService 最终在里面处理。

syncService

这个方法很长对吧？200+ 行，但其实本身并不复杂。本质就做了两件大事。我精简了部分之后，大体看上去是这样的。

// pkg/controller/endpoint/endpoints_controller.go:358
func (e *Controller) syncService(ctx context.Context, key string) error {
namespace, name, err := cache.SplitMetaNamespaceKey(key)

service, err := e.serviceLister.Services(namespace).Get(name)

pods, err := e.podLister.Pods(service.Namespace).List(labels.Set(service.Spec.Selector).AsSelectorPreValidated())

subsets := []v1.EndpointSubset{}
var totalReadyEps int
var totalNotReadyEps int

for _, pod := range pods {
ep, err := podToEndpointAddressForService(service, pod)

// Allow headless service not to have ports.
if len(service.Spec.Ports) == 0 {
if service.Spec.ClusterIP == api.ClusterIPNone {
subsets, totalReadyEps, totalNotReadyEps = addEndpointSubset(logger, subsets, pod, epa, nil, service.Spec.PublishNotReadyAddresses)
// No need to repack subsets for headless service without ports.
}
} else {
for i := range service.Spec.Ports {
servicePort := &service.Spec.Ports[i]
portNum, err := podutil.FindPort(pod, servicePort)
if err != nil {
logger.V(4).Info("Failed to find port for service", "service", klog.KObj(service), "error", err)
continue
}
epp := endpointPortFromServicePort(servicePort, portNum)

var readyEps, notReadyEps int
subsets, readyEps, notReadyEps = addEndpointSubset(logger, subsets, pod, epa, epp, service.Spec.PublishNotReadyAddresses)
totalReadyEps = totalReadyEps + readyEps
totalNotReadyEps = totalNotReadyEps + notReadyEps
}
}
}
subsets = endpoints.RepackSubsets(subsets)

// See if there's actually an update here.
currentEndpoints, err := e.endpointsLister.Endpoints(service.Namespace).Get(service.Name)

createEndpoints := len(currentEndpoints.ResourceVersion) == 0
compareLabels := currentEndpoints.Labels
if _, ok := currentEndpoints.Labels[v1.IsHeadlessService]; ok {
compareLabels = utillabels.CloneAndRemoveLabel(currentEndpoints.Labels, v1.IsHeadlessService)
}
// When comparing the subsets, we ignore the difference in ResourceVersion of Pod to avoid unnecessary Endpoints
// updates caused by Pod updates that we don't care, e.g. annotation update.
if !createEndpoints &&
endpointSubsetsEqualIgnoreResourceVersion(currentEndpoints.Subsets, subsets) &&
apiequality.Semantic.DeepEqual(compareLabels, service.Labels) &&
capacityAnnotationSetCorrectly(currentEndpoints.Annotations, currentEndpoints.Subsets) {
logger.V(5).Info("endpoints are equal, skipping update", "service", klog.KObj(service))
return nil
}
newEndpoints := currentEndpoints.DeepCopy()
newEndpoints.Subsets = subsets
newEndpoints.Labels = service.Labels


logger.V(4).Info("Update endpoints", "service", klog.KObj(service), "readyEndpoints", totalReadyEps, "notreadyEndpoints", totalNotReadyEps)
var updatedEndpoints *v1.Endpoints
if createEndpoints {
// No previous endpoints, create them
_, err = e.client.CoreV1().Endpoints(service.Namespace).Create(ctx, newEndpoints, metav1.CreateOptions{})
} else {
// Pre-existing
updatedEndpoints, err = e.client.CoreV1().Endpoints(service.Namespace).Update(ctx, newEndpoints, metav1.UpdateOptions{})
}

return nil
}

第一件事情很简单，Service 最关键的东西是什么？port 其实就是端口，因为除了 ip 和端口，你在 Service 里面也很少配置其他东西了不是吗… 所以其实看到的第一件事情也很简单，就是遍历所有的 service 将其中有 Ports 的情况搬出来为后面准备。因为对于 ClusterIP 来说，内部访问，那么知道 ip + 端口才能行。也就是前半部 for _, pod := range pods { 里面的事情。

然后第二件事情是在 // See if there's actually an update here. 这句话开始的时候（注释已经说的很明显了）去根据上面查询出来的情况对比新旧情况，去配置对应的 Endpoints ，当然这也是为什么它称为 endpoints_controller 的原因。最终如果需要创建 createEndpoints 则创建，如果需要更新 updatedEndpoints 更新。

好了，这个时候有同学就要问题 Endpoint 是啥呀，我怎么从来没听过呢？其实它也是 k8s 里面一个对象，只是由于我们不需要直接接触和配置它，通常使用的时候接触不到。你可以通过

1	kubectl get endpoints --all-namespaces

这样的命令看到，这不就是我们内部访问的 ip 和端口吗？

kube-system                    kube-controller-manager-svc               10.0.10.205:10257                                                   2y111d
kube-system                    kube-dns                                  172.16.0.183:53,172.16.0.191:53,172.16.0.183:53 + 3 more...         2y118d
kube-system                    kube-scheduler-svc                        10.0.10.205:10259                                                   2y111d
kube-system                    kubelet                                   10.0.10.207:10250,10.0.10.209:10250,10.0.10.205:10250 + 6 more...   2y111d
kube-system                    metrics-server                            10.0.10.207:4443                                                    2y111d

也就是说，其实 service 只要正常的配置，正常的更新就可以了，而在 EndpointController 里面会根据这部分更新来更新 Endpoints ，从而配置好内部的访问情况。这也为什么我让你看了 EndpointController 的原因。这也是为什么我说整体比较简单的原因，因为其实本质上没有复杂的业务逻辑和调度切换关系。只有配置的更新。

码后解答

Service 创建之后做了些什么？
1. 从 Endpoint 角度来说，Service 的更新就直接影响了 Endpoint 的配置，根据不同的配置端口信息有了不同的配置

总结提升

编码上

这次在编码上有看到一个小细节，在 Run 的时候，使用了一个 defer utilruntime.HandleCrash()，别小看它，虽然只是对于一个 panic 的 recover 封装处理，但要记住，很多写法都会导致 panic 无法正确被捕获到哦。然后，内部默认有一个 PanicHandler，也可以自己传入 handler 去处理。最后判断 ReallyCrash 确认是否真的要崩溃。

func HandleCrash(additionalHandlers ...func(interface{})) {
if r := recover(); r != nil {
for _, fn := range PanicHandlers {
fn(r)
}
for _, fn := range additionalHandlers {
fn(r)
}
if ReallyCrash {
// Actually proceed to panic.
panic(r)
}
}
}

总之是一个很不错的 panic 的 recover 封装，可以直接拿来使用。

设计上

其实和其他设计一样，都是对象的改变引起了配置的改变。而每一个改变也都是通过 Informer 机制联系在一起的。其实这一节的关键是要告诉你，有 Endpoint 这个对象的存在，有了它，映射关系就有了，就能定位到一个对象应该如何被正确访问了。当然这一节我们只是定位到了配置上的变动，下面我们将从原理上看看流量到底是如何被转发的。

The little dict 一个非常好用的欧陆词典扩展

2024-10-09T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

最近发现一个很不错的欧陆词典扩展，叫做 The little dict，给出的解释的同时还有一些使用频率以及各种解释，非常适合英语学习者使用。忍不住分享一下。

下载地址

网上找的，你也可以自己找找看

https://pan.baidu.com/s/1OblabSK7M7jxGd_bSQaZzg#list/path=%2F

提取码：s5z8

安装

其实安装非常简单，下载之后解压，然后在管理-已安装词库的界面，将文件夹拖到里面即可。注意原始文件夹不要删掉。

预览

新手上路 Rust 的字符串

2024-09-24T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

相比与 Golang 或者是其他语言的字符串的设计 Rust 对于字符串的设计就要复杂不少，新手第一坑可能就容易掉进去，并且觉得很难用。不过其实掌握其中的几个基本概念，就会发现也就这么回事。今天我们来唠唠让人头疼的字符串。

两个问题

一般来说，很少有人第一个语言上手就是 rust ，当带着其他语言的影子来使用 rust 的时候势必会遇到下面两个问题。

问题 1: 直接写的不是字符串

如下面的代码，就会报错

fn main() {
    let s = "我是一个字符串";
    check(s);
}

fn check(s: String) {
    println!("不，{}，你不是个字符串!", s);
}

新手遇到的第一个问题就是直接写字符串 “xxx” ，发现不好用。

那么第一个误区就来了，”xxx” 这样的表示通常用字面量来称呼，而在 rust 里面，直接这样写，s 就是一个 &str 类型，可以理解为

1	let s: &str = "xxx";

至于 &str 是什么后面会说到。

问题 2: 不能索引

这个问题一开始我也痛苦了半天，不理解的时候特别难受。

1
2
3

fn check(s: String) {
    let a = s[1];
}

像别的语言，都可以通过下标来索引到字符串具体的位置上的字符，而 rust 不行，如上的代码就会报错。

其实原因说起来也简单，在其他语言，比如 Go，在做字符串切分的时候，比如取字符串长度前面为 8 的字串，那么 s[0:8] 对吧。但是如果内容是中文或其他语言，截取的长度就是不对的，由于每个字符所占用的字节是不一样的，utf8 编码下。所以在做字符串截取的时候，要特别处理。而由于我们常常截取都是英文，所以没出现问题，当然截取的本质就是索引下标。

而 Rust 到好，直接一刀切，压根就不能索引也就不存在截取的问题了。直接从语言层面就让你明白这个问题其实一直都在。

如何遍历

先解决一下你的疑虑，如果不能索引，那么字符串如何遍历呢？答案是 chars()

1
2
3

for c in "我是一个字符串".chars() {
    println!("{}", c);
}

是的，你只能通过这样的方式去做了

其实就两个东西

首先，rust 里面有很多其他类型的字符串，但最基础的情况下，你只需要认识两个东西就可以了，&str 和 String

&str 其本质就是切片的引用，切片在很多语言下也有，你可以简单把它理解成为视图的概念
String 而这才是真正我们常用的字符串，可以对它做删除、拼接等等操作

&str 可以转 String 通过 to_string() 方法就可以，也就是一开始的代码需要这样写。

fn main() {
    let s = "我是一个字符串";
    check(s.to_string());
}

fn check(s: String) {
    println!("不，{}，你不是个字符串!", s);
}

而 String 的使用更为常见，主要是声明：

1	let s = String::from("我是一个字符串");

这样才是一个 String 该有的样子，虽然我知道这样写很多人就会觉得，哇，好麻烦。

而字符串就很容易了，它就可以使用 push、replace 等等方法做操作了，指定注意的是，你需要关心它的方法是否操作了原来的字符串还是新返回了一个字符串。这个在 IDE 里面都是有提示的，问题不大。

弄清楚可变不可变

可，rust 为什么要这样设计呢？将一个原本简单的 “” 变得复杂？

答案其实在 mut ，当然不是这个关键字，而是可变不可变。当一个语言把 “让可以对象可变” 需要特别使用可以关键字 mut 的时候，你就知道它对可变不可变的关心有多么强烈。

字符串也是一样的。之所以 “xxx” 是 &str 类型，本质来说就是想让大家知道它不可变，由于 “xxx” 这样的声明往往都是以静态方式放在最终应用里面的，也就是说硬编码到了可执行文件里面去。而对于动态可变的 String 来说，rust 需要时刻关注它使用完成之后需要将内存释放掉。也就是对于这样可变不可变的关注，从而让原本 “xxx” 变得不太一样。

总结

在你看来 rust 很多奇怪的设计，往往都和 “为了去掉 GC” 相挂钩。除了这点，从字符串不能索引也可以看出，在语言层面 rust 想要限制很多它认为不对的事情。最后，依然要夸一下 rust 编译器的强大，当你字符串使用的过程中出现意外的时候，编译器往往提供了大量的信息，并且明确指出了出现错误的原因，我给你的建议是，慢慢看，其实它不是在说废话。

《一起读 kubernetes 源码》简单的 DaemonSet

2024-09-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

相比较于 deployment 和 StatefulSet，DaemonSet 是更简单的一个，也是最不常用的一个对象了。对于应用开发的同学来说可能几乎见不到它，而对于运维或者 SRE 的同学可能会熟悉一些。DaemonSet 用于确保集群中的每个节点运行有且仅有一个 pod 实例的场景。两个最常见的场景是：日志收集和监控。日志收集是为了收集每个节点上的日志，而监控则是为了监控每个节点的一些数据指标。通常来说以全局平台或者节点为场景的情况下才会想到它。那么 DaemonSet 的如何保证每个节点 pod 的数量呢？这一节让我从源码的角度看看它是如何实现的。

前置知识

DaemonSet 的基本使用

码前讨论

首先代码位置就不多说了，有前面的经验。

1	kubernetes/pkg/controller/daemon

由于前面我们已经看过了 deployment、rs、StatefulSet，那么其实对于 DaemonSet，我们也是一样几乎大致的形态结构都已经可以八九不离十了，而且它只有 daemon_controller.go 和 update.go 两个文件，就像我前面说的也它其实很简单，并且功能也不复杂。所以这次我们换一种方式来认识源码，放大之前提问的部分。我们在最开始第一节的时候就提到过，看源码之前提几个问题能帮助我们快速进入状态和定位关键。而对于熟悉的结构，我们更可以通过这样的方式来快速阅读源码，而非逐字逐句去做翻译。

码前提问

问题 1

我们知道 DaemonSet 确保集群中每个节点有且仅有一个 pod ，那么当节点数量变化的时候，它一定会随之改变，那么 DaemonSet 的 controller 是如何感知这个变化的呢？如果是你去编写，你会从何处入手？在看源码之前你可以先大胆假设一下。

问题 2

关键的问题在于 DaemonSet 是如何保证集群中每个节点有且仅有一个 pod 的呢？需要做哪些设置呢。同样的，再看源码之前，你可以先问问自己，不是 DaemonSet 的情况，如果是一个普通的 deployment 你能否做的让 pod 调度到每个节点一个？如果可以，那么 DaemonSet 或许就是类似的思路。

问题 3

为了保证 pod 的关系和数量，我会猜测 DaemonSet 可能需要存 node 和 pod 的对应关系，如果有，是存在了哪里？

你可以先不看下面的分析，自己去寻找这三个问题的答案，找到之后再回来核对，看看是否与你的想法一致。

源码分析

问题 1

DaemonSet 是如何感知节点的变化的？

第一个问题相对来说比较简单。由于我们之前看过的所有对象来说，无论是对象本身的变化，还是 pod 的变化都是通过 informer 机制来告诉 controller 的。所以 node 的变化也无意外，也是通过这样的事件机制来做的。

// pkg/controller/daemon/daemon_controller.go:134
// NewDaemonSetsController creates a new DaemonSetsController
func NewDaemonSetsController(
ctx context.Context,
daemonSetInformer appsinformers.DaemonSetInformer,
historyInformer appsinformers.ControllerRevisionInformer,
podInformer coreinformers.PodInformer,
nodeInformer coreinformers.NodeInformer,
kubeClient clientset.Interface,
failedPodsBackoff *flowcontrol.Backoff,
) (*DaemonSetsController, error) {
eventBroadcaster := record.NewBroadcaster()
// ...

nodeInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc: func(obj interface{}) {
dsc.addNode(logger, obj)
},
UpdateFunc: func(oldObj, newObj interface{}) {
dsc.updateNode(logger, oldObj, newObj)
},
},
)
dsc.nodeStoreSynced = nodeInformer.Informer().HasSynced
dsc.nodeLister = nodeInformer.Lister()

// ...

return dsc, nil
}

在 NewDaemonSetsController 方法中可以明确看到，通过 nodeInformer 添加了有关节点变化的 event 处理方法，当有对应事件的时候，也就是 node 有变化的时候我们就能知道，并做出相应的调整。

如果这部分你能在看源码之前猜测到，那我觉得对于 informer 整个机制应该是真的掌握了。

问题 2

DaemonSet 是如何保证集群中每个节点有且仅有一个 pod 的?

这个问题稍微复杂一些，考查了你对于 k8s 一些基础概念的了解。我特别也没有在前置知识里面提及是怕过早公布答案。首先，让我们来想一下后面一个小问题，也就是如何让 deployment 能均匀分布到各个节点上去。

如果想把某个 pod 直接调度到特定的节点上，我们可以直接在 spec 下配置 nodeName 来解决。

apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  nodeName: foo-node # 调度 Pod 到特定的节点

而对于整个对象 deployment 或者是 statefulset，那么答案是 亲和性 。比如官方就给出过对于 zk 的部署最佳实践中就提到，让 statefulset 的 pod 分布到不同的节点，以保证更好的高可用，不会因为所有 pod 都在一个节点，而这个节点挂了就一起挂了的情况。如下：https://kubernetes.io/zh-cn/docs/tutorials/stateful-application/zookeeper/#tolerating-node-failure

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
            - key: "app"
              operator: In
              values:
                - zk
        topologyKey: "kubernetes.io/hostname"

那么 DaemonSet 很大程度上会参考这样的规则，让调度器能把 pod 按照我们的要求每个节点调度一个。

于是乎，我们可以在源码中寻找来印证我们的想法：

// pkg/controller/daemon/daemon_controller.go:993
// syncNodes deletes given pods and creates new daemon set pods on the given nodes
// returns slice with errors if any
func (dsc *DaemonSetsController) syncNodes(ctx context.Context, ds *apps.DaemonSet, podsToDelete, nodesNeedingDaemonPods []string, hash string) error {
// ...

batchSize := integer.IntMin(createDiff, controller.SlowStartInitialBatchSize)
for pos := 0; createDiff > pos; batchSize, pos = integer.IntMin(2*batchSize, createDiff-(pos+batchSize)), pos+batchSize {
errorCount := len(errCh)
createWait.Add(batchSize)
for i := pos; i < pos+batchSize; i++ {
go func(ix int) {
defer createWait.Done()

podTemplate := template.DeepCopy()
// The pod's NodeAffinity will be updated to make sure the Pod is bound
// to the target node by default scheduler. It is safe to do so because there
// should be no conflicting node affinity with the target node.
podTemplate.Spec.Affinity = util.ReplaceDaemonSetPodNodeNameNodeAffinity(
podTemplate.Spec.Affinity, nodesNeedingDaemonPods[ix])

err := dsc.podControl.CreatePods(ctx, ds.Namespace, podTemplate,
ds, metav1.NewControllerRef(ds, controllerKind))

// ...
}(i)
}
createWait.Wait()
// any skipped pods that we never attempted to start shouldn't be expected.
skippedPods := createDiff - (batchSize + pos)
// ...
}

// ...
}

我们可以看到在 syncNodes 方法中 dsc.podControl.CreatePods 之前，除了将原有的所有 template 属性 DeepCopy 了一份之外，单独处理了 Affinity （亲和性）并且处理的条件是什么呢？也就是 ReplaceDaemonSetPodNodeNameNodeAffinity 的第二个参数

1	func ReplaceDaemonSetPodNodeNameNodeAffinity(affinity v1.Affinity, nodename string) v1.Affinity {

nodename 破案了~ 所以，其实 DaemonSet 就是靠着来实现的，其他都是浮云，本质其实挺简单的。其实复杂的部分都给调度器了。

问题 3

为了保证 pod 的关系和数量，我会猜测 DaemonSet 可能需要存 node 和 pod 的对应关系，如果有，是存在了哪里？

这是一个很容易被疑惑和误导的问题，其实有了问题 2 做铺垫，这个问题也就能瞥见一点了。如果没有看过源码，你或许就可能会想，DaemonSet 应该存储了节点和 pod 的对应关系，方便在选择的时候选择合适的节点，并且当新来的时候可以确认当前没有 pod 的节点是哪一个。而事实并不是这样。DaemonSet 并不会保存这样的对应关系。有一个显然的理由是，在问题 2 中我们已经看到，pod 的调度完全是依靠调度器去完成的，控制器仅仅只是描述信息罢了，最终 pod 会调度到哪里其实并不归他管。

但是，DaemonSet 也必须要知道这个对应关系，没有这个关系，无论是后续更新还是本身的状态变化都需要依赖这个部分。于是乎，我们可以在 rollingUpdate 的时候发现它是如何操作的。

// pkg/controller/daemon/update.go:42
// rollingUpdate identifies the set of old pods to delete, or additional pods to create on nodes,
// remaining within the constraints imposed by the update strategy.
func (dsc *DaemonSetsController) rollingUpdate(ctx context.Context, ds *apps.DaemonSet, nodeList []*v1.Node, hash string) error {
logger := klog.FromContext(ctx)
nodeToDaemonPods, err := dsc.getNodesToDaemonPods(ctx, ds, false)
if err != nil {
return fmt.Errorf("couldn't get node to daemon pod mapping for daemon set %q: %v", ds.Name, err)
}
maxSurge, maxUnavailable, desiredNumberScheduled, err := dsc.updatedDesiredNodeCounts(ctx, ds, nodeList, nodeToDaemonPods)

rollingUpdate 方法显然是用于执行 DaemonSet 滚动更新的时候用的，也就是 pod 不断更新的过程。而这个方法本身是用来计算出需要更新哪些 pod ，哪一些要删，哪一些要新增。具体就不再展开。关键是这个部分

1	nodeToDaemonPods, err := dsc.getNodesToDaemonPods(ctx, ds, false)

getNodesToDaemonPods 返回了一个 map，nodeToDaemonPods，key 是 NodeName 而 value 则是对应的 pod 列表。内部的实现其实也非常简单。

// pkg/controller/daemon/daemon_controller.go:755
func (dsc *DaemonSetsController) getNodesToDaemonPods(ctx context.Context, ds *apps.DaemonSet, includeDeletedTerminal bool) (map[string][]*v1.Pod, error) {
claimedPods, err := dsc.getDaemonPods(ctx, ds)
if err != nil {
return nil, err
}
// Group Pods by Node name.
nodeToDaemonPods := make(map[string][]*v1.Pod)
logger := klog.FromContext(ctx)
for _, pod := range claimedPods {
if !includeDeletedTerminal && podutil.IsPodTerminal(pod) && pod.DeletionTimestamp != nil {
// This Pod has a finalizer or is already scheduled for deletion from the
// store by the kubelet or the Pod GC. The DS controller doesn't have
// anything else to do with it.
continue
}
nodeName, err := util.GetTargetNodeName(pod)
if err != nil {
logger.V(4).Info("Failed to get target node name of Pod in DaemonSet",
"pod", klog.KObj(pod), "daemonset", klog.KObj(ds))
continue
}

nodeToDaemonPods[nodeName] = append(nodeToDaemonPods[nodeName], pod)
}

return nodeToDaemonPods, nil
}

可以看到就是将 DaemonPods 拿出来，通过 GetTargetNodeName 拿到对应的 nodeName 然后分好就可以了。其中内部就是通过 dsc.podLister.Pods(ds.Namespace).List(labels.Everything()) 来完成的。总结一下，就是其实当时直接查出来的。

看到这里你也许会好奇为什么我会单独把这个部分拿出来看，而不是去看其他创建或者计算的过程。首先我会觉得其他的部分可以算是 “业务” 它有着自己的逻辑，按部就班，并且正确计算条件即可。而之所以看这部分是想强化一下我们对于控制循环的理解，我们在这个大章节最开始就提到了它。控制循环的本质是根据当前状态和期望状态不一致，从而触发改变，让目标状态最终能变成期望状态，而关键在于是 ”当前状态“，这个状态可能会由于整个集群任何操作变化的改变而变动，所以只有当下去看，才能知道目前的状态是什么样的，改变的因素太多了。

总结提升

这一节我们看了 DaemonPods 的源码部分，如果你已经可以自己在源码中寻找到前面提出问题的答案，那么我相信对于各种其他的对象你也可以轻车熟路了。并且看到这里，你应该就能感觉到，其实看源码本身并不难，找准目标一步步往下走就可以了，虽然代码量很多，但是设计绝大多数其实都是相通的，一个类型看一个，都能举一反三。相信你渐渐能有这样的体会。

编码上

最后，在编码上，我们可以总结一个小点。

func (dsc *DaemonSetsController) syncNodes(ctx context.Context, ds *apps.DaemonSet, podsToDelete, nodesNeedingDaemonPods []string, hash string) error {
// ...

errCh := make(chan error, createDiff+deleteDiff)
createWait := sync.WaitGroup{}
// ...
batchSize := integer.IntMin(createDiff, controller.SlowStartInitialBatchSize)
for pos := 0; createDiff > pos; batchSize, pos = integer.IntMin(2*batchSize, createDiff-(pos+batchSize)), pos+batchSize {
errorCount := len(errCh)
createWait.Add(batchSize)
for i := pos; i < pos+batchSize; i++ {
go func(ix int) {
defer createWait.Done()

// ...
if err != nil {
errCh <- err
}
}(i)
}
createWait.Wait()
// ...
}

// ...
errors := []error{}
close(errCh)
for err := range errCh {
errors = append(errors, err)
}
return utilerrors.NewAggregate(errors)
}

在我们前面看到的 syncNodes 方法中有一个非常标准的利用 WaitGroup 去并发处理任务并等待任务处理完毕，同时利用 chan error 将错误统一发送到 channel 最后一并处理合并的最佳实践。这一部分的编码我相信很多地方都是可以使用的，希望你也能学到。

OrbStack 配置国内镜像加速

2024-08-31T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

使用 docker 我们知道可以通过配置 /etc/docker/daemon.json 的 registry-mirrors 来实现，但是由于 docker 桌面版本在 macOS 上实在不好玩，还是 orbstack 好用，占用资源更少。那么使用 OrbStack 如何配置国内镜像加速器呢？其实很简单。

配置

创建并编辑 ~/.orbstack/config/docker.json

{
    "registry-mirrors": [
        "https://dockerproxy.com",
        "https://docker.mirrors.ustc.edu.cn",
        "https://docker.nju.edu.cn"
    ]
}

目前可用的镜像：https://gist.github.com/y0ngb1n/7e8f16af3242c7815e7ca2f0833d3ea6

验证

重启 orbstack，之后命令行执行 docker info，如果可以看到了 Registry Mirrors 里面有你的配置就对了

1 2	Registry Mirrors: https://dockerproxy.com

《一起读 kubernetes 源码》statefulset 的更新有何不同

2024-08-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

在前面我们已经看过了 deployment 和 replicaset 的实现，其实对于 k8s 中的对象已经有了一个基本的认识，其他的对象也都是在这个的基础之上有了不同的能力。而这一节我们来看看另一个常用的对象 statefulset。相对与 deployment 来说 statefulset 用的会更少，因为大部分应用都是无状态的，而有状态的数据类型的应用可能上 k8s 又少，要不就是接云厂商，要不就是独立部署。但是对于一些需要持久化配置或者数据的应用来说，配合 StorageClass 能让 StatefulSet 很好的帮助我们来部署这样类型的应用。

前置知识

statefulset 的基本使用
statefulset 的更新过程
statefulset 的 partition 的作用

心路历程

我们知道滚动更新的时候 statefulset 是一个一个的这里的实现与 deployment 有什么不一样的地方呢？这部分是今天的主角我们需要弄明白。而另一部分是有关于 persistentVolumeClaimRetentionPolicy 这个是 v1.27 beta 的特性，用于控制是否删除以及如何删除 PVC，除了看原本的源码，这次我希望给你看一些不一样的，比如在 k8s 里面，对于新特性是如何引入和做判断的。

码前提问

statefulset 滚动更新的实现与 deployment 有什么区别？
statefulset persistentVolumeClaimRetentionPolicy 是如何实现的

源码分析

寻码过程

这次我就不多说了，有了前面的经验，找到它易如反掌

1
2
3

kubernetes/pkg/controller/deployment
kubernetes/pkg/controller/replicaset
kubernetes/pkg/controller/statefulset

而这一次提供另一种看源码的思路，类比。由于我们已经比较了解 deployment 的整体实现了，所以大部分相同的地方我们可以直接跳过，我们主要去寻找不一样的地方。

结构和创建

// pkg/controller/statefulset/stateful_set.go:83
func NewStatefulSetController(
ctx context.Context,
podInformer coreinformers.PodInformer,
setInformer appsinformers.StatefulSetInformer,
pvcInformer coreinformers.PersistentVolumeClaimInformer,
revInformer appsinformers.ControllerRevisionInformer,
kubeClient clientset.Interface,
) *StatefulSetController {

具体结构和创建方法其实都不用贴，这里的入参就很能说明问题了。类比一下

没有 ReplicaSetInformer 证明 pod 已经不是通过 RS 去控制了，而是直接给到了 podInformer 然后交给 StatefulSetController 的 updatePod 相关方法
多了 PersistentVolumeClaimInformer 和 ControllerRevisionInformer 由于我们知道 PVC 是什么东西，由于有状态，大多数情况下会用到 PV 和 PVC 所以启动的时候势必需要等待他们完成

那接下来我们的思路就很明确了，我们需要去看 pod 更新的时候具体是如何操作的

更新

之前我们的路径还有印象对吧：Run -> worker -> processNextWorkItem -> syncHandler 。

类比着我们很快能找到在 statefulset 里面也是类似的：Run -> worker -> processNextWorkItem -> sync -> syncStatefulSet -> UpdateStatefulSet -> performUpdate -> updateStatefulSet。

而 updateStatefulSet 方法就是更新的关键了。

策略 UpdateStrategy

RollingUpdateStatefulSetStrategyType 是 statefulset 的更新策略，就两种，非常简单

RollingUpdate，默认就是这个，滚动更新，一个好了接一个
OnDelete，很简单，就是需要用户手动去删除才会更新

由于 OnDelete 很少用到，所以可能被忽略。不过为什么要先知道策略呢？这里就要可以利用另外一个源码的阅读技巧了，合理利用枚举参数。

利用固定的枚举参数，可以快速缩小源码的阅读内容，也可以快速定位目标

滚动更新

我们知道 OnDelete 是用户手动操作才会更新 pod ，那么源码里面必定需要判断这个状态，如果不是这个状态才会去操作 pod 主动去删除。 所以我们直接定位到 updateStatefulSet 的最后：

// pkg/controller/statefulset/stateful_set_control.go:658
// for the OnDelete strategy we short circuit. Pods will be updated when they are manually deleted.
if set.Spec.UpdateStrategy.Type == apps.OnDeleteStatefulSetStrategyType {
return &status, nil
}

// ...

// we compute the minimum ordinal of the target sequence for a destructive update based on the strategy.
updateMin := 0
if set.Spec.UpdateStrategy.RollingUpdate != nil {
updateMin = int(*set.Spec.UpdateStrategy.RollingUpdate.Partition)
}
// we terminate the Pod with the largest ordinal that does not match the update revision.
for target := len(replicas) - 1; target >= updateMin; target-- {

// delete the Pod if it is not already terminating and does not match the update revision.
if getPodRevision(replicas[target]) != updateRevision.Name && !isTerminating(replicas[target]) {
logger.V(2).Info("Pod of StatefulSet is terminating for update",
"statefulSet", klog.KObj(set), "pod", klog.KObj(replicas[target]))
if err := ssc.podControl.DeleteStatefulPod(set, replicas[target]); err != nil {
if !errors.IsNotFound(err) {
return &status, err
}
}
status.CurrentReplicas--
return &status, err
}

// wait for unhealthy Pods on update
if !isHealthy(replicas[target]) {
logger.V(4).Info("StatefulSet is waiting for Pod to update",
"statefulSet", klog.KObj(set), "pod", klog.KObj(replicas[target]))
return &status, nil
}

}
return &status, nil

可以明确看到，如果是 OnDelete 状态那就直接返回了，那也就是说下面就是操作 pod 了。果然，下面的逻辑其实非常简单，其中有三个注意点：

将最大的那个 pod 控制去 DeleteStatefulPod 然后直接返回了
if !isHealthy(replicas[target]) { 也就是：当一个 pod 正在更新的时候，也会直接返回。也就是 statefulset 必然是一个好了再下一个更新的
Partition 是用来做金丝雀发布的，你应该有所了解，也是在这里处理的，只有序号 ≥ partition 的才会更新

其实更新部分我觉得最重要的部分这样就被解决了，我们通过枚举的技巧可以快速将一个 200+ 行的函数快速定位到了自己所需要的部分，当然如果你对前面对于 pod 排序创建等操作，有想要了解的回过头去看另一半就可以了，此时你就可以完全不管删除的逻辑了，上半部分肯定是在处理删除之前的逻辑，那么你的方向会更清晰。

persistentVolumeClaimRetentionPolicy

在以前，statefulset 被删除之后 PVC 通常是不受影响的，也就是 Retain，而还可以配置 Delete 也就是删除。并且 persistentVolumeClaimRetentionPolicy 可以支持 whenDeleted 和 whenScaled 就是在不同场景下支持不同的控制策略。比如当 pod 被删除时是 PVC 是保留的，但缩减(scaled) 的时候删除。

这里特性本身不是特别重要，重要的是，我想让你看下对于新特性的引入，在 k8s 中是如何做判断的。

// pkg/controller/statefulset/stateful_set_control.go:387
// If we find a Pod that has not been created we create the Pod
if !isCreated(replicas[i]) {
if utilfeature.DefaultFeatureGate.Enabled(features.StatefulSetAutoDeletePVC) {
if isStale, err := ssc.podControl.PodClaimIsStale(set, replicas[i]); err != nil {
return true, err
} else if isStale {
// If a pod has a stale PVC, no more work can be done this round.
return true, err
}
}
if err := ssc.podControl.CreateStatefulPod(ctx, set, replicas[i]); err != nil {
return true, err
}
if monotonic {
// if the set does not allow bursting, return immediately
return true, nil
}
}

上面这一部分是在 updateStatefulSet 的 processReplica 根据 pod 不同状态执行不同操作，其中我们可以看到，其实并不复杂，就是通过了 utilfeature.DefaultFeatureGate 的 Enabled 方法来得到当前所需要的这个 feature 是否被开启来，如果开启了，就可以执行下方的判断。而 utilfeature.DefaultFeatureGate 本质也就是一个 map ，存储了所有的 feat，而 features 枚举了所以的特性，其中有非常详细的版本注释。

其实和一般处理的方式没啥区别，如果让我们来写也是一样的，就是通过全局变量来注册所有特性的状态而已。而判断的时候也就是判断一下里面开没开。当然这可能确实有点 ”散弹修改“ 的味道，但是由于特性的目标不会多，所以面积不会广，全局也随时能用，无耦合，可以学习。

// pkg/controller/statefulset/stateful_pod_control.go:265
func (spc *StatefulPodControl) PodClaimIsStale(set *apps.StatefulSet, pod *v1.Pod) (bool, error) {
policy := getPersistentVolumeClaimRetentionPolicy(set)
if policy.WhenScaled == apps.RetainPersistentVolumeClaimRetentionPolicyType {
// PVCs are meant to be reused and so can't be stale.
return false, nil
}
for _, claim := range getPersistentVolumeClaims(set, pod) {
pvc, err := spc.objectMgr.GetClaim(claim.Namespace, claim.Name)
switch {
case apierrors.IsNotFound(err):
// If the claim doesn't exist yet, it can't be stale.
continue
case err != nil:
return false, err
case err == nil:
if hasStaleOwnerRef(pvc, pod, podKind) {
return true, nil
}
}
}
return false, nil
}

当然后面其实就是在 PodClaimIsStale 中判断是 Retain 还是 Delete 了。

码后解答

statefulset 滚动更新的实现与 deployment 有什么区别？
1. 关键在于顺序(有序)和个数(一次一个)
statefulset persistentVolumeClaimRetentionPolicy 是如何实现的？
1. 很简单，通过 utilfeature.DefaultFeatureGate 一个全局变量来进行判断

总结提升

可以看到，由于我们之前有了其他类似的源码经验，其实对于整体过程已经有了把握，很多地方就没必要再去仔仔细细一步步推敲了，因为实现都是类似的，我们只需要抓住不同，类比即可。找到不同的地方，看自己关心的地方，就能快速知道源码里面做的事情是什么。只要从大方向有了把握，之后有问题你就可以迅速定位到这个问题可能出现的原因，以及有寻找的思路了。

编码上

对于项目内新特性的引入完全可以参考 utilfeature.DefaultFeatureGate 的设计，在引入使用 beta 一段时间，在后续的正式版本中上线。一个 map + 一个 if 的事。

MacOS 下如何安装 gnu 版本的 sed

2024-08-19T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

在 MacOS 下使用 sed -i 就会出现类似下面的错误

1 2	sed: 1: "...": command c expects \ followed by text sed: 1: "...": command i expects \ followed by text

原因是由于 MacOS 下默认的 sed 和 Linux 下是不一样的，导致 -i 无法正确识别，通常的做法是安装一个 gnu-sed 已替换原本的 sed 命令

安装步骤

# 查询一下
which sed

# 安装
brew install gnu-sed

# 查看
brew info gnu-sed

==> gnu-sed: stable 4.9 (bottled)
GNU implementation of the famous stream editor
https://www.gnu.org/software/sed/
Conflicts with:
  ssed (because both install share/info/sed.info)
Installed
/opt/homebrew/Cellar/gnu-sed/4.9 (13 files, 616.5KB) *
  Poured from bottle using the formulae.brew.sh API on 2024-08-23 at 16:14:00
From: https://github.com/Homebrew/homebrew-core/blob/HEAD/Formula/g/gnu-sed.rb
License: GPL-3.0-or-later
==> Caveats
GNU "sed" has been installed as "gsed".
If you need to use it as "sed", you can add a "gnubin" directory
to your PATH from your bashrc like:

    PATH="/opt/homebrew/opt/gnu-sed/libexec/gnubin:$PATH"

配置环境变量

将 PATH="/opt/homebrew/opt/gnu-sed/libexec/gnubin:$PATH" 部分配置到 ~/.zshrc 里面就可以了，别忘记 source 让它生效哦。

验证

# 记得验证一下
which sed

# 当然你也可以直接使用 `gsed`

浅析 Rust 所有权设计

2024-08-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

市面上的 Rust 书已经把基础说的足够好了，我没必要再搬砖，而是尝试从一些个人的角度来重新审视其中的一些设计。Rust 我认为最为关键的设计：所有权和借用。我们都知道 Rust 和 Go、Java 相比最大的不同就是没有 GC，那么没有 GC 的设计需要付出一定的代价，这个代价一部分就体现在今天要说的这两个设计中。

代价 1: 所有权

三规

每一个值都被一个变量所拥有 Each value in Rust has a variable that’s called its owner
一个值同时只能被一个变量所拥有 There can only be one owner at a time
当所有者离开作用域时，这个值将被丢弃 When the owner goes out of scope, the value will be dropped

很多基础都会提到这三个规定，非常重要。理解它就能理解所有权。而反过来，当我看完之后，反过来，其实可以从中推导它的设计。

问答推导

我还是习惯称呼为对象，所以我下面以对象称呼。

提问：GC 的目标是什么？
回答：垃圾对象，无用的对象

提问：垃圾怎么产生的？
回答：对象被创建了，但是后来它没用了

提问：怎么知道它没用了？
回答：我怎么知道？！😡 不就是没人用了么？

很好，其实到此，我们就已经知道了要解决的问题是什么了。接下来让我们一步步从后往前推导：

我不想要 GC，那我首先必须能有办法丢弃掉不用的垃圾对象，我觉得 “作用域” 是一个很不错的分界点，出了作用域我就把对象给扔掉 (规则 3)
当一个对象有多个用户(所有者/变量) 如：a1 = s; a2 = s; 那么此时离开作用域时，我会同时想要释放两次，并且这两次还是同一个对象，这不合理，我得限制让一个值只能有一个变量 (规则 12)

结论

这样推导下来其实 Rust，也没有特别复杂，它只不过将 GC 的回收工作放到了作用域结束，强制在离开时回收掉。

而原本 GC 要确定一个对象是否已经为垃圾，常用的方式是引用计数对吧？而 Rust 直接强制只有一个所有者，你没了就是你没了，和别人无关。直接简化了整个逻辑。

代价 2: 借用

由于所有权的唯一性，那我们在传递的时候势必就需要做一个操作，那就是转移。一直转来转去很麻烦，有没有别的办法呢？第一想法其实就是传指针，也就是搞引用。所以，Rust 弄了一个借用的功能出来。（注意在 Rust 中，“借用”和“引用”是一个概念）

借用不是就有多个人在用了吗？

这是我们遇到的第一个疑问，如果一个对象有多个引用，这不是又回到老路上，并且和所有权的规则向违背了吗？非也非也。关键点来了：

所有权，所有权，是证明东西是我的；借用，借用，东西还是你的，我借一下而已，还会还给你的。

这也是为什么称为借用(Borrow) 的原因，其实所有权本身并没有发生转移。

借用得有规则

借用也不能无条件的乱用，要有规则，而它的规则，我们并不用死记。懂并发吗？读写锁应该有了解吧？没错和读写锁的逻辑其实是一致的。

能有多个不可变的引用（能同时多读）
可变引用与不可变引用不能同时存在（不能同时读写）
同一作用域，特定数据只能有一个可变引用（只能有一个写）

那这个解决了什么问题呢？并发问题？不是，应该说数据竞争问题。

总结

为了没有 GC，设计了所有权作为代价；为了解决单一所有权的转移问题，设计了借用规则作为代价。而借用规则的可变不可变，也正是 Rust 设计中 mut 的理念的一种体现吧。所以总的来说，整个设计是环环相扣的剧情，其实并不复杂，理解本质原因，其实就能理解其中的设计了。

《一起读 kubernetes 源码》replicaset 到底有何不同

2024-07-31T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

前一节我们看到了 deployment 的滚动更新实现，如果你对它已经有一个比较清晰的认识，那么这一节的 replicaset 就非常容易理解了，因为基本实现都是差不多的。为了方便描述后面文中提及的 replicaset 统一简写为 RS。

在一开始学习 k8s 的时候其实我们不一定能碰到这个对象，如果只是日常的使用通常来说的都是 deployment 或者是 statefulset 这样。渐渐深入才会发现它。好像默默无闻的它是做什么的呢？

前置知识

RS 是什么？

心路历程

在不知道 RS 之前我一直都以为是 deployment 直接去控制的 pod。而在一开始了解之后，我会好奇为什么要设计一个 RS，直接控制不行吗？渐渐的深入，就会发现，其实它有着自己的设计在里面。

码前提问

RS 和 Deployment 关系是什么？
有何特别的设计？

源码分析

寻码过程

有了 deployment 的经验其实 RS 寻码的过程就非常简单了。关键都是在 控制器 上。于是在相同的包下面我们就容易找到它。

1 2	kubernetes/pkg/controller/deployment kubernetes/pkg/controller/replicaset

而且我相信有了前面的经验，你已经对这样的对象看源码的过程比较容易上手了，我们会依旧先从：结构、如何 New、如何使用，使用过程中的细节，这几个部分来着手。

结构

// pkg/controller/replicaset/replica_set.go:81
type ReplicaSetController struct {
kubeClient clientset.Interface
podControl controller.PodControlInterface
eventBroadcaster record.EventBroadcaster

// A ReplicaSet is temporarily suspended after creating/deleting these many replicas.
// It resumes normal action after observing the watch events for them.
burstReplicas int
// To allow injection of syncReplicaSet for testing.
syncHandler func(ctx context.Context, rsKey string) error

// A TTLCache of pod creates/deletes each rc expects to see.
expectations *controller.UIDTrackingControllerExpectations

// A store of ReplicaSets, populated by the shared informer passed to NewReplicaSetController
rsLister appslisters.ReplicaSetLister
// rsListerSynced returns true if the pod store has been synced at least once.
// Added as a member to the struct to allow injection for testing.
rsListerSynced cache.InformerSynced
rsIndexer      cache.Indexer

// A store of pods, populated by the shared informer passed to NewReplicaSetController
podLister corelisters.PodLister
// podListerSynced returns true if the pod store has been synced at least once.
// Added as a member to the struct to allow injection for testing.
podListerSynced cache.InformerSynced

// Controllers that need to be synced
queue workqueue.RateLimitingInterface
}

有没有一种熟悉的感觉，我第一次看的时候，就觉得和 deployment 几乎一模一样，而那么关键点也是在启动和同步(syncHandler)的的时候了，所以让我们直接往下看。

创建

// pkg/controller/replicaset/replica_set.go:138
func NewBaseController(logger klog.Logger, rsInformer appsinformers.ReplicaSetInformer, podInformer coreinformers.PodInformer, kubeClient clientset.Interface, burstReplicas int,
gvk schema.GroupVersionKind, metricOwnerName, queueName string, podControl controller.PodControlInterface, eventBroadcaster record.EventBroadcaster) *ReplicaSetController {

rsc := &ReplicaSetController{
GroupVersionKind: gvk,
kubeClient:       kubeClient,
podControl:       podControl,
eventBroadcaster: eventBroadcaster,
burstReplicas:    burstReplicas,
expectations:     controller.NewUIDTrackingControllerExpectations(controller.NewControllerExpectations()),
queue:            workqueue.NewNamedRateLimitingQueue(workqueue.DefaultControllerRateLimiter(), queueName),
}

rsInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc: func(obj interface{}) {
rsc.addRS(logger, obj)
},
UpdateFunc: func(oldObj, newObj interface{}) {
rsc.updateRS(logger, oldObj, newObj)
},
DeleteFunc: func(obj interface{}) {
rsc.deleteRS(logger, obj)
},
})
//.....

rsc.syncHandler = rsc.syncReplicaSet

return rsc
}

还是一样的 Informer 熟悉的配方，只不过这次都换成了 RS 的方法。然后就让我惊奇的发现了下面的路径。

整个路径就是：Run -> worker -> processNextWorkItem -> syncHandler 。

这？这不就和 deployment 一模一样了么。_所以其实对于这类对象本身的操作设计和行为都是一致的_。还是那一套事件处理的机制，唯独不一样的是什么呢？让我们回到 deployment 里面看看

// pkg/controller/deployment/deployment_controller.go:101
func NewDeploymentController(ctx context.Context, dInformer appsinformers.DeploymentInformer, rsInformer appsinformers.ReplicaSetInformer, podInformer coreinformers.PodInformer, client clientset.Interface) (*DeploymentController, error) {
// ....
dInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc: func(obj interface{}) {
dc.addDeployment(logger, obj)
},
UpdateFunc: func(oldObj, newObj interface{}) {
dc.updateDeployment(logger, oldObj, newObj)
},
// This will enter the sync loop and no-op, because the deployment has been deleted from the store.
DeleteFunc: func(obj interface{}) {
dc.deleteDeployment(logger, obj)
},
})
rsInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc: func(obj interface{}) {
dc.addReplicaSet(logger, obj)
},
UpdateFunc: func(oldObj, newObj interface{}) {
dc.updateReplicaSet(logger, oldObj, newObj)
},
DeleteFunc: func(obj interface{}) {
dc.deleteReplicaSet(logger, obj)
},
})
podInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
DeleteFunc: func(obj interface{}) {
dc.deletePod(logger, obj)
},
})
// ....
return dc, nil
}

之前我们没有发现，原来 rsInformer 就在里面，其实对于 RS 的事件 Deployment 也处理了，那么其实很容易理解了，其实最终控制 pod 的是 RS，而 Deployment 控制 RS ，RS 专心管 pod，而 Deployment 其实额外提供了之前说的升级和回滚等等利于实际应用升级部署的操作。所以我们上一节中更多关注在了 Deployment 本身的更新动作上，而 pod 其实还没仔细看。这里 RS 补充了这一部分。

于是说我就将源码的重心移动到了如何控制 pod 上面，于是我很快发现了 CreatePods 方法被调用的地方。

// pkg/controller/replicaset/replica_set.go:566
func (rsc *ReplicaSetController) manageReplicas(ctx context.Context, filteredPods []*v1.Pod, rs *apps.ReplicaSet) error {
diff := len(filteredPods) - int(*(rs.Spec.Replicas))
rsKey, err := controller.KeyFunc(rs)
if err != nil {
utilruntime.HandleError(fmt.Errorf("couldn't get key for %v %#v: %v", rsc.Kind, rs, err))
return nil
}
logger := klog.FromContext(ctx)
if diff < 0 {
diff *= -1
if diff > rsc.burstReplicas {
diff = rsc.burstReplicas
}

rsc.expectations.ExpectCreations(logger, rsKey, diff)
logger.V(2).Info("Too few replicas", "replicaSet", klog.KObj(rs), "need", *(rs.Spec.Replicas), "creating", diff)

successfulCreations, err := slowStartBatch(diff, controller.SlowStartInitialBatchSize, func() error {
err := rsc.podControl.CreatePods(ctx, rs.Namespace, &rs.Spec.Template, rs, metav1.NewControllerRef(rs, rsc.GroupVersionKind))
if err != nil {
if apierrors.HasStatusCause(err, v1.NamespaceTerminatingCause) {
// if the namespace is being terminated, we don't have to do
// anything because any creation will fail
return nil
}
}
return err
})

// Any skipped pods that we never attempted to start shouldn't be expected.
// The skipped pods will be retried later. The next controller resync will
// retry the slow start process.
if skippedPods := diff - successfulCreations; skippedPods > 0 {
logger.V(2).Info("Slow-start failure. Skipping creation of pods, decrementing expectations", "podsSkipped", skippedPods, "kind", rsc.Kind, "replicaSet", klog.KObj(rs))
for i := 0; i < skippedPods; i++ {
// Decrement the expected number of creates because the informer won't observe this pod
rsc.expectations.CreationObserved(logger, rsKey)
}
}
return err
}

//...
return nil
}

其实这里的大方向的逻辑非常简单，就是根据 diff 的不同来对 pod 进行不同的处理，如果 diff < 0 就会去创建，而 diff > 0 就会去删除。删除的代码这里就不做展示了。

这里也是一个和之前函数式调用类似的方式调用 slowStartBatch 方法的时候将 fn 传递了进去，fn 其中就就是具体创建的方法，而 slowStartBatch 又是一个很不错可以学习的设计。这个我们放在后面一起说。而在这之前有一个重要步骤是 expectations 的创建

1	rsc.expectations.ExpectCreations(logger, rsKey, diff)

那么其实 expectations 里面记录的就是对于 rsKEY 的 diff，也就是改变量，让我们具体来看看这个里面是什么。

// pkg/controller/controller_utils.go:332
type UIDTrackingControllerExpectations struct {
ControllerExpectationsInterface
// TODO: There is a much nicer way to do this that involves a single store,
// a lock per entry, and a ControlleeExpectationsInterface type.
uidStoreLock sync.Mutex
// Store used for the UIDs associated with any expectation tracked via the
// ControllerExpectationsInterface.
uidStore cache.Store
}

// pkg/controller/controller_utils.go:147
type ControllerExpectationsInterface interface {
GetExpectations(controllerKey string) (*ControlleeExpectations, bool, error)
SatisfiedExpectations(logger klog.Logger, controllerKey string) bool
DeleteExpectations(logger klog.Logger, controllerKey string)
SetExpectations(logger klog.Logger, controllerKey string, add, del int) error
ExpectCreations(logger klog.Logger, controllerKey string, adds int) error
ExpectDeletions(logger klog.Logger, controllerKey string, dels int) error
CreationObserved(logger klog.Logger, controllerKey string)
DeletionObserved(logger klog.Logger, controllerKey string)
RaiseExpectations(logger klog.Logger, controllerKey string, add, del int)
LowerExpectations(logger klog.Logger, controllerKey string, add, del int)
}

上面的接口，而具体的实现是 ControllerExpectations 来实现的。它的结构非常简单其本质是 cache.Store 也就是一个泛型缓存，当然在那个年代里面还没有泛型，就是 interface 而已。

// pkg/controller/controller_utils.go:265
type ControlleeExpectations struct {
add       int64
del       int64
key       string
timestamp time.Time
}

看到结构就容易理解了，其实内部存放的就是 add 和 del 的数量也就是期望的改变量。

// pkg/controller/controller_utils.go:281
func (e *ControlleeExpectations) Fulfilled() bool {
return atomic.LoadInt64(&e.add) <= 0 && atomic.LoadInt64(&e.del) <= 0
}

当二者都为 0 时则实际 == 预期，也就是我们在第一节提到的控制循环类似的思路。而其中还设计了一个过期时间，从而包装了整个逻辑，包括改变、校验等等。虽然感觉实际(工作中)用到的情况会比较少，但是这部分的代码依旧可以做一个案例参考，毕竟里面还是有一些并发操作的。而且这部分应该是还有优化的空间。

码后解答

RS 和 Deployment 关系是什么？
1. Deployment 控制 RS ，RS 控制 Pod
有何特别的设计？
1. 那当然是 expectations 的设计

额外扩展

让我们回头来看看 slowStartBatch 的实现部分吧。从翻译上来看应该叫作批量慢启动。

func slowStartBatch(count int, initialBatchSize int, fn func() error) (int, error) {
remaining := count
successes := 0
for batchSize := integer.IntMin(remaining, initialBatchSize); batchSize > 0; batchSize = integer.IntMin(2*batchSize, remaining) {
errCh := make(chan error, batchSize)
var wg sync.WaitGroup
wg.Add(batchSize)
for i := 0; i < batchSize; i++ {
go func() {
defer wg.Done()
if err := fn(); err != nil {
errCh <- err
}
}()
}
wg.Wait()
curSuccesses := batchSize - len(errCh)
successes += curSuccesses
if len(errCh) > 0 {
return successes, <-errCh
}
remaining -= batchSize
}
return successes, nil
}

看起来很复杂，其实很简单。

initialBatchSize 从 1 开始，batchSize 就是从 1 开始(当然和 remaining 相比)，每次批次是 x2 倍的递增，也就是 1 2 4 8 这样
每个执行批次通过 wg 控制并发
也就是每次只要前面一直成功并发就会越来越快

这个部分的设计几乎可以直接抄过来用的，这个 TCP 的拥塞控制还不一样，由于总工作量是有限制的，所以到后面不会并发爆发，也就不需要拥塞避免的部分，小体量的任务场景下好用。

总结提升

其实当我们看完源码，回过头来审视这两个对象的名称，Deployment 和 ReplicaSet，我们就会发现，其实它们的名字就是它们的职责，Deployment 是部署，ReplicaSet 是复制集，而复制集就是去控制 pod 的复制，而部署就是去控制复制集的部署。只不过可能我们对于英文的不敏感，所以一开始不会这么直观的感受到。

设计上

从设计的角度而言，我觉得我们能学到的是有关与对象与职责的设计。我们可以看到 Deployment 并没有直接去控制 pod，而 ReplicaSet 去控制了 pod ，所以 ReplicaSet 的职责就是去管理 pod，而 Deployment 的职责是什么呢？其实是应用的生命周期，Deployment 允许你定义升级策略、回滚操作、滚动更新等功能，使得在应用程序更新时能够更加方便和可控，当你需要更新应用程序时，可以通过更新 Deployment 的来触发新的 ReplicaSet 的创建，然后逐步替换旧的 ReplicaSet 中的 Pod。

编码上

在编码上，我们可以学到两点，前面也提到了。一个是有关 expectations 的包装和设计，一个是有关 slowStartBatch 对于慢启动函数的设计，这些都是可以被我们学习和利用的。

Go 应用容器下优雅停止坑点

2024-07-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

之前我有写过 go 应用在 k8s 中如何优雅停止的博客，理论上在配置好对应的参数之后就能优雅停止了，但是最近接触到了两个场景，会导致配置的优雅停止失效，为了避免踩坑，对于之前的博客进一步进行补充。

场景说明

有了之前的经验，Golang 应用本身没有问题，它已经接受并处理 SIGTERM 和 SIGINT 信号，但是实际场景出现的情况，在 k8s 或者 docker 停止的时候 有一些缓慢 ，但是由于最终容器还是会被关闭，于是这个问题就没有关注，这个现象也很容易被忽略。

package main

import (
"fmt"
"os"
"os/signal"
"syscall"
)

func main() {
fmt.Println("启动")
ch := make(chan os.Signal, 1)
signal.Notify(ch, syscall.SIGTERM, syscall.SIGINT)
s := <-ch
switch {
case s == syscall.SIGINT:
fmt.Println("收到 SIGINT 信号!")
case s == syscall.SIGTERM:
fmt.Println("收到 SIGTERM 信号!")
}
fmt.Println("退出")
}

场景 1

这个场景非常简单，也是容易被使用到的一个场景

Dockerfile 是这样的

FROM alpine
ADD app /app
ADD entrypoint.sh /entrypoint.sh
ENTRYPOINT ["/entrypoint.sh"]

entrypoint.sh 是这样的

1 2	#!/bin/sh /app

这里是做了一定的抽象，由于这个入口脚步这个部分可能包含一些实际初始化的工作，这部分工作可能是程序没办法处理的环境等等问题，有兴趣的同学可以按下面的步骤测试一下。

1
2
3

GOOS=linux GOARCH=amd64 go build -o app .
docker build -t star .
docker run --name star star

启动之后你就会发现一个问题，Ctrl+c 是没办法关闭的，执行 docker stop star 之后需要一段时间才会关闭，并且关闭之前没有任何信号相关的日志信息。

问题原因

这个场景出现问题的原因很简单，就是因为我们运行的方式是以脚步的方式运行的，主进程并不是业务的 app 而是 shell。而关闭时 SIGTERM 信号会发给 shell ，但是 shell 是不会把信号给你的。我们可以进入容器 ps 一下马上就清楚了。

docker exec -it star sh
/ # ps
PID   USER     TIME  COMMAND
    1 root      0:00 {entrypoint.sh} /bin/sh /entrypoint.sh
    7 root      0:00 {app} [rosetta] /app /app
   14 root      0:00 sh
   20 root      0:00 ps

解决

这个场景的解决方式非常简单，只需要修改一下脚步就可以了

1 2	#!/bin/sh exec /app

使用 exec 让新启动的 app 作为主进程就可以

docker exec -it star sh
/ # ps
PID   USER     TIME  COMMAND
    1 root      0:00 {app} [rosetta] /app /app
   12 root      0:00 sh
   18 root      0:00 ps

场景 2

这个场景是，当我们的一个容器有多个进程的时候，入口脚步可能是这样的（这里是用同一个二进制模拟，实际场景可能是多个不同应用）

1
2
3

#!/bin/sh
/app &
/app

我们没办法同时让两个进程都成为主进程，这个时候就要找外援帮忙了，dumb-init 就是一个不错的选择

FROM alpine
RUN apk add --no-cache dumb-init
ADD entrypoint.sh /entrypoint.sh
ADD app /app
ENTRYPOINT ["/usr/bin/dumb-init", "--"]
CMD ["/entrypoint.sh"]

1
2
3

#!/usr/bin/dumb-init /bin/sh
/app &
/app

同时 dumb-init 可以很容易的帮助我们实现信号的传递工作，以它作为主进程，以管理我们的应用子进程。

启动
启动
^C收到 SIGINT 信号!
退出
收到 SIGINT 信号!
退出

总结

当然实际的项目中如果没有特别的需求，还是建议直接启动，而并非使用脚本，一旦使用脚本就需要注意信号和进程的特殊情况。并且，一个应用建议一个容器，这样可以避免很多问题。

程序员减肥记

2024-06-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

最近很长一段时间没有写文章了，因为这一段时间在做个“大事”，减肥。运动本身还是挺花时间的，所以确实就没时间更新那种非常干货的博客了。

起因

原因是体检发现 BMI 超标，到了接近 25，由于本人之前还没有到达过这样的体重，确实是有大肚子了。于是毅然开始了减肥之路。整个过程我发现，其实对于我这样小基数的情况来说，其实减肥并不难，科学减肥也没有那么多的痛苦。

结果

先说结果，一共是 3 个月(4,5,6)时间，减掉了 10 kg，从 74kg 减到了 64kg。基本上是每个月减 3kg 左右。

从结果来看我自己是非常满意的，下面分享一下整个过程中的一些心得，希望对你有所帮助。之前大学的时候也有过减肥的经历，不过没有这次那么多。

我先说一些情况：

我是小基数，对于大基数的减肥来说估计是不适用的
我是程序员，时间其实对于我来说并不宽裕，如何有效利用时间是我最大的问题
我仅仅只是想让我的体重回到一个正常的水平上，不是追求肌肉或者身材

所以在这样的条件下，如何做到理科(理性+科学) 减肥呢？

理科减肥

这里说明一下我的理念和方法，再说说心得，方法不一定对任何人有效，但心得希望能帮助到你。

科学

首先，我相信科学说的 “能量守恒”，所以减肥的理念很简单，也就是各大博主说的制造 热量缺口 ，让你的 输出 > 输入。只要你每天消耗的更多，那一定会瘦下来的，这里不再赘述。

那么根据这个理念可以推导出什么呢？

如果你现在正常吃喝，什么都不改变，你的体重是不变的，证明你每天的输入 ≈ 输出，所以如果你想减肥，那么很简单，即使在你吃不改变的情况下，增加运动也是能减肥的。这也是我开头一个月所做的，开头一个月我并没有一上来就控制严格的饮食，该吃吃，该喝喝，只是增加了运动。

理性

然后，我说说理性，市面上的减肥方法太多了，五花八门，你要学会分辨什么是有用的，什么是谣言。理性的看待减肥，不要盲目跟风。

迈开腿

跑步：整个过程我就跑了 3 次 5 公里
有氧拳击：Switch 的游戏，前面几乎每天都会做 30 分钟的有氧拳击，后面会降低到每周 3-4 次

没了，没想到把，就这么简单。

说说原因：跑步是为了启动身体的机能，由于我长时间没有锻炼了，如果想让身体快速适应节奏，那么必须用一个慢速提升且强度足够的运动。跑完之后我的身体明显就会出现全身发热，并且风吹之后痒的不行，还有骨骼肌战栗的那种感觉。

而选择有氧拳击，一方面是因为没有场地环境限制，在家就行，不用担心下雨什么的，一方面效果也确实不错，激励的效果让我也能坚持（热辣滚烫选择拳击并不仅仅只是电影需求是真的累的）。还有一点是不太伤害膝盖。

网上有人说有氧拳击不够累，我觉得有两点：一个是你打的拳不够用力，你每个都软绵绵的那肯定不行，另一个是你没有脚步，拳击并不仅仅只是打拳，跟着音乐重心不断前后调整的脚步也是非常重要的

管住嘴

三个月我一共分了三个阶段：

减少额外的食物，比如零食、饮料（在这个阶段我最多只喝美式）。
开始寻找“干净”的食物吃，会避免过多的碳水摄入，这个阶段是最饿的。
逐渐恢复正常饮食，开始逐步恢复碳水。

我解释一下我所谓的 “干净” 食物。由于我们平常上班，绝大多数公司是没有食堂的，所以外卖和楼下就成为了首选，这样会导致问题就是，油不对。在我看来，糖和油是最容易让你摄入过多热量东西，并且油会更可怕，因为不干净的油可能会影响你的代谢。所以我会尽量会避免摄入带有不确定油的食物，如一些外卖的炒菜什么的，如果要油我会选择那些知名一点的。下面就是我强烈推荐的食物来源。

还要解释的一点是，为什么第三阶段我要恢复，因为在第三阶段我马上就要到达我的目标了，而在我到达目标之后，我不想继续一直保持那种饮食，因为并且我不想反弹，所以我会逐渐恢复，让我的身体适应。如果马上出现反弹的情况，那么我还会继续我的减肥计划，总之是想让身体适应。

我推荐的食物

沙县小吃：这个绝对是减脂期间的最大帮手，而且价格不贵，你只要找一家相对干净的就没问题。鸭腿饭，你饭就吃两口，其他的青菜、鸡蛋、鸭腿都是妥妥的干净食物。
煮的：如果一个食物是煮的，那么相对于炒的，那肯定好一些。比如麻辣烫(食材你自己把控，你要吃丸子那就完蛋)，比如清汤面，其实一些汤面我觉得是完全可以吃的，只要你别把面吃完。
麦当劳/肯德基：有人就会说，你减肥吃麦当劳？吃肯德基？没错，我的理由有两个，一个是这二者都提供了热量参数，你很容易知道哪些能吃，哪些不能吃，另一个是他们的油是相对干净的，相较于其他，我更喜欢这两家。
赛百味：这个绝对是我个人的最佳，一方面是因为他们提供了一个标准的健康餐的参数：全麦面包+蔬菜+牛肉 或者鸡肉，妥妥的 碳水+蛋白质+蔬菜 完美搭配，前期我会选择不加酱料，后期恢复会加一点。

注意，抛开质量谈热量都是耍流氓，比如有的酱料热量确实很高，但是你就吃 5g 也大可不必视为魔鬼。

我的心得

下面的心得是我在这个过程中的一些感悟，希望对你有所帮助。

30 分钟才开始燃脂

这个谣言到这里能不能停！很多地方说运动 30 分钟才开始燃脂。理科的我们都知道，你只要呼吸，你 ATP 就得消耗供能，你只要运动，你就得消耗热量。你管它消耗的热量哪里来，糖原？脂肪？肝脏，你别管，你只要知道，你动肯定比不动要强。

不要计算热量

最早大学时期减肥的时候我也算，“薄荷” 对吧，我也记录，但是这次减肥我不算了。我给出的两个理由是：

热量一定是算不准的，你的基础代谢在不断变化，而你吃的东西吸收率(我不知道有没有这个概念，你就当我杜撰的)也不一样(我不信每个人吃进去多少就吸收多少)，所以你算的热量是不准的。与其算这个，不如看体重变化趋势。
麻烦，我懒

不过于关注体重

你要关注的不是体重数字本身，而是体重的变化趋势。如果一周的趋势是下降的，那么没问题，如果，一周的趋势是升高的，那就要注意了，你要调整了。为什么呢？体重的短期波动太容易了，前一天少喝水，后一天马上轻 1kg 是常有的事情。所以短期的体重波动参考意义不大。

“多动症”

我有时候会在想为什么小的时候，比如高中的时候我不会胖呢？那个时候吃的很多啊(已经不长个子了)，然后就回想起来哪个时候没事就瞎闹腾，交作业跑上跑下，一楼到四楼每天都跑来跑去，有时候还和同学你追我赶，并且去食堂吃夜宵还全速前进…

现在呢？办公室坐下，4小时不动，呵呵。

所以我渐渐开始培养了一些小的 “多动症” 习惯，比如：

上班坐地铁，我会选择走楼梯，而不是电梯
公交如果还没来会选择远一点的站点，而不是近一点的
上厕所选择上一楼，而不是直接同楼层的
…

我个人会认为，这些小的习惯，会让你的身体保持一定的活力，只要心脏多跳两下，你的身体就会多消耗一点热量。当然，我不知道能有多大帮助，我还是那句话，总比没有的好。

总结

通过我的减肥经历，我总结了以下几点要点：

理性减肥：减肥方法繁多，要学会分辨有效的方法和谣言，理性看待减肥。
科学减肥：减肥的核心是制造热量缺口，让输出大于输入，运动和控制饮食是实现热量缺口的关键。
运动：跑步和有氧拳击是我选择的运动方式，跑步可以启动身体机能，有氧拳击可以在家中进行，激励效果好。
饮食控制：减少额外食物摄入，选择干净食物，避免摄入过多的热量，逐渐恢复正常饮食。
关注体重变化趋势：不过于关注体重数字本身，而是关注体重的变化趋势，调整饮食和运动计划。
培养多动习惯：通过一些小的习惯，如走楼梯、选择远一点的站点等，增加身体活动量，消耗更多热量。

这些是我个人的经验和心得，希望对你有所帮助。记住，减肥是一个长期的过程，要坚持并根据自己的情况进行调整。祝你成功减肥！

Docker 容器如何访问宿主机服务

2024-06-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

今天先水一篇，记录一个常见的问题，Docker 容器如何访问宿主机服务。我们知道在一个 docker 容器内部，如果，你直接访问 127.0.0.1 是无法访问到宿主机的，那么怎么办呢？

最直接的方法

如果你是自己在用，就是这个机器上也没有其他服务，那我倒是建议直接使用 host 网络，简单直接，一把梭。

1	docker run -it --network host ubuntu:latest

优雅的解决

然后我反找到了一个非常非常长的 issue 中间有个评论是 https://github.com/docker/for-linux/issues/264#issuecomment-964620100 （github也是醉了中间隐藏的部分需要你点好几次才会全部展开）

如果你不想使用 host 网络，可以使用 host.docker.internal 来访问宿主机的服务。

docker 下可以使用

1	docker run --add-host host.docker.internal:host-gateway

docker-compose 下可以使用

services:
  myservice:
    extra_hosts:
      - host.docker.internal:host-gateway

目前我测试下来 Linux 下是可以的，配置完成之后直接使用 host.docker.internal 就可以访问到宿主机的服务了。由于这个 issue 的时间非常长，所以这个方法适配的版本就不确定了，需要你自己测试下。

《一起读 kubernetes 源码》deployment 滚动更新是如何实现的

2024-05-31T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

这一节终于来到了我们最为熟悉的一个对象 deployment，通常这可能是我们学习 k8s 接触的第一个大对象了，我们一般的应用也是以 deployment 来进行部署的，那么对于熟悉的它来说，我们应该从源码里面去找什么目标来看呢？对于我来说，deployment 的更新是我最好奇的，在我重新修改镜像版本之后，deployment 是如何一步步控制已有的 pod 进行更新的呢？这一节我们就从源码中揭秘这个过程。

前置知识

deployment 的基础使用
滚动更新

心路历程

在我看来其他的属性与 pod 类似，而 deployment 作为一个 pod 的集合。那，为什么 deployment 要让 pod 的有多个副本呢？从最初的角度角度来说肯定是高可用了，所以 deployment 中最为关键的就是对 pod 的控制，也就是当 pod 的数量变化的时候，它是如何操作的。

码前提问

deployment 是由哪个对象控制的？
应用更新的时候 deployment 是如何控制更新过程的？

源码分析

寻码过程

像 deployment 这样的源码比起其他就好找很多了，毕竟命名比较直接。在看来前几节之后，我不知道你是否发现了一个规律。通常看源码的正向思路可以被总结为：

找到对应实现的数据结构，通常是一个或多个结构体
看它的初始化，初始化能告诉你其中哪些必要的准备步骤，和具体一些字段的基础能力
看它的方法，通常就能知道你想要具体实现原理了

Deployment 结构

话不多说，先找到它的数据结构

// vendor/k8s.io/api/apps/v1/types.go:355
type Deployment struct {
metav1.TypeMeta `json:",inline"`
// Standard object's metadata.
// More info: https://git.k8s.io/community/contributors/devel/sig-architecture/api-conventions.md#metadata
// +optional
metav1.ObjectMeta `json:"metadata,omitempty" protobuf:"bytes,1,opt,name=metadata"`

// Specification of the desired behavior of the Deployment.
// +optional
Spec DeploymentSpec `json:"spec,omitempty" protobuf:"bytes,2,opt,name=spec"`

// Most recently observed status of the Deployment.
// +optional
Status DeploymentStatus `json:"status,omitempty" protobuf:"bytes,3,opt,name=status"`
}

可以看到，数据结构的定义和我们平常使用的 yaml 文件的定义是一一对应的，非常容易理解，可以简单浏览一下 Spec 的属性。

那么关键的问题来了，是哪个结构在控制 deployment？于是开始寻找 Deployment 的引用，看哪些位置在使用这个数据结构，引用很多，但是你只需要按文件去看就可以了。

阅读其他源码时，如果一个对象的引用，不要去寻找每一个代码引用的位置，而应该先从文件入手，如果引用的文件还是很多，可以从包的角度入手，一个包下通常能力方向也是类似的

于是，我找到了 DeploymentController 这个关键的对象(看命名也应该是它了，控制器嘛)，今天我们后面就是围绕着它展开的。注意哦，

DeploymentController

DeploymentController 结构

还是类似的，先来看看结构

// pkg/controller/deployment/deployment_controller.go:66
type DeploymentController struct {
// rsControl is used for adopting/releasing replica sets.
rsControl controller.RSControlInterface
client    clientset.Interface

eventBroadcaster record.EventBroadcaster
eventRecorder    record.EventRecorder

// To allow injection of syncDeployment for testing.
syncHandler func(ctx context.Context, dKey string) error
// used for unit testing
enqueueDeployment func(deployment *apps.Deployment)

// dLister can list/get deployments from the shared informer's store
dLister appslisters.DeploymentLister
// rsLister can list/get replica sets from the shared informer's store
rsLister appslisters.ReplicaSetLister
// podLister can list/get pods from the shared informer's store
podLister corelisters.PodLister

// dListerSynced returns true if the Deployment store has been synced at least once.
// Added as a member to the struct to allow injection for testing.
dListerSynced cache.InformerSynced
// rsListerSynced returns true if the ReplicaSet store has been synced at least once.
// Added as a member to the struct to allow injection for testing.
rsListerSynced cache.InformerSynced
// podListerSynced returns true if the pod store has been synced at least once.
// Added as a member to the struct to allow injection for testing.
podListerSynced cache.InformerSynced

// Deployments that need to be synced
queue workqueue.RateLimitingInterface
}

注意两个点就好，一个是 syncHandler 还有一个是 queue 看到这两个字段我心里其实已经有个大概的思路了。下面就要用到我们在第一节提到的 informer 机制了。

NewDeploymentController

初始化是在 NewDeploymentController 方法中，我省略了其中一些部分，留下了重要的几个例子

// pkg/controller/deployment/deployment_controller.go:101
func NewDeploymentController(ctx context.Context, dInformer appsinformers.DeploymentInformer, rsInformer appsinformers.ReplicaSetInformer, podInformer coreinformers.PodInformer, client clientset.Interface) (*DeploymentController, error) {
//....
dc := &DeploymentController{
//....
queue:            workqueue.NewNamedRateLimitingQueue(workqueue.DefaultControllerRateLimiter(), "deployment"),
}
//....

dInformer.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
AddFunc: func(obj interface{}) {
dc.addDeployment(logger, obj)
},
UpdateFunc: func(oldObj, newObj interface{}) {
dc.updateDeployment(logger, oldObj, newObj)
},
// This will enter the sync loop and no-op, because the deployment has been deleted from the store.
DeleteFunc: func(obj interface{}) {
dc.deleteDeployment(logger, obj)
},
})
//....

dc.syncHandler = dc.syncDeployment
dc.enqueueDeployment = dc.enqueue

//....
return dc, nil
}

有了前面的知识，这里的代码我们就很容易理解了，关键是在于注册了有个 ResourceEvent 处理的各种能力，比如当 Add 事件来的时候，调用 addDeployment。先留心注意下面的两个部分 syncHandler 和 enqueueDeployment 后面会用到。接下来我们肯定会好奇，addDeployment 究竟是如何处理这个事件的，所以我们继续深入看里面的实现。

addDeployment

这里面的调用链路很清晰：addDeployment -> enqueueDeployment -> enqueue -> dc.queue.Add(key)

// pkg/controller/deployment/deployment_controller.go:391
func (dc *DeploymentController) enqueue(deployment *apps.Deployment) {
key, err := controller.KeyFunc(deployment)
if err != nil {
utilruntime.HandleError(fmt.Errorf("couldn't get key for object %#v: %v", deployment, err))
return
}

dc.queue.Add(key)
}

其实这些处理的工作，将 deployment 对应的 key 丢到队列里面去，所以下面我们只需要找到哪里在处理队列中的消息就可以了

Run

地方也很好找，是在 Run 里面，运行的时候启动了一定数量的 worker，然后每个 worker 循环去取消息。

// pkg/controller/deployment/deployment_controller.go:157
// Run begins watching and syncing.
func (dc *DeploymentController) Run(ctx context.Context, workers int) {
//...

for i := 0; i < workers; i++ {
go wait.UntilWithContext(ctx, dc.worker, time.Second)
}

<-ctx.Done()
}

// pkg/controller/deployment/deployment_controller.go:473
func (dc *DeploymentController) worker(ctx context.Context) {
for dc.processNextWorkItem(ctx) {
}
}

func (dc *DeploymentController) processNextWorkItem(ctx context.Context) bool {
key, quit := dc.queue.Get()
if quit {
return false
}
defer dc.queue.Done(key)

err := dc.syncHandler(ctx, key.(string))
dc.handleErr(ctx, err, key)

return true
}

整个路径就是：Run -> worker -> processNextWorkItem -> syncHandler 。

可以看到就是一个标准的生产者消费者模型。然后关键就来到了 syncHandler 变量，还记得 dc.syncHandler = dc.syncDeployment 吗？对的，它在初始化时候被赋值为了 syncDeployment 这就到了我们这一节的重点方法了，注意看。

syncDeployment

这里我不想省略太多的代码，因为它本身是一个顺序结构，很容易理解。

// pkg/controller/deployment/deployment_controller.go:581
func (dc *DeploymentController) syncDeployment(ctx context.Context, key string) error {
//...

deployment, err := dc.dLister.Deployments(namespace).Get(name)
if errors.IsNotFound(err) {
logger.V(2).Info("Deployment has been deleted", "deployment", klog.KRef(namespace, name))
return nil
}
if err != nil {
return err
}

// Deep-copy otherwise we are mutating our cache.
// TODO: Deep-copy only when needed.
d := deployment.DeepCopy()

//...

// List ReplicaSets owned by this Deployment, while reconciling ControllerRef
// through adoption/orphaning.
rsList, err := dc.getReplicaSetsForDeployment(ctx, d)
if err != nil {
return err
}
// List all Pods owned by this Deployment, grouped by their ReplicaSet.
// Current uses of the podMap are:
//
// * check if a Pod is labeled correctly with the pod-template-hash label.
// * check that no old Pods are running in the middle of Recreate Deployments.
podMap, err := dc.getPodMapForDeployment(d, rsList)
if err != nil {
return err
}

//...

if d.Spec.Paused {
return dc.sync(ctx, d, rsList)
}

// rollback is not re-entrant in case the underlying replica sets are updated with a new
// revision so we should ensure that we won't proceed to update replica sets until we
// make sure that the deployment has cleaned up its rollback spec in subsequent enqueues.
if getRollbackTo(d) != nil {
return dc.rollback(ctx, d, rsList)
}

scalingEvent, err := dc.isScalingEvent(ctx, d, rsList)
if err != nil {
return err
}
if scalingEvent {
return dc.sync(ctx, d, rsList)
}

switch d.Spec.Strategy.Type {
case apps.RecreateDeploymentStrategyType:
return dc.rolloutRecreate(ctx, d, rsList, podMap)
case apps.RollingUpdateDeploymentStrategyType:
return dc.rolloutRolling(ctx, d, rsList)
}
return fmt.Errorf("unexpected deployment strategy type: %s", d.Spec.Strategy.Type)
}

第一步就是找到 deployment
第二步是找到 rsList 也是我们说的 RS
然后找到 podMap

寻找完了之后就开始根据状态进行操作。有哪些操作呢？

rollback 回滚
scaling 判断现在是不是在调整大小
rollout 关键来了，这就是更新，有两种模式
- Recreate 重建
- Rolling 滚动更新

这里我们最关心的策略终于暴露出来了，那就是滚动更新了，我们赶快来看看里面是怎么实现的。

rolloutRolling

// pkg/controller/deployment/rolling.go:31
// rolloutRolling implements the logic for rolling a new replica set.
func (dc *DeploymentController) rolloutRolling(ctx context.Context, d *apps.Deployment, rsList []*apps.ReplicaSet) error {
newRS, oldRSs, err := dc.getAllReplicaSetsAndSyncRevision(ctx, d, rsList, true)
if err != nil {
return err
}
allRSs := append(oldRSs, newRS)

// Scale up, if we can.
scaledUp, err := dc.reconcileNewReplicaSet(ctx, allRSs, newRS, d)
if err != nil {
return err
}
if scaledUp {
// Update DeploymentStatus
return dc.syncRolloutStatus(ctx, allRSs, newRS, d)
}

// Scale down, if we can.
scaledDown, err := dc.reconcileOldReplicaSets(ctx, allRSs, controller.FilterActiveReplicaSets(oldRSs), newRS, d)
if err != nil {
return err
}
if scaledDown {
// Update DeploymentStatus
return dc.syncRolloutStatus(ctx, allRSs, newRS, d)
}

if deploymentutil.DeploymentComplete(d, &d.Status) {
if err := dc.cleanupDeployment(ctx, oldRSs, d); err != nil {
return err
}
}

// Sync deployment status
return dc.syncRolloutStatus(ctx, allRSs, newRS, d)
}

步骤其实比我想的要简单：

得到新旧的 RS 进行比较
先看要不要扩副本数，如果要则直接扩，并且就直接 sync 了不继续了
然后才轮到缩容，能操作就直接操作了。

然后，我们来回忆一下 pod 数量在实际更新中的变动过程，如果目前的 pod 是 3/3(目标/现有)，那么扩容之后就会变成 3/4，此时下一次进来就不能扩了，只能变成缩了变成 3/3 然后不断往复，直到所以 pod 都满足期望要求的版本。想想真的蛮奇妙的，就是利用了简单的状态管理就实现了整个滚动更新过程，慢慢的就靠近了目标。这可能就是状态机的优雅吧，你只管改状态，剩下的协调交给我。

码后解答

deployment 是由哪个对象控制的？
1. DeploymentController
应用更新的时候 deployment 是如何控制更新过程的？
1. 关键其实就在于：rolloutRolling ，将目标态的 pod 添加，打破平衡(状态变化)，将不满足的旧状态移除，从而慢慢协调到最终状态。再说的简单一点：先尝试 scaledUp 然后尝试 scaledDown

总结提升

设计上

deployment 这里我们能学到哪些设计上的提升点呢？我个人有下面几个

首先就是 NewDeploymentController 里面对于 Informer 机制的运用
利用策略模式 RollingUpdate 和 Recreate 两种不同实现很清晰
利用状态的管理来构建当前 rolloutRolling 的操作，对于编码来说清晰

熟悉了这部分的实现，那么对于其他对象类似的功能，我觉得你应该也能有自己的把握了。

《一起读 kubernetes 源码》揭秘 k8s 关键机制 informer

2024-04-29T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

在第二章我们会去看 k8s 中常用对象的源码，不过在看这些对象之前，我们需要聊一聊 informer 机制。这个机制可以说是 k8s 设计之中的一个重点了。这个机制的设计不仅仅让代码本身变得清晰，更让整个系统的结构更容易扩展。所以这个机制需要放到第二章的第一节来说。

前置知识

控制循环
informer 的使用

心路历程

我第一接触 informer 是在使用 client-go 的时候。相信有很多同学和我一样，学习 k8s 的路径通常是，从基本的使用开始，然后慢慢的有一些自定义的需求需要使用 client-go 进行开发。使用 client-go 开发真的很方便，能力很强大。而在其中我第一次碰到了 informer。从了解了这个机制之后，才逐渐明白 k8s 本身是如何去控制里面的资源的。

还是一样的，本文不涉及具体这个机制的详细原理，更专注在源码本身。当然，我先通过两个小点帮助你回忆起来 informer 机制。

控制循环

首先是控制循环，这个我认为是 k8s 的精髓，它通过一个循环来让整个系统趋向与我们申明的一个期望状态。 https://github.com/kubernetes/community/blob/master/contributors/devel/sig-api-machinery/controllers.md#writing-controllers

for {
    实际状态 := 获取集群中对象 X 的实际状态(Actual State)
    期望状态 := 获取集群中对象 X 的期望状态(Expectation State)
    if 实际状态 == 期望状态{
        什么都不做
    } else {
        执行编排动作，将实际状态调整为期望状态
    }
}

informer 的用法

下面的例子说明了 informer 的用法 https://github.com/kubernetes/community/blob/master/contributors/devel/sig-api-machinery/controllers.md#rough-structure

func NewController(pods informers.PodInformer) *Controller {
    c := &Controller{
        pods: pods.Lister(),
        podsSynced: pods.Informer().HasSynced,
        queue: workqueue.NewNamedRateLimitingQueue(workqueue.DefaultControllerRateLimiter(), "controller-name"),
    }

    pods.Informer().AddEventHandler(cache.ResourceEventHandlerFuncs{
        AddFunc: func(obj interface{}) {
            // ...
        },
        UpdateFunc: func(old interface{}, new interface{}) {
            // ...
        },
        DeleteFunc: func(obj interface{}) {
            // ...
        },
    },)

    return c
}

其他你都不需要看，关键在于 AddEventHandler ，看到它你就知道了，本质就是让你能监听一些变动的事件，当事件来的时候，你就会知道，具体你知道了之后干嘛，就是你的事情了。

informer 的流程图

下面这个图非常清晰的说明了 informer 的流程和关系，记住这个图片，后面还会用到

控制对象的思考

结合以上回忆，思考一下：如果我们希望去控制一个对象，那么我们需要知道这个对象现在的状态是什么，或者知道它发生了什么变化，变化能不能满足我们的期望，如果不满足应该怎么调整。那么，想要知道一个对象的状态有两种方式，一种是你主动去查询，对吧，而另一种就是让别人告诉你。而 informer 就是后一种。

码前提问

informer 有那几个组件？
informer 机制是怎么样的？
为什么需要 informer？

源码分析

这次寻码的原因和之前不太一样，之前我们都是为了看某一个东西的源码，就去搜索相关的代码。而这次是在 client-go 的使用过程中产生的好奇，所以从使用的角度，就很容易去寻码了。因为你需要使用这个方法去创建一个 informer ，那么你就会想知道里面究竟发生了什么对吧？那么这次我们就从这个方法 NewIndexerInformer 的 newInformer 开始。

初始化

从初始化我们就可以知道 informer 里面究竟有什么。

// staging/src/k8s.io/client-go/tools/cache/controller.go:380
func NewIndexerInformer(
lw ListerWatcher,
objType runtime.Object,
resyncPeriod time.Duration,
h ResourceEventHandler,
indexers Indexers,
) (Indexer, Controller) {
// This will hold the client state, as we know it.
clientState := NewIndexer(DeletionHandlingMetaNamespaceKeyFunc, indexers)

return clientState, newInformer(lw, objType, resyncPeriod, h, clientState, nil)
}

这个方法可以帮助我们创建 indexer 和 informer 我们先不管什么是 indexer。直接 newInformer。

// staging/src/k8s.io/client-go/tools/cache/controller.go:483
func newInformer(
lw ListerWatcher,
objType runtime.Object,
resyncPeriod time.Duration,
h ResourceEventHandler,
clientState Store,
transformer TransformFunc,
) Controller {
// This will hold incoming changes. Note how we pass clientState in as a
// KeyLister, that way resync operations will result in the correct set
// of update/delete deltas.
fifo := NewDeltaFIFOWithOptions(DeltaFIFOOptions{
KnownObjects:          clientState,
EmitDeltaTypeReplaced: true,
Transformer:           transformer,
})

cfg := &Config{
Queue:            fifo,
ListerWatcher:    lw,
ObjectType:       objType,
FullResyncPeriod: resyncPeriod,
RetryOnError:     false,

Process: func(obj interface{}, isInInitialList bool) error {
if deltas, ok := obj.(Deltas); ok {
return processDeltas(h, clientState, deltas, isInInitialList)
}
return errors.New("object given as Process argument is not Deltas")
},
}
return New(cfg)
}

好，一个迷惑点来了，返回一个 Controller？Controller？傻傻分不清楚，这个 Controller 和我们常说的 Controller 组件完全不是一个东西，这个 Controller 是一个接口，其实它就是 Informer 哦。

关键来了，初始化的时候里面有一个 DeltaFIFO 的队列。有一个 Process 的处理方法，我们将 h 也就是我们外部的 handler 函数放进去了，这个 h 就是我们外部用户在使用 client-go 时申明的需要如何处理事件的方法。

事件去了哪里

源码阅读技巧：你不一定非要按事件的来龙去脉来看源码，有什么看什么，最后再串起来也是可以的

由于我们现在看到了 Process 方法，知道这里是处理事件的，于是我们先看这个 processDeltas。

// staging/src/k8s.io/client-go/tools/cache/controller.go:436
func processDeltas(
    handler ResourceEventHandler,
    clientState Store,
    deltas Deltas,
    isInInitialList bool,
) error {
    for _, d := range deltas {
        obj := d.Object

        switch d.Type {
        case Sync, Replaced, Added, Updated:
            if old, exists, err := clientState.Get(obj); err == nil && exists {
                clientState.Update(obj)
                handler.OnUpdate(old, obj)
            } else {
                clientState.Add(obj)
                handler.OnAdd(obj, isInInitialList)
            }
        case Deleted:
            clientState.Delete(obj)
            handler.OnDelete(obj)
        }
    }
    return nil
}

删减了部分代码，不说一目了然，可以说是非常明确了。根据不同的事件类型，调用外部对于 handler 的方法处理事件就可以了。

事件从哪里来

那么问题就来了，这些要处理的事件是从哪里来的呢？于是我们看 processDeltas 方法的调用方 Process ，也就是从下往上找，是谁调用了 Process 方法呢？还好引用的地方不多，容易被找到关键在这里。

// staging/src/k8s.io/client-go/tools/cache/controller.go:186
func (c *controller) processLoop() {
for {
obj, err := c.config.Queue.Pop(PopProcessFunc(c.config.Process))
if err != nil {
if err == ErrFIFOClosed {
return
}
if c.config.RetryOnError {
// This is the safe way to re-enqueue.
c.config.Queue.AddIfNotPresent(obj)
}
}
}
}

不用多解释，这里 queue 就是我们之前在初始化看到的 DeltaFIFO，虽然我们不知道队列里面是做了什么，但无非这个循环的意思就是，从队列中不断 Pop 出事件，然后调用 Process 去处理这个事件。而我们此时可以顺变看一眼，processLoop 方法是在 controller(Informer) Run 也就是启动的时候被一起启动了(代码这里按下不表)。_当然这个循环中有一个重试的机制，如果遇到需要重试的任务，会重新放到队列里面去，一个小的不错设计_。

那么，只要我们知道是哪里在往这个队列里面塞数据，就知道事件从哪里来了。

好，下一个坑就出现了，由于我们是倒着看的，那么我想知道谁往队列里面塞数据，如果你想要看这个 queue 有多少地方在放数据，你会发现太多了，由于 DeltaFIFO 这个实现到处都在引用，所以这样看是很难找的。于是我们需要回到原理上来。看图说话，在最上面说 informer 的流程图的时候我们可以看到有一个 Reflector 的东西在放数据。于是乎我们应该去寻找的是这个东西，你好像在哪里看到过呢？没错 Run 的时候也就是在执行 processLoop 之前。

// staging/src/k8s.io/client-go/tools/cache/controller.go:129
func (c *controller) Run(stopCh <-chan struct{}) {
defer utilruntime.HandleCrash()
go func() {
<-stopCh
c.config.Queue.Close()
}()
r := NewReflectorWithOptions(
c.config.ListerWatcher,
c.config.ObjectType,
c.config.Queue,
ReflectorOptions{
ResyncPeriod:    c.config.FullResyncPeriod,
TypeDescription: c.config.ObjectDescription,
Clock:           c.clock,
},
)
r.ShouldResync = c.config.ShouldResync
r.WatchListPageSize = c.config.WatchListPageSize
if c.config.WatchErrorHandler != nil {
r.watchErrorHandler = c.config.WatchErrorHandler
}

c.reflectorMutex.Lock()
c.reflector = r
c.reflectorMutex.Unlock()

var wg wait.Group

wg.StartWithChannel(stopCh, r.Run)

wait.Until(c.processLoop, time.Second, stopCh)
wg.Wait()
}

你可以发现，初始化 Reflector 的时候将 c.config.Queue 放进去了作为它的 store，那么关键就在这里面了。之后的链路是： r.Run -> r.ListAndWatch -> r.watch -> watchHandler，好家伙，链路还有点长的。好在代码并不复杂。在 watchHandler 中有如下精髓：

// staging/src/k8s.io/client-go/tools/cache/reflector.go:743
resourceVersion := meta.GetResourceVersion()
switch event.Type {
case watch.Added:
    err := store.Add(event.Object)
case watch.Modified:
    err := store.Update(event.Object)
case watch.Deleted:
    err := store.Delete(event.Object)
case watch.Bookmark:
    if _, ok := meta.GetAnnotations()["k8s.io/initial-events-end"]; ok {
        if exitOnInitialEventsEndBookmark != nil {
            *exitOnInitialEventsEndBookmark = true
        }
    }
default:
    utilruntime.HandleError(fmt.Errorf("%s: unable to understand watch event %#v", name, event))
}

破案了，store.Add 明白了，原来你在这里。这里我们就可以串起来了，图也就非常明白了，代码也疏通了。

总结一下

Reflector 监听资源变动，将变动放到队列 DeltaFIFO 中
Informer 不停的从队列中拿取，并调用外部的 handler 进行处理
至于外部怎么处理的，那是外部的事情了

码后解答

informer 有那几个组件
1. 关键组件是 Reflector 和 DeltaFIFO
informer 机制是怎么样的
1. 监听、同步、事件处理(外部)、重试
为什么需要 informer
1. 这是一个小设计了，我们在下面总结提升详细说

总结提升

设计上

就像我们一开始说的那样，想要控制一个对象，你需要先知道对象的状态。那么第一个设计的优点就来了：与其不停的去通过 API 查询对象的状态，不如你自己主动去监听状态的变化。这是一种事件机制的设计，在很多地方都会用到。而主要的原因是查询的无效次数过多，而且 API 的压力又大。

而在 k8s 中太多需要监控对象的地方了，如果无论是谁来都要写一遍监控的代码，并且还要处理各种事件的解析、队列、重试..太麻烦了，于是 k8s 将其抽象为 Informer 的机制。从外部你只需要关注如何 handle 事件就可以了，从代码看有一种函数闭包的思想在里面。而且哦，关键在于 DeltaFIFO 还有各种细节的优化。

编码上

DeltaFIFO 真的是一个很不错设计，是值得我们去学习，并且在其他项目中可以直接拿来抄的一种优化方案。

go 里面利用 sync.cond 的不多见，这个队列算是一个经典案例。Pop 的时候没有元素的时候会 Wait 等着，有元素来了会 Broadcast 通知，节省资源
在 dedupDeltas 里面会 This will combine the most recent two deltas if they are the same. 也就所谓的压缩事件，也就 “聚合”，这是在给消费端减负，相同的事件你只需处理一次就好了，相当于这里就帮你过滤了一次，好贴心。

总结

从原理上来说 informer 本身不复杂，而且真的是一个不错的设计，从我的感受上来总结可以用两个词 事件+解耦 ，一个事件通知机制加上一个抽象解耦的实现。希望你能体会到，之后我们会用到它。当然这里介绍的是 informer 本身，它的前后都还有好多小助手哦。

《一起读 kubernetes 源码》pause 你在哪里？

2024-04-12T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

你有没有在 k8s 的 node 上敲过 docker ps 这个命令，我就干过。而出现的结果大概会是这样的：

root@10.0.10.102:~# docker ps
CONTAINER ID   IMAGE                           COMMAND                  CREATED      STATUS      PORTS     NAMES
5aa88e8d16ac   xxxx                            "/entrypoint.sh"         3 days ago   Up 3 days             k8s_xxx-0
4e40566baa09   google_containers/pause:3.4.1   "/pause"                 3 days ago   Up 3 days             k8s_POD_xxxx

你有没有好奇过这个 google_containers/pause 是什么来路？为什么会有一个这个容器，并且和应用总是成对出现的？我就好奇，于是今天就来叭叭一下 pause 是做什么的。
最早以前 pause 在一些教程里面叫作 infra，我也是当时受众之一，所以第一次看到 pause 有点奇怪它与 infra 的关系，其实是一个东西。

前置知识

Linux namespace
pod
cri

码前提问

pause 什么时候被创建的？
pause 是谁创建的？
pause 的作用是什么？

心路历程

作为第一章节的最后一小结，将在这里说明另一个源码阅读要注意的方式方法：先原理，再源码。有时候，仅仅只是使用某个工具或项目，一些细节的地方是没有办法在使用中被了解的，比如我们使用了很久 k8s 知道了 pod 的作用以及能力，但我们依旧对 pause 毫无感知，因为它是那种背后默默无闻的东西。对于这些技术的实现，如果直接去看源码会有两个问题，一个是难以理解，另一个则是容易误入歧途，看着看着看叉了。所以，对于 pause 与之前不同的是，我们需要先去弄懂它的原理，了解了大概之后再回去看源码。

如果不了解的请看 https://www.ianlewis.org/en/almighty-pause-container

当然，你也可以不看，我直接帮你总结为了一句话：paues 让 pod 中的多个容器可以 sharing namespaces(共享命名空间)。
因为我们知道一个 pod 可以包含多个容器，这些容器可以共享网络资源，并且重要的是 namespace 是隔离的基础，也是运行的保证，如果让任意其他的业务容器去当作主容器被别人共享，那么主容器的安危就决定了整个 pod 的生死，那显然有些不合理，于是找到了中间商 pause 来帮助我们先 hold 所需要的 namespace，然后做共享，这也就是 pause 存在的意义了。
你可以根据文中的指令来在本机上运行一个 pause 容器来使用 --net=container:pause 类似的参数来共享，并测试。

而 pause 在 k8s 中是如何被创建，并且做了哪些事情呢？这就需要到源码中寻找答案了。

源码分析

当你想要你 k8s 的源码中寻找 pause 的时候，你就会发现，你能找到一些蛛丝马迹，但是毫无头绪，一开始我也是的，我在源码中搜索了所有有关 pause 的内容，发现并没有看到真正创建这个容器的地方。（此时我还没懂 pause 的原理）于是乎，我回头弄清楚的原理（先原理再源码），发现 pause 的作用是共享命名空间，那么它的创建一定是在 pod 创建的比较前面步骤，至少要在其他容器创建之前。

于是就回到了我们第一节里面，说 pod 创建的时候有一个 SyncPod 的方法

// SyncPod syncs the running pod into the desired pod by executing following steps://
//  1. Compute sandbox and container changes.
//  2. Kill pod sandbox if necessary.
//  3. Kill any containers that should not be running.
//  4. Create sandbox if necessary.
//  5. Create ephemeral containers.
//  6. Create init containers.
//  7. Resize running containers (if InPlacePodVerticalScaling==true)
//  8. Create normal containers.
func (m *kubeGenericRuntimeManager) SyncPod(

我就发现当时有一个 sandbox 容器我们没有管它，难道是它？于是我带着目标去追源码 createPodSandbox 这个方法就是在 SyncPod 里面的第 4 步骤：

// pkg/kubelet/kuberuntime/kuberuntime_sandbox.go:40
// createPodSandbox creates a pod sandbox and returns (podSandBoxID, message, error).
func (m *kubeGenericRuntimeManager) createPodSandbox(ctx context.Context, pod *v1.Pod, attempt uint32) (string, string, error) {
// ...
podSandboxConfig, err := m.generatePodSandboxConfig(pod, attempt)

// ...
err = m.osInterface.MkdirAll(podSandboxConfig.LogDirectory, 0755)

// ...
runtimeHandler, err = m.runtimeClassManager.LookupRuntimeHandler(pod.Spec.RuntimeClassName)

// ...
podSandBoxID, err := m.runtimeService.RunPodSandbox(ctx, podSandboxConfig, runtimeHandler)

return podSandBoxID, "", nil
}

其中就是创建了 podSandboxConfig 然后就是 RunPodSandbox 也就是使用必要的配置去启动 Sandbox，接下来要注意，别跟错了

// pkg/kubelet/cri/remote/remote_runtime.go:176
func (r *remoteRuntimeService) RunPodSandbox(ctx context.Context, config *runtimeapi.PodSandboxConfig, runtimeHandler string) (string, error) {
// ...
resp, err := r.runtimeClient.RunPodSandbox(ctx, &runtimeapi.RunPodSandboxRequest{
Config:         config,
RuntimeHandler: runtimeHandler,
})

// ...
podSandboxID := resp.PodSandboxId
return podSandboxID, nil
}

最后终于到了关键了 runtimeClient 调用的 RunPodSandbox

// kubernetes/vendor/k8s.io/cri-api/pkg/apis/runtime/v1/api.pb.go
func (c *runtimeServiceClient) RunPodSandbox(ctx context.Context, in *RunPodSandboxRequest, opts ...grpc.CallOption) (*RunPodSandboxResponse, error) {
out := new(RunPodSandboxResponse)
err := c.cc.Invoke(ctx, "/runtime.v1.RuntimeService/RunPodSandbox", in, out, opts...)
if err != nil {
return nil, err
}
return out, nil
}

到此，如果你不知道原理，你肯定就懵了。哈？怎么到了一个 pb 里面，并且一个 Invoke 就结束了？此时源码已经追不下去了。这也是读源码最容易遇到的一个问题，由于源码本身会依赖外部的一些实现，导致阅读源码本身并不能理解全部，此时也是原理发挥作用的时候了。让我们来仔细分析一下：

这个是在一个叫 cri-api 的包下面
pb 是 Protocol Buffer 也就是 grpc 的一个调用

所以：得到结论这一定是在调用一个 CRI 的接口，也就是有其他人在实现这个接口，kubelet 负责调用。OK，这里我就不讨论 dockershim 和 containerd 的关系，让我们先来直接看看 containerd 对于 CRI 的实现吧。不要怕，让我们去 containerd 的源码里面看看。

原来是你 containerd

于是我直接去 containerd 源码里面搜索 RuntimeService 的 RunPodSandbox 实现。

https://github.com/containerd/containerd/blob/b693d137ed5f905d04bf955b185054011e25880c/internal/cri/server/sandbox_run.go#L51

// RunPodSandbox creates and starts a pod-level sandbox. Runtimes should ensure
// the sandbox is in ready state.
func (c *criService) RunPodSandbox(ctx context.Context, r *runtime.RunPodSandboxRequest) (_ *runtime.RunPodSandboxResponse, retErr error) {
// ...
if err := c.sandboxService.CreateSandbox(ctx, sandboxInfo, sb.WithOptions(config), sb.WithNetNSPath(sandbox.NetNSPath)); err != nil {
return nil, fmt.Errorf("failed to create sandbox %q: %w", id, err)
}
// ...
ctrl, err := c.sandboxService.StartSandbox(ctx, sandbox.Sandboxer, id)
}

CreateSandbox 创建，嗯。StartSandbox 启动，嗯。然后我就找，那镜像是哪个，于是让我发现了一个常量

https://github.com/containerd/containerd/blob/2adae6093e52028580f72c6f8c4f2f06c9d57648/internal/cri/config/config.go#L73

1	DefaultSandboxImage = "registry.k8s.io/pause:3.9"

好家伙，还得是你啊。目前我们就知道了是谁创建的这个 pause 容器，那么这个容器是干嘛的呢？于是乎，我去找找这个容器的镜像是如何构建的，让我们回到 k8s 源码里面看看。

pause 镜像

dockerfile 在 kubernetes/build/pause/Dockerfile，非常容易，就是启动一个二进制 /pause

ARG BASE
FROM ${BASE}
ARG ARCH
ADD bin/pause-linux-${ARCH} /pause
USER 65535:65535
ENTRYPOINT ["/pause"]

这个二进制的源码在 kubernetes/build/pause/linux/pause.c

static void sigdown(int signo) {
  psignal(signo, "Shutting down, got signal");
  exit(0);
}

static void sigreap(int signo) {
  while (waitpid(-1, NULL, WNOHANG) > 0)
    ;
}

int main(int argc, char **argv) {
  int i;
  for (i = 1; i < argc; ++i) {
    if (!strcasecmp(argv[i], "-v")) {
      printf("pause.c %s\n", VERSION_STRING(VERSION));
      return 0;
    }
  }

  if (getpid() != 1)
    /* Not an error because pause sees use outside of infra containers. */
    fprintf(stderr, "Warning: pause should be the first process\n");

  if (sigaction(SIGINT, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
    return 1;
  if (sigaction(SIGTERM, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
    return 2;
  if (sigaction(SIGCHLD, &(struct sigaction){.sa_handler = sigreap,
                                             .sa_flags = SA_NOCLDSTOP},
                NULL) < 0)
    return 3;

  for (;;)
    pause();
  fprintf(stderr, "Error: infinite loop terminated\n");
  return 42;
}

就这？没错，这就是全部了。里面做了什么事情呢？

如果有 -v 打印版本号
看看自己是不是第一个进程 pid 是不是 1
处理 SIGINT、SIGTERM、SIGCHLD 三个信号
死循环等着吧

其实也不过如此是吧，当这个容器创建之后，就如同最开始说的，比如 docker 就可以通过 --net=container:pause 共享你需要的 namespace 了。

码后解答

pause 什么时候被创建的？
1. pod 创建的第一个步骤被创建的
pause 是谁创建的？
1. CRI 的实现者，可以是 containerd、docker
pause 的作用是什么？
1. 成为 pid 为 1 也就是第一个进程从而 “hold 住” namespace

总结提升

pause 作为 pod 创建的最后一块拼图，已经拼上了，至此我觉得 pod 本身的原理应该已经明确了。这一节的代码不复杂，主要是想让你明白，有时候需要明确里面的设计原理和思路再去看代码，否则很容易看不懂或者掉入怪圈里面。在遇到一些外部调用和扩展的时候也不用慌张，努力去发现一些蛛丝马迹，结合已有的知识点大胆假设，小心求证，你总能在源码中找到属于你的真相。

假如 Redis 里面有 1 亿个 key，其中有 10w 个 key 是以某个固定的已知的前缀开头的，如何将它们全部找出来？

2024-03-31T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

这个问题本身不难，但网上的教程答案让我很不理解，所以单独拿来吐槽一下

来源与网络的答案

我特意用了截图而不是贴链接。其中“如何”还打成了如果…

有什么问题？

如果我是面试官，问了这个问题，如果你第一回答是 keys，那么恭喜你可以回去等通知了（言重了，说白了就不往下问了）

1 亿个，你知道什么概念吗？如果直接 keys 一下线上的数据不知道要阻塞多久，你下面的回答明明就知道答案偏偏把人家往沟里带…

但如果就只是如此，我也不用写这篇博客了，我想说的是 SCAN 也不是最优解

SCAN 有什么问题

不卡，但是慢，下面是来源与网络的一个测试结果，Redis 性能问题诊断以及 scan 命令耗时分析

测试命令:
./redis-benchmark -a xxxx  -r 10000 -n 100 -c 8000 scan 0 match zhaobsh* count  10000
10000个随机key, 测试100次, 使用 80000个client进行测试验证.
被测试的命令为: scan 0 match zhaobsh* count  10000

一万个key时count 一万时:
Summary:
  throughput summary: 99.11 requests per second
  latency summary (msec):
          avg       min       p50       p95       p99       max
      993.304    17.472  1004.543  1005.055  1005.055  1005.055

十万个key时 count 十万时
Summary:
  throughput summary: 11.54 requests per second
  latency summary (msec):
          avg       min       p50       p95       p99       max
     2970.660   135.680  3000.319  3000.319  3000.319  3000.319
五十万个key时 count 五十万时
Summary:
  throughput summary: 3.46 requests per second
  latency summary (msec):
          avg       min       p50       p95       p99       max
     2972.532   322.816  3000.319  3000.319  3000.319  3000.319

自己进行了一下验证, 如果直接一次scan 一千万的记录
耗时为: 10.15秒.
理论上scan 一个键值对的时间为 1微秒左右.

如果redis里面有 1000万个key的话  60台服务器如果同时进行一次所有的scan
那么搞不好至少会有在 运行期间内产生总计 600S 的延迟时间.

显然，多少还是会给线上系统有影响的，可以有个毛刺？具体就看实际情况了。

那么我们来分析一下问题，如果面试官只是要考查你 KEYS 命令和 SCAN 命令的区别，并且想要看看你知不知道 KEYS 命令的阻塞问题，那么你回答 SCAN 就已经过了。

而实际中，如果真的有经验，你就会发现 SCAN 的能力阈值是在那里的。于是你需要继续反问面试官，是否有时间要求。

实际业务

在实际业务中，我能想到的场景有两个：

明知山有虎：就是你本身就有这样的业务场景需要去做所有当前 key 的统一操作，那么以空间换时间，提前以其他数据结构存储你需要的 key 才合理。比如，现在想要让 user 的 key 全部过期，至少我不会去考虑使用 scan 遍历出来然后再进行处理。
意外的统计：我现在突然有一个统计的需求，但统计的数据只有缓存里面有。那么没办法，甲方最大，SCAN 就 SCAN 吧。但要注意 SCAN 重复性的问题。

总结

我其实想说的是，作为线上的数据和操作，你的每次操作都需要明确可能会带来的后果是什么，并不是简单的别人说 SCAN 就 SCAN 了，你需要清楚的了解可能的后果，你才有底气去操作。同时也会让问你的人清楚，你是有过经验的人，而非纸上谈兵。

不定期刊

2024-03-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 点我跳转查看 Notion Paper

写在前面

之前在博客装修的时候就提到过，对于之前的设计专栏确实不太适合我，写了一段时间之后发现太难了，所以就一直没有更新。但是我还是想要有一个专门的地方来记录一些自己的想法，所以就有了这个 Notion Paper。

这里会记录我日常看到的一些设计、产品、技术等等的一些想法。因为本身还是一个程序员，所以大多还是会有一些技术相关的内容，各种技术的使用用法也会在里面。

我特别喜欢报纸的展示形式，因为报纸有时候可以最大限度的展示信息，于是我就参考了报纸的形式和版式来设计这个 Notion Paper 的样子。希望你也会喜欢它。

尝试 Google Gemma 模型 MacOS 本地部署

2024-03-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

最近 Google 发布了 Gemma，是 Gemini 的低配版本，既然是 Google 出品那我一定要来吃螃蟹的。所以我本地部署了一个 7b 的版本来尝试使用一下看看效果。同时也来说明一些有关大模型本地部署使用的一些个人体会，比如，你可能会有以下问题：

怎么本地部署使用？
我本地的电脑能不能跑？
本地跑的效果到底怎么样？

首先，我想敲醒你沉睡的脑子。对于本地部署模型，你先要问清楚自己想要的是什么？也就是为什么需要本地部署，如果仅仅是想跑着玩，那没问题。如果只是平常使用，并且你已经能用 GPT 了，本地其实对于你来说毫无意义，因为你指望你的小电脑哪怕是大显卡能和别人成吨的 A100 相比吗？（夸张的修辞）如果，醒了还是想玩，那么可以往下看了，最后我会总结本地去跑有哪些优势。

如何部署

这里我推荐两个：

这二者基本都已经做到了开箱即用的地步了，其中我会更喜欢 ollama 一点。所以我就简单列一下它的步骤（其实官网已经描述的非常详细了，也很简单 https://github.com/ollama/ollama）

下载
运行 ollama run gemma
使用

对的，直接在命令行里面就能直接开始问了，并且也提供了 API 接口。如果你需要一个 UI 界面，我推荐使用 https://github.com/open-webui/open-webui 也是一个命令就可以直接在本地运行

1	docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

能不能跑

我本机是 MPB M1 16+256 的配置，一般回答结果反应在 20-30s 左右，根据具体问题的情况来看。我觉得，作为你个人使用，已经是够了。毕竟我也算是老设备了。

然后我给出我的跑的建议（个人总结，仅供参考，能不能跑起来还是实际说了算）：

8G 及以下的，并且用 CPU 的，只建议跑 2b 的版本，虽然官方认为 8G 跑 7b 为下限，但我还是不建议的。
16G 的，7b 够用，其他模型的 13b 也能跑但显然会慢一些，具体就看你 CPU 的能力了。
32G 建议跑 33b 的，当然也要当前模型有
64G 可以尝试跑 70b 的

有大显存显卡的用户肯定会更吃的开一点，但我要说的重点其实是在后面

效果如何

能用！但又不完全能用。（感觉是不是像废话）听我慢慢道来。

测试方面

我不像很多 AI 模型的专业测试一样去测试各种疑难杂症，或者是测试各种幻觉问题或者是违法问题。我就是平常人最普通使用，哪里来那么多破事情呢？下面几个场景我相信能反应一些问题了

翻译

自从用了 AI 翻译之后我是再也不想用原来的普通翻译了，那种 one by one 中式翻译不可谓不难受。对于翻译任务来说，我觉得 Gemma 是可以帮助到你的，虽然依据可能有语法错误，但比一般的翻译好，它能理解一些语意意义的翻译。

做题

数学问题别想了，很容易翻车，其他场景问题还可以。所以如果用它来做题，我不建议。

比如，二进制转换，显然到 15 这里就不对了。

比如，求和，显然也不对。

写代码

我测试了 go 和 rust，go 不错，基本能实现思路，但也会有莫名奇妙不能被调用的方法，rust 可能不太行，也可能是我水平不够，至少编译总是有各种问题。

总结

可以的，我发现 AI 的总结能力还是比较强的，只要给出的内容不是特别零散的，它都能总结的不错，推荐的。

写作

别想了，这我原来也没有期望，当他开始胡说八道的时候我就知道不行了。

重复劳动

可以的，重复劳动有很多的，比如修改各种文章格式，空格、大小写等；再比如对齐；处理表格，简单计算求和。通常来说只要 prompt 写好，来回几次，基本就能得到想要的结果了。

总结

对于本地部署，我想你肯定是有这几方面的考虑：

白嫖：不想花钱买 token，可以，一直白嫖一直爽
隐私：对于被推测的数据不能公开，这一点确实很重要，本地部署直接解决了很多内部数据使用的问题
服务：想要建立服务并调用接口以服务业务场景，说白就是拿来赚钱，但显然现在的反应速度不够，至少需要很多专业设备的支持。

那么，我想告诉你的是，对于现阶段而言，基于我本地部署使用了一段时间之后，我会推荐给想要做本地总结和翻译的用户，这二者的使用上其实是让我满意的，也能达到我的基本需求。其他工作，我还是会直接尝试使用 GPT 来帮助我完成会更加靠谱。

什么是索引下推？

2024-03-09T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

今天来水一篇 MySQL 的问题。什么是索引下推？其实很多概念都是被中文名字唬住了，这个概念并不复杂。如果看得懂英文，建议直接跳转 Index Condition Pushdown Optimization

回表

这是一个前置知识点。当我们通过索引找到某条数据时，其实只是找到了它对应的 id，需要根据 id 回到原来的表里面把数据捞出来，这个过程就是回表。

索引下推

直接用官方的例子说明：有一个索引 INDEX (zipcode, lastname, firstname) 有一个查询如下：

SELECT * FROM people
  WHERE zipcode='95054'
  AND lastname LIKE '%etrunia%'
  AND address LIKE '%Main Street%';

本来是不能命中全部索引的，因为后面两个条件是左 % LIKE，当然最左匹配原则可以先利用 zipcode 定位到数据。下面就是关键了：

如果，没有索引下推，那么当找到这条数据时，需要回表找到原数据来判断是否满足条件。
如果，使用索引下推，那么此时可以直接推理判断是否当然索引数据满足条件。
即：索引下推其实就是为了减少回表次数的一种优化。

MySQL can use the index to scan through people with zipcode='95054'. The second part (lastname LIKE '%etrunia%') cannot be used to limit the number of rows that must be scanned, so without Index Condition Pushdown, this query must retrieve full table rows for all people who have zipcode='95054'.

With Index Condition Pushdown, MySQL checks the lastname LIKE '%etrunia%' part before reading the full table row. This avoids reading full rows corresponding to index tuples that match the zipcode condition but not the lastname condition.

条件

官方也说了一些不能触发索引下推的条件，其实都很符合直觉：

subqueries
stored functions
Triggered conditions

其实关键还是满足 range, ref, eq_ref, and ref_or_null 这几个条件

总结

不理解概念其实没关系，总结其实我还是那句话，写 SQL 的 where 条件的时候，将确定的条件按字段顺序放前面，将不确定的条件放后面，这样会给以后的优化留下很大的余地，剩下的问题就交给索引、MySQL 和 DBA 吧。

《一起读 kubernetes 源码》原来 k8s 也有 GC

2024-02-29T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

前言

作为 k8s 的使用者而非维护者来说，对于 k8s 的 GC 其实是很难接触到的(几乎是无感的)。这也就是为什么标题写的惊讶 “原来 k8s 也有 GC”。GC 这个概念在很多语言中都有的，比如 Java 和 Golang，它就是帮助我们来回收垃圾的。在编程语言中，GC 主要是回收那些垃圾对象；那么相对于的 k8s 中，GC 需要回收哪些资源呢？今天的内容不复杂，源码里面都是那种很符合直觉的实现。

心路历程

其实，我一开始最好奇的就是镜像，由于 docker 镜像的大小我们是可想而知的。就算是我们常常使用的本地电脑，磁盘都有可能被占用很多，更别提是服务器这种动不动就更新镜像的情况了。

码前提问

K8S 的 GC 回收哪些资源？
K8S 的 GC 什么时候运行？
K8S 的 GC 是谁运行的？

源码分析

今天的入口还是比较好找的，因为很明确的命名 GarbageCollection 找到它，肯定就是了。首先，我们依旧先来看接口

// pkg/kubelet/kubelet.go:231
// Bootstrap is a bootstrapping interface for kubelet, targets the initialization protocol
type Bootstrap interface {
StartGarbageCollection()
ListenAndServe(kubeCfg *kubeletconfiginternal.KubeletConfiguration, tlsOptions *server.TLSOptions, auth server.AuthInterface, tp trace.TracerProvider)
...
}

接口在 Bootstrap 中有定义于是就容易找到具体实现了。于是我们就找到了 StartGarbageCollection 的具体实现，同样的，我们去掉不想干的日志和分支。主干如下：

// pkg/kubelet/kubelet.go:1395
// StartGarbageCollection starts garbage collection threads.
func (kl *Kubelet) StartGarbageCollection() {
loggedContainerGCFailure := false
go wait.Until(func() {
ctx := context.Background()
if err := kl.containerGC.GarbageCollect(ctx); err != nil {
// ...
} else {
// ...
}
}, ContainerGCPeriod, wait.NeverStop)

prevImageGCFailed := false
go wait.Until(func() {
ctx := context.Background()
if err := kl.imageManager.GarbageCollect(ctx); err != nil {
// ...
} else {
// ...
}
}, ImageGCPeriod, wait.NeverStop)
}

显然，这里启动了两个定时任务，一个是 ContainerGC 一个是 ImageGC ，ContainerGCPeriod 是 1 分钟，ImageGCPeriod 是 5 分钟。从名字来看这里我们已经可以看出一些端倪了。一个是对于容器的 GC，也就是回收哪些停止但是没有回收资源的容器；另一个就是我们开头关心的镜像了。

那么，我们接下来就分别看看 containerGC.GarbageCollect 和 imageManager.GarbageCollect 做了什么吧。

containerGC.GarbageCollect

首先，一条路往下走，GarbageCollect -> cgc.runtime.GarbageCollect -> m.containerGC.GarbageCollect

// pkg/kubelet/kuberuntime/kuberuntime_gc.go:407
func (cgc *containerGC) GarbageCollect(ctx context.Context, gcPolicy kubecontainer.GCPolicy, allSourcesReady bool, evictNonDeletedPods bool) error {
ctx, otelSpan := cgc.tracer.Start(ctx, "Containers/GarbageCollect")
defer otelSpan.End()
errors := []error{}
// Remove evictable containers
if err := cgc.evictContainers(ctx, gcPolicy, allSourcesReady, evictNonDeletedPods); err != nil {
errors = append(errors, err)
}

// Remove sandboxes with zero containers
if err := cgc.evictSandboxes(ctx, evictNonDeletedPods); err != nil {
errors = append(errors, err)
}

// Remove pod sandbox log directory
if err := cgc.evictPodLogsDirectories(ctx, allSourcesReady); err != nil {
errors = append(errors, err)
}
return utilerrors.NewAggregate(errors)
}

这里特别明确的写出了三个清理的步骤： evictContainers 容器、evictSandboxes 沙盒、evictPodLogsDirectories 日志。当然，我们更关心容器的回收，那我们就来看看 evictContainers 是如何实现的。

// pkg/kubelet/kuberuntime/kuberuntime_gc.go:226
// evict all containers that are evictable
func (cgc *containerGC) evictContainers(ctx context.Context, gcPolicy kubecontainer.GCPolicy, allSourcesReady bool, evictNonDeletedPods bool) error {
// Separate containers by evict units.
evictUnits, err := cgc.evictableContainers(ctx, gcPolicy.MinAge)
if err != nil {
return err
}

// Remove deleted pod containers if all sources are ready.
if allSourcesReady {
for key, unit := range evictUnits {
if cgc.podStateProvider.ShouldPodContentBeRemoved(key.uid) || (evictNonDeletedPods && cgc.podStateProvider.ShouldPodRuntimeBeRemoved(key.uid)) {
cgc.removeOldestN(ctx, unit, len(unit)) // Remove all.
delete(evictUnits, key)
}
}
}

// Enforce max containers per evict unit.
if gcPolicy.MaxPerPodContainer >= 0 {
cgc.enforceMaxContainersPerEvictUnit(ctx, evictUnits, gcPolicy.MaxPerPodContainer)
}

// Enforce max total number of containers.
if gcPolicy.MaxContainers >= 0 && evictUnits.NumContainers() > gcPolicy.MaxContainers {
// Leave an equal number of containers per evict unit (min: 1).
numContainersPerEvictUnit := gcPolicy.MaxContainers / evictUnits.NumEvictUnits()
if numContainersPerEvictUnit < 1 {
numContainersPerEvictUnit = 1
}
cgc.enforceMaxContainersPerEvictUnit(ctx, evictUnits, numContainersPerEvictUnit)

// If we still need to evict, evict oldest first.
numContainers := evictUnits.NumContainers()
if numContainers > gcPolicy.MaxContainers {
flattened := make([]containerGCInfo, 0, numContainers)
for key := range evictUnits {
flattened = append(flattened, evictUnits[key]...)
}
sort.Sort(byCreated(flattened))

cgc.removeOldestN(ctx, flattened, numContainers-gcPolicy.MaxContainers)
}
}
return nil
}

可以看到，关键就是通过 evictableContainers 找到所有可驱逐的容器，然后通过 removeOldestN 方法来实现删除。在 removeContainer 其实就是去排序，然后通过之前我们看过的 killContainer 和 removeContainer 来操作容器，具体的操作人是 kubeGenericRuntimeManager。相类似的 evictSandboxes 沙盒、evictPodLogsDirectories 日志这里就不再具体描述了，有兴趣的可以继续追一下。

imageManager.GarbageCollect

重点来了，镜像其实对于我们来说是比较重要需要关注的。由于镜像过多很容易占满磁盘，那么 k8s 是如何知道需要删除哪些镜像的呢？

如果是 docker，我们常常会使用 docker system prune 命令来进行清理

原理其实不复杂，让我们直接来看源码吧

func (im *realImageGCManager) GarbageCollect(ctx context.Context) error {
ctx, otelSpan := im.tracer.Start(ctx, "Images/GarbageCollect")
defer otelSpan.End()
// Get disk usage on disk holding images.
fsStats, err := im.statsProvider.ImageFsStats(ctx)
if err != nil {
return err
}

var capacity, available int64
if fsStats.CapacityBytes != nil {
capacity = int64(*fsStats.CapacityBytes)
}
if fsStats.AvailableBytes != nil {
available = int64(*fsStats.AvailableBytes)
}

if available > capacity {
klog.InfoS("Availability is larger than capacity", "available", available, "capacity", capacity)
available = capacity
}

// ....

// If over the max threshold, free enough to place us at the lower threshold.
usagePercent := 100 - int(available*100/capacity)
if usagePercent >= im.policy.HighThresholdPercent {
amountToFree := capacity*int64(100-im.policy.LowThresholdPercent)/100 - available
klog.InfoS("Disk usage on image filesystem is over the high threshold, trying to free bytes down to the low threshold", "usage", usagePercent, "highThreshold", im.policy.HighThresholdPercent, "amountToFree", amountToFree, "lowThreshold", im.policy.LowThresholdPercent)
freed, err := im.freeSpace(ctx, amountToFree, time.Now())
if err != nil {
return err
}

// ....
}

return nil
}

其中需要注意几点：

通过 im.statsProvider.ImageFsStats 得到磁盘的使用率，也就是用了多少磁盘
通过对比 usagePercent 和 HighThresholdPercent 来判断是否需要 GC，HighThresholdPercent 默认 85%
通过 im.freeSpace 来清理镜像

最后来看 im.freeSpace 是如何做的

func (im *realImageGCManager) freeSpace(ctx context.Context, bytesToFree int64, freeTime time.Time) (int64, error) {
imagesInUse, err := im.detectImages(ctx, freeTime)
// ...

im.imageRecordsLock.Lock()
defer im.imageRecordsLock.Unlock()

// Get all images in eviction order.
images := make([]evictionInfo, 0, len(im.imageRecords))
for image, record := range im.imageRecords {
if isImageUsed(image, imagesInUse) {
klog.V(5).InfoS("Image ID is being used", "imageID", image)
continue
}
// Check if image is pinned, prevent garbage collection
if record.pinned {
klog.V(5).InfoS("Image is pinned, skipping garbage collection", "imageID", image)
continue

}
images = append(images, evictionInfo{
id:          image,
imageRecord: *record,
})
}
sort.Sort(byLastUsedAndDetected(images))

// Delete unused images until we've freed up enough space.
var deletionErrors []error
spaceFreed := int64(0)
for _, image := range images {
// ....

// Remove image. Continue despite errors.
klog.InfoS("Removing image to free bytes", "imageID", image.id, "size", image.size)
err := im.runtime.RemoveImage(ctx, container.ImageSpec{Image: image.id})
if err != nil {
deletionErrors = append(deletionErrors, err)
continue
}
// ....
}

// ....
return spaceFreed, nil
}

获取正在使用的 images
判断所有镜像的是否在使用，不使用的添加到待删除的 images 里面
根据最近使用时间排序，最后 RemoveImage

很好理解的逻辑，正常人也都是这样想的，找到那些不用的，然后最久没有使用的先移除。其中有一个关键点是这个过程中 imageRecordsLock 是锁了的，防止了并发记录的修改。

码后解答

K8S 的 GC 回收哪些资源？容器(Container)资源和镜像(Image)资源
K8S 的 GC 什么时候运行？容器 GC 默认是 1 分钟，镜像 GC 默认是 5 分钟
K8S 的 GC 是谁运行的？由于还是需要在 node 上操作容器等所以最后的苦力还是交给了 kubelet 来完成

额外扩展

GC 的参数有一些可以配置的值如 --image-gc-high-threshold 根据磁盘使用空间的百分比来判断是否需要 GC。这些配置项可以在 https://kubernetes.io/zh-cn/docs/reference/command-line-tools-reference/kubelet/ 找到。

总结提升

实际经验

k8s 的 GC 设计很大程度上避免了磁盘资源使用带来的意外，所以平常正常使用的情况下一般不会出现问题，并且现在都上云了，磁盘一旦有任何问题，即将满了，会报警，运维的反应会更快。那么在实际的使用中，最容易出现问题的，不是镜像而是日志。遇到最多的就是意外是：有 pod 坏种（资源占用过多），导致节点资源不够，开始被驱逐，然后不断污染各个节点，导致雪崩的时候。过程中会导致 pod 不断创建或销毁，并且会出现各种 OOM 的日志 (The node had condition: [DiskPressure])，导致节点磁盘满。这里的节点还不一定是 worker 先满的，master 也有可能哦。避免方式一个是限制 resources，一个是定期关注或直接监控日志，并不一定是 docker 的日志，有时是 k8s 本身的日志。

编码上

在编码上，有一个地方值得我们学习学习。是在启动 StartGarbageCollection 的时候，看到了一个方法是

1	go wait.Until(fn, ContainerGCPeriod, wait.NeverStop)

这里的这个 wait.Until 封装的很有意思，非常值得我们学习。比如，如果让你写一个不会因为 panic 而停止，一直定时运行的 goroutine 启动方法，你会如何封装呢？在没有看到这个方法之前，我的封装无外乎就是利用 defer + recover 的方式，然后用个 ticker 就完事了。因为一旦启动一个 goroutine 意味着就有 panic 的风险，所以一定会有一个 recover 去捕获。但是，这样一旦 panic 之后，就会停止，再也不运行了，那么势必就需要在 recover 之后重新启动一个新的 goroutine 去运行（有一点递归的意思在里面了）。这样的封装其实不够优雅。而 k8s 这里的封装就很有意思了。他不仅在最后的 BackoffUntil 做了抽离，让运行是运行，定时是定时，然后通过 defer runtime.HandleCrash() 来捕获。并且在其中还实现支持了 Backoff。所以这个封装其实很值得我们去学习和使用。

// vendor/k8s.io/apimachinery/pkg/util/wait/backoff.go:210
func BackoffUntil(f func(), backoff BackoffManager, sliding bool, stopCh <-chan struct{}) {
var t clock.Timer
for {
select {
case <-stopCh:
return
default:
}

if !sliding {
t = backoff.Backoff()
}

func() {
defer runtime.HandleCrash()
f()
}()

if sliding {
t = backoff.Backoff()
}

// NOTE: b/c there is no priority selection in golang
// it is possible for this to race, meaning we could
// trigger t.C and stopCh, and t.C select falls through.
// In order to mitigate we re-check stopCh at the beginning
// of every loop to prevent extra executions of f().
select {
case <-stopCh:
if !t.Stop() {
<-t.C()
}
return
case <-t.C():
}
}
}

是的，这个代码其实可以直接被抄过来用的，当作一个工具封装起来，这样 goroutine 用的会很放心。

博客装修(2024年3月)

2024-02-28T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

却忆携诗花底看，回头又是一年春。
不知不觉又一年过去了，每年 3 月都是博客装修的季节，但这次就不大折腾了。

butterfly 主题升级

更新主题版本至 4.13.0 https://github.com/jerryc127/hexo-theme-butterfly

其中我一个比较喜欢的优化是对于搜索的能力，现在感受比原来好用了很多。不过每次升级都是对于合并代码的一次巨大考验，这次我学乖了，直接把更新的配置文件内容全部拷贝进去改，这样就不会出现冲突了。这也让我对于配置一些软件配置文件的设计有了更好的认识，它们会加自定义的配置单独放在一个文件里，这样就不会影响到主配置文件的合并了，然后自定义的配置会覆盖默认的配置。xxxx.custom.yaml -> xxxx.yaml

评论系统

去年评论组件换成了自建的 twikoo 很喜欢，配置简单。

修改评论回复邮件

之前我看到了 Twikoo评论回复邮件模板我一直没来的及修改，这次我终于修改了，总的样子没变，细节调整了一点点。修改之后大概是这样的：

需要注意的是：MAIL_TEMPLATE 和 MAIL_TEMPLATE_ADMIN 配置是不一样的，一个是别人评论给你的邮件，一个是你回复别人的邮件。

MAIL_TEMPLATE

这个是你回复给用户的评论，所以是带有原评论信息的 PARENT_NICK 和 PARENT_COMMENT。

<div class="page flex-col"><div class="box_3 flex-col" style="  display: flex;  position: relative;  width: 100%;  height: 206px;  background: #ef859d2e;  top: 0;  left: 0;  justify-content: center;"><div class="section_1 flex-col" style="  background-image: url(你网站的LOGO图片地址);  position: absolute;  width: 152px;  height: 152px;  display: flex;  top: 130px;  background-size: cover;  border-radius: 50%;">div>div><div class="box_4 flex-col" style="  margin-top: 92px;  display: flex;  flex-direction: column;  align-items: center;"><div class="text-group_5 flex-col justify-between" style="  display: flex;  flex-direction: column;  align-items: center;  margin: 0 20px;"><span class="text_1" style="  font-size: 26px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #000000;  line-height: 37px;  text-align: center;">嘿！你在 ${SITE_NAME} 博客中收到一条新回复。span><span class="text_2" style="  font-size: 16px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #00000030;  line-height: 22px;  margin-top: 21px;  text-align: center;">你之前的评论 在 ${SITE_NAME} 博客中收到来自 ${NICK} 的回复span>div><div class="box_2 flex-row" style="  margin: 0 20px;  min-height: 128px;  background: #F7F7F7;  border-radius: 12px;  margin-top: 34px;  display: flex;  flex-direction: column;  align-items: flex-start;  padding: 32px 16px;  width: calc(100% - 40px);"><div class="text-wrapper_4 flex-col justify-between" style="  display: flex;  flex-direction: column;  margin-left: 30px;  margin-bottom: 16px;"><span class="text_3" style="  height: 22px;  font-size: 16px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #C5343E;  line-height: 22px;">${PARENT_NICK}span><span class="text_4" style="  margin-top: 6px;  margin-right: 22px;  font-size: 16px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #000000;  line-height: 22px;">${PARENT_COMMENT}span>div><hr style="    display: flex;    position: relative;    border: 1px dashed #ef859d2e;    box-sizing: content-box;    height: 0px;    overflow: visible;    width: 100%;"><div class="text-wrapper_4 flex-col justify-between" style="  display: flex;  flex-direction: column;  margin-left: 30px;"><hr><span class="text_3" style="  height: 22px;  font-size: 16px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #C5343E;  line-height: 22px;">${NICK}span><span class="text_4" style="  margin-top: 6px;  margin-right: 22px;  font-size: 16px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #000000;  line-height: 22px;">${COMMENT}span>div><a class="text-wrapper_2 flex-col" style="  min-width: 106px;  height: 38px;  background: #ef859d38;  border-radius: 32px;  display: flex;  align-items: center;  justify-content: center;  text-decoration: none;  margin: auto;  margin-top: 32px;" href="${POST_URL}"><span class="text_5" style="  color: #DB214B;">查看详情span>a>div><div class="text-group_6 flex-col justify-between" style="  display: flex;  flex-direction: column;  align-items: center;  margin-top: 34px;"><span class="text_6" style="  height: 17px;  font-size: 12px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #00000045;  line-height: 17px;">此邮件由评论服务自动发出，直接回复无效。span><a class="text_7" style="  height: 17px;  font-size: 12px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #DB214B;  line-height: 17px;  margin-top: 6px;  text-decoration: none;" href="${SITE_URL}">前往博客a>div>div>div>

MAIL_TEMPLATE_ADMIN

这个是用户给你的评论，所以是不带原评论信息的。没有 PARENT_NICK 和 PARENT_COMMENT。

<div class="page flex-col"><div class="box_3 flex-col" style="  display: flex;  position: relative;  width: 100%;  height: 206px;  background: #ef859d2e;  top: 0;  left: 0;  justify-content: center;"><div class="section_1 flex-col" style="  background-image: url(你网站的LOGO图片地址);  position: absolute;  width: 152px;  height: 152px;  display: flex;  top: 130px;  background-size: cover;  border-radius: 50%;">div>div><div class="box_4 flex-col" style="  margin-top: 92px;  display: flex;  flex-direction: column;  align-items: center;"><div class="text-group_5 flex-col justify-between" style="  display: flex;  flex-direction: column;  align-items: center;  margin: 0 20px;"><span class="text_1" style="  font-size: 26px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #000000;  line-height: 37px;  text-align: center;">嘿！你在 ${SITE_NAME} 博客中收到一条新评论。span><span class="text_2" style="  font-size: 16px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #00000030;  line-height: 22px;  margin-top: 21px;  text-align: center;">${SITE_NAME} 博客中收到来自 ${NICK} 的评论span>div><div class="box_2 flex-row" style="  margin: 0 20px;  min-height: 128px;  background: #F7F7F7;  border-radius: 12px;  margin-top: 34px;  display: flex;  flex-direction: column;  align-items: flex-start;  padding: 32px 16px;  width: calc(100% - 40px);"><div class="text-wrapper_4 flex-col justify-between" style="  display: flex;  flex-direction: column;  margin-left: 30px;"><hr><span class="text_3" style="  height: 22px;  font-size: 16px;  font-family: PingFang-SC-Bold, PingFang-SC;  font-weight: bold;  color: #C5343E;  line-height: 22px;">${NICK}span><span class="text_4" style="  margin-top: 6px;  margin-right: 22px;  font-size: 16px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #000000;  line-height: 22px;">${COMMENT}span>div><a class="text-wrapper_2 flex-col" style="  min-width: 106px;  height: 38px;  background: #ef859d38;  border-radius: 32px;  display: flex;  align-items: center;  justify-content: center;  text-decoration: none;  margin: auto;  margin-top: 32px;" href="${POST_URL}"><span class="text_5" style="  color: #DB214B;">查看详情span>a>div><div class="text-group_6 flex-col justify-between" style="  display: flex;  flex-direction: column;  align-items: center;  margin-top: 34px;"><span class="text_6" style="  height: 17px;  font-size: 12px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #00000045;  line-height: 17px;">此邮件由评论服务自动发出，直接回复无效。span><a class="text_7" style="  height: 17px;  font-size: 12px;  font-family: PingFangSC-Regular, PingFang SC;  font-weight: 400;  color: #DB214B;  line-height: 17px;  margin-top: 6px;  text-decoration: none;" href="${SITE_URL}">前往博客a>div>div>div>

接入了 akismet 反垃圾

尝试接入了 akismet 反垃圾，对于免费用户还是很友好的。

修改样式和封面

我改了一些高度和字号的细节样式，然后首页封面图也换了一张。没错，原批，是我没错了。

每日打卡

去年的造的轮子每日打卡，还可以。

但其实有一些时候还是在摸鱼了的，你可以看到日历里面还是有很多摸鱼日。

专栏

去年 3 个专栏更新的不是很勤快，并且发现设计这东西吧，对于我个人来说，还是太过于难驾驭了，并且特别是设计的一些元素，我会发现还不如我用 UI 框架来的整齐一些。所以我今年会替换掉这个专栏，来弄个新的鸡汤。GO GO GO！

Vditor 如何离线使用？

2024-02-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

Vditor 是一款所见即所得的浏览器端 Markdown 编辑器。

GitHub：https://github.com/Vanessa219/vditor
官网：https://b3log.org/vditor/

个人使用它有两个原因：

相比于同类型的，确实很好看，之前用过一段时间 Typora ，收费之后就没用了，效果上很类似（所见即所得）
Markdown 引擎是开源的 lute ，当我需要一个前后端相同渲染效果的引擎时，它就很不错了

基本使用就不多说了，文档很详细，功能也很全面，看看就知道了，本文是由于再离线环境下使用的过程中发现 Vditor 需要依赖外部 CDN 资源，所以踩了一些坑。

基本步骤

网络上有 Vditor 的 CDN 但无法直接拿来用，除非你是原生 HTML。如果你直接配置网络的地址到 CDN 的配置会发现路径多了一个 dist。当然，官方也支持自建 CDN，将源码放到 nginx 里面去也可以，但这样单独部署很麻烦。我还是希望打包到一起去。其实作者在 issue 里面已经说了，挺容易理解的，过程也就基本是这样。

修改配置

import Vditor from 'vditor';
import 'vditor/dist/index.css';

const vditor = ref<Vditor | null>(null);

onMounted(() => {
  vditor.value = new Vditor('vditor', {
    height: 500,
    toolbar: ['headings', 'bold', 'italic', 'strike', '|', 'line', 'quote', 'list', 'ordered-list', 'check', 'outdent', 'indent', 'code', 'inline-code', '|', 'insert-after', 'insert-before', 'undo', 'redo', 'link'],
    toolbarConfig: {
      pin: true,
    },
    preview: {
      hljs: {
        style: 'dracula'
      },
      actions: []
    },
    cache: {
      id: 'post-draft',
      enable: true,
    },
    tab: '  ',
    cdn: '', // 关键在这里，需要设置CDN为空
  });
});

复制 dist

将 node_modules/vditor/dist 复制到你需要部署的服务的文件夹中，比如，我这里用的是 vite 所以就是 public 文件夹下理论上和 index.html 是同级的。

优化

如果此时默认这样服务的话，加载 js 会很大，大概 3.8M+，肯定不行，会明显卡顿一下，所以需要压缩。我这里使用的是 BR，当然你也可以使用 gzip。具体如何压缩就看看你部署的工具是什么了。

这样之后，你就会发现打包之后你的文件大小特别大，因为源码也在里面了，所以我删除了所有 dist 中不需要的组件源码，比如流程图渲染等等，这样可以减少打包后的文件大小。

总结

总的来说，使用体验还是很不错的，后面还会继续使用。

密码还在用 MD5 加盐？不如试试 Bcrypt

2024-01-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

很长一段时间我也是用 MD5 + 盐来解决绝大多数密码的问题的，因为确实很方便。不过，从安全的角度来说，还是有风险，那就干脆直接上 Bcrypt 吧。

MD5 + salt

其实，在大多场景够用了，毕竟 hash 和 salt 同时被黑的概率太低了，不过其实 MD5 最大的问题不是到不是这个，而是算的太快了，随着计算能力的发展总会是有概率被破解的。

1	password_hash = md5(password+salt)

Bcrypt 的特点

hash 不可逆
随机 salt
可调整的计算 cost

上代码

不多说，直接上代码，看怎么用，然后再分析。

package main

import (
"fmt"

"golang.org/x/crypto/bcrypt"
)

func main() {
password := "123456"
fmt.Printf("第一次加密后的密码: %s\n", encryptPassword(password))
fmt.Printf("第二次加密后的密码: %s\n", encryptPassword(password))

fmt.Printf("密码比对结果: %v\n", comparePassword(password, encryptPassword(password)))
fmt.Printf("密码比对结果: %v\n", comparePassword("123", encryptPassword(password)))
}

func encryptPassword(password string) string {
hashPassword, err := bcrypt.GenerateFromPassword([]byte(password), bcrypt.DefaultCost)
if err != nil {
panic(err)
}
return string(hashPassword)
}

func comparePassword(password, hashPassword string) bool {
err := bcrypt.CompareHashAndPassword([]byte(hashPassword), []byte(password))
return err == nil
}

# output

第一次加密后的密码: $2a$10$dFPckrZLstSKxX8zf3uUKurLw4Pes.G3APfrDIQfVHCFyGmUq4J7K
第二次加密后的密码: $2a$10$nYbAG/Om/bjEGq..x5TsVOy5VIVWudVaFxchrWLWPO5M7tMDIBDVO
密码比对结果: true
密码比对结果: false

golang.org/x/crypto/bcrypt 提供了 bcrypt 方法，所以使用起来非常简单的。

GenerateFromPassword 提供了加密(hash) 的方法，其中第二个参数是计算成本(工作因子)，越大计算耗时越长 MaxCost 是 31
CompareHashAndPassword 提供了验证的方法，用于验证用户输入的密码是否正确

最让人安心的就是，它的每次 hash 结果都都是不一样的，原因就是每次的 salt 也是不一样的。我们知道，md5 使用相同的字符串前后两次 hash 是一样的，从而可以验证前后用的密码是不是一样的。那么，Bcrypt 每次的 hash 都不一样，如何它是如何做验证呢？

原理一瞥

hash 结构

首先我们看看 hash 之后的结果

1
2
3

$2a$10$nYbAG/Om/bjEGq..x5TsVOy5VIVWudVaFxchrWLWPO5M7tMDIBDVO
\__/\/ \____________________/\_____________________________/
 A  C      Salt                        Hash

A：表示 hash 的方式，2a 代表 Bcrypt 加密版本号
C：表示迭代次方数
Salt：是盐
Hash：是最后的值

分析

其实看完了结构你就不难猜测到它的原理了，说白了验证的方式很简单，就是将 hash 后的结果中的 Salt 取出来，然后对用户输入的密码再次使用相同的方式和次数进行 hash，然后比较结果，看结果是否一致。也就是说，其实 Bcrypt 的 hash 结果并不仅仅只是包含了 hash 还包含了具体的 hash 计算方式和 Salt。

总结

所以，Bcrypt 相比于 MD5 来说，我认为最关键的还是有了 cost 这个选项，并且本身的计算就比 MD5 的时间要长，大大的提高了破解的难度，而且由于 salt 的不固定，彩虹表是别想了。最后，还有一个关键点要提醒你：Bcrypt 的加密长度是有限制的，比如 golang 这里的库限制长度最大为 72，超过就会报错。

折腾你的输入法

2024-01-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 想不到有一天我居然会折腾我的输入法… 作为一个折腾的孩子，折腾各种硬件软件是常有的事情，但最近发现了一个输入法，然后掉进了另一个圈子。这个输入法就是：中州韵输入法引擎 RIME，在 mac 上名字叫鼠须管。今天简单记录在 MacOS 下安装和使用的配置过程。

优点

隐私：这个引擎开源的，不可能出现上传你输入的内容到云上的情况
快速：不联网一定比你联网输入要快，但也不联想（所以这个快速因人而异）
高度自定义：想怎么定义都行，可以用自己的词库

缺点

安装和配置有大门槛，当然难不倒我们搬砖的

安装 RIME

我直接用 brew 安装就完事了，当然你也可以官网下载

1	brew install --cask squirrel

安装完成之后，第一个坑就出现了，输入法并不会直接显示出来，你需要主动添加。

我一开始找了半天，一直以为没有安装成功😢

安装 plum

plum(東風破) 是 RIME 的配置管理工具

1	curl -fsSL https://raw.githubusercontent.com/rime/plum/master/rime-install \| bash

安装雾凇拼音

雾凇拼音提供了一套开箱即用的完整 RIME 配置

# 拉取并 plum 进入目录（如果按上面步骤已经安装 plum 则你现在已经在这个目录了，不需要做这个操作）
git clone --depth 1 https://github.com/rime/plum.git
cd plum

# 安装或更新：全部文件
bash rime-install iDvel/rime-ice:others/recipes/full

# 安装或更新：所有词库文件
bash rime-install iDvel/rime-ice:others/recipes/all_dicts

现在只需要重新加载一次就可以宣布安装完成了。F4 可以切换输入法（双拼等等）

自定义配置

当然 RIME 最重要的就是支持自定义配置，以下是我自己的配置，仅供参考。

打开配置文件夹（这里有个 Deploy 需要注意⚠️ 一下，后面会提到）

default.custom.yaml

新建配置文件 default.custom.yaml

patch:
  menu:
    page_size: 8  # 候选词个数
  ascii_composer:
    good_old_caps_lock: true  # true | false
    switch_key:
      Caps_Lock: clear      # commit_code | commit_text | clear
      Shift_L: commit_code  # commit_code | commit_text | inline_ascii | clear | noop
      Shift_R: commit_code  # commit_code | commit_text | inline_ascii | clear | noop
      Control_L: noop       # commit_code | commit_text | inline_ascii | clear | noop
      Control_R: noop       # commit_code | commit_text | inline_ascii | clear | noop
  key_binder/bindings/+:
      - { when: composing, accept: KP_Enter, send: Return } #  小键盘回车上屏原始编码

这里我需要自定义的是候选词的个数，还有 Shift 切换中英文

squirrel.custom.yaml

新建文件 squirrel.custom.yaml 这里我需要调整的是字体和配色，app_options 可以使得进入某个应用的时候自动切换为英文避免输入中文，我经常用的是 raycast

# 適用於【鼠鬚管】0.9.13+
# 位置：~/Library/Rime/squirrel.custom.yaml
# 用法：想要哪項生效，就刪去該行行首的#字符，但注意保留用於縮進的空格

patch:
#  us_keyboard_layout: true      # 鍵盤選項：應用美式鍵盤佈局
#  show_notifications_when: growl_is_running  # 狀態通知，默認裝有Growl時顯示，也可設爲全開（always）全關（never）
 style/horizontal: true        # 候選窗横向顯示
#  style/inline_preedit: false   # 非內嵌編碼行jing
 style/font_face: "LXGW WenKai Mono"    # 我喜歡的字體名稱
#  style/font_point: 21          # 字號
#  style/corner_radius: 10       # 窗口圓角半徑
#  style/border_height: 0        # 窗口邊界高度，大於圓角半徑才有效果
#  style/border_width: 0         # 窗口邊界寬度，大於圓角半徑才有效果
 style/color_scheme: lost_temple      # 選擇配色方案
 app_options/com.raycast.macos:
    ascii_mode: true

# 註：預設的配色方案及代碼（指定爲 style/color_scheme ）
#   系統默認色系 - native
#   碧水 - aqua
#   青天 - azure
#   明月 - luna
#   墨池 - ink
#   孤寺 - lost_temple
#   暗堂 - dark_temple
#   星際我爭霸 - starcraft
#   谷歌 - google
#   曬經石 - solarized_rock
#   简约白 - clean_white

其他还有很多自定义的配置，请参考官方文档。注意，配置添加或修改完成后需要重新部署才会生效。

安卓如何用雾凇

下载地址：https://github.com/fcitx5-android/fcitx5-android/releases
注意选择版本是：

app 的 arm64-v8a
plugin.rime 的 arm64-v8a

步骤

下载上面两个 apk 并安装
将 https://github.com/iDvel/rime-ice 中的全部内容打包下载到手机
解压并替换目录 /storage/emulated/0/android/data/org.fcitx.fcitx5/data/rime 注意目录可能不一样，只需看清楚包名和最后的 rime
重新加载配置（打开输入法界面，键盘的页面，有配置项）

总结

作为一个隐私控，其实输入法一直被我遗忘，因为之前用搜狗输入法，也挺习惯的。但是最近发现了这个输入法，就开始折腾了。其实折腾的过程也是很有意思的，毕竟自己的输入法，自己的词库，自己的配置，这些都是很有意思的事情，使用起来也慢慢发现也挺顺畅的。

2023 读书总结

2023-12-30T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

2023 年度读书总结

读书列表

仅罗列，顺序是随机。怕链接会过期，失效的建议直接搜书名。

2023 最佳

并不是说其他的书不好，而是它对我的影响最大，印象最深刻

《深入理解Linux网络：修炼底层内功，掌握高性能原理》

今年最佳颁给它，一方面是它对我技术提高是最大的，另一方面是读的过程中真的有深入浅出的感觉。十分推荐。

打卡日历

使用 DailyCards 确实 push 了自己很多。Presenting yourself will push yourself. (展示自己，就会鞭策自己)。与“输出倒逼输入”相比，打卡这样的输出我觉得会更加减少自己的负担。以前我的输出必须是一篇博客，那么筹备的过程中容易拖延，而打卡不同，你无需关心内容的完整度和质量，它只是一个微博，没人会关心你微博有没有写的好不好，更多的是知道你在努力。

下面，我总结了几个过程中的有效感受

不要在意中断

没打卡，就是没打卡；没学习，就是没学习。每个人都不是完美的。今天我玩游戏所以没学又怎么样？所以我没有补卡的习惯，展示的就是最真实的自己，所以你也不必焦虑。当然，我也非常钦佩哪些可以一直坚持每天学习的同学，他们也是我们的榜样。

中断之后再启动

你知道操作系统里面软中断了之后如何恢复吗？没错，关键其实是 context(上下文)。

所以，我发现连续中断了几天之后，毫无疑问有人会继续拖延(我自己也是)，打卡之后的恢复关键在于回忆之前的行动，恢复你的上下文。

可以是翻开你之前看了一半的书，也可以是打开你之前看了一半的视频。而我的恢复方式很简单，就是打开打卡列表，看下我上一次做了什么。

你可能会觉得这很可笑，是的，就是这一个启动的小动作，一旦开始回忆，你就会自然而然的继续了。

新年继续加油💪🏻

我现在已经没有新年计划的习惯了，因为发现计划总赶不上变化，看完当下的书，走好脚下的路。2024 一起加油。

2023 re:Invent 利用 PartyRock 10 分钟构建你的 AI 应用

2023-12-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

一年一度的亚马逊云科技的 re:Invent 可谓是全球云计算、科技圈的狂欢，每次都能带来一些最前沿的方向标，这次也不例外。在看完一些 keynote 和介绍之后，我也去亲自体验了一些最近发布的内容。其中让我感受最深刻的无疑是 PartyRock 了。PartyRock 真的算是做到了：能让任何人快速的构建一个属于自己的 AI 应用。当然，本文最后也分享我对于其他在 re:Invent 上提到的一些看法和思考。

那么，不多说，先来看看今天的主角 PartyRock。

PartyRock 简介

Everyone can build AI apps.

这句话是 PartyRock 首页的一句话，它就是 PartyRock 的最好的功能概括了。

去年到今年 AI 相关的应用层出不穷，GEN AI 已经太多了。到目前为止，其实我本人已经有点审美疲劳了，因为该看的都看的差不多了，所以说实话体验之前，我并没有对 PartyRock 带有很大期望，最多是体验完了之后厚脸皮来一句 “不过如此”。结果体验完成之后发现我说的是：

使用体验

下面我就用我自己制做的两个应用和一个官方的应用来说明一下它的使用体验。

构建第一个应用 - 选词填空

制作的过程其实非常简单，几乎 10 分钟就搞定了。

步骤 1

点击创建应用之后，在它给出的输入框里面输入你想要做的应用的功能描述，比如说，我最近在学英语，我第一想法就是做个选词填空的应用出来，于是我就在 App builder 的输入框里面输入如下的内容，然后点击 Generate
app 就开始生成了。

步骤 2

根据生成的内容，你自己按需求修改一下描述和内容，这里最后下方的答案输入部分我做了一些提示词的修改，其他我也就没动了。

步骤 3

然后就可以测试一下了。在第一个框(Words to choose from)输入一些单词，在右边(Sentences)就会生成对应的题目。

然后你可以在下面(Answer)作答并验证答案是否正确。

整个过程，需要我动脑的地方就是在想我应该如何描述我的应用，实际生成的效果很不错，我很满意。

构建第二个应用 - 扩写生成图片

第一个应用我们是依赖的 AI 直接帮我们生成的，虽然很简单，但是对于我们开发者来说，与其去想描述，不如直接动手来的快。于是这次我们从零开始（选择 “Start from an empty app” 选项），自己搭建一个应用试试看。这次我想试试有关于图片生成的能力，对于 AI 生成图片来说最麻烦的是写描述词，于是我想让 AI 先帮我扩写，然后再利用扩写的内容去生成图片。

步骤 1

第一步添加 widget ，其实我们在上面看到的一个输入框就是一个 widget，目前 PartyRock 提供了下面几种可以使用的 widget。

我们需要 3 个 widget，一个用户输入(User Input)，一个文本生成(Text Generation)，一个图片生成(Image Generation)。

步骤 2

然后，我们就需要编写 AI 生成的提示词了，点击每个 widget 右上角的编辑，就可以输入对应的提示词，还可以选择不同的模型。其中最重要的是，你可以使用 @ 符合直接引用其他 widget 生成的内容，比如，我需要根据用户输入的内容进行扩写，那么我在提示词里面就可以直接引用用户输入的部分；比如，我想根据扩写的内容生成图片，我就可以利用 “@Description” 引用扩写的内容。如下图 Prompt 中高亮的部分。

步骤 3

测试一下，下图就是我输入的一句描述，经过扩写最后生成了图片，当然模型不同最后效果也不一样。

此时你就可以发布你的应用了。

ChatRPG

让我觉得最巧妙的一个应用，是官方给出的 ChatRPG。这个应用利用了 AI 对话的功能来完成了一个对话形式的 RPG 游戏，你可以通过对话的形式选择不同的路径(A B C)来获得不同的结局，并且最为巧妙的是，它利用了几个 AI 的联动，整个 RPG 的过程会生成不同的场景图片，让整个游戏的过程更加有了带入感觉。

精妙的地方

说完了体验，来说说 PartyRock 精妙的地方。

AI build AI：第一点我觉得妙的地方是自举，也就是自己构建自己，利用 AI 的能力去构建 AI 应用本身。一方面体现 AI 本身的能力强大，另一方面让也大大降低了入门的门槛，让小白用户也能快速上手。
remix：PartyRock 提供了 remix 的功能，你可以直接复制(remix)一个别人已经发布的应用，直接修改里面的参数或者提示词来完成你的应用。这无疑是最快的创建应用的一种方式了。
引用变量：这我觉得是 PartyRock 的灵魂，通过@引用其他 AI 完成的工作，从而实现不同 AI 之间的联动。你甚至可以通过这样的方式构建一个自己的工作流，让 AI 进行协作，让需要来回对话好几次的事情一步到位。现在提供的 widget 还比较少，我觉得随着后面的更新，当 widget 有很多的时候会碰撞出更多的火花。同时，这也给我们提供了一个不同 AI 之间协作的一个不错思路，我觉得这样的思路带给我的思考比产品本身还有意思。

其他产品

当然，这次 re:Invent 提到了其他很多的产品和思考，这里就对其中几个我非常感兴趣的产品谈谈我的拙见。

Serverless

我关注最多的一定是 serverless，我一直都觉得 serverless 一直一种对开发友好也对运维友好的结局方案。而这次 re:Invent 发布的 Amazon ElastiCache Serverless 让我也有了新的思考。Amazon ElastiCache Serverless 是根据应用程序流量模式自动的扩展容量的缓存服务，而对于缓存这样的热点数据来说，有过实际业务场景的同学都知道如果 Redis 突然内存满了是一种什么样的体验。而 ElastiCache 的自适应压力的工作负载模式可以很好的解决这个问题，而且兼容 Redis。

产品本身的意义很大，而带给我的思考是，在未来是否当 serverless 足够成熟之后是否会出现一直数据源的集合产品，自动会根据数据的访问情况来自动路由到对应合理的存储模式中呢？比如，热点数据会自动路由到 cache 而平常数据路由到 mysql，而冷数据当到达 “冰点” 时自动归档以减少消耗？而对于上层应用来说使用完全透明？当然里面的问题很多，不过我觉得随着 serverless 的发展或许这也是可以想象的。

AI

Amazon Bedrock、Amazon CodeWhisperer 和 Amazon Q 是这次 re:Invent 提到有关 AI 的一些产品。比如本文提到的 PartyRock 应该就是建立在 Amazon Bedrock 之上的。当然，我也第一时间去试用了一下 Amazon CodeWhisperer 和 Amazon Q ，不过给我的感觉还没有那么的惊艳，或许是还在 beta 阶段，智能程度一般，相信体验过的小伙伴感受也差不多。而且由于目前支持的开发语言还不多（我常用的 golang 还没有）。

不过，re:Invent 上一直强调了另一个有关 AI 的关键点就是，安全。“生成式 AI 一定应该是安全的”。这里的安全有两个方面，一方面是生成的内容一定应该是安全的，不能出现违法的内容；另一方面是作为模型基础的训练数据应该是安全的。比如，企业内部基于自己内部代码和数据来建立的模型，进行使用，对应的数据不应该被公开或者出现在别的人生成内容中。所以，安全应该是未来 AI 前进的基石。

我在体验 PartyRock 的时候也发现了下面的提示，如果出现不安全的单词图片是不会生成的：

THE FRUGAL ARCHITECT

亚马逊 CTO Werner Vogels 博士今年在 re:Invent 上的主题演讲提到了 THE FRUGAL ARCHITECT（节俭/节制架构）。提到了成本应该在架构设计之初就应该被考虑进去，并且一直作为一个考量指标。

去年到今年一个词在国内大厂一直被提及 “降本增效”，结果最近演变成为了 “降本增笑”。是的，由于成本的缩减，往往带来的就是服务的不稳定，这是所有工程师都不想见到的。我就想到之前听到一个说法是，如果一个并发问题能通过加服务器来解决，那么领导会更愿意通过加服务器来解决而不是重构代码，因为养开发的成本往往高于服务器。而我也经历过一次 k8s 的降本，虽然有时候确实是因为 request 设置的不合理导致的成本超标，但实际改起来的时候真的是心惊肉跳，因为你真的不知道这个服务的并发明天会不会就坐火箭。所以，成本、安全、性能一直都是一种权衡trade off，用流行的话说就是 “并不是我不知道两地三中心安全，而是单中心更有性价比😭”。

其实，有时候并不是不考虑，而是无法预估流量的大小，谁都也无法预测你的应用什么时候会火。所以 AWS 提供的 Lambda，ElastiCache 都是那种按成本去设计的。而对于上云来说最大的一个问题就是成本不可控，随着服务的类型越来越多，并且很多服务都是按量付费，预算与实际往往会有比较大的差异。所以，最让我感兴趣的是，这次 Werner Vogels 提到的 Management Console 内可以展示应用级别的成本，之前我们可能只能知道某个使用的服务成本很贵，而现在我们能知道具体那个应用在使用的成本最大。这种观测能力对于使用者来说是更加友好的，我能最大程度的去观测我的应用成本的占比，从而精准的控制我的成本，而不是盲目的去找压力。

总之，在我认为 THE FRUGAL ARCHITECT，给我的思考是你必须有能力去时刻关注成本，无法观测的系统将导致无法估量的成本。

总结

最后总结一下，这次 re:Invent 不仅给我们展示了一些最新的应用和服务，更多的给我们带来了一些 AWS 对于最新技术方向的一些思考，接触这些前沿技术给我的架构解决方案又多了一些积累，相信明年的大会也会一样精彩。

看腾讯 CodeReview 有感

2023-11-29T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]> 前言

之前，我看了腾讯发布的两篇有关代码规范以及 Code Review 相关的文章，作者是林强大佬。

里面提到了很多有关代码相关的思考，以及一些价值观的传递，从中我也学到了很多（算是大厂内部一瞥吧）。非常推荐没看过的同学看看鹅厂是如何做 CR 的。文中的 CR 也是对 go 的，所以我看起来比较亲切。故，在这里总结一下其中对我来说意义比较大的。

之前，我看了《重构》之后也写了一下读后感，所以相同的部分我就不在本文中列举了。

《鹅厂练习13年Coding后，我悟了》

01 细节即是架构：在这里更多的体现在代码的组织结构和也是一种架构。
02 代码和文档在一起：有两个好处，不容易丢失，可以同时被维护。
05 全局变量的危害并不仅仅是造成了耦合，在大项目中，你完全不知道以后是否会有人去修改这个变量。
07 可逆性原则：我的总结是，永远不要相信产品经理跟你说 ”这个以后不会改了，现在写死就好“，回头半夜加班的还是你。
11 尽早崩溃：并不是说你遇到问题就 panic，也并不是说你不能写 recover，而是不能对于出现的错误去没有任何的处理（打印日志、上报、监控等）
12 pkg 也就是一下工具的互相依赖会经常会导致很多问题，特别是一些最底层工具，字符串、文件操作等等
17 缄默原则：我遇到很多人会说，如果我不打这个日志怕到时候出现问题的时候不知道问题的原因。是的，打日志其实是门学问。
- 正常 case 最多只有 debug 基本的日志，且你自己要清楚线上一定不会有的
- 保证你的代码逻辑是非对即错，那么只有出现问题，你知道不对那么一定就不对
- go 的问题在于通常出现 error 的时候没有堆栈和上下文的信息，所以一定一定要包装好你的错误

《腾讯工作13年之所思所想，那些优秀程序员的共性特征》

01 偏执：对于 CR 来说，是的。代码怎么写大家有大家的方式，但为了维护势必要统一风格，而偏执在其中往往会让整个过程更简单。总结来说就是：”要么你说服大家你这么写的理由，要么你改“
02 控制软件的熵是软件工程的重要任务之一：这里我更喜欢他在截图里面说的，这是从代码的架构设计角度出发而做的思考与实践。
07 写代码要有对于“美”的追求：这里让我知道了，原来我和鹅厂的代码问题如出一辙😂 每一块砖头都被精心设计，才能构建一个漂亮的项目！
11 所有细节都应该被显式处理这个就是前面一篇提到的尽早崩溃的补充，我叫做 “吞 error”
12 合理注释一些并不“通俗”的逻辑和数值，说明一下这并不魔法数字，而是一个可以被推敲的默认值
18-19 既然你准备输出日志了，那么就一定也保证当你看到这个日志的时候能知道出现了什么问题，并且能定位到出现问题的数据
25 shadow error 在 go 里面很容易被忽略，处理一定要谨慎

总结

看完之后，一方面给了我信心，鹅厂 CRUD 也这样写的；一方面给了暴击，林强大佬 Review 可真是针针见血啊。

针对小项目 docker 镜像自动更新部署的方案

2023-11-14T16:00:00.000Z

RSS 阅读体验可能不太好，若喜欢本文请点此跳转原文查看~

]]>

对于一些个人的小项目来说，没必要也没能力上一些大型 devops 工具(如 jenkins，argocd) 时，有一些小工具往往非常好用

当我们 ci 打包完成 docker 镜像之后需要 cd (部署)时，如果没有工具，有时候特别麻烦，而一些大型的重工具往往对于小项目来说并不合适。今天要说的一个小工具就是 watchtower。

地址： https://github.com/containrrr/watchtower/

介绍

功能

定时对比当前机器上的启动着的容器，如果发现新版本的镜像则停止、拉取、重启以更新容器
支持 cron 指定对比时间
支持指定容器
支持更新后进行通知

适用场景

单机小项目
启停间隔无所谓
docker 镜像 latest 一把梭

使用

使用部署非常简单，一个 docker-compose 就能说清楚所有基础能力

version: "3"
services:
  watchtower:
    image: containrrr/watchtower
    environment:
      - TZ=Asia/Shanghai
      - WATCHTOWER_NOTIFICATIONS=slack
      - WATCHTOWER_NOTIFICATION_SLACK_HOOK_URL="https://hooks.slack.com/services/xx/xx"
      - WATCHTOWER_NOTIFICATION_SLACK_IDENTIFIER=linkinstars-watcher
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
      - /root/.docker/config.json:/config.json
    command: your-app1 your-app2 --cleanup --interval 60

your-app1 your-app2 你需要监控的 docker 容器名称，如果不写，则是全部
--cleanup 自动清理旧镜像，建议打开
--interval 监控间隔时间，单位：秒。也可以替换为 cron 表达式 --schedule "0 0 4 * * *" 当然注意配置时区，否则时间不对。
WATCHTOWER_NOTIFICATIONS 通知渠道，具体其他通知配置可以参考：https://containrrr.dev/watchtower/notifications/
/var/run/docker.sock:/var/run/docker.sock 必须有，docker 容器的操作权限
/root/.docker/config.json:/config.json 如果需要拉取私有 docker 仓库，则需要配置这个，否则拉取不到

其他

启动之后，如果需要单次执行，可以使用下面的命令：

1	docker exec -it watchtower-watchtower-1 /watchtower --debug --run-once your-app1

watchtower-watchtower-1 为你启动的 watchtower 容器名称
your-app1 是你需要检查的容器名称

总结

我最喜欢它的一点是解耦了 cd 和 ci，不需要一个独立的平台去配置 ssh 访问服务器去执行 cd 的工作，所以我用了也挺久的了，对于自己家里的小项目来说是足够了的。不过就一点很难受，通知不支持任意的 webhook，仅仅支持 slack 的 webhook，也没别的办法，无法接入钉钉飞书。

LinkinStar's Blog

《一起读 kubernetes 源码》ingress-nginx 是如何工作的

前言

前置知识

心路历程

码前提问

源码分析

Ingress 数据结构

ingress-nginx

Ingress Controller 实现原理

入口到对象

初始化

启动

码后解答

总结提升

编码上

HandleSigterm

syncQueue

向量数据库简单使用对比

使用场景

安装

milvus

pgvector

qdrant

elasticsearch

测试

前提

查询速度

CPU

内存

使用

milvus

pgvector

其他

查询结果的说明

总结

博客装修(2025年3月)

butterfly 主题升级

评论系统

Notion Paper

专栏

公众号

总结

《一起读 kubernetes 源码》kube-proxy 默默做了什么？

前言

前置知识

码前提问

源码分析

启动

启动命令

入口

Proxier

Run

syncProxyRules

码后解答

总结提升

编码上

OOMAdjuster

birthCry

2024 读书总结

读书列表

非小说

小说

2024 最佳

打卡日历

新年新气象

k8s pod 之间是如何通过 DNS 访问的

如何访问

相同的 namespace 下

不同的 namespace 下

为什么可以访问？

寻找路由

CoreDNS

总结

推荐最近几个 Mac 上的小应用

应用

Input Source PRO

homerow

tssh

Power Keys

如何返回小写的节点？