健康评估

对于IP网关来说，malenia是一个中间件，所有工作仅能在代理协议规定的范围内操作。由于不能侵入到业务本身，也不能获得上游IP供应商的准确信息，所以评估业务在IP池上的运作健康状态是非常困难的。

如何判断失败是业务问题还是代理IP本身问题，如下场景：
- 在国内有人使用代理IP访问Google，则访问必然失败，此问题是业务本身问题
- 代理过期后，上游供应商返回403，此问题是上游供应商问题
- 代理IP被风控，代理请求被风控等业务问题导致http响应403，此问题是业务问题
- 由于代理节点本身负载过高，或者网络通畅性问题导致的代理连接超时，此问题是代理节点问题
- 由于代理服务器本身机器的负载过高，或者带宽过高导致代理连接超时，此问题是代理网关问题
- 目标网站自身负载过高，导致代理连接超时，此问题是目标网站问题
发现问题后，如何决策，什么场景应该下线IP，什么场景应该继续使用
- 如果发现问题则立即下线对应节点，则高并发情况下存在多种误判，则会导致IP池瞬间被跑空（如有人使用代理网关访问不可达网站，例如Google）
- 如过不下线IP节点，则可能有崩坏代理节点一直在业务中，引起业务整体服务质量降低

健康状态一维化

首先解决第一个问题，如何量化IP资源的健康状态，即通过IP使用情况的一些表征来评估每个节点的质量、全盘IP池的整体质量。因为确定健康状态量化规则后，才可以明确得到当前IP池的整体情况，为后续IP失败下线决策做参考依据。

malenia提供的量化指标叫做健康指数，如下图：

health_score

考虑IP节点崩坏，底层动作一定发出某种强度下线崩坏IP节点的信号，则一定会带来IP池中IP节点下线，所以从理论上来说，IP池中剩余IP数量的大小，则可以代表IP池健康指数了。

malenia要求创建IP资源的时候，指定一个IP池容量，此容量非常关键，健康状态以此容量作为基础评估IP健康指标。malenia的IP池划分为两个区域：

所有IP节点数量/设定预期IP池化容量=健康分数，其中所有IP节点数量包括可用IP区+备用ip区的所有节点。

如上图事例，设定IP池容量为50，则当50个IP入库后，本IP池的健康指数为100，再入库25个IP到备用IP区后，则健康指数为150。假定所有IP均不可用，IP池中IP数量为0，则对应健康指数为0。

完成对IP池IP质量量化任务后，为了避免动态策略配置复杂，我认为的为健康分数划分了三个等级，用于后续下线节点指令的决策。

>120：优，此时IP池具备充足的IP节点，业务轻微反馈IP节点不好用即可下线对应节点，处理suggest下线级别
>120> 100：良,此时IP池有部分备用IP节点，但是IP数量快要接近用户设定IP容量，此时只有业务强烈怀疑IP资源出现故障才会下线节点（虽然是强烈怀疑，但是也只是怀疑，所以可能有误判），处理strong下线级别
>100>0：差，此时IP池已经低于用户设定IP容量，判断IP池已经处于不健康状态，此时如果没有必要不进行IP资源下线，除非明确判断IP资源崩坏，处理must下线级别

malenia框架在运行过程中，通过对IP资源使用的拦截，可以获得节点可靠性信息反馈，并且每当节点使用异常发生，便会产生下线指令。受限于两个原因，IP下线指令具备指令强度区分

must: 代理服务器拒绝连接、代理网关到代理服务器NETWORK_UNREACHABLE。代理节点崩坏给出的明确结论
strong：代理服务器连接超时。大多数IP节点崩坏的表现，如代理服务器自身故障导致监听端口不处理请求、链路上防火墙阻断访问、VPS所属机房下线IP默认策略、代理服务器负载高导致连接处理不及时等。
suggest: 代理服务器返回: NETWORK_UNREACHABLE、代理服务器返回异常的http状态码，如5xx，4xx，以及其他异常情况