
云平台运维
文章平均质量分 53
Linux周边及、vmware/openstack 相关云平台的问题总结
优惠券已抵扣
余额抵扣
还需支付
¥59.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
mzhan017
小张
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Redis总结
可以设置最大使用内存的值,如果设置为0,或者不设置就是unlimited,容易吃光内存,导致oom killer的问题。这里有一个设计的问题,为什么不在redisdb的代码里先查询这个当前系统的内存大小,设置一个适中的作为默认值,而不是unlimited。现在这种设置就是一个非常大的坑,如果第一次使用,就容易碰到这种问题。八零九零大部分人父母一辈受到的教育也就是小学文化程度,少了一层关键链。父母的养育很重要,栽培更重要。说用C写过tool,就真的写出来,做大了。原创 2020-08-15 20:01:00 · 132 阅读 · 0 评论 -
grpc: debug: GRPC_TRACE
本文介绍了通过GRPC_TRACE环境变量调试gRPC死锁问题的方法。该变量支持以逗号分隔的跟踪器名称或通配模式,用于输出gRPC C核心处理请求的调试日志。文中列举了api、backend_metric等可用跟踪器,并给出设置示例。针对死锁问题,提到1.67版本已修复部分问题,但仍有未解决的案例,如#39461号问题,建议通过抓取日志和核心转储进一步分析。文章还记录了一个具体的死锁错误信息"mutex.cc:1454 RAW: dying due to potential deadlock&qu原创 2025-07-21 13:36:13 · 28 阅读 · 0 评论 -
Linux: ssh 登陆慢的一个原因,dbus
摘要:发现SSH登录缓慢问题,原因是systemd未连接到D-Bus。D-Bus是进程间通信服务,当它不可用时会导致依赖它的服务无法正常工作。由于D-Bus与cgroups绑定且仅在启动时生成,必须通过重启服务器来解决。检查日志显示systemd确实未连接到D-Bus,建议重启后观察结果。busctl命令输出详细列出了当前系统上的D-Bus连接情况,确认了systemd的连接缺失状态。原创 2025-07-14 08:12:18 · 46 阅读 · 0 评论 -
VMware:The CPU has been disabled by the guest operating system. Power off or reset the virtual machi
摘要:日志显示虚拟机CPU被禁用,可能原因包括:1) 虚拟机内核崩溃导致panic(参考RedHat和Broadcom文档);2) VMware硬件版本不匹配(建议升级至版本11或13以适配ESXi 6.7)。该问题需通过重启虚拟机或调整硬件版本来解决,具体可参考VMware知识库文章2000542和1003746。原创 2025-07-08 05:36:23 · 166 阅读 · 0 评论 -
Linux: ssh: Connection refused,磁盘空间,disk full
摘要:服务器SSH连接被拒绝,显示"Connection refused"错误。经排查发现/var/目录磁盘空间不足,导致服务无法正常运行。解决方法是通过console口登陆机器,删除多余文件释放空间后,访问恢复正常。原创 2025-06-23 11:05:37 · 163 阅读 · 0 评论 -
HP iLO使用实例:Integrated Lights-Out
本文介绍了iLO(Integrated Lights-Out)服务器管理系统的功能和使用方法。iLO是HPE服务器的健康状况显示与控制系统,可通过指示灯显示设备状态。文章解释了DMTF SMASH CLP命令标准,并列举了HP提供的iLO操作指令,包括电源控制、UID灯管理、虚拟媒体操作等。通过实例展示了VSP虚拟串口的连接过程,详细记录了服务器BIOS启动顺序和硬件检测信息。最后提供了当iLO无法登录时的解决方法(执行reset命令),并列出启动时常见的电源和RAID控制器错误提示信息及处理建议。文章以技原创 2025-06-20 14:29:48 · 401 阅读 · 0 评论 -
Security: RSA: 1024 bit 长度已经变得不安全了
摘要:NIST标准建议逐步淘汰1024位RSA等弱加密算法,推荐使用2048位RSA等更安全的密钥长度。RHEL系统通过crypto-policies包实现统一的加密策略管理,包含DEFAULT、LEGACY等预置策略,覆盖TLS、IPSec等核心加密协议。系统默认配置会禁用不安全的算法(如1024位密钥),除非用户明确指定。当前策略支持GnuTLS、OpenSSL等主流加密库,确保系统级加密一致性。加密策略会根据算法生命周期动态调整,符合RFC 7457安全建议。(149字)原创 2025-06-19 08:30:28 · 290 阅读 · 0 评论 -
[晕事]今天做了件晕事79:audit rule -S all,代码里没找到?
摘要:在分析审计规则时发现一条关于fusermount的规则包含-S all参数,但在代码中未找到对应来源。查阅auditctl手册后发现,若未指定系统调用参数则默认为all。最终确认该规则应为仅包含路径参数的简化版本:-a always,exit -F path=/usr/bin/fusermount -F perm=x -F auid>=1000 -F auid!=4294967295 -k privileged。这解释了最初搜索无果的原因,说明默认参数在规则生成时可能被省略。(150字)原创 2025-06-13 13:32:19 · 42 阅读 · 0 评论 -
HPE DL360服务器: BIOS: configuration backup/restore
摘要:本文介绍了如何通过BIOS界面备份系统配置以便进行对比分析。操作方法为:进入System Default Options->Backup and Restore Settings,选择zip格式文件保存配置(自动创建新文件)。备份文件解压后包含Schemas等目录,其中Schemas目录下存储着完整的BIOS配置信息(约150字)。该功能解决了人工逐项对比BIOS配置的难题,便于通过文件对比工具进行系统配置差异分析。原创 2025-06-12 07:11:10 · 369 阅读 · 0 评论 -
[晕事]今天做了件晕事78:systemd,原来service name里的 @字符有特殊含义
执行 [email protected] 服务时出现错误,提示缺少实例名称。该服务为模板服务,启动时需要指定具体实例。解决方法包括:确定所需实例名称,使用正确命令启动(如 systemctl start [email protected]),并检查服务状态。若不确定实例名称,需查阅相关配置或文档。原创 2025-06-10 09:29:54 · 58 阅读 · 0 评论 -
Linux: network : switch:hp5500
摘要:本文介绍了动态ARP老化定时器(dynamic ARP aging timer)与MAC地址老化时间(mac-address aging-time)的区别。通过命令行查询显示:ARP老化时间默认为10分钟,而动态MAC地址条目老化时间则为300秒(5分钟)。两者虽然都与网络设备老化机制相关,但分别作用于不同协议层(ARP对应网络层,MAC地址对应数据链路层),且具有不同的默认时间设置。附图说明了查询这两个参数的示例命令。原创 2025-06-03 16:49:49 · 185 阅读 · 0 评论 -
HPE路由器的文档查阅的一个问题
摘要:用户通过Bing搜索HPE 5930交换机PDF规格文档,在HPE支持页面使用精确关键词“arp rate-limit”查询配置信息。文档指出HPE技术文档分散的问题,建议学习Intel的做法将所有开发者文档集中整合,方便新手快速定位所需内容。目前只能依赖网站搜索功能和逐步摸索来查找具体文档。配图为相关文档搜索界面截图。(98字)原创 2025-05-28 11:06:31 · 58 阅读 · 0 评论 -
Openstack: VM arping丢包之谜:换host即解决【没有找到根本原因】
本文描述了虚拟机网络故障的排查过程:首次arping测试有响应但后续无回复,通过将VM迁移至其他主机临时解决问题,推测原主机存在配置问题但因权限受限无法深入调查。尽管重启neutron服务无效,云平台管理员仅以迁移成功为由关闭工单,未进一步排查潜在规则触发的arp丢包问题。案例反映了管理流程中对根因分析的忽视。原创 2025-05-27 07:49:43 · 135 阅读 · 0 评论 -
Linux: security: Operation not permitted, append only
最近看碰到一个permission的问题,进去一看root是有权限rw,但是就是不能用echo把文件写空。在文件系统中,设置文件为“append only”属性通常意味着文件只能在末尾添加数据,而不能修改或删除已有内容。这种属性可以用于日志文件或其他需要保持历史记录的文件。在Linux系统中,可以使用chattr命令来设置文件的“append only”属性。原创 2025-05-23 07:11:48 · 53 阅读 · 0 评论 -
Linux: network:ipv6: keep_addr_on_down
网卡down掉之后,上面配置的IP6地址,是根据这个参数keep_addr_on_down,来确定是否要自动删除。第一次看到这个参数,这个还挺实用。原创 2025-05-19 22:49:15 · 42 阅读 · 0 评论 -
[晕事]今天做了件晕事77 link is not ready/NIC Link is Down
在分析ip link set eno2 down/up的日志时,发现之前对某些日志信息的理解存在错误。日志[779001.387818] IPv6: ADDRCONF(NETDEV_UP): eno2: link is not ready实际上表示在执行up操作时,网络链接尚未准备好,而不是在down操作时出现的。同样,Broadcom驱动打印的日志NIC Link is Down也是在执行up操作时出现的,而不是在down操作时。这些发现表明,需要修正对这些日志信息的潜意识理解,以更准确地解读网络接口状态原创 2025-05-15 10:13:24 · 335 阅读 · 0 评论 -
第一次听说:dell avamar 备份恢复产品
Avamar服务器则是整个系统的核心,负责存储、管理和恢复备份数据。Dell EMC Avamar是一种备份和恢复解决方案,它通过先进的技术和功能帮助企业实现数据保护目标。快速备份和恢复:Avamar的去重技术使得备份速度显著加快,同时支持快速数据恢复,确保业务连续性。扩展性:Avamar服务器可以轻松扩展以支持更多的数据和客户端,适应企业不断增长的需求。集中管理:Avamar提供集中管理和监控功能,使企业能够轻松管理备份任务和资源。安全性:Avamar提供强大的加密功能,确保备份数据的安全性和完整性。原创 2025-05-07 09:38:52 · 93 阅读 · 0 评论 -
Linux: zmq: memory leak,隐藏的坑
这个就比较烦人了,因为没有根本解决,就是一个隐藏的坑。每个人都有很大概率会遇到相似的问题,而且遇到问题的人都需要从网上搜索,查看这个问题,然后找到workaround。下面这个链接,说了一个zmq可能产生memory leak的场景。所以谁有时间来调查问题?原创 2025-05-06 11:43:45 · 133 阅读 · 0 评论 -
Linux: filesystem: fcntl
原因是:建议性锁:fcntl 设置的锁是建议性锁(advisory lock),而不是强制性锁(mandatory lock)。锁的范围:确保锁正确应用于文件的预期部分。在示例中,锁被设置为覆盖整个文件(l_start = 0 和 l_len = 0),这应该锁定整个文件。如果另一个进程使用不同的文件描述符打开文件,它也必须使用 fcntl 来检查锁,然后才能执行操作。锁的类型:确保锁的类型正确设置为写锁(F_WRLCK)。即使用下面的代码,将一个文件lock住,仍然不能控制器别的程序不能修改文件。原创 2025-04-29 07:42:28 · 35 阅读 · 0 评论 -
Linux:network:multicast 问题 VMware平台问题 又一例
VMware平台维护的同事说修改了一下配置,将IGMP的配置设置为默认值,并且将下面这个组播地址添加进来:Multicast range (224.1.1.0/24).后续的就没有问题再出现。看来VMware平台维护的人动了IGMP相关的配置。最近发现从其他VM过来的组播包,不时的有丢包的问题,从VM上抓包,源地址已经发了,就是在目的VM上抓不到。你要是问我具体是什么原因,我上回答不上来,因为没有再往下继续研究,因为访问不到底层的信息。这个时候就是没有别的办法了,就是VMware底层提供的虚拟网络有问题。原创 2025-04-23 09:11:13 · 268 阅读 · 0 评论 -
Linux: log:logrotate: diskspace full,rotate失败
如果磁盘空间不够用,logrotate就会失败,然后产生一个backup文件。logrotate有没有功能,可以不复制做压缩,或者将大文件删除掉?原创 2025-04-22 09:47:09 · 79 阅读 · 0 评论 -
Linux: security: openssh: ssh-agent: SSH_AGENT_PID;sigterm;systemd
在使用 systemd 时,可以通过配置服务单元文件来设置程序的返回值。通常,systemd 会将返回值非零视为错误,但可以通过 SuccessExitStatus 指令来指定哪些返回值应被视为成功。这样,systemd 就会将返回值 2 视为成功,而不会将其视为错误。exit返回的值是2;所以如果需要将ssh-agent设置为systemd的一个服务,需要对这个服务的返回值做特殊处理,怎么。可以根据环境变量kill之前的ssh-agent进程。之后,你可以重新启动或重新加载相关服务以应用新的配置。原创 2025-04-18 03:08:19 · 257 阅读 · 0 评论 -
Linux: command: timedatectl set-timezone, chrony, ntp
这个可以查看状态,比如下面的ntp链接有些问题。最终调用的是系统调用:adjtimex。是systemd提供的一个命令来查看时间相关的信息。原创 2025-04-18 03:05:23 · 198 阅读 · 0 评论 -
Linux:Vmware: 怎么dump vmcore
下面两个链接里有提供一些方法,来收取vmcore;原创 2025-04-16 03:24:24 · 194 阅读 · 0 评论 -
VMware: 创建isolated 网络遇到invalid gatewayIP
后来发现,这个gateway的IP,不能在后续的IP,range里面,也就是需要把这个gateway的IP从这个ip range里摘出去。这个错误,把人搞迷糊了,这个IP怎么能不对呢?这个subnet里的随便一个IP都可以当作gateway呀!最近创建一个isolated的内部网络,在添加页面保存的时候,提示gateway的IP非法。头一次看到这种逻辑!原创 2025-03-28 12:47:48 · 179 阅读 · 0 评论 -
K8S: kubectl logs --request-timeout
或者将运行的时间默认限制为5分钟,而不是无限长。所以这就是一个设计的问题。一开始做,肯定想不到有人忘记停掉这个命令,导致内存被吃光的情况。kubectl logs这个命令的一个风险是: 如果没有设置timeout,会将内存吃光吗!所以有时候会建议添加参数 --request-timeout。如果反过来想,为什么这种命令没有关于内存的限制。原创 2025-03-25 08:49:23 · 52 阅读 · 0 评论 -
Linux: rsyslog向远端发送log的时候源地址怎么选择
但是manual帮助文档写的不是很清楚,这里的target和address分别代表什么意思?target可能是远端的地址,那address的作用是什么呢?在rsyslog的配置文件里,不能指定源IP地址,只能依赖内核选择是用哪一个。rsyslog向远端发送log的时候源地址怎么选择?在tools/omfwd.c文件。其实和下面一篇有很大的关联。原创 2025-03-19 08:09:47 · 497 阅读 · 0 评论 -
Linux: /usr/bin/ssh: symbol lookup error:libk5crypto.so.3: undefined symbol: EVP_KDF_ctrl
原因是为了某个程序的执行临时修改了环境变量:LD_LIBRARY_PATH,这样的话导致引用的so文件错乱。后续将LD_LIBRARY_PATH变量返回到原来的值,就好了。最近遇到一例这个错误,原创 2025-03-18 08:43:01 · 481 阅读 · 0 评论 -
Linux: WARNING: terminal is not fully functional
这个警告消息 “WARNING: terminal is not fully functional” 通常表示当前终端环境没有完全支持某些功能,可能是由于以下原因:终端类型不匹配:当前终端类型可能与系统预期的不匹配。设置正确的终端类型: 尝试设置 TERM 环境变量为一个常见的终端类型,例如 xterm 或 vt100。终端配置问题:终端配置可能有问题,例如终端的 TERM 环境变量设置不正确。通过这些方法,可以解决终端功能受限的问题,并确保终端能够正确显示和操作。-t 选项强制分配伪终端。原创 2025-03-17 10:44:48 · 173 阅读 · 0 评论 -
[晕事]今天做了件晕事69,shell 死循环执行
最近遇到一个问题,说某个脚本的运行占满了CPU,最初觉得不可能,后来使用strace命令看,这个脚本一直在不停的调用execve函数,执行sleep和另外一个命令。而且execve的返回值是E2BIG。最后查看脚本的内容是,这里虽然写了sleep十秒,但是因为E2BIG这个错误,导致sleep没有执行,而且返回的错误码不是0,所以导致死循环。原创 2025-03-12 14:29:52 · 159 阅读 · 0 评论 -
Linux: 实时进程的苦恼 sched_rt_runtime_us
The default value for sched_rt_runtime_us is 950000,保持这种默认的设置,预留出一部分给其他非高优先级任务一下时间,避免此类的问题。之前遇到过很多次实时进程带来的困扰,因为内核的进程的优先级都没有这些实时的进程优先级高,有些网络报问,程序的正常退出可能出现问题。所以带来的困扰肯定是不少。从Redhat提供的技术分析是建议。所以最好是保持这个默认值的设置。原创 2025-03-11 09:16:03 · 120 阅读 · 0 评论 -
[晕事]今天做了件晕事68,shell PATH 变长
最近遇到一个问题,就是PATH这个环境变量变的越来越长,最后导致了系统execve函数返回了E2BIG的错误。原因是在一个shell函数里,将PATH的值赋值为下面这个。然后这个函数被循环调用,导致PATH超长。这一次算是懂了shell里默认的环境变量的用法。原创 2025-03-11 08:29:55 · 173 阅读 · 0 评论 -
Openstack: network: leaf-switch 出现问题的业务恢复时间
如果是shutdown/reboot,主leaf-switch,业务受影响的时间比较短,也就是一两秒的时间。第二个情况,需要leaf-switch检查,然后上报给spine switch,再完成切换,步骤要多一些。前两天系统测试的同事做了两个测试,是在Computer node相连的leaf-switch上做的操作。第一个是spine switch检查到问题,直接切换到standby leaf-switch。和Computer node相连的leaf-switch是两个互为备份。原创 2025-02-28 09:30:02 · 328 阅读 · 0 评论 -
Linux: ssh: change timer not allow login forever
如果你的 Linux 版本使用 systemd,可以通过 logind.conf 限制 root 账户的最大登录时间。如果 root 通过 SSH 登录,可以限制 SSH 会话时间,避免 root 账户一直保持登录状态。systemd-logind 限制 root 会话 root 退出后自动清理会话。⏳ 效果:如果 root 5 分钟 没有活动,SSH 连接会自动断开。⏳ 效果:如果 root 账户 5 分钟 没有操作,终端会自动登出。效果:限制 root 不能长时间保持登录,也可以指定登录时间范围。原创 2025-02-25 08:53:49 · 84 阅读 · 0 评论 -
Linux: 检测工具: monit: cpu占用率高的一个问题 5.34.2
最近跑monit程序,看到CPU的使用率 变高,从top看,CPU的占用主要是system的占用比较的:79.1%。有很多nanosleep的调用,应该是走到了死循环。原创 2025-02-18 12:47:46 · 135 阅读 · 0 评论 -
Cloud: aws:network: limit 含有pps这种限制
在里面,竟然含有pps这种限制:ethtool -S;其实是比较苛刻的安全相关的策略?这个是调查网络问题的一个网页;原创 2025-02-14 22:16:16 · 260 阅读 · 0 评论 -
k8s:pod被kill,显示command terminated with exit code 137
9 (SIGKILL):表示 进程被强制终止(通常由 kill -9、OOM Killer 或 systemd 触发)。检查日志:dmesg -T | grep -i “killed” 查看是否是 OOM 导致的。128:Linux 规定,如果进程因信号终止,退出码就是 128 + 信号编号。如果是 OOM 问题,建议优化程序内存管理,或者增加可用资源!增加可用内存:释放或分配更多 RAM,或优化程序内存使用。ulimit -u unlimited # 取消进程限制。是使用tmp目录的大小超出了限制。原创 2025-02-10 11:09:50 · 755 阅读 · 0 评论 -
Openstack: controller: qrouter namespace
怎么找qrouter的namespace,在dashboard的网络界面,找到下面的界面,就可以找到设备ID。原创 2025-01-18 16:09:01 · 89 阅读 · 0 评论 -
[晕事]今天做了件晕事58,nerdctl -n/--namespace
因为需要看nerdctl cp的help,而不是 nerdctl的help。这样就可以理解参数,问题的原因了。这就纳闷了,查看nerdctl的帮助文档,看着 -n 是Alias of --namespace 呀。本来想用命令nerdctl copy一个文件到container里,执行出现错误。看着错误是没有找到这个container, 然后尝试加上namespace。一直没有明白为什么,直到尝试 --namespace,成功了。今天又做了一件晕事,debug了好长时间。原创 2024-12-26 15:32:38 · 494 阅读 · 0 评论 -
Linux: sysctl: network: forwarding;disable lro,这个花费还是比较大
这个sysctl-forwarding的修改不是小事,如果device的个数太多,花费的时间会比较多,可能导致一些问题,因为最终会调用dev_disable_lro->netdev_update_features。原创 2024-12-23 12:44:26 · 250 阅读 · 0 评论