蓬蒿:Java 线上问题排查思路与工具使用解析

向作者提问
白帽子,安全架构师。2013-2016某杭州信息安全院安全研发部负责人,负责《网站安全监测服务平台》(Web漏洞、敏感词、挂马、暗链等)的架构、设计与实现,熟悉常见web漏洞的渗透方式与防御方式。现为某财税平台的安全团队负责人,负责业务安全开发、安全体系建设、业务风控、API Gateway等工作。熟悉常见dubbo、hsf、spring cloud等分布式服务架构设计与开发,有兴趣可带上简历。
查看本场Chat

2018年1月8日,周一晚8点30分,白帽子,信安从业者,前某杭州信息安全院安全研发部负责人、现为某财税平台的安全团队负责人的蓬蒿带来了主题为《Java 线上问题排查思路与工具使用》的交流。以下是主持人hrshy整理的问题精华,记录了作者和读者间问答的精彩片段。


内容提要:

  • 一般线上系统怎么做监控?
  • 一次发布,生产环境里某个节点里的容器里面服务挂了,但是在预生产环境无法重现,而生产环境监控里面显示 cpu、内存、堆栈都正常。而那个节点重启之后就正常,但是过段时间又出现问题。这种情况有什么好的方法排查问题?
  • 如何生成 dump 文件,如何分析?jvm crash 日志如何生成?
  • 业务日志和异常输出格式一般怎么设计会比较容易统计分析?
  • 能深入讲解一下线上监控吗?
  • 线上排查问题 dump 或 jstack 导出文件分析经常无响应倒置无法导出查看内存问题和线程问题,有什么经验吗?
  • 如果判断 gc 是正常的 gc,还是严重影响正常应用性能的 gc?
  • 日志都会通过 flume 采集器传输至数据中心,有什么作用,数据中心在做什么?

问:一般线上系统怎么做监控?

astone
没有看此文章的同学,还请谨慎付费。
微信扫描登录