New Relic 用語集 - オブザーバビリティ・監視用語の完全ガイド

New Relicやオブザーバビリティの学習で出てくる専門用語を分かりやすく解説します。初心者から上級者まで、必要な時にすぐ参照できる包括的な用語集です。

🎯 この用語集の使い方

  • 初心者: ⭐マークの基本用語から開始
  • 実践者: ⚡マークの重要用語を重点的に確認
  • 上級者: 🔧マークの高度な用語まで習得

📊 基本概念(オブザーバビリティ)

⭐ オブザーバビリティ(Observability)

定義: システムの内部状態を外部の出力から推測・理解する能力

yaml
例:Webアプリケーションの場合
- 応答時間の変化から性能問題を推測
- エラーログからバグの原因を特定
- リソース使用量から将来の負荷を予測

従来の監視との違い:

  • 監視: 「何が起きたか」を事後報告
  • オブザーバビリティ: 「なぜ起きたか」を事前予測

⭐ 三本柱(Three Pillars)

オブザーバビリティを構成する3つの基本要素:

1. メトリクス(Metrics)

数値化された測定値(CPU使用率、応答時間など)

2. ログ(Logs)

アプリケーションが出力するテキストベースの記録

3. トレース(Traces)

リクエストがシステム内を通る経路の記録


🚀 New Relic 基本用語

⭐ APM(Application Performance Monitoring)

定義: アプリケーションの性能を監視・分析する機能

javascript
// APMが監視する項目例
応答時間: 平均245ms、95パーセンタイル 1.2s
スループット: 1,200 rpm (requests per minute)
エラー率: 2.3%
アプディクス: 85/100

⭐ エージェント(Agent)

定義: アプリケーションやサーバーにインストールしてデータを収集するソフトウェア

主要エージェント:

  • APMエージェント: Java、.NET、Node.js、Python、PHP、Go、Ruby
  • インフラエージェント: サーバー監視用
  • ブラウザエージェント: フロントエンド監視用

⚡ エンティティ(Entity)

定義: New Relicで監視される単位(アプリケーション、サーバー、サービスなど)

yaml
エンティティの例:
- アプリケーション: "ECサイト本体"
- ホスト: "Webサーバー01"
- サービス: "決済API"
- ブラウザアプリ: "顧客向けWeb画面"

⚡ NRQL(New Relic Query Language)

定義: New Relicのデータを検索・分析するためのSQL風クエリ言語

sql
-- 例:過去24時間のエラー率を計算
SELECT percentage(count(*), WHERE error IS true) 
FROM Transaction 
SINCE 24 hours ago

📈 性能・監視用語

⭐ MTTR(Mean Time To Recovery)

定義: 障害発生から復旧までの平均時間

yaml
MTTR改善例:
従来: 4時間30分
New Relic導入後: 45分
改善率: 83%削減

⭐ MTBF(Mean Time Between Failures)

定義: 障害と障害の間の平均時間(システムの安定性指標)

⚡ SLA(Service Level Agreement)

定義: サービス品質に関する合意(契約)

yaml
SLA例:
稼働率: 99.9%以上
応答時間: 平均2秒以下
月間ダウンタイム: 43分以内

⚡ SLI(Service Level Indicator)

定義: サービス品質を測定する具体的指標

⚡ SLO(Service Level Objective)

定義: SLIに対する目標値

⭐ アプディクス(Apdex)

定義: ユーザー満足度を0-1のスコアで表現する指標

yaml
Apdex計算:
- 満足: 応答時間 ≤ 0.5秒
- 許容: 応答時間 ≤ 2.0秒  
- 不満: 応答時間 > 2.0秒

Apdex = (満足 + 許容×0.5) / 総リクエスト数

🔍 分析・診断用語

⚡ 分散トレーシング(Distributed Tracing)

定義: マイクロサービス間でのリクエスト流れを追跡する技術

yaml
例:ECサイトの商品購入プロセス
1. Webフロント (50ms)
2. 認証API (120ms)  
3. 在庫API (300ms) ← ボトルネック発見
4. 決済API (80ms)
5. 通知サービス (40ms)

⚡ スパン(Span)

定義: 分散トレーシングの最小単位(1つの処理工程)

🔧 サンプリング(Sampling)

定義: 全データではなく一部のデータだけを収集してコストを削減する手法

yaml
サンプリング例:
- 100%サンプリング: 全リクエストを記録(高コスト)
- 10%サンプリング: 10件に1件を記録(コスト削減)
- アダプティブサンプリング: 重要度に応じて動的調整

⚡ アラート(Alert)

定義: 異常を検知した際の通知機能

yaml
アラート設定例:
条件: エラー率 > 5%
期間: 5分間継続
通知先: Slack #incident-channel
エスカレーション: 15分後にSMS送信

🖥️ インフラ・技術用語

⭐ ゴールデンシグナル(Golden Signals)

定義: システム監視で重要な4つの指標

  1. レイテンシ: 応答時間
  2. トラフィック: リクエスト量
  3. エラー率: 失敗リクエストの割合
  4. サチュレーション: リソース使用率

⚡ カナリアデプロイメント(Canary Deployment)

定義: 新バージョンを少数のユーザーに先行公開してリスクを軽減する手法

🔧 オープンテレメトリー(OpenTelemetry)

定義: 監視データの標準化されたフレームワーク

⚡ RUM(Real User Monitoring)

定義: 実際のユーザーの体験を監視する手法

javascript
// RUMで測定される項目
ページロード時間: 2.3秒
First Contentful Paint: 1.1秒
Cumulative Layout Shift: 0.05
ユーザー地域: 東京 (78%), 大阪 (15%), その他 (7%)

📱 モバイル・ブラウザ用語

⚡ Core Web Vitals

定義: Googleが定義するユーザー体験の重要指標

  1. LCP(Largest Contentful Paint): メインコンテンツの読み込み時間
  2. FID(First Input Delay): 初回入力までの遅延時間
  3. CLS(Cumulative Layout Shift): レイアウトの安定性

⚡ JavaScript エラー

定義: ブラウザで発生するJavaScript実行エラー

javascript
// よくあるJavaScriptエラー例
TypeError: Cannot read property 'click' of null
ReferenceError: $ is not defined
SyntaxError: Unexpected token }

🔧 セッション録画(Session Replay)

定義: ユーザーの操作を動画として記録・再生する機能


🔧 高度な機能・用語

🔧 外形監視(Synthetics Monitoring)

定義: 実際のユーザーアクセスを模擬して定期的にサイトをチェックする監視

yaml
外形監視例:
- 5分間隔でログインページアクセス
- 商品購入フローの自動実行
- 世界5拠点からの同時監視
- 応答時間とエラーの自動検知

🔧 アノマリー検知(Anomaly Detection)

定義: 機械学習でシステムの異常パターンを自動検出する機能

🔧 ベースライン(Baseline)

定義: 正常時の性能指標。異常検知の基準となる

🔧 カスタムメトリクス(Custom Metrics)

定義: アプリケーション固有の指標を独自に定義・収集する機能

python
# カスタムメトリクス例(Python)
import newrelic.agent

# ビジネスメトリクスの記録
newrelic.agent.record_custom_metric(
    'Custom/SignUpConversion', 0.23  # サインアップ率23%
)

📚 関連用語・概念

⚡ DevOps

定義: 開発(Development)と運用(Operations)を統合するアプローチ

⚡ CI/CD(Continuous Integration/Continuous Deployment)

定義: 継続的統合・継続的デプロイメント

🔧 カオスエンジニアリング(Chaos Engineering)

定義: 意図的に障害を発生させてシステムの耐性を確認する手法

⚡ PIR(Post-Incident Review)

定義: 障害後の振り返り会議(ポストモーテムとも呼ばれる)

yaml
PIR項目例:
- 障害の概要と影響範囲
- 根本原因の分析
- 対応の時系列
- 今後の改善策
- ランブック(手順書)の更新

🎯 よく使われる略語一覧

略語正式名称日本語
APMApplication Performance Monitoringアプリケーション性能監視
SLAService Level Agreementサービス品質合意
SLIService Level Indicatorサービス品質指標
SLOService Level Objectiveサービス品質目標
MTTRMean Time To Recovery平均復旧時間
MTBFMean Time Between Failures平均故障間隔
RUMReal User Monitoringリアルユーザー監視
LCPLargest Contentful Paint最大コンテンツの描画
FIDFirst Input Delay初回入力遅延
CLSCumulative Layout Shift累積レイアウト移動
PIRPost-Incident Review障害後振り返り

🔗 参考リンク

関連コンテンツ

New Relic 公式


📝 この用語集について

作成日: 2025年7月20日
対象読者: New Relic学習者(初心者〜上級者)
更新方針: 新機能や重要用語の追加時に随時更新

💡 ヒント: この用語集をブックマークして、学習中に分からない用語が出てきたらすぐに参照してください。