← レッスンに戻る
第3章 · Claude API入門

Streaming で逐次表示する

Streaming Responses · 約 12 分

重要キーワード

English日本語説明
Streaming ストリーミング 応答を逐次受け取る方式 (体感レイテンシ改善)
SSE Server-Sent Events HTTP 上のテキストストリーミング規格
TTFT Time To First Token 最初のトークンが届くまでの時間
Backpressure バックプレッシャ 受信側が処理しきれないときの流量制御

Streaming (ストリーミング)

長い応答を 逐次表示 したいときは streaming を使います。 チャット UI の体感レイテンシ (TTFT = Time To First Token) が大きく改善します。

基本

with client.messages.stream(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Pythonの歴史を教えて"}],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

イベント単位で扱う

text_stream だけでなく、低レベルのイベントも取れます。

with client.messages.stream(...) as stream:
    for event in stream:
        if event.type == "content_block_delta":
            print(event.delta.text, end="")
        elif event.type == "message_stop":
            print("\n---")

主なイベント種別

event.type 意味
message_start 応答開始
content_block_start 新ブロック開始
content_block_delta テキスト追加
content_block_stop ブロック終了
message_delta 部分メタデータ (stop_reason など)
message_stop 応答完了

Server-Sent Events (SSE)

REST API レベルでは SSE 形式でデルタが送られます。 Web アプリでブラウザに直接流すなら、サーバー側で受けて text/event-stream のレスポンスとして転送するのが定番。

Flask での例

@app.route("/stream", methods=["POST"])
def stream_chat():
    prompt = request.json["prompt"]
    def generate():
        with client.messages.stream(
            model="claude-sonnet-4-6",
            max_tokens=1024,
            messages=[{"role": "user", "content": prompt}],
        ) as s:
            for text in s.text_stream:
                yield f"data: {text}\n\n"
        yield "data: [DONE]\n\n"
    return Response(generate(), mimetype="text/event-stream")

実は本講座のアプリ (/api/playground ルート) もこの方式で実装されています。 ソースコード app.pyapi_playground() を見てみましょう。

エラー処理

ストリーム中の例外は stream.__exit__ で再 raise されるので、 通常の try/except で捉えられます。

try:
    with client.messages.stream(...) as s:
        for t in s.text_stream:
            ...
except RateLimitError:
    ...

完了後にメタデータを取る

ストリーミングでも最終的な Message オブジェクトを取得できます。

with client.messages.stream(...) as s:
    for t in s.text_stream:
        process(t)
    final = s.get_final_message()
    print("usage:", final.usage)

Streaming を体感する

長めの応答で違いを感じてみましょう。

▶ ストリーミング体感 (Playground は SSE 対応)
Python の歴史を 500 字程度で教えてください。物語のように。

演習問題

演習 1: ストリーミング CLI

前のレッスンで作った CLI チャットを ストリーミング対応 に書き換えてください。 - 各文字が逐次表示される - Ctrl+C で途中停止できる (try/except KeyboardInterrupt)

スタータープロンプト:
前のレッスンの CLI チャットボットを Streaming に書き換えてください。client.messages.stream(...) を使い、text_stream をループで print(end='', flush=True) する形で。Ctrl+C で途中停止できるよう KeyboardInterrupt をハンドル。コードのみ。
ヒントを見る

with client.messages.stream(...) as s: のブロック内で for t in s.text_stream: です。flush=True を忘れると改行まで表示が出ません。

理解度チェック

  1. ストリーミングを使う主な利点は?
    1. 出力品質が上がる
    2. 体感レイテンシの改善
    3. API コストが半額になる
    4. max_tokens 制限がなくなる
  2. Web アプリでブラウザにリアルタイム転送する代表的な方式は?
    1. FTP
    2. Server-Sent Events (SSE)
    3. SMTP
    4. telnet
  3. Python SDK で streaming を使うには?
    1. messages.create(stream=True)
    2. messages.stream(...) を with 文で
    3. messages.async_create(...)
    4. websocket.connect(...)
  4. TTFT (Time To First Token) は何を表す?
    1. 全応答完了までの時間
    2. 最初のトークンが届くまでの時間
    3. API キー有効期限
    4. DB への接続時間
解答と解説を見る
  1. B — 最初のトークンが早く届くので UX が大幅に改善します。
  2. B — SSE はテキストストリーミングに適した HTTP 上のプロトコルです。
  3. B — `messages.stream(...)` を context manager で使うのが推奨方法です。
  4. B — 最初のトークンが出るまでの待機時間で、ストリーミング UX の鍵指標です。