2024-05-08

生成AIでニュースアプリの精度改善を競う社内コンペを開催しました

JX通信社CTOの小笠原(@yamitzky)です。4月19日に「AIコンペティション」を社内勉強会として開催したので、その取り組みを紹介します。

開催の目的

JX通信社では、AIで世界中のリスク情報を解析する「FASTALERT」という製品を開発しています。ただ、普段からエンジニアの全員がAI開発に取り組んでいるわけではなく、フロントエンドやバックエンドなど、AI以外のコンポーネントを開発しているエンジニアも多くいます。

数年前まではDeep Learningなどの高度なAIを活用した製品開発は敷居の高いものでしたが、 近年ではAutoMLやAmazon SageMakerのようなマネージドなAI開発の仕組みや、生成AIの台頭など、AIを使ったサービス開発の難易度は日に日に下がっています。

そこで今回の勉強会では 「普段AI開発に関わってない人」をターゲットに、AIの分野や、AIを使ったプロダクト開発を身近に感じてもらうこと を目的として、AIのコンペティションを開催しました。

テーマ

なるべく実務に近いもの...ということで、弊社のニュースアプリ「NewsDigest」のタブ機能の改善をテーマに選定しました。NewsDigestには話題ごとのニュースを見れる機能(タブ機能)があります。しかし、「社会」「エンタメ」などをニュースをタブに分類するモデル自体は、やや古いものでした。

NewsDigestのスクリーンショット。各メディアから配信されている記事を、話題(タブ)ごとに閲覧できます

今回のコンペは「ニュース記事を解析し、タブを分類するモデルを作る」というテーマで開催し、タブ分類の正解率を競いました。

タイトルには「生成AI」と書きましたが、 手法自体は生成AI(プロンプト)でも、古典的な機械学習的手法でも、ノーコードでも、ルールベースでもエクセルでも何でもOK としています。今回の記事では「モデル」という表現に統一します。

事前準備

コンペは2時間の限られた時間で開催したため、勉強会の事前準備として、以下のものを用意しています。*1

学習用データ・・・後述するサンプルコードでは利用していませんが、パラメータの学習を要するAI用に一応用意しました
評価用データ・・・各自が作ったモデルの精度をポータルサイトで確認するためのサンプルデータ
ポータルサイト・・・NewsDigest風のUIで定性的な精度チェックをしたり、精度を定量的に確認するためのWebサイト
Pythonのサンプルコード

「実サービスでの運用」という点に近づけるため、次のような工夫しました。

あえて評価用データの正解ラベル等は開示しない。実際には自分で正解データを作らないといけないことも多いため
ポータルサイトでの定性的な確認をしやすいようにした。定量データが実際サービスで求められる品質や体験と乖離することもあるため

ポータルサイト

Gemini 1.5 Pro にお願いをして、ポータルサイトを作りました(Next.js/bun/Tailwind CSS/Cloud Runを利用)。解析結果のCSVをアップロードすると、タブに分類された記事を定性的に確認したり、精度チェックをしたりすることができます。このポータルサイトを見て、プロンプトやパラメータのチューニング結果のうまく行った／行ってないが確認できるようになっています。

サンプルコード

スムーズに体験してもらうために、サンプルコードを用意しました*2。あえてプロンプトを雑に作ったり、軽量な(精度が高くない)モデルを使ったりしています。実際、text-bisonのモデルは指示を無視して「ゲーム」や「生活」など、存在しないタブを誕生させ、スコアを下げてしまいます。プロンプトエンジニアリングの苦しみを味わってもらいました！

import vertexai
from vertexai.language_models import TextGenerationModel

# LLMのライブラリ初期化
vertexai.init()
parameters = {
    "candidate_count": 1,
    "max_output_tokens": 1024,
    "temperature": 0.9,
    "top_p": 1,
}
model = TextGenerationModel.from_pretrained("text-bison")

# 指示を自由にカスタマイズ
instruction = """あなたはニュース記事を判定し、カテゴリーを予測するAIです。記事のタイトルを受け取ったら、その記事のカテゴリーを推定してください。
カテゴリーは社会、政治、経済、国際、エンタメ、スポーツ、テクノロジーのどれかです。
記事のタイトルは、改行して複数渡されることがあります。その場合は、改行してそれぞれの判定結果を出力してください"""

# train.csvを元に、具体例をいくつか書いてあげる
examples = """input: 東北道でトレーラーとトラックの追突事故 2人の救出活動つづく 群馬･館林市
北海道 広尾町長選は新人の田中靖章氏が初当選

output: 社会
政治
"""


# 10記事ずつまとめて処理し、AIに予測させる
for i in range(0, len(titles), 10):
    input_text = "\n".join(titles[i:i+10])
    response = model.predict(
        prompt=f"""{instruction}

    {examples}

    input: {input_text}
    output: 
    """,
        **parameters,
    )
    print(response.text)

結果

当初のサンプルコードのモデルだと65.9％の正解率でしたが、優勝者は81.62%でした 🎉

優勝者コメントです。

タブ分類の工夫がスコアという形で可視化されて面白かったです！
時間があればプロンプト自体のチューニングもいろいろ試してみたかったです

【主に工夫した点】
生成AIの賢さによって精度も変わるだろうと思い、ChatGPT4-turboを使ってみることにしました。
予期しないカテゴリ(タブ)が返ってくる事を防ぐためFunction callingのレスポンスをEnum型で定義したことで安定して分類出来たように思います。

他にも「実際にAIを使う時の雰囲気掴めて良かった」といったコメントもあり、開催してよかったです。

今回は社内勉強会でのコンペ開催を通じて、AI開発の導入を体験していただきましたが、より良いプロダクト開発に役立てていけると良いなと思っています。

*1:コードやデータの公開は行っていませんが、もし同じような社内コンペを開催したい方が教えてください

*2:記載のものはCSVの読み書きなどを省略し、抜粋しています

2024-04-19

リモートワークでもできる、気軽に始める勉強会のすすめ

コミュニケーションスクラム勉強会

スクラムマスターの@sakebookです。今回は「リモートワークでもできる、気軽に始める勉強会のすすめ」です。

「勉強会」というと、想像するものが人によって異なるので、事前にどんなものかを書いておくと

「直接の業務ではないが何かのテーマについて一緒に学んでいる会」

のことを勉強会と、この記事では定義します。

そんなのは勉強会じゃない！という人は適宜読み替えて、こういうことをやったよ気になったらやってみてねくらいの温度感で読んでください。

リモートワークにより開催機会の減少

コロナ禍以前からリモートワークを取り入れていた弊社ですが、コロナ禍に伴い、地方へ移住した人や地方勤務にて採用したメンバーも増えています。そのため、なかなかオフサイトでのイベント開催が難しくなっていました。

勉強会も同様で、開催頻度が減少していました。

みんなで動画を見るみたいな体験をまたしたいと思った

今年の1月、会社の制度を利用してRegional Scrum Gathering Tokyo 2024（以降RSGT）というイベントにオフラインで参加しました。その際、改めて「オフラインで集まるっていいなー」と感じました。

そのような経緯もあり、「会議室でみんなで動画を見る」みたいな体験で、勉強会を再び開催したいと思っていました。

RSGTの参加者には発表の動画を早い段階で共有されました。社内共有の用途で利用可能だったので、これを題材にイベント動画視聴会という形で勉強会を開けないか？と考えました。

初めは参加の敷居を下げたいと思い、特定の言語や領域に依らないものでできればと考えていました。

社内にいくつかあるチームがスクラムを採用していたので、まさにRSGTの動画は題材にもぴったりだと思いました。

バーチャルオフィスで一緒に見る

弊社ではバーチャルオフィスとしてGatherというサービスを採用しています。

リモートワークが当たり前になった中でZoomの常時接続やTandemというサービスの検証などもしていたのですが、今はGatherを採用しています。

意識せずに働いていることを可視化できたり、ふらっと他の人やチームに絡んだりできる点などがメリットです。

Gatherでの勉強会開催では、参加者を増やしたり、集まってる感を出すために、次のような工夫をしました

なにやらイベントやってるぞという感を出した

開催していることを社内で可視化したいと思い、社内のイベントの告知用カレンダーに勝手に登録して存在を周知させました。

そして実際にGatherで開催するときには、目立つ位置で行うことで何かやってるぞという感じを出しました。

皆で一緒に見てる感じを出した

オフラインで勉強会を開催するときも、スクリーンに投影してみんなで見ると思いますが、同じような体験にするために同期再生で行うようにしました。

Gatherには、バーチャルオフィス内にテレビを設置し、動画を再生する機能があります。また、決められた時刻に自動再生を始める機能もあります。

事前に何をやるかのイメージを持ちやすくした

勉強会に興味を持ってくれた人に説明するために、次のような内容をテンプレとして周知するようにしました。

スライド（あれば）
説明文
再生時間
関連リンクなど

RSGTの動画を題材にしたときには、ConfEngineのproposalを添えてます。

反響があった

動画の視聴が終わったら、感想戦で勝手にワイワイ......できるかと思ったらそうはならなかったです。なので2回目以降の開催からは、司会を用意して進めるようにしました。

イベント自体は参加者から好評で、第2回第3回と案内をしたときに社内で自主的に展開してくれる動きもありました。

さらに何度かやっていくと、「この動画をイベント動画視聴会のテーマに共有できないか？」と参加者から提案をもらえるなど、一方通行ではないコラボレーションができていて良いと感じています。

まだ課題もある

継続はできそうですが、まだまだ課題もあります。

司会を用意はしているが、なかなか話を回したりするのが難しい
- この辺りは回数こなしたり他社の知見やプラクティスを知りたい
ワイワイしたいけど、動画再生中に喋ると動画の音声が聞こえにくくなる
- オフラインの会話と違い、Gather上では人の声と動画の音声が混ざってしまう
GatherではYouTubeの時間指定再生が対応していない
- やり方間違ってるだけ？解決方法知ってる人いたら教えてください
ふらっと参加しやすいようにしているが、人が増えすぎると感想戦というほど話せない

サステナブルな勉強会

運営というほどのことはやっておらず、題材を探してGatherでセッティングするだけなので準備もほぼ不要です。最悪人が集まらなければ自身が学ぶ回になるだけです。複数人で見た方が自分だけだと気づかない視点を得たり、補足の情報を追加で得たりできるので、テーマに興味があればお互いWin-Winになると考えています。

似たようなことやってみたいけど足踏みしてるとか、気になったという人はまずやってみるといいと思います。

2024-03-08

KiotaでOpenAPIの定義からGoのクライアントを生成してみる

こんにちは。 kimihiro_nです。

Microsoftから「Kiota」というOpenAPIの定義からクライアントコードを生成するツールが公開されていたのでちょっと触ってみました。

learn.microsoft.com

Kiota の特徴

JSON、YAMLで書かれたOpenAPIのAPI仕様から、APIを呼び出すためのクライアント部分を自動生成してくれるツールです。特徴としてはGoやPythonなど様々な言語への書き出しに対応していて、似たようなインターフェースで扱える点になります。 API仕様を一度共通の内部的なモデルに変換し、そこから各言語のクライアントを生成する面白いアプローチを取っています。

似たようなツールだとOpenAPI Generatorという有名なものがありますが、ツール自体が巨大になってきてしまっているのと、CLIからだとGo言語でクライアントのみのコードを生成する方法が分からなかった(サーバー側のコードも一緒に生成されてしまう)ため、クライアントに特化したKiotaを試してみることにしました。

Kiotaを使ってみる

インストール

learn.microsoft.com

インストール手順はこちら。コミュニティ作成によるものですがbrewによるインストールもできます。

OpenAPI の用意

クライアントを作るOpenAPI仕様を用意します。

swagger: "2.0"
basePath: /api/v1
definitions:
  main.ErrResponse:
    properties:
      detail:
        type: string
    type: object
  main.Post:
    properties:
      content:
        type: string
      id:
        type: integer
      title:
        type: string
    required:
    - content
    - title
    type: object
  main.PostListResponse:
    properties:
      posts:
        items:
          $ref: '#/definitions/main.Post'
        type: array
    type: object
info:
  contact: {}
  title: ExampleWebAPI
  version: "1.0"
paths:
  /posts:
    get:
      consumes:
      - application/json
      description: get posts
      parameters:
      - description: limit
        in: query
        name: limit
        type: integer
      - description: offset
        in: query
        name: offset
        type: integer
      produces:
      - application/json
      responses:
        "200":
          description: OK
          schema:
            $ref: '#/definitions/main.PostListResponse'
        "500":
          description: internal server error
          schema:
            $ref: '#/definitions/main.ErrResponse'
      summary: Get List of Posts
      tags:
      - posts
    post:
      consumes:
      - application/json
      description: add post
      parameters:
      - description: Post
        in: body
        name: post
        required: true
        schema:
          $ref: '#/definitions/main.Post'
      produces:
      - application/json
      responses:
        "201":
          description: created
          schema:
            $ref: '#/definitions/main.Post'
        "400":
          description: invalid params
          schema:
            $ref: '#/definitions/main.ErrResponse'
        "500":
          description: internal server error
          schema:
            $ref: '#/definitions/main.ErrResponse'
      summary: Create new post
      tags:
      - posts

投稿の一覧取得と投稿が出来る簡単なAPIです。諸事情(後述)でOpenAPI 3.xではなくてOpenAPI 2.0の仕様に合わせて作っています。 2.0の方はSwaggerとも呼ばれてます。

Goクライアントの生成

こちらからKiotaのGoクライアントを生成してみます。

kiota generate -l go -d ./swagger.yaml -o ./client -n ${レポジトリ名}/client

-l オプションでGo言語を、-d オプションでOpenAPI(Swagger)ファイルの置き場を、-o で出力先ディレクトリを、そして -n で生成されるクライアントのフルパッケージ名を指定します。フルパッケージ名は生成されたコードのimportが正しく動くために必要で、go mod init したときのレポジトリ名 + 出力時のディレクトリ(/client)を指定します。

実行するとこのようなファイルが生成されます。これらのファイルは触らなくて大丈夫ですがimportのエラーが出ている場合は-nオプションに渡している値が適切かどうかを確認してみてください。

Goクライアントを使ってみる

まずはAPIクライアントを初期化から。

package main

...
import "github.com/microsoft/kiota-abstractions-go/authentication"
import "github.com/microsoft/kiota-http-go"
import ${レポジトリ名}/client

func main()
    ctx := context.Background()
    authProvider := authentication.AnonymousAuthenticationProvider{}
    adapter, err := http.NewNetHttpRequestAdapter(&authProvider)
    if err != nil {
        log.Fatalf("Error creating request adapter: %v\n", err)
    }
        // サーバーのURLをセット
    adapter.SetBaseUrl("http://localhost:8080/api/v1")
    apiClient := client.NewApiClient(adapter)

API認証が必要なケースに対応するためのauthProviderを生成し、そこから通信用のadapterを作っています。今回は認証不要のAPIを叩くのでAnonymousAuthenticationProviderを利用しました。 adapterはAPI通信部分を吸収する部分で、ここで独自のHTTP通信クライアントを組み込んだりも出来ます。 OpenAPIにサーバーのエンドポイントの記載がない場合はこのようにadapterで指定します。 adapterからクライアントを生成したら準備完了です。

limit := int32(3)
params := posts.PostsRequestBuilderGetQueryParameters{
    Limit: &limit,
}
// リクエストを送信
result, err := apiClient.Posts().Get(ctx, &posts.PostsRequestBuilderGetRequestConfiguration{
    QueryParameters: &params,
})

リクエストを組み立ててAPIを呼び出す部分のコードはこのような形です。 APIごとに専用の構造体が生成されているのでそれを利用して組み立てる形になります。パラメータが未指定の場合と区別するためすべてポインタ型で渡すようなインターフェースになっています。数値から直接ポインタを取ることはできないので、一度代入が必要な点は少し手間になります。 lo.ToPtr みたいな関数を利用してもいいかもしれません。

result, err := apiClient.Posts().Get(/* 省略 */)

if err != nil {
    // OpenAPIで定義されているエラーは errors.As でキャスト出来る
    var errResp *models.ErrResponse
    if errors.As(err, &errResp) {
        fmt.Printf("request error: %s\n", *errResp.GetDetail())
        return
    }
    fmt.Printf("Error getting inference result: %+v\n", err)
    return
}
// Post の一覧を出力
for _, post := range result.GetPosts() {
    fmt.Printf("id: %d, title: %s, content: %s\n", *post.GetId(), *post.GetTitle(), *post.GetContent())
}

/* 実行結果例
id: 1, title: First Post, content: This is first test post.
id: 2, title: Second Post, content: This is second test post.
id: 3, title: Third Post, content: This is third test post.
*/

リクエストを行うと、パースされたレスポンスとエラーにアクセスすることが出来ます。エラーはOpenAPIに定義されていれば専用のモデルが生成されるので、キャストすることでエラーオブジェクトにもアクセスすることが可能です。定義されていないエラーの場合は汎用的なエラーが返ってきます。正常時のレスポンスもパースされた状態で入っておりGetter経由で好きに取り出すことが出来ます。 JSONのパースなどを自分で記述しなくていいのはコード生成の大きなメリットです。

// リクエストデータの作成
requestData := models.NewPost()
title := "Hello world"
requestData.SetTitle(&title)
content := "This is a test from kiota apiClient."

// リクエストに追加
requestData.SetContent(&content)

// リクエストを送信
result, err := apiClient.Posts().Post(ctx, requestData, &posts.PostsRequestBuilderPostRequestConfiguration{
    Headers: header,
    Options: []abstractions.RequestOption{
        kiotaHttp.NewCompressionOptions(false),  // リクエストBodyのgzipをオフに
    },
})
// 作成した Post の ID を出力
fmt.Printf("saved id: %d\n", *result.GetId())

/* 実行結果例
saved id: 4
*/

POSTを使って送信する例はこちら。こちらも専用のモデルが定義されているのでSetterを利用して値をセットしていく形になります。

試してみたときのはまりどころとしては、デフォルトだとリクエストが圧縮されて送られてしまうことでした。サーバー側でリクエストが弾かれてしまい、原因を探っていったところBodyをgzipして送信していることが分かりました。リクエスト時のオプションとしてCompressionをfalseにセットしてあげることで Content-Encoding: gzip に未対応なサーバーでも適切にリクエストを送ることが出来ます。

OpenAPIの生成もコードファーストでやってみる

OpenAPI 3.xではなくOpenAPI 2.0の形式でYAMLを生成していた部分の答え合わせなのですが、今回OpenAPIの生成もGoのコードから作ってみることにしました。

Python だとFastAPIのようなフレームワークで簡単に出力できますが、Goだとフレームワークと一体でOpenAPIを生成してくれるものは見当たりませんでした。 OpenAPIを用意してサーバー側のコードを生成する「スキーマファースト」なやり方であれば、OpenAPI Generatorをはじめとして複数候補がありますが、 OpenAPIを手で書くのが辛い、ファイル分割の対応具合がツールによってまちまちなどの理由で「コードファースト」なやり方を模索してました。

github.com

最終的にたどり着いたのがSwagというツールでした。こちらはAPIサーバーにコメントの形でOpenAPIに必要な情報を埋め込むことでOpenAPIのスキーマを生成してくれるツールです。 gin, echo, fiberなど主要なWebフレームワークにも対応しています。

type Post struct {
    ID      int    `json:"id" binding:"-"`
    Title   string `json:"title" binding:"required"`
    Content string `json:"content" binding:"required"`
}


// AddPost
// @Summary Create new post
// @Schemes
// @Description add post
// @Tags posts
// @Accept json
// @Produce json
// @Param post body Post true "Post"
// @Success 201 {object} Post "created"
// @Failure 400 {object} ErrResponse "invalid params"
// @Failure 500 {object} ErrResponse "internal server error"
// @Router /posts [post]
func (s *Server) AddPost(g *gin.Context) {
    post := Post{}
    if err := g.ShouldBindJSON(&post); err != nil {
        g.JSON(http.StatusBadRequest, ErrResponse{Detail: err.Error()})
        return
    }
    if err := s.postRepository.AddPost(g, &post); err != nil {
        g.JSON(http.StatusInternalServerError, ErrResponse{Detail: "internal server error"})
        return
    }
    g.JSON(http.StatusCreated, post)
}

このような形で各ハンドラにコメントを付与し、swagコマンドを叩く事でOpenAPIのスキーマを生成できます。 (上記はginの例になります。) Postなどの構造体名をコメントに入れておくとOpenAPIに反映してくれるのでスキーマの更新漏れがなくて便利です。

欠点としては生成されるOpenAPIが2.0相当になってしまう点です。 3.0が公開されたのが2017年なので、OpenAPIまわりのツール対応状況を考えると3.xに移行しておきたいところです。 v2という形でSwagのOpen API 3.x対応が進められていますが現時点ではリリースされていません。 RCまでは来ているようなのでそのうち公開されると思いますが。

まとめ

SwagとKiotaを利用することで、システム間の連携を扱いやすくすることが出来ました。 OpenAPIを利用してスキーマを管理しつつ、プログラムの上ではOpenAPIを意識せず扱えるので改修やメンテナンスも行いやすくなりそうです。

弊社の場合PythonとGoをよく利用するので、「PythonのFastAPIでOpenAPIを生成してKiotaのGoでクライアント生成」、「SwagでOpenAPIを生成してKiotaのPythonクライアントを生成」みたいな言語を跨いでの連携もしやすそうです。似たようなシステム連携をするのに「Protocol Buffers」も選択肢に上がると思いますが、REST APIでの資産が既にある場合、現状のコードベースを生かしつつSwagなどでOpenAPI化し、自動生成されたクライアントで連携を堅固にしていくのも実用的かと思いました。

今回解説用に作成したサンプルコードはこちら github.com

The Go gopher was designed by Renée French.

2023-12-27

APIクライアント「Insomnia」で始める、チーム開発効率化

JX通信社の CTO の小笠原(@yamitzky)です。本日は、最近社内で検証している API クライアントの「Insomnia」や、Insomnia を活用したチームでの API 開発の効率化についてご紹介します。

Insomnia とは

Insomnia は、オープンソースの API クライアントです。API 通信を GUI で直感的に検証・保存できる、というのが最も基本的な機能です。似たようなツールだと Postman などが有名だと思います。

insomnia.rest

Insomnia は一般的な REST API だけでなく、GraphQL や gRPC の API にも対応したツールです。JX通信社では、NewsDigest や FASTALERT などのサービスで GraphQL を活用しているため、GraphQL にネイティブ対応しているのは非常に便利です。

Insomniaのスクリーンショット。各リクエストを保存しておくことができる。GraphQLの対応や、jq的な絞り込みもできる

また、後述のように Insomnia にはチーム開発のための機能(コラボレーション機能)が備わっており、保存したリクエストのリストを他の人と共有することもできます。

Insomnia を導入するモチベーション

Insomnia の最も基本的な使い方は API クライアントとしての使い方です。これだけであれば、GraphQL Playground や、Swagger UI などでも事足りるかと思います。

今回、Insomnia を導入することで、次のような課題を解決できないかと考えました。

1. API 通信の様々なユースケースの記録

同じ通信エンドポイント(URL)に対して「◯◯でフィルターする場合」「◯◯でソートする場合」「不正なデータを入れた場合」といった複数のユースケース(利用想定)が紐づくことがありますが、これらを網羅的に保存できるようにしたいです。

2. スキーマ定義がされていない社内 API のドキュメント

一部、昔開発した API サーバーなどでは、GraphQL や OpenAPI でのスキーマ定義がされていないものが残ってます。これらの API の使い方のドキュメントについても、統一した場所に保存しておきたいです。

3. 成果物の共有

スプリントレビューのような成果報告会で営業側のメンバーに GUI で API を叩いてもらう場合や、普段 API の開発に入っていないエンジニアメンバーにさっと共有したい場合があります。

4. 認証方法が複雑なプロジェクトのデバッグ

Google Cloud の Cloud Run で開発した認証付き API だと、Bearer Token を都度 CLI で生成して設定する必要があります。このような認証が設定されていても、容易にデバッグできることが望ましいです。

これらの「保存」と「共有」の課題を解決するために、今回 Insomnia の導入を検討しました。特に、本稿で紹介するような基本機能だけであれば、Insomnia の共有機能は無料で使えるのが嬉しいポイントです(料金プラン)。

Insomnia の共有機能

Insomnia では、右上の「+Share」ボタンを押すことで、他のメンバーに共有することができます。

その際にデフォルトで設定されているのが E2EE(エンドツーエンド暗号化) です。利用者が管理する鍵を元に、保存したリクエスト内容は暗号化されます。逆に、パスワードを忘れるとアクセスできなくなってしまうため気をつけてください*1。

共有されたプロジェクトは、 他のユーザーと共同編集ができます。好みが分かれるところですが、Notion や Google Docs のような同期的な共同編集ではなく、Git のような概念 (commit / push / pull) による共同編集がベースとなっています。プロジェクトの環境変数(例：API の URL) を共有することもできます。

有償プランでは、実際に Git のリポジトリと紐づけたりもできるようです。

その他の便利機能

OpenAPI

Insomnia は、OpenAPI のエディターとしての機能も備わっています。バリデーションしてくれたり、定義を元に Insomnia のリクエストを一括生成→ curl や通信プログラムとしてコピーできるようにしたりもできるので非常に便利です。

テスト

あまり検証していませんが、API 通信のテストケースも保存しておくことができます。システム障害発生時の初動調査やリリース前の一括動作チェックなどにも使えそうです。

変数埋め込み

Insomnia は環境変数の概念があり、これを DRY に埋め込むことができます。API のドメインや API キー等を設定し、本番／開発環境を切り替えるのにも便利です。環境変数の情報も他チームメンバーと共有することができます。また、逆に共有しない「Private enviromnent」を設定することもできます。

このような環境ごと設定値の埋め込みだけではなく、プロンプト(リクエスト実行時に発火するフォームダイアログ)の結果を埋め込む機能や、動的に生成した UUID やタイムスタンプ、OS 情報などを埋め込む「Template tag」という機能もあります。

外部プラグイン

実は、Template Tag の機能は、サードパーティーや独自に開発したプラグインによって、拡張することができます。これらのプラグインはPlugin Hubに公開されています。

例えば、Cloud Run の API の認証には cloud run auth を使えば自動的に認証情報を埋め込むことができます。プラグインのソースコードは公開されているので、参考にして自作もできますね。

まとめ

本稿では、Insomnia というツールと、検証している共有機能などの紹介をしました。無料で始めることができる、というのは、スタートアップ企業にとっては嬉しいのではないでしょうか？

他にみなさんが使っているツールあれば、ぜひコメントなどで教えていただけると嬉しいです。良いお年を！

*1:JX通信社ではパスワード管理ツールを使っています

2023-07-13

ダウンタイムを抑えてAWSからGoogle Cloudにデータベースを移行したはなし

AWS GCP CloudSQL DatabaseMIgrationService

こんにちは。kimihiro_nです。

今回はプロダクトで使用しているデータベース(MySQL 互換)を AWS から Google Cloud に引っ越ししたときのはなしを紹介します。

AWSから Google Cloud へ

AWS では MySQL 5.7 互換の Aurora グローバルデータベースを利用していました。

グローバルデータベースを使っているのは、大規模災害時におけるリージョンレベルでの障害に備えるためのもので、万一リージョンレベルの障害が発生してもサービス継続できるような体制を作っていました。

今回ある事情から Google Cloud の CloudSQL へのお引っ越しを行い、同じようにホットスタンバイでのマルチリージョン構成を構築することになりました。

なぜ AWS から Google Cloud に

恐らく一番気になるのがこの理由の部分かもしれませんが、大人の事情ということで詳細は伏せさせてください。大きな理由としてはコストなのですが、Google Cloud に移行した方が絶対的に安くなるというわけではないので、いろいろ総合的な判断をした結果ということになります。データ基盤が BigQuery 上で構築されていて連携がしやすいみたいな分かりやすいメリットもあります。

ちなみに Aurora は2017年くらいから利用していますが、ここ数年データベース由来での障害が発生していないので非常に優秀なデータベースサービスだと思います。

AWS から Google Cloud に移行する上での調査

どちらも MySQL 互換とはいえ Aurora と Cloud SQL では仕組みに違いがあります。

違いについてはこちらの Google Cloud 公式のドキュメントに既にまとまっていたので、こちらをよく確認し問題がないかを検証しました。

ここでの一番の懸念点はパフォーマンスでした。Aurora は独自にチューニングされて高いスループットが出るようになっているため、移行した途端データベースが悲鳴をあげてしまうことが考えられました。とはいえパフォーマンスのうたい文句などから推測で判断することも難しいです。

なので実際 Cloud SQL に建てたデータベースを用意してLocustを用いた負荷試験を実施しました。シナリオ自体は以前にDBの負荷をみるために作ったものがあったので、今回はそれを流用し Aurora に繋いだときと Cloud SQL に繋いだときとでレスポンスタイムの比較を行いました。結構重めのクエリも入っていたのですが Aurora のときと大して遜色なく捌く事ができて一安心でした。

プライマリ↔レプリカ間の同期ラグについても検証してみましたがこちらも許容範囲内でした。

どうやって移行したか

移行可能ということが確かめられたので実際の移行手順について検討をしていきました。

移行する上での前提

少ないダウンタイムでの移行

災害・事件・事故といったリスク情報を速く伝えるサービスなので、ユーザーが利用できなくなってしまう時間は極力減らしたいです。とはいえ完全に無停止でやろうとすると移行の工数と難易度が跳ね上がってしまうため、メンテナンスの事前アナウンスをしつつ短いダウンタイムで移行できるような方針を検討したいです。

常時情報の流入がある

ダウンタイムに関連する話ですが、データベースには毎秒かなりの数の書き込み操作が行われています。そのため新旧データベースを動かしながら無停止で乗り換えるみたいな事が難しく、データの不整合を避ける意味でも短時間の書き込みの停止は許容するようにしました。ニュースなどの取り込みはDBに書き込む前にキューを活用していたので、切り替え中の時間帯のニュースも取りこぼすことなく取り込みが可能です。

プライマリレプリカ構成(マスタースレーブ構成)

データベースは読み書きが可能なプライマリと読み取り専用のレプリカの複数台構成になっていて、サービスの主機能はほぼ読み取り専用のデータベースから取得しています。そのため、プライマリDBへの接続を一時停止してもエラーで何もできないといった状況は回避できるようになっていました。

DBのサイズ

データベースのサイズは数百GBほどあります。数TBとかそういった規模ではないのは幸いですが、それでもサッとコピーして終わる規模でもありません。

AWS VPC

Aurora のデータベースは VPC 内に配置してあり、データベースを利用するアプリケーション(ECS、 Lambdaなど)もVPC内に配置して接続出来るようにしています。今回アプリケーションの Google Cloud への移行は行わず、データベースの移行だけを行うことを目的としています。そのため Cloud SQL と AWS の VPC をどう接続するかも考える必要がありました。

移行方針

上記のような前提から、このような方針ですすめることにしました

Cloud SQL へレプリカを構築し、アプリケーションの読み込み系統をまず移行する
書き込み系統の移行は事前に顧客周知を行い、メンテナンス時間を設けて移行する
AWS と Google Cloud は VPN を構築し相互に通信できるようにする

データベースの読み込み系統(レプリカへのアクセス)と書き込み系統(プライマリへのアクセス)の2段階にわけて移行する方針としました。

先にレプリケーションを利用して Cloud SQL の方にデータベースを用意しておき、Readerへアクセスしていたアプリケーションをすべて移行してしまいます。このときはレプリカからレプリカへの切り替えなので無停止で実行が可能です。

次にアプリケーションの書き込みも Cloud SQL へ向けるよう切り替えを行います。このときは不整合を防止するためサービスの書き込みを一時停止してアプリケーションの切り替え作業を行います。メンテナンス中も読み込み系統は生きているためサービスの閲覧などはそのまま利用が可能です。

この移行作業を行うにあたり、Database Migration Service(DMS) というサービスを活用することにしました。

Google Cloud の機能として用意されているマイグレーション用の仕組みで、既存の DB から簡単にレプリカを生成することができます。動きとしては手動で MySQL のレプリカを作成するのを自動化したものに近くて、「Cloud SQLの立ち上げ」「mysql dumpの取り込み」「dump以降のリアルタイムな差分取り込み」をやってくれます。今回は MySQL 互換同士でしたが、異なるデータベース種別間でも移行が可能になっているみたいです。

また、データベースのネットワークに関しては VPN を構築することにしました。移行に際し VPC 内からデータベースアクセスを行う構成を崩したくなかったため、AWS と Google Cloud 間に VPN を構築して相互にやりとりできるようにしました。冗長な構成にもみえますが DB 移行後にアプリケーションも Google Cloud へ移行していくことを想定したときに、同じネットワークとして扱えるメリットが大きかったのでこのようにしています。

移行

VPN 構築

まず始めに Google Cloud ↔ AWS間のVPN構築するところから実施しました。

こちらの記事を参考に Terraform で VPN の HA 構成を取っています。

VPN 以外にもサブネットやルーティングの設定が必要で手こずりましたがなんとか相互で通信する事ができるようになりました。

DBのエンドポイントにドメインを割り当て

今回アプリケーションのデータベース切り替え作業にあたり、DNSを用いて切り替えが簡単にできるようセットアップを行いました。

プライマリ用とレプリカ用のホストにそれぞれ固有のドメインを割り当て、ドメインの向き先を変えることでアプリケーションの接続先も追従するようにしました。

こうすることで ECS、Lambda にあるアプリケーションを再デプロイしたりせずに切り替えができます。

また Cloud SQLでは Aurora のような接続エンドポイントが提供されず、インスタンスの IP を指定して接続する形なのでドメインを割り当てておくことでラウンドロビンをしたりもできるようになります。

Route 53 を使って読み込み系統用、書き込み系統用のドメインを作成し、CNAME で Aurora のエンドポイントを指定しました。

DNS で切り替える際の注意としては、アプリケーション側でデータベース接続を維持していると、DNS の向き先が切り替わった事を知らないまま古い DB に接続し続けてしまうことがあるので、一定時間で再接続するよう設定しておく必要があります。

Database Migration Service起動

DMS を利用して Google Cloud にレプリカを立ち上げます。VPN 構築済みなので、あとは DB の接続情報を入れるくらいで自動でレプリカインスタンスを作ってくれます。

RDS からの移行の場合、mysql dump を開始するときに一時的にプライマリの書き込みを停止する必要があり、このとき作業込みで5分くらいの書き込みダウンタイムが発生します。

それ以外はほぼ全自動で、ダンプの取り込みが完了すれば読み込み専用データベースとして利用できるようになります。取り込みの速度はだいたい100GB/時間ほどでした。

読み込み系統切替え

Cloud SQL にレプリカができたので、読み込み系統をまず移行します。Route 53のドメインを切り替えるだけなのですが一つ大きな問題があります。

DMS では MySQL の接続ユーザーは同期されないため、そのまま接続しようとしても認証に失敗してしまいます。

Database Migration Service 実行中はデータベースも読み取り専用になっていて困っていたのですが、Cloud SQL のコンソールから接続ユーザーが作れる事が分かったので、そちらを利用して既存の接続情報を移植しました。なおコンソールから作成したユーザーは root 権限がついてしまうのであとで権限を修正するなどの作業が必要です。

書き込み系統切替え

DB 移行の大詰めである書き込み系統の移行です。DMS の管理画面で「プロモート」を実行するとソースのデータベース(ここではAWS)から切り離され、独立したプライマリの DB として利用できるようになります。このとき5分ほどのダウンタイムが発生します。

無事プライマリが起動したことを確認したらアプリケーションを Google Cloud 側に切り替えて移行が完了です。

レプリカ作成

最後に Google Cloud 側にレプリカを構築して AWS のときと同じような構成に戻します。読み込み系統切替えの時点で Google Cloud 側にもレプリカを用意しておきたかったのですが DMS の管理下にあるときはレプリカの作成などができないため、移行が完了してからレプリカを構築しています。

読み込みがヘビーな場合は一時的に強めのインスタンスにして移行する必要があるかも知れません。

また、図には記載していないですがリージョンレベルの障害に備えるため別リージョンに置いたレプリカも別途用意しています。Google Cloud の場合 VPC をリージョンをまたいで構築できるのでとても簡単でした。