ABEJA Tech Blog

中の人の興味のある情報を発信していきます

Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2)

ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実…

【ABEJAアジャイル活動記録】ユーザーストーリーマッピングでチーム開発の理解共通化を爆上げする!

こんにちは!ABEJA でスクラムマスターをしている小川です。 私たちの開発チームでは、新機能開発に先立ってマイルストーンを明確にするために、みんなでユーザーストーリーマッピングを作ってます。 今回は、ユーザーストーリーマッピングで得られる様々な…

Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~

こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「…

【ABEJAアジャイル活動記録】忙しいプロダクトオーナーに送る「チームの一員としての振る舞い」

こんにちは!ABEJA でスクラムマスターをしている小川です! 言わずもがなですが、スクラムチームにおけるプロダクトオーナー(以降PO と略します)の役割は重要です。 しかし、「PO 忙しい問題」(ググったらたくさん出てきます)が示す通り、世の中のPO は…

社内用語集を気軽に質問できるSlackBotを作ってみた (RAGの応用アプリ)

こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。 LangChain を使用すれば、RAG [Retrieval Augment Generation] を使用した LLM アプリケーションを簡単に作成できるので便利ですよね。 今回 LangChain で…

よく使うRDBMSのUDF・ストアドプロシージャのまとめ

はじめに まとめ ちょっと試してみる MySQL PostgreSQL SQLite さいごに はじめに こんにちは。株式会社ABEJAの@Takayoshi_maです。InfoQを見ているとこのようなニュースが掲載されていました。 www.infoq.com どうやらMySQLでストアドファンクション・スト…

【Python 3.12】型ヒント機能がいつの間にか進化していたので、慌ててキャッチアップする

ABEJA でプロダクト開発を行っている平原です。 先日、バックエンドで使っているGo言語のお勉強しようと「go言語 100Tips ありがちなミスを把握し、実装を最適化する」を読んでいました。その中でinterfaceは(パッケージを公開する側ではなく)受け側で定義…

LangChain社LLMOpsツール「LangSmith」を触ってみた(詳細解説つき)

こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。LangChain 使えば、RAG [Retrieval Augment Generation] などを活用した LLM アプリケーションも簡単に作成できるので大変便利ですよね。そんな LangChain …

機械学習におけるEDAって結局何するの?

ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Expl…

【ABEJAアジャイル活動記録】チームの振り返り、進め方(初級~中級編)

ABEJA のアジャイル開発チームでスクラムマスターをしている小川です。 今回は、アジャイルやスクラムチームに限らず、チームの雰囲気をもっとよくしたい!とか、継続的なチーム成長の実現方法を探している!などを考えている方にはご参考にしていただける内…