Colorful Scoop

Chatbot changes the world!😉

chat-balloon>

カラフルしゃべる

カラフルしゃべるは、Colorful Scoopが開発している楽しくおしゃべりできる会話AIです。

カラフルしゃべるは、あなたとの会話の流れに応じて返答を生成します。 会話の流れは様々であるため、各々の流れに対応した返答を事前に考えて準備しておくことは難しいです。 そこでカラフルしゃべるは、あらかじめ用意した返答を選択するのではなく、会話の流れに応じてその場で適切な返答を生成します。

カラフルしゃべるとのおしゃべりはページトップからお試しください!

学習済みモデル

Colorful Scoop は、自然言語処理に役立つ学習済みモデルを公開しています。

gpt2-small-ja

gpt2-small-ja は、SentencePiece をトークナイザとして、GPT-2 の small サイズを日本語 Wikipedia データセットで学習したモデルです。

モデルの詳細と利用方法、そして実行結果の確認は 🤗Model hub からどうぞ!

🤗Model hub

Software

Colorful Scoop は、会話AIの開発をサポートするソフトウェアを公開しています。

msgFlow

msgFlow はPython製のシンプルなチャットボットフレームワークです。 決められたインターフェースを実装することでコマンドライン上で動く物から Slack 等のサービス上で動くものまでを 一つのチャットボット実装で作成可能です。

GitHub PyPI
tfDlg

tfDlg は Tensorflow 向けの Transformer ベースの言語モデル・対話モデルを提供する Python パッケージです。 モデルの改良実験を行うことを前提にシンプルなモデル実装を念頭においています。

GitHub
convf

convf は、会話データの前処理ライブラリです。 一連のフィルターと変換を YAML フォーマットで定義することで、読みやすく再現性に優れた前処理を提供します。

フィルターや変換は拡張可能であるため、必要に応じて自前のフィルターや変換を実装して追加することができます。

GitHub

ドキュメント

Colorful Scoop は、自然言語処理に役立つドキュメントを公開しています。

PyTorchでの言語モデル学習

モデルの学習では、モデル自体の実装に比べて、データのロードや学習ループの作成といった箇所が大部分を占めます。

そこでこのドキュメントでは、言語モデル自体の詳細に踏み込むことはせず、 それ以外の Dataset, DataLoader, 学習ループの作成について解説します。 言語モデルは 🤗Transformers の OpenAI GPT2 モデルを使います。

Colorful Scoop Docs