データセットツール
データセットキュレーターにとって便利なPythonとPowerShellスクリプトの「小さな」コレクションです。タイトルの ⚡ はPowerShellスクリプト、🐍 はPython、そして 🦀 はもちろんRustを意味します!
- 🦀 extract-metadata
safetensors
ファイルを処理し、メタデータを抽出し、JSONオブジェクトに変換して、新しいファイルに書き込みます。個別のファイルまたはディレクトリ内のすべてのsafetensors
ファイルを処理できます。- 🦀 format-json
serde_json
を使用して、単一行のJSONファイルを複数行形式にフォーマットします。- 🦀 remove-extra-file-extensions
- このRustスクリプトは、指定されたディレクトリ内のテキストファイルから余分な画像拡張子(
.jpeg
、.png
、または.jpg
)を削除してリネームします。 - 🐍 Check for Duplicate Words Between Captions and Tags
- このスクリプトは、ディレクトリを走査してテキストファイルを検索し、各ファイルを処理してタグとキャプションを抽出し、ランダムな色を使用してキャプション内のタグの出現を強調表示し、結果を視覚的に豊かな形式でターミナルに表示します。
- 🐍 Check for Large Images
- このスクリプトは、指定されたディレクトリとそのサブディレクトリ内のすべての画像の解像度をチェックします。画像の解像度が特定の制限を超える場合、その画像のパスが出力ファイルに書き込まれます。スクリプトはマルチプロセシングを使用してプロセスを高速化します。
- 🐍 Check for Transparency
- このスクリプトは指定されたディレクトリを再帰的に走査し、拡張子が
.png
の画像ファイルを特定します。特定された各画像に対して、PILを使用してそのモードを調べることで透明度があるかどうかをチェックします。 - 🐍 Convert RGBA to RGB in PNGs
- このスクリプトは、指定されたディレクトリ内の
.png
画像をRGBAからRGB形式に変換するプロセスを自動化し、効率を高めるためにマルチプロセッシングを利用します。 - 🐍 Count Images in Folder
- このスクリプトは、指定されたディレクトリ内のJPEGとPNG画像の総数をカウントします。
- 🐍 Create Empty Captions for Images
- このPythonスクリプトは、指定されたディレクトリ内の各画像ファイル(.jpg、.png、または.jpeg)と同じ名前の空のテキストファイルを作成します。スクリプトはディレクトリの存在を確認し、ディレクトリ内のすべての画像ファイルを反復処理します。
- 🐍 e621 JSON to Caption
- このPythonスクリプトは、指定されたディレクトリとそのサブディレクトリ内のJSONファイルを処理するように設計されています。各JSONファイルには、e621.netまたはe6ai.netから取得した画像投稿に関連するデータが含まれていることを想定しています。スクリプトはこれらのJSONファイルを解析し、画像URL、レーティング、タグなどの関連情報を抽出し、このデータに基づいてキャプションファイル(
.txt
)を生成します。 - 🐍 FurryTagger
eva02-vit-large-448-8046
をロードし、指定されたディレクトリ内の画像セットに適用して、各画像のモデル出力タグをテキストファイルに書き込みます。- 🐍 Newlines to Commas
- 指定されたディレクトリとそのサブディレクトリ内の
.txt
ファイルの内容を再帰的に処理し、改行をカンマとスペースに置き換えます。 - 🐍 Replace Transparency with Black
- このPythonスクリプトは、指定されたディレクトリ内のすべての
.png
画像を処理し、各画像に黒い層を追加します。効率化のためにマルチプロセッシングを使用して画像を並列処理します。 - 🐍 Search for Tag
- このスクリプトは、指定されたディレクトリとそのサブディレクトリ内のすべての.txtファイルから"anthrofied"という単語を検索するために使用されます。複数のファイルを同時にチェックすることで、マルチプロセッシングを使用して検索を高速化します。
- ⚡ Format-JSONFiles
jq
コマンドラインJSONプロセッサを使用して、単一行のJSONファイルを複数行形式にフォーマットします。- ⚡ Format-JSONFilesToSingleLine
jq
ユーティリティを使用してJSONファイルを単一行形式にフォーマットします。- ⚡ Get-Seed
.safetensors
ファイルのメタデータからss_seed
値を取得します。- ⚡ Inspect-Lora
- ファイルパスを入力として受け取り、Pythonを使用して
.safetensors
ファイルからメタデータを読み取ります。その後、メタデータの内容をコンソールに整形出力し、LoRAの隣に保存します。