データセットツール

データセットツール


データセットキュレーターにとって便利なPythonとPowerShellスクリプトの「小さな」コレクションです。タイトルの ⚡ はPowerShellスクリプト、🐍 はPython、そして 🦀 はもちろんRustを意味します!

🦀 extract-metadata
safetensorsファイルを処理し、メタデータを抽出し、JSONオブジェクトに変換して、新しいファイルに書き込みます。個別のファイルまたはディレクトリ内のすべてのsafetensorsファイルを処理できます。
🦀 format-json
serde_jsonを使用して、単一行のJSONファイルを複数行形式にフォーマットします。
🦀 remove-extra-file-extensions
このRustスクリプトは、指定されたディレクトリ内のテキストファイルから余分な画像拡張子(.jpeg.png、または.jpg)を削除してリネームします。
🐍 Check for Duplicate Words Between Captions and Tags
このスクリプトは、ディレクトリを走査してテキストファイルを検索し、各ファイルを処理してタグとキャプションを抽出し、ランダムな色を使用してキャプション内のタグの出現を強調表示し、結果を視覚的に豊かな形式でターミナルに表示します。
🐍 Check for Large Images
このスクリプトは、指定されたディレクトリとそのサブディレクトリ内のすべての画像の解像度をチェックします。画像の解像度が特定の制限を超える場合、その画像のパスが出力ファイルに書き込まれます。スクリプトはマルチプロセシングを使用してプロセスを高速化します。
🐍 Check for Transparency
このスクリプトは指定されたディレクトリを再帰的に走査し、拡張子が.pngの画像ファイルを特定します。特定された各画像に対して、PILを使用してそのモードを調べることで透明度があるかどうかをチェックします。
🐍 Convert RGBA to RGB in PNGs
このスクリプトは、指定されたディレクトリ内の.png画像をRGBAからRGB形式に変換するプロセスを自動化し、効率を高めるためにマルチプロセッシングを利用します。
🐍 Count Images in Folder
このスクリプトは、指定されたディレクトリ内のJPEGとPNG画像の総数をカウントします。
🐍 Create Empty Captions for Images
このPythonスクリプトは、指定されたディレクトリ内の各画像ファイル(.jpg、.png、または.jpeg)と同じ名前の空のテキストファイルを作成します。スクリプトはディレクトリの存在を確認し、ディレクトリ内のすべての画像ファイルを反復処理します。
🐍 e621 JSON to Caption
このPythonスクリプトは、指定されたディレクトリとそのサブディレクトリ内のJSONファイルを処理するように設計されています。各JSONファイルには、e621.netまたはe6ai.netから取得した画像投稿に関連するデータが含まれていることを想定しています。スクリプトはこれらのJSONファイルを解析し、画像URL、レーティング、タグなどの関連情報を抽出し、このデータに基づいてキャプションファイル(.txt)を生成します。
🐍 FurryTagger
eva02-vit-large-448-8046をロードし、指定されたディレクトリ内の画像セットに適用して、各画像のモデル出力タグをテキストファイルに書き込みます。
🐍 Newlines to Commas
指定されたディレクトリとそのサブディレクトリ内の.txtファイルの内容を再帰的に処理し、改行をカンマとスペースに置き換えます。
🐍 Replace Transparency with Black
このPythonスクリプトは、指定されたディレクトリ内のすべての.png画像を処理し、各画像に黒い層を追加します。効率化のためにマルチプロセッシングを使用して画像を並列処理します。
🐍 Search for Tag
このスクリプトは、指定されたディレクトリとそのサブディレクトリ内のすべての.txtファイルから"anthrofied"という単語を検索するために使用されます。複数のファイルを同時にチェックすることで、マルチプロセッシングを使用して検索を高速化します。
⚡ Format-JSONFiles
jqコマンドラインJSONプロセッサを使用して、単一行のJSONファイルを複数行形式にフォーマットします。
⚡ Format-JSONFilesToSingleLine
jqユーティリティを使用してJSONファイルを単一行形式にフォーマットします。
⚡ Get-Seed
.safetensorsファイルのメタデータからss_seed値を取得します。
⚡ Inspect-Lora
ファイルパスを入力として受け取り、Pythonを使用して.safetensorsファイルからメタデータを読み取ります。その後、メタデータの内容をコンソールに整形出力し、LoRAの隣に保存します。