無音カット編集に挑戦
前回の動画でvideo-useを導入できましたので、動画ファイルを読み込ませて無音カット編集ができるか試してみます。
今回の例として、撮りためている動画の一つで1分2秒の動画を使います。これをそのままドラッグ&ドロップでClaude Codeに渡して、「無音カット編集をお願いします」と指示します。
これでうまくいけば、無音カット編集をスキル化してスラッシュコマンドで毎回呼び出せるようにしたり、動画編集用の部署を作ったり、サブエージェント化すれば、より綺麗にこの仮想組織を運用して業務効率化できるようになります。
初回の編集結果
編集が完了しました。途中でいくつかのファイルに分けて動画を処理していましたが、最終的にはfinalとして余分な動画ファイルを削除して一つにまとめてくれました。
ただし確認してみると、以下の問題がありました。
- 動画の冒頭と最後で全然喋っていないところがカットされていなかった
- 短縮されたのは5.4秒のみ
- ところどころカットされた形跡はあるが、無音部分が長いところをカットしてくれない
- 言い直しが何回かあったがそこはカットされていない
言い直しのカットにはElevenLabsを使って音声認識した上でカットしてもらう必要があります。
閾値設定によるブラッシュアップ
現状のままだとまだ自動で動画編集させてそのままアップロードするのは難しいので、出力結果を見て閾値設定を調整していきます。閾値設定とは、音声のデシベルの設定です。「何デシベルより下だったらそこもカットして」とか「3秒以上開いたら絶対カットして」といった形でさらに指示出しをしていきます。
指示出しをして良い結果が得られたら、それをスキル化して同じような編集を依頼すればいいということになります。最初はやはりスキルのブラッシュアップ、出力品質のブラッシュアップが必要になります。
ブラッシュアップ後の結果
さらにブラッシュアップしてみたところ、先ほどと比べて43%カットという結果になりました。最初の部分も丁寧にカットしてくれました。
冒頭部分はカットしてもらえましたが、動画の終わりに関してはちょっと不自然な感じの終わり方になっていました。文章をちゃんと読み取ってもらい、違和感なく終わらせるように修正するには、発言している内容を理解してもらうためにElevenLabsを用意してAPIキーを渡してあげる必要があります。
次のステップ
現在の状態だと「はいということでうまくいきましたね、はいということで」というように同じフレーズを何回か繰り返してしまっているので、その最後のところだけを残すような編集が必要です。
今まで動画編集者に1動画につき300円〜500円を渡して依頼していたものを、すべて自動化できたらいいなと思います。続いての動画ではElevenLabsを使った言い直しカット編集に挑戦します。