議事録半自動作成のススメ その2 Google AI Studio 編

2024年08月07日 仕事のこだわり

会議の音声データから文字起こししテキストファイル化したものをchatGPTで議事録半自動作成を行うことを前回お伝えしましたが文字起こしも行えるものを見つけて試してみました。

音声データは前回と同じように採取してmp3ファイルにします。
もしm4aとかmp4の場合はmp3へ変換が必要です。
このあたりはちょっと不便です。
私はAudacityにFFmpegを入れて変換しました。
http://cyoroq.blog.fc2.com/blog-entry-91.html

mp3の音声ファイルが準備できたらGoogle AI Studioを開きます。
https://aistudio.google.com/app/prompts/new_chat
利用するにはgoogle IDが必要でサインインします。

2024年7月現在は契約しなくともgemini 1.5 proが利用できます。

音声データの受け渡しにはgoogle driveを使用しますのでmp3をアップロードします。

手順としては一気に議事録作成が行えないようなのでまず文字起こしをお願いします。
「文字起こしお願い」と入力して文字起こしを行います。
現在の所15分単位で文字起こしが停止するので「続けて」と入力すれば継続して文字起こしされます。

全て文字起こしされたら「議事録作成お願い」で議事録が作成されます。

chatGPTと比較して文字起こしもできてトークン数(文字数)制限も緩いようなのでいいかと思いますが特に文字起こし部分にバグ?があるようで起こされた文字に時間が入ったり入らなかったりとか動作が安定していません。

文字起こし部分だけで考えるとmywhisperより固有名詞の変換精度はいいようですが2時間半の音声データで文字起こしを行うと途中で同じ内容を何回も繰り返したりして
うまく利用できないようです。
音声データを15分単位で分割すると利用できそうですが、試していません。

1時間程度の会議の議事録ならまあまあ普通に使えるといった感想です。

chatGPTにしてもgeminiにしても後で人での修正は必要なので完全自動化とまでいかないのがまだ発展途上であり将来的に楽しみなところではあります。

 

Copyright c syshan.jp all rights reserved.