AIはすぐ動く。でも「使える状態」にするにはここまで必要だった話
- 3月23日
- 読了時間: 4分
こんにちはダブルホイールの宮川です。
最近は「AIですぐできる」という話をよく聞きます。
私自身もそう思っていました。
きっかけは単純なトラブルでした
あるオンライン会議で、録画をしていたにも関わらず、議事録生成が動いていないことに気づきました。
原因は単純で、設定ミスです。
ただ、このとき思いました。
「じゃあ自分で作ればいいのでは?」
幸い、Pythonは使えますし、開発環境もあります。そこでまずは、OpenAIのAPIを使って
文字起こし
議事録生成
までを一気に作ってみました。
ここまでは、正直すぐにできました。
しかし「それでは足りない」と感じた
実際に使ってみると、違和感がありました。
誰が話しているのか分からない
会話の流れが追いづらい
議事録としては不十分
つまり、
「動く」けれど「使えない」
状態でした。
話者分離という壁
そこで次に取り組んだのが、話者分離です。
誰が話したかを識別することで、ようやく議事録として意味が出てきます。
ただ、ここから一気に難易度が上がりました。
想像以上に「設計」が必要だった
文字起こしまでは比較的シンプルです。
しかし話者分離を入れた瞬間に、
話者分離(誰が話したか)
音声認識(何を話したか)
この2つのAIを並行して動かす必要が出てきます。
さらに、それぞれの結果を時間軸で統合する処理も必要になります。
シンプルに書くとこうなります。
音声 → 話者分離 → 文字起こし → 統合 → 出力ですが実際には、この「統合」の部分が最も難しく、設計の比重が一気に増えました。
気づいたらプログラムは1600行になっていた
いつもであれば、ここまでの規模にはなりません。
ところが今回は、気がつくとプログラムは約1600行になっていました。
「いつの間にここまで増えたのか」
と正直焦りました。
結果として、一度立ち止まり、構造を見直してリファクタリングすることになりました。
ここでも時間を使っています。
話者分離だけで1週間かかった
最終的に、話者分離の実装だけで約1週間かかりました。
AIそのもの
処理の組み合わせ
精度の調整
構造の整理
すべてを含めての時間です。
開発環境と本番環境の違い
開発はMacで行っていますが、本命はWindows環境です。
そのため、Windows側での動作検証も行いました。
ここでも、
動作の違い
パフォーマンス差
環境依存
といった点の確認が必要になります。
なぜここまでやるのか
通常であれば、このあとOpenAI APIを使って議事録形式に整形するところまで進めます。
しかし今回は、あえてそこまで進めていません。
理由はシンプルで、
「話者分離だけで十分に学びがあったから」
です。
一番の気づき
今回の取り組みで一番大きな気づきはこれです。
AIはすぐに動く。
しかし、使える状態にするには設計が必要。
これはAIの話ではない
この話は、AIに限った話ではありません。
ツールを導入しただけでは成果は出ない
個人に依存していると再現できない
仕組みとして設計して初めて価値になる
これは営業でも、組織でも同じです。
まとめ
今回の取り組みを通してはっきりしたことがあります。
AIは、もはや「特別な技術」ではありません。実際に動かすだけであれば、誰でもすぐにできる時代です。
しかし一方で、「業務で使える状態」にすることは、まったく別の話でした。
AIを導入すれば成果が出るわけではなく、成果はその前段階の「設計」でほぼ決まります。
どの処理を組み合わせるのか
どういう順番で動かすのか
誰でも同じ結果を出せるのか
こうした設計がなければ、AIはただの「動くツール」で終わります。
これはAIに限った話ではありません。
営業でも、業務でも、組織でも同じです。
個人のスキルに依存している状態では再現性がなく、仕組みとして設計して初めて価値になります。
今回の経験を一言でまとめるなら、AIを導入したのではなく、AIを「使える仕組み」に組み直した、ということでした。
もしこれからAIを業務に取り入れようとしているのであれば、
「何ができるか」ではなく、「どう設計すれば使える状態になるか」
この視点を持つことが、最も重要だと感じています。


