くじらぼハッカソン第一回～音声認識を考える～

こんにちは！くじらぼ~~名ばかり~~所長の光永です。
去る６月７日、くじらぼの初回ハッカソンを開催しました！
初回とはいえ、学生さんたちにも参加していただき、なかなかの賑わいでございました。
ハッカソンの内容や成果をまとめてみましたので、ご興味のある方は見ていってください（？）

ハッカソンとは

ハッカソン（英語: hackathon 、別名:hack day ,hackfest ,codefest ）とはソフトウェア開発分野のプログラマやグラフィックデザイナー、ユーザインタフェース設計者、プロジェクトマネージャらが集中的に作業をするソフトウェア関連プロジェクトのイベントである[1]。個人ごとに作業する場合、班ごとに作業する場合、全体で一つの目標に作業する場合などがある。(出典：wikipedia)

ざっくりいうとゼロから物を作るぞというイベント。

第一回実施内容

目的

最終的に、音声を使ったやりとりのできるモバイルアプリを開発する。
- 音声での複数人同時チャット（通話）
- 音声の文字起こし、保存

やること

技術調査
1. 音声認識API: Google Cloud Speech API
2. 音声のリアルタイム共有
3. 上記のアプリ利用について
  - 同じようなサービスはないか？
  - どうやって作られているのか？
なにかつくってみる

ざっくりとしたタイムライン

※ 所要時間：1h10m（17:00～18:10）

開始	時間数（分）	内容	説明
17:00	10	概要説明	.
17:10	10	調査1	基礎知識を知るための調査
17:20	10	共有1	基礎知識のすりあわせ
17:30	10	調査2	作業：実用調査。開発に入ってもよい
17:40	5	共有2	進捗、各自の方向性の確認
17:45	15	作業	.
18:00	10	まとめ	結果、感想等の共有等

成果物（調査結果）

そもそも音声認識とは？

音声を音素と呼ばれる音の塊に分解し、それぞれの音素がどの文字にマッチするかを分析し、文字に割り当てます。
また、「辞書」と呼ばれる音素のセットと音素（文字）の組み合わせを引当て、単語や自然言語に変換していきます。
- 参考：https://www.advanced-media.co.jp/amivoice
分析方法にはいろいろある。
- 日本語形態素解析
- 固有表現抽出　　などなど

Google Cloud Speech API

とは？

Googleの提供する音声認識ツールです。
音声の文字起こしなどが強力（らしい）。

利用方法

Google Cloudプラットフォームに登録する。

※ かつてはGoogle Developer登録が必要だったようなのですが、現在は登録しなくても開始できます！ヤッタネ
利用方法もろもろはGoogle Developersが提供するチュートリアルが分かりやすいです。（サンプルソースもあり）
- https://codelabs.developers.google.com/codelabs/cloud-speech-intro-ja/index.html?index=..%2F..%2Fnext17-tok#0

機能・価格などなど

API
- REST / RPCの二種類。
- 同期・非同期通信の両方に対応。
- ストリーミング / 非ストリーミングいずれも対応。
  - ストリーミング：話している内容をほぼリアルタイムに認識。
  - 非ストリーミング：話す→話し終わる→音声を認識と順に処理。
価格
- 無料版、有料版ともあり。
- 有料版は 0.4円/1分

特徴

雑音
- 文章が誤認識される
句読点がつかない
- 別のツールを同時利用することで解決する。（Google Speech to Text）
mp3利用不可
- 利用可能なデータ形式へ変換してから利用する
方言の対応弱い。。
ネットで見つけられる情報が偏っている。
- Java, Phython＋ストリーミング　多

音声のリアルタイム共有

サービス： Goole Firebase

https://firebase.google.com/?hl=ja
アプリ開発に必要なもろもろの機能をまとめて提供するサービス。（BaaS/mBaaS）
めっちゃ多機能なので、データのリアルタイム共有に役立つ機能もある。→リアルタイムデータベース
- どうやら超いいらしい（噂）

サービス： SkyWay

https://webrtc.ecl.ntt.com/
WebRTCサービス。
- ※ Web Real Time Communication
音声通話をおこなうことができる。
商用利用可（有料）
提供形式
- SDK
- API
「アンドロイド　WebRTC電話」でGoogleするとしあわせな気持ちになれる。

アプリ開発について

類似サービス

LIVE TALK
- 音声入力された内容を即時テキスト変換・翻訳して共有できる。
OTTR
- 音声認識・文字起こしのアプリ。
- 機械学習を利用し、話した人ごとの声紋で人を判別することができるのが特徴。
- ※英語のみ

まとめ・感想など

今回は時間がタイトに1時間ちょいしかなかったこともあり、技術調査に終始しました。
そして初回なので司会者（私）が終始わちゃわちゃしていました（笑）
ともあれ、参加者の皆様が積極的に活動していただけたので、なかなか良い回になったかと思います。

次回開催時は、何かしらモノをつくって成果とできるところまで行きたいと思っています。
それでは、また次回！光永でした。

社内イベントへの参加、申込み、あと採用情報はこちらから～！↓
http://saiyo.kuzilla.co.jp/

くじらぼハッカソン第一回 ～音声認識を考える～