今日は Elasticsearch の勉強会に参加してきたー.凄く良かった!
先週金曜と土曜に続いての勉強会で参加しまくってるけど,先週はハンズオンともくもく会だったし,今日は発表を聞く勉強会だったから,全て形式が違って新鮮だった.次は自分が発表する勉強会?(予定ないけどwww)
- Docker コンテナ構築のハンズオンに参加して Docker の理解を深めた - kakakakakku blog
- Rails もくもく会で SideCI を試してみた - kakakakakku blog
LT
あとで発表資料は公開されると思うし,ハッシュタグを見てもらえれば実況もあるので,個人用のメモだけを載せておこうと思う.
Recruit Technologies
- リクルートの検索全般で使っている
- 形態素解析と N-gram のハイブリッドだけどスコアに重み付けをして形態素解析を重視している
- 例えば「目黒」で検索したときに「中目黒」を含めるべき?
- Hadoop で集計して Elasticsearch に突っ込んでいる
Intimate Merger
最初に DMP の説明をしてたけど,僕も DMP 事業を担当してるのでそのあたりはよくわかった.管理画面のデモはリッチだし流石だった.
あと前に Aerospike の勉強会でも登壇されてたし,エンジニアとしてプレゼンスが高くて素晴らしいなーと思った.
- 3.6億件の ID 情報を保持している
- 任意の条件から ID を抽出したり分析をするときに Elasticsearch を使っている
- Aerospike と Elasticsearch を JOIN して データを突っ込んでいる
- 検索キーワードから特徴抽出をして関連キーワードをタグクラウドで表示できる
- 検索結果を見ると Elasticsearch に最も興味がある企業は「サイバーエージェント」だとわかる(ドキッ)
Hottolink
- ソーシャルメディアのデータをプロバイドしている
- テキストマイニング / ネットワーク分析 / 時系列解析に使っている
- データフローとしては Twitter / 2ch / WeChat のデータを MySQL に入れてから Elasticsearch に突っ込んでいる
- Hazelcast the Leading In-Memory Data Grid | Hazelcast.com を活用して二次集計をしている
- できる限り Elasticsearch には生データを保管するように心掛けている
Hatena
ブックマークのほとんどの検索機能を Elasticsearch が支えているんだなという感じがしてそのスケールさに驚いた.以下のカウンターも Elasticsearch でアグリゲーションしているとのこと.
- 今までの検索基盤の歴史として MySQL LIKE -> Sedue -> Solr -> Elasticsearch と変えてきた
- 記事にネストする形でブックマーク情報を保管している
- 再現率より精度を重視していてコンセプトサーチ(IF-IDF などテキストマイニング技術を使った検索)をしている
- 関連エントリーの抽出にも Elasticsearch を使っている
- 編集者がクエリを意識しないで済むように独自の管理画面を用意している
CTO Talk : Shay Banon
とにかく存在感が凄かったし,Elasticsearch に対する熱意が感じられて圧倒された.あとイケメンだった.参加者からの QA を中心に1時間話すっていうスタイルははじめてだったけど凄く参考になった.
個人的には Spark との関係の話を聞けたのが良かったし,データストアとしての側面があるっていう話は新鮮だった.未来あるわー!
- Elasticsearch はリアルタイム処理だけじゃなくバッチ処理にも使える
- 機械学習もできる
- Hadoop や Spark とうまく接続することもできてデータストアとしての Elasticsearch という側面も重要になっている
- Spark Streaming との関係はまだ検討中
- AWS CloudSearch は高価だし,時系列分析をするのは厳しいのではないか?
- Operational Intelligence, Log Management, Application Management, Enterprise Security and Compliance | Splunk よりも Found as a Service - Hosted Elasticsearch の方が安価だしフルマネージドだしオススメ
- Elasticsearch は OSS だし未来がある
- Elasticsearch のデータストアという側面では PostgreSQL のような信頼性を目指している
Elasticsearch じゃなくて Englishsearch なんてw
CTO が来日してるからだと思うけど LT 登壇者の資料が全て英語だったし,CTO Talk の QA で参加者も普通に英語でコミュニケーションしてるし,@johtani さんも @yusuke さんも流暢だし,エンジニア凄すぎるだろーって感じだった!
もはや Elasticsearch の勉強よりも Speaking の勉強しないとヤバイwww
まとめ
Elasticsearch 最高じゃん!勉強会の開催ありがとうございました!
余談
編集画面の幅が広くなって書きやすくなったー!