エロ同人誌ソムリエボットmkIII Xネブラ対応型 レッドパワー

読みたい同人誌の概要を話すと選んでくれるボット https://twitter.com/nekora2199 の強化改造の続き。
今度は探し方を指定する、Oracle DBで言うヒント句的なものを外部から渡せるようにした。単純な仕組みだがはまると効果的に雑音が消える。しかも速くなる。1分掛かっていたが0.1秒になる。はまらないと…今まで通り、あるいは最悪だとヒットしなくなる諸刃の剣。結構ピーキーで危険なドーピングというか所謂V-MAX レッドパワー。
ヒント句と言ってもSQLに書くのではなく、データ構造を熟知しているこの私が固定で定義するので、ボットに話しかける側が意識することは無い。
結果↓ プロトタイプに比べると大分良くなったのではないか。
「涼宮ハルヒがAV撮影する同人誌を」
「東風谷早苗が信者獲得のために売春するよくあるやつ」
「鹿島が提督の夜の練習艦になるやつを頼む。」
「タイトルがけだものフレンズ」
「同級生に催眠術をかけてやりたい放題」
「露出狂の女教師が全裸で授業する話を。」
「洗脳された魔法少女が仲間を襲う漫画を」
最初は雑音の方が多かった
「NEWGAMEのコウちゃん受け」
もこの通り、キャラは違うが全部NEW GAMEであり、刀剣男士が混じったりしない。
当初は酷かった「東風谷早苗が信者獲得のために売春するよくあるやつ」も緑髪一色である。
やはり試作機の方が強いのはロボットアニメだけである。
ちなみに人間様が御自ら探すと http://d.hatena.ne.jp/nekora/20170528/p2 こうなる。まだまだだが…。
で、評価関数の作成と、問い合わせ文字列の正規化はこの辺にしておいて(雑音消す方向で調整したので余りやり過ぎると検索にヒットすべきものがしなくなる)、次は検索される側のデータを加工した方が良いかもしれない。例えば作品解説の品詞分析して形容詞をみんな消しちゃうとか。あるいはもっと大雑把に、平仮名を全部消してしまうとか。編集距離だから案外行けるんじゃないかなぁと思う。
とは言え、まぁ検索エンジンはひとまずこれ位で良いのではないかという気もしている。次はこのエンジンをMastodon対応させてPawooである。APIはトゥートしか知らないが、まぁ調べれば何とかなるだろう。きっとTwitterと同じようなAPIもある筈。