エロ同人誌ソムリエボットmkII Xネブラ対応型

https://twitter.com/nekora2199 に読みたい同人誌の概要を話すと選んでくれる改造3日目。
先頭が英数字の問い合わせに弱いという弱点をかなり修正したので、一昨日昨日と同じ文言で 人間様がチョイスした http://d.hatena.ne.jp/nekora/20170528/p2 と見比べ。ちなみにメモリを喰いまくるのも不本意ながら修正。
「涼宮ハルヒがAV撮影する同人誌を」
「東風谷早苗が信者獲得のために売春するよくあるやつ」
「鹿島が提督の夜の練習艦になるやつを頼む。」
「タイトルがけだものフレンズ」
それからもう少し一般的な用語のパターンの追加。
「同級生に催眠術をかけてやりたい放題」
「露出狂の女教師が全裸で授業する話を。」
「洗脳された魔法少女が仲間を襲う漫画を」
そして問題の一本。
「NEWGAMEのコウちゃん受け」

涼宮ハルヒ…」は、そもそも同人誌が「涼宮ハルヒの〇〇」というタイトルが物凄く多いのでAV撮影が霞んでしまうのだろう。
東風谷早苗…」「鹿島が…」はかなりよくなった。一昨日と比べると誤爆が減っている。
他は元々誤爆が少なかったので余り変わらない印象。
んで問題の「NEWGAME…」はだいぶ良くなった。主にそのために検索結果に悪影響を与えるNEW GAME対応型ならぬXネブラ対応型に強化改造したからな。昨日とは大違いだ。八神コウの姿こそ無いものの、涼風青葉で埋められているので及第点と言える。
今回のXネブラ対応改造で分かったのだが、全般的に、評価関数を弄るとその問い合わせにはよくても他の問い合わせに誤爆が増えるとか、副作用が結構あるので、評価関数への入力データを事前整形する方がコントローラブルだった。
メモリ使用量を減らす処理だが、データ塊毎にスレッドを割り当てて各塊をディスクから読んで処理させていたのを、塊はメインスレ一本で順次読み込み、個別データの評価をparallelStreamで並行処理するようにしたんだが、明らかに遅くなった。タスクマネージャで見てもCPU1コアだけが忙しく見える。やっぱ読み込み処理がそれなりに忙しいんだろうか。
ただ…どういう訳か、同じ作品が2回ずつ紹介されるという不思議な事象が起きている。なんだこれは。なにが起きているのだ?
→ログ見たら分かった。00:15に自動起動する処理と、テスト用の手動起動が同時並行で走ったからだ。プログラム自体に不備はない。