ホーム > タグ > 検索

検索

コピペルナーV2が想像以上にすごかった件

賛否両論様々で,その性能もよく分かんなくて,どれ程に役に立つのか未知数なんだけど,業界人の間では興味の的であったコピペルナーV2を購入してみた.

買ってみた

大学生協経由で購入しました.45k円弱でした.ちょっとばかり研究費が余っていたもので.アカデミックライセンスなので,アカデミックさを証明する申込書を作成し,注文してから1週間以内には手元に届きました.というのも,入試期間中だったので,届いていたけど受け取れなかったという件.

使ってみた

例外に漏れることなく,入試対応だったり,卒論対応だったり,修論対応だったりで遊ぶ時間がなかったのですが,あれがあれであれのあれで,想定外に時間を持て余したので,試してみました.どのくらいの時間がかかるのかを測るために使ったターゲットデータは以下のようなもの.

  • 担当している3年次生必修科目であるところの工学実験のレポート1年分=108件
  • 概ね10ページ程度のdoc/docx形式が基本で,まれにpdfも混在

コピペルナーのパラメータは以下のように設定.

  • 同時サイト収集数10
  • 同時解析数8
  • 同時コピペ判定数8
  • Web検索キーワード自動設定有効(HTML50ページ,PDF10ページ)
  • 特定ドメインWikipedia追加(検索ページ数20)

過去レポや文献集は使いませんでした.文献集は引用元になりそうな文献を登録しておく機能で,これをやるとコピペ元探索の精度が上がるんじゃないかと思っていますが,まだ試していません.んで,こんな設定で実行すると,所要時間は以下の通り.

  • サイトデータ収集:約2分
  • レポート解析/コピペ判定:約80分

結構時間がかかります.マシン性能はi7 860に16GBのメモリです.Turbo Boostが有効になっているからなのか,CPUは4つしか使ってくれないし,メモリもそんなに使ってくれません・・・.GPUも使ってくれている気配はなかったです.

驚いてみた

結果を以下に示しますが,上の性能測定に使ったものとは違うデータの結果です.あしからずご了承いただきたく・・・.

このような感じでコピペ率とヒストグラムが表示されます.90%以上が4件もいてワロスワロス.コピペ率20%以下がいませんが,これはコピペルナーに問題があります.実験レポートを書いたことがある人なら当然のようにわかると思いますが,レポート表紙はテンプレートになっているので,これをコピペであると判定します.さらに,なかなかのあいまい一致検索能力を誇るので,コピペとは思えないレポートでも,なかなかのコピペ率を算出してくれます.そのため,結果は上図のようになっていますが,実際は60%以下はほとんど問題がないレポートです.単にコピペ率で成績を付けようなんて思っている邪な教員は気をつけて下さい.この数値は絶対値としてはほとんど使えず,相対的に使うべきです.

さて,さらにコピペルナーには各レポート間の相関を示す機能があって,これがものすごく面白い.

上図はコピペ率70%以上のレポートにおいて,相互相関を示したものです.これより,友達のレポートをもらい受け,ちょこちょこっと改変して提出している輩が3人いることが容易に分かります.で,これらのレポートの点がどうなってるのかを私が付けた成績で確認してみたところ,ちゃんと低い点がついてました.すごいぞオレの勘ピュータ!さらにこの中で,90%以上のコピペ率を誇っている(誇ってないけど)のレポートを比較したのが以下の結果.

職務上の理由で,中身をお目にかけることはできないのですが,赤い部分が完全一致,黄色い部分があいまい一致です.右がコピペ元で左がコピペ先です.これはひどいと言わざるを得ない.

このソフトの真髄はここにあると思います.大学教員たるもの,レポートチェックをしていれば,コピペかどうかくらいを見抜くことはできます.しかしながら,それがどのレポートのコピペなのかを挙げることは困難です.1度見たレポートのどれかであることは明らかですが,それを特定して,これと同じです!と言い切るのは実に大変なことです.それをサポートし,コピペの根拠を提示してくれるというのは,学生指導に新しい道を示しているのかもしれません.

それから,これらの結果を保存しておくと,過去レポ集を作ることができ,提出されたレポートが過去レポのコピペかどうかをチェックすることもできます.

まとめ

思っていた以上にしっかりしたソフトでした.チェックにかかる時間はかなりかかりますが,裏側でやらせておけば良いことなので,大したことはありません.コピペレポートかどうかを見抜くくらいは教員なら造作もないことですが,その根拠を明示的に示すことができるようになるという点で,教育的価値があるかもしれません.どう使うかによると思いますが.これで45k円ですので,研究費が余っているのであれば,積極的に買っても損はないと思います.

そういえば,Windows 7 64bit環境にOffice 32bitを入れていると動かない旨の説明がありますが,問題なく動いていることを追記しておきます.

Google画像検索が超絶進化していた件

Google画像検索で,画像から画像を検索する機能が使えるようになったことは知っていた.しかし,画像から画像を検索する,いわゆる類似画像検索は既にあるサービスだったので,特に気にも止めていなかったのだが,実はそんな生易しいものではなかった.さすがはGoogleと言わざるを得ない.

まずは,類似画像検索から説明する.類似画像検索は,画像の特徴点などを利用して,検索対象画像に類似する画像を検索する技術である.これについては,以前からいくつかのエントリーを書いている.

そして,私はかねてから類似画像検索技術のさらなる進化として,画像からキーワードを検索する技術を切望していた.

シチュエーション2:
ねぇ?この画像って何なの?
これだよ!これ!
これってどうやって探せばいいの??

ヘタレ系DのBlog(終了しました): どうやって見つけるか?

そして,これがうっかり見逃していたが,Google画像検索でできるようになっていた.

これに気がつくに至ったのは,Google Developer Day 2011 JapanのDev Quizである.ウォームアップクイズに,Image Searchを使って,写真に写っている場所がどこなのかを特定しろという課題があった.それで気がついた.そして,これが想像の遙か斜め上を行くすごさだった.サンプル画像として,以下2点を提示しよう.

それぞれがどこの城だか,わかるだろうか?普通はわからないだろう.オレもわからない.しかし,これがGoogle画像検索にかかれば,こうだ.

岡山城であることを推測している.そしてもう1つも・・・.

見事に熊本城であることを推測している.これはすごい.膨大なデータベースを持っているとしても,城なんて,見た目あんまり変わらない(そんなことないけど)ものを「城です」なんていう当たり前のことは言わずに,「どこの城」なのかを提示してくるこの精度はヤバイ.

ご存じだと思うが,画像でもなんでもそうだけど,これとこれは同じ(類似)であるかそうでないかを区別するには,分離する必要がある.つまり,上に挙げた2つの画像は別の城の画像であることを識別しているのだ.これはすごいことである.

と同時に,恐ろしいことである.試しに自分の写真をアップロードしてみたが,名前は出てこなかった.私の認知度はその程度なのだろう.しかし,近い将来,顔写真から名前が検索される日も来るであろう.死に神の目だ.プライバシ問題と絡んでくるが,これは末恐ろしいことである.

まとめ

Google画像検索がすごいことになっていた.Googleはやはりすごい.

Home > タグ > 検索

アフィリエイト

Return to page top