このようにして調査を実施した結果、以下のような結果が出ました。
まず、前述の128個のキーワードを引数にした結果、合計657万1727件のツイートが収集できました。さらにその中から短縮URLを取り出すと、9万2102個のURLが見つかりました。
この9万2102個のURLそれぞれについてHeadlessブラウザを使いリダイレクト先のURLを抽出した結果が次の図です(ちなみに、9万2102のURLを見る作業はもちろん自動的に行いましたが、それでも2週間ほどかかりました)。
この図は、短縮URLのリダイレクト先アドレスの出現頻度をプロットしたものです。第1回で紹介した、この連載ではおなじみのロングテールの形になっています。この中から出現頻度の高いトップ20を見てみましょう。
ドメイン | 出現数 |
---|---|
twitter.com | 2394 |
www.youtube.com | 1890 |
admaster.union.ucweb.com | 218 |
www.facebook.com | 184 |
www.amazon.com | 132 |
thehackernews.com | 128 |
www.kepo.ga | 111 |
www.theguardian.com | 109 |
www.indusface.com | 101 |
www.ebay.com | 90 |
blog.evident.io | 88 |
www.nytimes.com | 81 |
www.scmagazineuk.com | 72 |
www.chicagotribune.com | 56 |
www.reddit.com | 54 |
www.ibtimes.co.uk | 48 |
www.instagram.com | 48 |
ja.nametests.com | 46 |
github.com | 42 |
pastebin.com | 41 |
上位は、Twitter、Facebook、YouTubeなどの発信系サイトや、Amazon、eBay、その他メジャーなニュースサイトなどで、「まあそうだろうな」という感じです。例によってテールの部分を見れば何か出てくるかもしれませんが、今回は割愛しました。
どうやら、657万1727件のツイートと9万2102の短縮URLの中には、あからさまに悪意のあるものは見受けられないようです。VirusTotalを使うことも考えましたが、Virus TotalのAPIは通常1分に4回しか発行できないため、帯に短したすきに長しといった感じで、調査には使えそうにありませんでした。
しかし、「何も見つかりませんでした」ではあんまりなので、次はきびすを返して(?)、Twitterで政治関連活動のつぶやきを行っているものがないかという観点に調査をシフトしました。Twitterの政治利用は、最近筆者が関心を持っているテーマの1つだからです。
例えば、今まさに推測が錯綜している米国の大統領選をはじめ、2013年の韓国の大統領選などの大きな政治的イベントの裏で、さまざまな組織がSNS上に実在しない人物のアカウントを大量に作り出し、Sock Puppet系のソフトウェアを用いてあたかも実在する人物かのように振る舞わせることで世論を操作していたといった説が、あちこちでささやかれています(ただし、そういう事実があると筆者は断言できませんので、興味のある方はご自身で調べてみてください)。
というわけで、今度は先ほど収集したツイートの中から、政府機関について言及しているツイートをがないかを探しました。本来であれば、657万1727件のツイート全てについて形態素解析や機械学習を行ってみたかったところですが、今回は時間の都合上、657万1727件のツイートと9万2102個の短縮URLの中から、「gov」という文字列が入ったものがないかを見てみました。
100%ドメイン | 出現数 |
---|---|
www.lebarmy.gov.lb | 10 |
www.justice.gov | 5 |
www.fbi.gov | 4 |
tips.fbi.gov | 4 |
freescorereportgov.com | 3 |
origin.www.uscc.gov | 2 |
www.uscc.gov | 2 |
m.fbi.gov | 1 |
www.ftc.gov | 1 |
www.nationalcrimeagency.gov.uk | 1 |
www.us-cert.gov | 1 |
www.itgovernanceusa.com | 1 |
transformingindia.mygov.in | 1 |
trove.nla.gov.au | 1 |
sinema.house.gov | 1 |
www.portlandoregon.gov | 1 |
www.healthcare.gov | 1 |
www.tax.ny.gov | 1 |
www.gov.uk | 1 |
www.gz****j.gov.cn | 1 |
このうち、筆者の目を引いたのは「www.gz****j.gov.cn」です。どうやら中国系の政府関連機関のサイトのようですが、当該URLにアクセスしたところ、下記のような画面が表示されました。
Anonymousネタには触れないと言いながら、政治関連のツイートを掘り起こしていった結果、図らずもAnonymousによるWebサイト改ざんを発見してしまったのでした。やはり「Twitter×セキュリティ」というテーマでは、Anonymousは避けて通れないのかもしれません。
というわけで、(ちょっとオチが弱くて恐縮ですが……)本稿ではTwitterからセキュリティに関する知見を引き出すべく筆者が行った取り組みを紹介しました。今回の調査によって、TwitterのPublic Streamの中からセキュリティ関連の情報を取り出すためのノウハウのようなものがある程度分かりましたので、最後にまとめたいと思います。
上記の手順を踏むことで、通常のサーチエンジン検索やWebのスクレイピングでは入手できないURLやアカウント名などを知ることができるかもしれません。また今回はかないませんでしたが、キーワードの選び方を変えることで全く違った結果が出てくるはずです。ぜひ、読者の皆さんにも実際に試してみていただきたいと思います。
次回は、これまでとは趣向を変えて、Androidアプリの話題を扱いたいと思います。
Copyright © ITmedia, Inc. All Rights Reserved.