657万1727件のツイートをセキュリティ視点で分析してみて分かったこと：統計で見るサイバーセキュリティ群像劇（3）（2/2 ページ）

筆者が独自に収集した統計データを基に、サイバーワールドの裏側を探る本連載。今回は657万1727件のツイートを分析してみました。

[安藤類央（国立情報学研究所），＠IT] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

657万1727件のツイートから見えたもの

　このようにして調査を実施した結果、以下のような結果が出ました。

　まず、前述の128個のキーワードを引数にした結果、合計657万1727件のツイートが収集できました。さらにその中から短縮URLを取り出すと、9万2102個のURLが見つかりました。

　この9万2102個のURLそれぞれについてHeadlessブラウザを使いリダイレクト先のURLを抽出した結果が次の図です（ちなみに、9万2102のURLを見る作業はもちろん自動的に行いましたが、それでも2週間ほどかかりました）。

　この図は、短縮URLのリダイレクト先アドレスの出現頻度をプロットしたものです。第1回で紹介した、この連載ではおなじみのロングテールの形になっています。この中から出現頻度の高いトップ20を見てみましょう。

リダイレクト先トップ20
ドメイン	出現数
twitter.com	2394
www.youtube.com	1890
admaster.union.ucweb.com	218
www.facebook.com	184
www.amazon.com	132
thehackernews.com	128
www.kepo.ga	111
www.theguardian.com	109
www.indusface.com	101
www.ebay.com	90
blog.evident.io	88
www.nytimes.com	81
www.scmagazineuk.com	72
www.chicagotribune.com	56
www.reddit.com	54
www.ibtimes.co.uk	48
www.instagram.com	48
ja.nametests.com	46
github.com	42
pastebin.com	41

　上位は、Twitter、Facebook、YouTubeなどの発信系サイトや、Amazon、eBay、その他メジャーなニュースサイトなどで、「まあそうだろうな」という感じです。例によってテールの部分を見れば何か出てくるかもしれませんが、今回は割愛しました。

　どうやら、657万1727件のツイートと9万2102の短縮URLの中には、あからさまに悪意のあるものは見受けられないようです。VirusTotalを使うことも考えましたが、Virus TotalのAPIは通常1分に4回しか発行できないため、帯に短したすきに長しといった感じで、調査には使えそうにありませんでした。

　しかし、「何も見つかりませんでした」ではあんまりなので、次はきびすを返して（？）、Twitterで政治関連活動のつぶやきを行っているものがないかという観点に調査をシフトしました。Twitterの政治利用は、最近筆者が関心を持っているテーマの1つだからです。

　例えば、今まさに推測が錯綜している米国の大統領選をはじめ、2013年の韓国の大統領選などの大きな政治的イベントの裏で、さまざまな組織がSNS上に実在しない人物のアカウントを大量に作り出し、Sock Puppet系のソフトウェアを用いてあたかも実在する人物かのように振る舞わせることで世論を操作していたといった説が、あちこちでささやかれています（ただし、そういう事実があると筆者は断言できませんので、興味のある方はご自身で調べてみてください）。

　というわけで、今度は先ほど収集したツイートの中から、政府機関について言及しているツイートをがないかを探しました。本来であれば、657万1727件のツイート全てについて形態素解析や機械学習を行ってみたかったところですが、今回は時間の都合上、657万1727件のツイートと9万2102個の短縮URLの中から、「gov」という文字列が入ったものがないかを見てみました。

政府系のリダイレクト先リスト
100%ドメイン	出現数
www.lebarmy.gov.lb	10
www.justice.gov	5
www.fbi.gov	4
tips.fbi.gov	4
freescorereportgov.com	3
origin.www.uscc.gov	2
www.uscc.gov	2
m.fbi.gov	1
www.ftc.gov	1
www.nationalcrimeagency.gov.uk	1
www.us-cert.gov	1
www.itgovernanceusa.com	1
transformingindia.mygov.in	1
trove.nla.gov.au	1
sinema.house.gov	1
www.portlandoregon.gov	1
www.healthcare.gov	1
www.tax.ny.gov	1
www.gov.uk	1
www.gz****j.gov.cn	1

　このうち、筆者の目を引いたのは「www.gz****j.gov.cn」です。どうやら中国系の政府関連機関のサイトのようですが、当該URLにアクセスしたところ、下記のような画面が表示されました。

　Anonymousネタには触れないと言いながら、政治関連のツイートを掘り起こしていった結果、図らずもAnonymousによるWebサイト改ざんを発見してしまったのでした。やはり「Twitter×セキュリティ」というテーマでは、Anonymousは避けて通れないのかもしれません。

　というわけで、（ちょっとオチが弱くて恐縮ですが……）本稿ではTwitterからセキュリティに関する知見を引き出すべく筆者が行った取り組みを紹介しました。今回の調査によって、TwitterのPublic Streamの中からセキュリティ関連の情報を取り出すためのノウハウのようなものがある程度分かりましたので、最後にまとめたいと思います。

Public streamを検索するキーワードを設定する
一定期間APIを実行し続けて得たツイートから、短縮URLを取り出す
短縮URLをHeadlessブラウザを使って接続しに行ってみる。その際得られる元のURLを保存しておく
URLリストにいろいろgrep（文字列検索）をかけてみる
気になる文字列ができたらGoogle検索し、関連記事やサイトを見てみる

　上記の手順を踏むことで、通常のサーチエンジン検索やWebのスクレイピングでは入手できないURLやアカウント名などを知ることができるかもしれません。また今回はかないませんでしたが、キーワードの選び方を変えることで全く違った結果が出てくるはずです。ぜひ、読者の皆さんにも実際に試してみていただきたいと思います。

　次回は、これまでとは趣向を変えて、Androidアプリの話題を扱いたいと思います。

657万1727件のツイートをセキュリティ視点で分析してみて分かったこと：統計で見るサイバーセキュリティ群像劇（3）（2/2 ページ）

657万1727件のツイートから見えたもの

Security & Trust 記事ランキング