ものはためし

何事も実際にやってみなければわからない。いろんな物事をとにかく試します。

R言語の技術者は薄毛でウハウハ? プログラマーのステレオタイプ分析がおもろい

   

「C++の技術者は古株が多い」とか「もう誰もJavaを使いたくない」とか、プログラミング言語とその技術者のだいたい決まったイメージってありますよね。それらのいくつかは統計によって証明されたようですよ。

Trestle Technologyというデータ解析会社のエンジニアが、自作のツールを使って調べたもの。Microsoft の Project Oxford に含まれる Face API と GitHub を組み合わせています。調査に使用したツールは GitHub で公開されています。

調査方法は、GitHub にあるレポジトリの中から、言語ごとに25個の活発なレポジトリを選び出し、それぞれ貢献しているプログラマー上位5人の顔写真を使うというもの。重複は省いて、少ないものではC言語の24人、多いものではRubyの78人が調査の対象。Face API を使って、性別・年齢・笑顔・毛髪量なんかを調べたようです。

若者はJavaを使う

programmer_age

まずは年齢です。

C++プログラマーの平均年齢がもっとも高く、これはイメージ通り。意外なのはJavaを使う若者が多いというところでしょうか。android アプリを作るのに Java が使われていることと関係しているのかな。

Java技術者は笑顔が少ない

programmer_smile

次に笑顔です。

Java プログラマーは圧倒的に笑顔が少ないですねえ。つづく perl や php といったあたりも、みなさんどんな状況か目に浮かびます。心中お察しします。

対して R プログラマーは笑顔。金融だったり人工知能だったり、いまホットな業界で統計が必要とされているので、R技術者は引く手あまたらしい。そりゃ笑いが止まらんでしょうね。

Swift技術者はフサフサ

programmer_hair

そして顔の皮膚と毛の比率です。つまり、薄毛かどうか。

Swift がいちばん毛の量が多いですね。対してR技術者はもう圧倒的に薄毛。でも笑顔。

結論:ステレオタイプはおおむね正しい

「C++の技術者は古株が多い」のは、C++プログラマーの年齢が高いので正解。「もう誰もJavaを使いたくない」のはJavaプログラマーの笑顔が少ないので正解といえるんじゃないでしょうか。

こうしてみると、プログラマーのステレオタイプは実際の姿とだいたいあっているようです。

とはいえ調査対象の数がとても少ないので統計と呼べるものでもありませんけどね。これは分析を行った技術者も認めています。

It should be noted that this is super non-scientific. Who knows how accurate the Face API is or how accurately a user’s GitHub profile picture maps to any aspect of their personality/identity. It’s also unclear whether the most prolific contributors to popular repositories accurately represent a community. Also, small sample sizes. Etc., etc.

【超訳】科学的とは到底いえないシロモノだから気をつけてね。Face API がどれだけ正確かわかんないし、GitHubのプロフィール画像がその人となりを表しているとは限らない。人気があるレポジトリーへたくさん貢献しているからといって、その言語のコミュニティを代表するかどうかも曖昧だしね。サンプルが少ないとかなんとか。

本文では他に各データの分布なんかもありますので、興味のあるかたは一読されてはいかがでしょうか。

引用:Trestle Technology「EigenCoder: Programming Stereotypes」より

 - 日々雑感