pythonでスクレイピングして英語アフィリエイト用コンテンツを自動で作ってみるよ
2020/03/22
Pythonで英語アフィリ目的のサイトを自動で作って見ることにしたよ
以前、C#でムフフなコンテンツを自動で集める仕組みを作ったけど、ムフフなサイトの運営に挑むのが怖くてVPSを契約したままになってるんだよね。
でも、ムフフ方面はパクリが乱立しているし、動画を引っ張ってきて記事を作るだけだから、あまり著作権とかを気にする必要もなさそうだけど。(パクリばかりだからね。ムフフ方面は。)
本来、著作権は保護されるべきものだと考えているので、著作権に違反しないような自動コンテンツを作るにはどうすれば良いか調べたものをここの記事に加筆していく予定だよ。
なんとなく、Googleの翻訳がすごくなったっていう記事を読んだから、そろそろ英語サイトのアフィリエイトも考えたほうがいいのかなって思ったのがきっかけだよ
半分書きながら考えている様な記事ですので、何かいいアイディアやアドバイスあったらコメント待ってます。
周知の事実をまとめてみよう編
例えば、富士山ってどこにあるか、何メートルなのか。それは自分のコンテンツとして公表しても問題なさそうじゃないかと思い調べてみました。
確かに、著作権的には問題もなさそうです。しかし、よく考えるとそんな情報を公開してもコンテンツとして内容が無いため読まれないんじゃないかなと思いました。
内容の薄いコンテンツでも重宝される方法は?
でも、そこで諦めたら試合終了なんです。尊敬する先生が言っていました。
ちょっと前から思っていることがありました。それは、中国のサイトで向こうの料理の名前を知りたいと思ったんです。ですが、中国の漢字って難しですよね。なので、翻訳サイトとかを使って現地の言葉に直して検索していました。でも、あまりいい情報は得られないんですよね。
で、よくよく考えたら、私中国人の友達いるんですよね。。。w
その子に聞いたら、こんな感じで検索すると思うよって、検索キーワードを教えてもらいました。すると、なんとういうことでしょう。(劇的びふぉーあふたー風)あんなにも、いまいちだった情報が、ばっちり知りたい情報がまとまって出て来たのです。
そこで私は気付きました。これは、日本のコンテンツを外人が検索する時も起こるのではないかと。確かに、検索の精度は上がってきましたが、言い回しがどくとくな英語を日本語に直すと欲しい情報は出てこないですね。逆に言えば、英語で日本の欲しい情報がまとまっていたら、大した情報でなくてもそこそこのアクセスは見込めるんじゃないかな?ということです。
ちょっと、今賢くなったと噂されるGoogle翻訳で翻訳してみても「釣りの方法」で調べろってなってますw
つまり、私が中国で調べた時はこれを思いっ切りやってしまっていたんですよね。
自動でコンテンツを作成するにあたって、これは大いに活かせそうじゃないでしょうか?周知の事実であっても、日本の情報を海外に輸出すれば、まだまだ翻訳の未熟なところを上手く埋めてあげれば周知の事実でも・・・。ということです。
薄い自動作成コンテンツは質より量!求められる場所を探そう
今回の自動コンテンツ作成のテーマがなんとなく決まってきました。ある程度プログラミングしてしまえば、記事は量産出来るためあとは形をかえてアクセスの推移をなま暖かく見守ろうと思います。
あくまでも例で、実際作るものが違いますが、私が考えた作戦はこうです。
①ある場所についての周知の事実をスクレイピングしてきて まとめる 例:心霊スポットとか
②その場所+心霊スポットでYouTubeの動画を調べる
③その心霊スポットに行ったブログを紹介
④その場所についての一般的に知られてる知識をまとめる
っというのを英語でやってみたいと思います。
ポイントとしては タイトルと見出しにはシンプルな英語のみで検索の流動をあげるというところでしょうか。
オリジナルコンテンツは自分で付け足せば良い
そして、肝心のオリジナルな要素ですが、例えばスクレイピングの過程でオリジナルの解析を加えるとかどうでしょうか。
・ネガティブワードとポジティブワードの比率をグラフで表示してみたり。
・近くにある心霊スポットを効率よくまわれる周辺リストを出したり
とかでしょうか。
Pythonでスクレイピングプログラムを書くとこうなる
私は、Python歴が1年未満ですし効率の悪い書き方をしていると思います。一応、これがあるサイトから場所とキーワードの一部を抽出するコードです。
2400文字です。
2400文字は自分的には短いなと思います。これ、少しいじるだけで別のサイト様に改造できますし、おそらく今から違うサイトのこの部分を抜けっていうのに書き換えるっていう話なら1サイト1時間程度で作れちゃいますからね。もうこれ自体が資産みたいなものだと思います。
で、最終プログラミングですが、色々あって8621文字になりました 笑
でもこれはスクリプトやタグの雛形の文字も含んでいるので実質は4000弱だと思います。4000弱でこんなに沢山スクレイピングできるなんて幸せです。
(続く)続編書きました!