アットウィキロゴ

Ruby

Genaral

Array.new()

@c.each do |test|
  print test["name"]
  puts test["permalink"]
end
exit;

配列の足し算 + 長さを揃える

@date.to_i.times do
  if @Spentamount.length < @date
    @Spentamount.unshift(0)    # 最後に足す時は a.push(10)
    puts 'add'
  else
  end

Hash.new()

gem module

mechanize

Timestamp

@b = 1326962960
@a = Time.at(@b)     # @b は Fixnum class である必要
puts @a

Performance

time コマンド
to_i   で 文字列を数値変換
 @timestamp.to_i > ((15339+20)*24-8)*60*60

require 'mysql'

MySQL DB接続

db = Mysql::new("localhost","root","","companyapp_development")
# table = db.query("SELECT * from crunchbase_companylist limit 10")                                                                                                                                                
stmt = db.prepare " Insert into crunchbase_companylist(name2,permalink) values(?,?)"

MySQL DB入力

@c.each do |test|
  stmt.execute test["name"],test["permalink"]
end

require 'kconv' # encoding

str = 'Hello, るびま!'     # 何かしらの文字コードの文字列
str_eucjp     = str.toeuc   # 文字コードを自動判定し、 EUC-JP に変換
str_shiftjis  = str.tosjis  # Shift_JIS に変換
str_iso2022jp = str.tojis   # ISO-2022-JP (JIS) に変換
str_utf8      = str.toutf8  # UTF-8 に変換
str_utf16     = str.toutf16 # BOM 無し UTF-16BE に変換

require Mechanize

require nokogori

require 'open-uri'

@a = Array.new()
open("http://api.crunchbase.com/v/1/companies.js") do |f| 
@b = f.read
end

require 'json'

String Object @bをParse してJSONとして認識する

@c = JSON.parse @b

正規表現

String のMatch or not の判定 + 3つへの分解 特定部分をScanし配列に流し込む /Users/uenoyama718/Sites/Log_Analysis/test10.rb

特定文字列消去

hoge.delete("aiu")

形態素解析

DB接続

My SQL Tableのオープン 解析結果のMy SQLへのデータ入力 /Users/uenoyama718/Sites/scraping/crunchbase.rb

Scraping

基本的なScraping

特定URL上の文字列を配列に入力

/Users/uenoyama718/Sites/Scraping_Ruby/URL/yahoo

対象URLの配列入力

/Users/uenoyama718/Sites/scraping/yahoonews.rb

検索エンジン

特定検索エンジンの検索結果の柔軟な出力

ページ上のFormからの検索結果から リンク抽出

/Users/uenoyama718/Sites/scraping/google.rb

特定URL上の正規表現マッチの文字列抽出

# Nokogiri でなんとかなる

特定URL上でログイン後

# 

Gmail IMAP関連ページのScraping

通常のHTML PageのScrapingとことなり、IMAP経由で各メール本文をPullする必要 => 別個Moduleが必要

Twitter からのデータ抽出

/Users/uenoyama718/Sites/scraping/getTimeline.pl     榊さんモジュール

最終更新:2012年05月31日 14:43