atwiki-logo
  • 新規作成
    • 新規ページ作成
    • 新規ページ作成(その他)
      • このページをコピーして新規ページ作成
      • このウィキ内の別ページをコピーして新規ページ作成
      • このページの子ページを作成
    • 新規ウィキ作成
  • 編集
    • ページ編集
    • ページ編集(簡易版)
    • ページ名変更
    • メニュー非表示でページ編集
    • ページの閲覧/編集権限変更
    • ページの編集モード変更
    • このページにファイルをアップロード
    • メニューを編集
    • 右メニューを編集
  • バージョン管理
    • 最新版変更点(差分)
    • 編集履歴(バックアップ)
    • アップロードファイル履歴
    • ページ操作履歴
  • ページ一覧
    • ページ一覧
    • このウィキのタグ一覧
    • このウィキのタグ(更新順)
    • このページの全コメント一覧
    • このウィキの全コメント一覧
    • おまかせページ移動
  • RSS
    • このウィキの更新情報RSS
    • このウィキ新着ページRSS
  • ヘルプ
    • ご利用ガイド
    • Wiki初心者向けガイド(基本操作)
    • このウィキの管理者に連絡
    • 運営会社に連絡(不具合、障害など)
ページ検索 メニュー
sakawork @ ウィキ
  • ウィキ募集バナー
  • 目安箱バナー
  • 操作ガイド
  • 新規作成
  • 編集する
  • 全ページ一覧
  • 登録/ログイン
ページ一覧
sakawork @ ウィキ
  • ウィキ募集バナー
  • 目安箱バナー
  • 操作ガイド
  • 新規作成
  • 編集する
  • 全ページ一覧
  • 登録/ログイン
ページ一覧
sakawork @ ウィキ
ページ検索 メニュー
  • 新規作成
  • 編集する
  • 登録/ログイン
  • 管理メニュー
管理メニュー
  • 新規作成
    • 新規ページ作成
    • 新規ページ作成(その他)
      • このページをコピーして新規ページ作成
      • このウィキ内の別ページをコピーして新規ページ作成
      • このページの子ページを作成
    • 新規ウィキ作成
  • 編集
    • ページ編集
    • ページ編集(簡易版)
    • ページ名変更
    • メニュー非表示でページ編集
    • ページの閲覧/編集権限変更
    • ページの編集モード変更
    • このページにファイルをアップロード
    • メニューを編集
    • 右メニューを編集
  • バージョン管理
    • 最新版変更点(差分)
    • 編集履歴(バックアップ)
    • アップロードファイル履歴
    • ページ操作履歴
  • ページ一覧
    • このウィキの全ページ一覧
    • このウィキのタグ一覧
    • このウィキのタグ一覧(更新順)
    • このページの全コメント一覧
    • このウィキの全コメント一覧
    • おまかせページ移動
  • RSS
    • このwikiの更新情報RSS
    • このwikiの新着ページRSS
  • ヘルプ
    • ご利用ガイド
    • Wiki初心者向けガイド(基本操作)
    • このウィキの管理者に連絡
    • 運営会社に連絡する(不具合、障害など)
  • atwiki
  • sakawork @ ウィキ
  • UNIX
  • テキスト抽出

sakawork @ ウィキ

テキスト抽出

最終更新:2011年03月08日 23:12

sakawork

- view
メンバー限定 登録/ログイン
Top > UNIX > テキスト抽出
  • テキスト抽出
    • grep
      • 実行オプション
      • 実行例
    • sort
      • 実行オプション
    • uniq
      • 実行オプション
      • 実行例

テキスト抽出

grep

テキストファイルから条件に一致する行を抜き出す

実行オプション

オプション 動作
-v 条件に一致しない行を選ぶ
-c 含まれる行数をカウント
-h 複数ファイルをgrepした場合にファイル名を表示しない
-i 大文字小文字を区別しない
-n 行番号出力
などをよく使った
egrepは、"{}"を用いた繰り返しや"|"を用いた複数条件指定ができる

実行例

$ cat Souri.txt
Koizumi Junichiro, Jimin
Abe Shinzo,Jimin
Fukuda Yasuo, Jimin
Aso Taro,Jimin
Hatoyama Yukio, Minsyu
Kan Naoto, Minsyu
 Minsyuが含まれる行数を数える(-n)
$ grep -n Minsyu Souri.txt
2
 "Jimin"が含まれる行をファイルと画面に出力
$ grep Jimin Souri.txt | tee Jimin_Souri.txt
Koizumi Junichiro, Jimin
Abe Shinzo,Jimin
Fukuda Yasuo, Jimin
Aso Taro,Jimin
 "Jimin"が含まれない(-v)行をファイルと画面に出力
$ grep -v Jimin Souri.txt |tee Minsyu_Souri.txt
Hatoyama Yukio, Minsyu
Kan Naoto, Minsyu
 *_Souri.txtから名前のイニシャルがYの行を 行番号付(-n) で抜き出す
 任意の文字列(.*)+" Y"+任意の文字列(.*)+','
$ grep -n '.* Y.*,' *_Souri.txt
Jimin_Souri.txt:3:Fukuda Yasuo, Jimin
Minsyu_Souri.txt:1:Hatoyama Yukio, Minsyu
 大文字小文字問わず(-i) アルファベット "t" が含まれる行を抜き出す
 ファイル名は出力しない(-h)
$ grep -hi 't' *_Souri.txt
Aso Taro,Jimin
Hatoyama Yukio, Minsyu
Kan Naoto, Minsyu
 大文字小文字問わずアルファベット3文字で始まる行を抜き出す
$ egrep -i '^[a-z]{3} ' Souri.txt
Abe Shinzo,Jimin
Aso Taro,Jimin
Kan Naoto, Minsyu
 行頭(^)が"K"から始まるorMinsyuが含まれる行を抜き出す
$ egrep '^K|Minsyu' Souri.txt
Koizumi Junichiro, Jimin
Hatoyama Yukio, Minsyu
Kan Naoto, Minsyu

sort

実行オプション

オプション 動作
-b 行頭の空白文字(スペース,タブ)を無視
-c すでにソート済みかチェック
-f 大文字小文字の区別なし
-n 数字と見なしてソート
-r 逆順に表示
-u 同じ行を1度しか表示しない
※自分は-uを知らずuniqを使っていた

uniq

実行オプション

-c 連続して同じものがある場合カウント
-d 連続する行のみ表示
-u 連続して同じ行があったら表示しない

実行例

$ cat a.txt
pppp
xxxx
yyyy
zzzz
pppp
pppp
xxxx
$ sort a.txt | uniq -c
3 pppp
2 xxxx
1 yyyy
1 zzzz
$ uniq -d a.txt
pppp
$ sort a.txt | uniq -d
pppp
xxxx


Top > UNIX > テキスト抽出

タグ:

UNIX Linux コマンド
「テキスト抽出」をウィキ内検索
LINE
シェア
Tweet
sakawork @ ウィキ
記事メニュー

メニュー

▼プログラミング言語関連
▼スクリプト関連
  ●sh
  ●csh
▼プロトコル関連
▼UNIX関連
  ■メニューページ
  ■シェル/スクリプト
    ●sh
    ●csh
  ■基本操作/ジョブ/プロセス
    ●UNIX/パイプ・リダイレクション
    ●コマンドヒストリ・バックグラウンド実行
    ●プロセスとシグナル
  ■ファイル操作関連
    ●ファイル操作コマンド
    ●ファイル圧縮解凍コマンド
    ●ファイル検索
  ■ファイル閲覧/編集/抽出
    ●ファイル閲覧
    ●viエディタ
    ●テキスト抽出
    ●awk/sed
    ●算術計算
  ■コンパイル/デバッグ
    ●コンパイラ/メイクファイル
    ●デバッガ
  ■バージョン管理
    ●cvs
  ■サービス/通信
    ●cron
    ●telnet
    ●ftp
▼Windows関連
  ■メニューページ
  ■ツール類
    ●colinux
    ●cygwin
    ●VirtualPC
    ●wincvs
  ■自宅PC環境の設定(非公開)
    ●自宅:再インストール手順
    ●自宅:ルータ設定
    ●自宅:各種ツール
    ●自宅:バックアップ
▼Web関連
▼その他
    ●徹夜作業で目を覚ますために



ページ編集支援

  • テンプレ
  • 管理者用ページ
  • wiki編集メモ

  • プラグイン紹介
  • まとめサイト作成支援ツール



リンク

  • @wiki
  • @wikiご利用ガイド
  • @wikiデータバックアップ




記事メニュー2

更新履歴

取得中です。


タグクラウド

Linux
UNIX
Windows
コマンド
シェル
自宅

アクセス

本日のアクセス
-
昨日のアクセス
-
最近更新されたページ
  • 4629日前

    Windows/cygwin
  • 4665日前

    サイドメニュー
  • 4665日前

    Windows
  • 4667日前

    UNIX/vi
  • 4941日前

    Windows/VirtualPC
  • 5047日前

    その他
  • 5047日前

    その他/徹夜作業
  • 5256日前

    UNIX/計算
  • 5256日前

    UNIX/awksed
  • 5256日前

    UNIX/テキスト抽出
もっと見る
最近更新されたページ
  • 4629日前

    Windows/cygwin
  • 4665日前

    サイドメニュー
  • 4665日前

    Windows
  • 4667日前

    UNIX/vi
  • 4941日前

    Windows/VirtualPC
  • 5047日前

    その他
  • 5047日前

    その他/徹夜作業
  • 5256日前

    UNIX/計算
  • 5256日前

    UNIX/awksed
  • 5256日前

    UNIX/テキスト抽出
もっと見る
ウィキ募集バナー
新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう!

  1. 機動戦士ガンダム EXTREME VS.2 INFINITEBOOST wiki
  2. MadTown GTA (Beta) まとめウィキ
  3. R.E.P.O. 日本語解説Wiki
  4. シュガードール情報まとめウィキ
  5. ソードランページ @ 非公式wiki
  6. AviUtl2のWiki
  7. Dark War Survival攻略
  8. シミュグラ2Wiki(Simulation Of Grand2)GTARP
  9. 星飼いの詩@ ウィキ
  10. ヒカマーWiki
もっと見る
人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう!

  1. アニヲタWiki(仮)
  2. ストグラ まとめ @ウィキ
  3. 機動戦士ガンダム EXTREME VS.2 INFINITEBOOST wiki
  4. ゲームカタログ@Wiki ~名作からクソゲーまで~
  5. 初音ミク Wiki
  6. 発車メロディーwiki
  7. 検索してはいけない言葉 @ ウィキ
  8. Grand Theft Auto V(グランドセフトオート5)GTA5 & GTAオンライン 情報・攻略wiki
  9. 機動戦士ガンダム バトルオペレーション2攻略Wiki 3rd Season
  10. モンスター烈伝オレカバトル2@wiki
もっと見る
全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう!

  1. 参加者一覧 - ストグラ まとめ @ウィキ
  2. 魔獣トゲイラ - バトルロイヤルR+α ファンフィクション(二次創作など)総合wiki
  3. 機体一覧 - 機動戦士ガンダム EXTREME VS.2 INFINITEBOOST wiki
  4. 鬼レンチャン(レベル順) - 鬼レンチャンWiki
  5. いのちのたま(ポケモン) - アニヲタWiki(仮)
  6. 千鳥の鬼レンチャン 挑戦者一覧 - 千鳥の鬼レンチャン サビだけカラオケデータベース
  7. ドンキーコング バナンザ - アニヲタWiki(仮)
  8. チンポ画像収集場 - 検索してはいけない言葉 @ ウィキ
  9. 危険度7 - 検索してはいけない言葉 @ ウィキ
  10. フランクリン・リチャーズ - アメコミ@ wiki
もっと見る

  • このWikiのTOPへ
  • 全ページ一覧
  • アットウィキTOP
  • 利用規約
  • プライバシーポリシー

2019 AtWiki, Inc.