| KenAkamatsu[修正][削除][Fメール]ID:hdtdq11/04/07
16:36:45 |
BASE NOTE |
| セリフの入力形式ですが、一応「自動翻訳に適した」形が良いと思うのです。 例えば、「 改行を無くし、一つの文章にする。」 ------------------------------ 旅館に泊まる ですって・・・・!? この期に及んで よくそんなウソがつけるわね ここが旅館だったのは もーーーずっと前の話よ ------------------------------ ↓ ------------------------------ 旅館に泊まるですって・・・・!? この期に及んでよくそんなウソがつけるわね ここが旅館だったのはもーーーずっと前の話よ ------------------------------ こうすれば英訳は、 ------------------------------ Stay at the inn What is? ? This period ranging I lie so well I would call This was the inn I'm talking too long before ーーー ------------------------------ ↓ ------------------------------ The hotel I stayed! ? I would call it a lie at this stage of the game so well The inn was a long time ago I'm talking about here is also ーーー ------------------------------ 若干マシになるような・・・(激しくオカシイことには変わりないですが・・・) 皆さんは、どう思われます? |
|
| xi[修正][削除][Fメール]ID:yubqvm11/04/07
17:22:34 |
APPEND 1 |
| 赤松先生 例を上げるととても判りやすいですね。 私は上記の案に賛成です。 改行が少ない方がデータ入力も修正も楽ですし、 翻訳精度が上がると思います。 |
|
| Michinori
Goto(MITI)[修正][削除][Fメール]ID:thkras11/04/07
17:40:34 |
APPEND 2 |
| ふと思った事は、意図を持って(吹き出し内で)そう区切っている事を想定しなくていいのかなという事なのですが、 元々、自動翻訳用のデータであるのでそれで問題ないと思います。 広告と、読み上げと翻訳(と検索)以外の用途で利用する予定はないんですよね? |
|
| B-CAT[修正][削除][Fメール]ID:twaly11/04/07
23:57:21 |
APPEND 3 |
| 自動翻訳を前提とした記述をする案に賛成です。 改行位置の問題とは別に、漫画のセリフは必ずしも翻訳に適した文章でない という点は考慮が必要かもしれません。(人力翻訳であれば関係ないですが) タグ打ち等で"自動翻訳にだけ利用され読み上げ対象とならない"ような指定は難しいですかね。 例) ------------------------------ ここが旅館だったのはもーーーずっと前の話よ <Trans> ここが旅館だったのはもうずっと前の話よ </Trans> ------------------------------ |
|
| Moonlithill[修正][削除][Fメール]ID:ffvayp11/04/08
02:06:31 |
APPEND 4 |
| 私も賛成です。 上の訳は支離滅裂ですし、改行がないほうがいいと思います。 また、B-CATさんがおっしゃるように、意訳すべきセリフも多々あるので、 おかしな訳になってしまった部分を訂正する必要が出てくると思います。 |
|
| ゐもりやもり[修正][削除][Fメール]ID:svilc11/04/08
03:21:58 |
APPEND 5 |
| セリフの改行を無くすのには賛成です。 B-CATさんもおっしゃられてるように、漫画のセリフと 翻訳するためのセリフについて考える必要があると思いました。 ただ、B-CATさんが書かれているように、漫画のセリフ(原文) と翻訳するためのセリフを2通り書き込め、タグ打ちで翻訳対象と 読み上げ対象を区別できるようにすれば、漫画らしいセリフを崩さ ずに翻訳された文章も載せられるかと。 現地の人でも意味が通るくらいの翻訳文にまで精度が上がれば、あと は翻訳文ページを別個につくって、現地の人に漫画の「行間」と「絵」 を参考に想像してもらって(こういう時、絵である漫画は強いと思います)、 機械翻訳調のセリフをそのキャラクターが言いそうな雰囲気のセリフに入 力・編集してもらうとか・・・。どんどん洗練されていく、というイメー ジではウィキペディアに近いかんじのイメージですね。 すみません、うまくまとめられたかどうかわかりませんが^^; |
|
| KenAkamatsu[修正][削除][Fメール]ID:hdtdq11/04/08
03:34:15 |
APPEND 6 |
| >Michinori Goto(MITI)さん >広告と、読み上げと翻訳(と検索)以外の用途で利用する予定はないんですよね? その通りです。 作者の意図する正式な日本語セリフは、ちゃんとマンガの画像に入っているので、改行位置を守る理由は無いように思います。 >B-CATさん >タグ打ち等で"自動翻訳にだけ利用され読み上げ対象とならない"ような指定は難しいですかね。 それがあれば、確かに翻訳精度は上がりそう。 >ゐもりやもりさん >ただ、B-CATさんが書かれているように、漫画のセリフ(原文) >と翻訳するためのセリフを2通り書き込め、タグ打ちで翻訳対象と >読み上げ対象を区別できるようにすれば、漫画らしいセリフを崩さ >ずに翻訳された文章も載せられるかと。 何種類も入力するのは、ボランティアだと大変ですよね。 どうしましょう。 |
|
| Bibliotheca[修正][削除][Fメール]ID:mjifep11/04/08
05:31:12 |
APPEND 7 |
| 主目的は翻訳で、例えば視覚障害者向けへの読み上げ用のテキストとしては当座は考えていないという事で宜しいでしょうか? 自動翻訳用でしたら、改行もですが、大方の吹き出しには見られない句読点も入っていた方が翻訳精度はよい感じがします。 あとは、省略されガチな主語や目的語なども補完した方が精度が上がりますし、砕けがちな口語そのままよりスラングなどが混ざらない文語の方が良いとは思います。 只そうなると、口癖などのキャラ立ちは曖昧になりますし、底本の吹き出しの文言との乖離感はどうしたモノかと考えさせられます。 後入力していて思ったのは、吹き出しの枠内に無い、手書きのセリフですね。 翻訳書では描き文字などと同様に省略されるケースが多いかと思いますが、その場面やキャラのニュアンスを伝えていたりもするので、書き出さないのも惜しいかなという気がします。 それと、同じコマでの吹き出し違いのセリフと同じページでのコマ違いの吹き出し違いをどう区別したらよいかと思ってます。 私は現状、同じ吹き出し内は続けて、同じコマ内の吹き出し違いは空行をひとつ挟んで(改行コード2つ)、同じページのコマ違いは空行を二つ挟んで(改行コード3つ)います。 日本語が分かる方はともかく、翻訳文に頼る方に取っては、どの翻訳文がどのコマのどの吹き出しのモノか判りにくいのではと思うからです。 あとは、ルビ絡みで「<ruby><rb>ネギ流闇の魔法</rb><rp>(</rp><rt>ネギカ・マギア・エレベア</rt><rp>)</rp></ruby>」と、読ませ方が一般的ではなく独自のモノの記述方でしょうか。 HTMLのものか、青空文庫等の記述法を用いればそれなりにニュアンスを損なわずに記述できるかもしれませんが、機械翻訳する上ではうまく解釈されず曖昧になる畏れがあるかと思います。 この辺りは、如何でしょうか? |
|
| KenAkamatsu[修正][削除][Fメール]ID:hdtdq11/04/08
11:51:34 |
APPEND 8 |
| >主目的は翻訳で、例えば視覚障害者向けへの読み上げ用のテキストとしては当座は考えていないという事で宜しいでしょうか? 目の不自由な方でも「マンガのおおよそのストーリーが分かる」という利点があるので、読み上げ用のテキストとして、ぜひ使用したく思っています。 その場合、「男女の声だけでも分ける」と臨場感が上がるので、それ専用のタグが欲しいところですね。 「原版には存在しない句読点を入れる」に関しては、確かに翻訳精度は上がりますが、作者がそれを不快に感じる可能性があります。 「同一性保持権」の侵害にあたる可能性も? しかしマンガ画像上のセリフは100%オリジナルのまま表示されているので、一概には言えません。 ・・・この辺に詳しい方、どう思われますか? |
|
| Michinori
Goto(MITI)[修正][削除][Fメール][URL]ID:thkras11/04/08
16:46:29 |
APPEND 9 |
| 「同一性保持権」の侵害については、わからないのですが… 新たに句読点を「勝手に」入れた結果が、本当に作者が意図とした意味かどうかは分かりかねる…というのが私の意見です。 そこにいちいち作者への問い合わせをするのも、Jコミのポリシー(作者は「公開して良いよ」と許諾するだけ)に反しますし、 だからと言って、ほぼボランティアによる作業となる台詞の入力作業にその判断を任せるのは少し酷なのではないかと思うのです。 あと、吹き出しのかき分けですが、決めておいた方が良いような気がします。 というのも、「どういう順序でコマを読んでください」という案内はできても、日本語そもそもを知らない場合 「どこまでがそのコマの台詞だ」というのが分からない場合があるでしょうから。 句読点と一緒で、作者の意図とは違う理解をしてしまうかもしれません。 翻訳精度からすると、そこまで深く考える必要は無いのかもしれませんが…。 |
|
| えめす[修正][削除][Fメール]ID:hiclco11/04/08
22:26:25 |
APPEND 10 |
| ここはフェローじゃない人でも書き込んでもいいんでしょうか?あ、もう書き込みました。すみません。 セリフデータの派生用途として現在問題となっているのは「海外向け翻訳」と「視覚障害者向け読み上げ」、「同一性保持権」ですか。1こずつ考えてみます。 ■海外向け翻訳 マンガは口語より。自動翻訳だけに頼るのは今はまだ難しそう。 極端な話。自動翻訳のためのデータ入力をすると前提した場合、例えばここまで書き換える必要があります。 例) ------------------------------------------------ ここが旅館だったのはもーーーずっと前の話よ ↓ ここが旅館だったのはもうずっと前の話よ ↓ ここは旅館でした。その事実は非常に昔のことです。 ------------------------------------------------ ■視覚障害者向け読み上げ ニコ動だと音声記号列入れてない棒読みが主流なのでつい最近の技術を侮りたくなってしまいますね。 聞いてびっくりGoogleの音声読み上げって結構発音が綺麗です。まあAITalkはもっとすごいですが。 読み上げ技術の話はおいといて、実際に利用された場合のことを考えて見ます。 セリフデータだけでは不足で、絵で分かるはずの状況説明を付加する必要があります。 ・誰のセリフなのか。 ・誰が何をしているか。 ・オノマトペもたぶんあったがいい。 ■同一性保持権 これは原文をそのまま書き写したデータを残しておくことで解決できます。 文中の改行は絵としてフキダシ内に収めるため等の処理で、取り除いても意味が変わらないものは取り除いて問題ないかと思われます。 むしろ改行があると意味が分からなく、あるいは意味が変わってしまう可能性もあります。 ということで、どうすればいいか。 原文データを残しつつ、原文を元に加工用データを用意します。2回に分けて加工するわけです。 原文データ ├翻訳用に意味を噛み砕いたデータ │├自動翻訳 │└手動翻訳時の参考資料 └読み上げ用に不足情報を加えたデータ ├自動音声読み上げ └有志による朗読 翻訳や読み上げ以外の用途に広げたい要望があった場合は、原文データを加工して加工用データを作成する流れです。 原文データは同一性を保持しつつ、それ以外では侵害しています。 もし侵害部分が作者の意向で公開停止されても原文データは残ることになります。多少物足りないものの自動翻訳や読み上げが可能な状態を維持することができます。 ■マンガ中のセリフをデータとしてみた場合 セリフは絵ではなく文章と、ここでは考えます。なのでここでは文章中の改行はデータ上は無視して、装飾と考えます。 セリフをデータベースを構築すると考えた場合、データは文章単位。データの記録には区切り(CSVでいえばカンマやタブ)が必要です。 通常の文語であれば「。」や改行、段落がそれにあたりますが、マンガの場合「。」が付かない場合も多くあります。 このように考えた場合、入力も手軽な改行・段落をデータの区切りとして用いるのがいいように思えます。 以上、あえてリソース無視の意見でした。 リソースの問題は作業を分散させることで何とかなる気がしています。 ああ、気が付いたらものすごい長文…失礼しました。 |
|
| mon2014[修正][削除][Fメール]ID:akdduk11/04/09
01:59:34 |
APPEND 11 |
|
僕はデーター入力や形式のほうには疎いので、そちらほうは何ともいえないのですが、通訳や翻訳をした経験からいうと、その台詞の前後の台詞や情報、状況からも訳をする方法は変化させなければならないと思います。また語一つ一つを直訳するとかえって混乱してしまうということもあります。 また同じ日本語の台詞でも色々な訳ができます 旅館に泊まるですって・・・・!? この期に及んでよくそんなウソがつけるわね ここが旅館だったのはもーーーずっと前の話よ Are you saying you gonna stay at this hotel? What hotel are you talking about? This place quit hotel business looong time ago. とか You will stay at HOTEL? What Hotel? How can you lie like this? You should know this place is not a Hotel anymore if you are not liying! この派生型として You will stay at HOTEL? What Hotel? How can you lie like this? If the story you told us is true, you must know this place quit hotel business long time ago. というふうな形で、自動翻訳とは全然違う形になってしまうんです。本職やプロの方ならもっと違う綺麗な訳ができるんだと思います。今の所、翻訳は最後は通訳の人の対象の作品に対する理解度と訳のセンスにかかっているのではないかと思います。 漫画の話ではないですが、アニメの方ですとFunsubによる訳の方が公式の市場にのっている訳よりも質が高い、しかも翻訳にかかる時間が短いというニュース記事がのっていました。ちょっとソースは覚えていないのですが。 Jコミの絶版漫画を扱うという特性をいかして、漫画系Funsubによる翻訳された漫画のデーターを入手して、それらの中から上手い訳を参考にするか、訳したFunsubから許諾を得て(変な話ですが)コピーするという手もあるんじゃないかなと思います。これはあくまで素人考えのアイデアですので、法律的にこれがOK,グレー,アウトなのかはよく解っていません。限りなくアウトに近いグレーか、アウトだと個人的には思っています。 ただ最終的に質の高い訳を目指すなら人間の手が入らないと難しいのではないかと思っています。このアイデアの問題点としては、メジャーな作品に限られるということです。それこそネットが普及する前に絶版した古い作品となると、そもそもFunsubに扱われてないケースが多いと思うので参考にできるデーターに限りがある、または無いということになります。 |
|
| ex629[修正][削除][Fメール]ID:bjovuo11/04/09
07:46:52 |
APPEND 12 |
| オリジナルにない句読点を入れたテキストを公開した場合、 確かに同一性保持権侵害に問われる可能性はあります。 ただし、この問題は「原作をこれこれの目的の為に加工したデータである」 という趣旨が判る様になっていれば回避されるものと考えられます。 つまりは機械向けの翻訳であるというスタンスを明確に打ち出すということです。 他にも、句読点の代わりに制御用タグを入力し、原則不可視にするというのも解決法かも。 入力に関しては、えめすさんの意見に賛成なので書くことなくなっちゃったなー。 |
|
| Bibliotheca[修正][削除][Fメール]ID:mjifep11/04/09
08:39:53 |
APPEND 13 |
|
「同一性保持権」の法的解釈と適用の検討は専門家に譲るとして、厳密に運用しようとすればクリアしなければならない問題もあるかと思います。 テキスト化するに至っての、「文字」の問題です。 良く耳にするのは、Windows環境でローマ数字や丸付き数字などを用いる環境依存文字です。代用として、ローマ数字の代わりに似た形の英字で、○の代わりに小括弧で囲むなどと行ったやり方も見受けられます。 これには、第3水準以降の文字も該当し、Vista以降のOSで尚且つアプリも対応している時に使える文字がありますが、これが使われているケースもあります。 更に、昨今では韓国や中国などで用いられる他国の漢字も用いられているケースがあります。例えば、熊倉隆敏の「尸彔(ネクログ)」ですが、これの2文字目は「?」等に見えている方もいると思います。このタイトルは、ネット上では漢字表記ではなくカタカナ表記にしているようです。カバーでも仮名表記を目立たせています。 後は、その作品の為に作り出した文字があります。例えば、佐伯かよのの「あきひ(【火+華】姫)」と読ませる作品がありますが、この作のヒロインの名でもある「あきひ」の1文字目は火偏に華の旁ですが該当する字はありません。北条司の「CITY HUNTER」の主人公「冴場僚(さえばりょう)」の「僚」の字は、作中では人偏ではなく獣偏ですが、該当する字はありません。 これらの字は、底本通りにテキスト化はできないので、「同一性保持権」二抵触するのではないかという畏れも出てきます。ネットでは仮名表記したり、似た字を使った上で違いを明記しているケースもあるようです。 あと気をつける必要があるのが、異体字(旧字体)による揺らぎです。 第一水準の「遥」と第二水準の「遙」とか、「凜」と「凛」に、人名で「高」と「・彭銈・△蠅泙后」 特に、人名の「さいとう」は「斉藤」「斎藤」「齋藤」「齊藤」「齊籐」などと異体字の組み合わせによる違いがかなりあります。 これらを混在したり間違えると、検索する上での障害となります。 基本異なる文字ですから異体字はヒットしませんし、検索サービスでヒットしているように思えるのはシステムの方でそのような揺らぎを想定してキーワードなどを追加しているからです。全角と半角の英数字記号を、区別する事もありえます。 更には、ハイフン「-」と罫線「─」と長音「ー」など似た字体で異なる文字をを混用しているケースが特にOCRで取り込んだとおぼしきテキストで見受けられます。「…」と「‥」と「・・・(・・・)」の混用もよくあります。 他には著者によっては、複数のペンネームを使い分けたり途中で改めたりしているケースがあります。 その関係などで、版を重ねたり復刊される過程で、底本の版によっては同じ著者のペンネームの表記が異なるケースがあります。 例えば、「こちら葛飾区亀有公園前派出所」の秋本治氏は、6巻当たりまで「山止たつひこ」名義で刊行していたモノを重版時に「秋本治」名義に改めています。 或いは、「石森章太郎」から「石ノ森章太郎」と改まったり、合同で「藤子不二雄」で刊行していたモノを「藤子 不二雄A」と「藤子・F・不二雄」に分けるようになったケースなどもあります。 中には、雑誌掲載時と後に単行本に収録した時にペンネームの表記を変更したケースもあります。 翻訳小説に至っては、著者が英語読みか米語読みなどで出版社や編集部で異なり続けているケース(東京創元社の「マイケル・ムアコック(Michael Moorcock)」と早川書房の「マイクル・ムアコック」)や、ファーストネームがイニシャルだったりミドルネームが省略されているケースもあります。アーシュラ・K・ル・グインなどは、「ゲド戦記」の版によっては「ル・グイン」とだけなっており同一人物だとは気付かないケースもあったりします。 コミックでも、最近増えた韓国籍の漫画家等で、漢字表記だったり仮名表記だったり英字並記だったりするケースがあります。 このようなケースではどうするかです。 ご本人かその代理人と連絡が付きどうするのか確認できればよいのですが、そうでない場合は「同一性保持権」を考慮し底本の表記で押し通すのか、それとも既知の最新版の例に沿うかの問題も出てくるのではないでしょうか? これらの問題で、正しい表記に統一できない場合には「同一性保持権」の問題以外に検索上の障害となるケースも出てきます。 人為的なミスが混入するケースもある為、統一的な指針を予め決めておいて、入力時には気をつけて貰えるようにまとめてアナウンスする必要も出てくるかもしれませんが如何でしょうか。 |
|
| えめす[修正][削除][Fメール]ID:hiclco11/04/09
18:33:06 |
APPEND 14 |
| ■文字コード アルヌールはUTF-8のおかげか文字化け問題は今のところ発生してないっぽい。 【例】左ページコメント http://www.j-comi.jp/viewer/arnoul/101/141/ja# この掲示板はx-sjisなせいなのか文字化け…「・彭澄Βります 廣・海里悗鵝」orz ■ハイフン「-」と罫線「─」と長音「ー」etc... 入力作業時は勝手ながら作業効率や負担の問題から「─」は「ー」で代用しています。この辺は校正を期待しています。 またラブひなの場合、手書きだと点3つがたいてい使われているようですがフォントは点2つ「‥」が基準です。 「…」と「‥」は出版社による違いなんでしょうか。どの程度気にされているのかも、作家さんや出版社さんじゃないとわからないですね。 とりあえず今のところ入力作業では点の数や長さはおおよそ合う様に注意してはいます。「─」も同様。 ■著者名表記 表記違いが同一人物であるかどうかはさほど重要でないように思います。あ、あくまでデータ上の話です。 とにかく作品ごとに記載された名前をそのまま記述する。作者名検索は検索機能に任せてしまう。が、いまのところいいように思えます。 同一人物でも別人として扱われたいために名前変える人もいるでしょうから。 原本のデジタル化までは機械的な作業としてしまうのがシンプルでよいと思います。人間OCRです。 このようにデジタル化された原本はそのままに、便利になる情報を追加してくっつけていく。 例えば検索用に同一作家に同じタグ(ニコ動のような)をつけるのはありだと思います。 こうやって切り分けておけば、後で何かあったときの切り離しや変更が容易になると思います。 ■そもそも字が存在しない! 冴羽りょうの「りょう」はフォントはあるみたいです。 http://en.wiktionary.org/wiki/%E7%8D%A0 フォントが存在すればあとは技術上の問題なんですが、そもそも字が存在しない例は他にもあります。 「ディスコミュニケーション(作:植芝理一)」の登場人物「松笛篁臣」の「たか」は作者の私造字。Wikipediaでは代用の字が当てられています。 http://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%82%B9%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%82%B1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3 もっと困るもので、「伝染るんです。(作:吉田戦車)」あたらしい文字。代用きかなそう。 http://cambrian.jp/anzai/mixi/img/album_17_23_4681723_904154842.jpg 写植の人ってすごいって改めて思います。 現実的な解決方法としては、近い字を当てておいて、コメント等で「○は竹カンムリに…」と記載する方法とか。ネットのニュース記事とかでたまに見ますね。 あるいは画像で作って張り込む手もあります。これはテキストデータとしてはみなされない文字になりますが。 複数の選択肢があった方がいいのかな。文字なのか絵なのかという問題なのかな…難しいですね。青空文庫だとどうしてるんでしょうか。 問題起きたら後で修正(置換)すればいいって考え方もありなのかな。 |
|
| KenAkamatsu[修正][削除][Fメール][URL]ID:hdtdq11/04/09
20:03:28 |
APPEND 15 |
| >Michinori Goto(MITI)さん >あと、吹き出しのかき分けですが、決めておいた方が良いような気がします。 >というのも、「どういう順序でコマを読んでください」という案内はできても、日本語そもそもを知らない場合 >「どこまでがそのコマの台詞だ」というのが分からない場合があるでしょうから。 本当は、セリフの文字が、画面上での「正しいフキダシ位置」に配置できる仕様だったのですが、結構難しい機能のため、一旦アルヌールでは見送られました。 V4では実現できるかな・・・ >えめすさん >マンガは口語より。自動翻訳だけに頼るのは今はまだ難しそう。 ぶっちゃけ、「オリジナルのセリフ」はマンガ画像上にいつでも出ていますので、「ここは旅館でした。その事実は非常に昔のことです。」を入力しちゃう手もあるとは思います。 ただ、漫画研究界(そんなのあるのか?)待望の「セリフ検索」機能が、今月中には実現できますので、やっぱり「オリジナルのセリフ」をそのまま入力する意味合いは大きいのです。 >原文データを残しつつ、原文を元に加工用データを用意します。2回に分けて加工するわけです。 それがベストですが、あまりにも大変な作業ですよね。 入力する人(ボランティア)のモチベーションを上げるための企画が必要だと思われます。 >mon2014さん >漫画の話ではないですが、アニメの方ですとFunsubによる訳の方が公式の市場にのっている訳よりも質が高い、しかも翻訳にかかる時間が短いというニュース記事がのっていました。 実は、「英語版」が出ているマンガは、それをアップロードしてもらった方が手っ取り早いんです。(例えば「ラブひな」とか) 翻訳者の著作権がどうなっているのかという問題がありますが、海外版まで全てが完全に絶版処理されているならば、最終的な権利は原作者に戻ると思われます。 ファンサブ(無許可)の翻訳文も、作者がOKを出せばそのまま使用OKですが、万が一ファンサブ側が権利を主張してきた場合、面倒なことになりますね。 もっとも、ファンサブが付いているのは最新のアニメやマンガが多いわけで、あまり出てこない問題かもしれませんが。 >ex629さん >他にも、句読点の代わりに制御用タグを入力し、原則不可視にするというのも解決法かも。 確かに、不可視にすれば問題は減りますね。 >Bibliothecaさん >テキスト化するに至っての、「文字」の問題です。 う~ん、それがありましたか。面倒な話になってきたな。(^^;) >他には著者によっては、複数のペンネームを使い分けたり途中で改めたりしているケースがあります。 表記は、原版に準ずるしかありませんね。 広告料も、例えば「石森」先生と「石ノ森」先生でバラバラに集計する形になると思います。 振り込み先の口座は統一できますので、問題無いです。 |
|
| in_kun[修正][削除][Fメール][URL]ID:kbausf11/04/10
10:38:46 |
APPEND 16 |
| ■海外向け翻訳 システムが大きくなればなるほど、テキストは膨大な量になってくるので、自動翻訳を用いる必要が生じてくる。 しかし、現状の技術だと訳が残念な感じなので、人力で校正をおこなうならば・・・。についてです。 英語にしやすい日本語を入力する場合、個々の能力にばらつきがあることや、 どう出力されるわからず自信が持てないため、入力の敷居がぐっと高くなってしまうと考えます。 あモチベを上げる企画と並行して、モチベ維持のため負荷を低減させるユーザ支援が必要だと思います。 例えば、入力フォームで結果をある程度みれる様な仕組みを組み込む。(下記URLは再翻訳を用いた例) http://in-manga.sakura.ne.jp/mose/retrance.html こんな感じの仕組みがいくつかあれば、効率よく進むんじゃないかと思います。 |
|
| Bibliotheca[修正][削除][Fメール]ID:mjifep11/04/10
18:59:53 |
APPEND 17 |
| >APPEND 14 「りょう」の漢字は、Windows Vista上のATOK2010で出せる事は確認できました。 但し、同じOS上でも第二水準までしか或いはShift-JISで文字を扱うなど対応していないアプリでは表示できませんでした。 このように、条件を満たしている環境でないと扱えない文字を環境依存文字(古くは機種依存文字)と定義しておきますが、これらの文字の困る点は利用者を選ぶという点です。 で、仮名にしろ似た形の他の文字を当てるにしろ、その困る点はその規則性が周知されていないと結局同じという点になります。 検索する際には異なる文字と判断される為に、人によって異なると、うまくヒットしないという難点が出てきます。 それに、文字を出す時にもデフォルトの辞書に入っていないと慣れた人でないとその文字を出せないし、次を考えユーザー辞書に登録する事もしないので使われず結局は一緒となります。 一端入力されたテキストで、うまくヒットするように同じ表示形式に置換するにしろ、元がバラバラではその全パターンに対して置換を繰り返さないと揃えきれません。 更には、アルヌールは他の入力者の分も編集できるようなので、一旦揃えたとしても上書きで再び不統一になる可能性もあります。 なので、入力者によって異なるテキストデータになりそうな表現は、予めガイドラインを設定しておいてそれに従うようにするルールの設定が必須となると思います。 >APPEND 13 "「凜」と「凛」に、人名で「高」と「"の後のカギ括弧の中が多くの環境で異なる文字化けになっていますが、これは「高」の異体字(旧字体)でUTF-8だと文字コードが"E9 AB 99"になる漢字です。「高」は、"E9 AB 98"。 上の「口」が上下とくっついて「目」のように見える漢字です。 Vista+ATOK2010では変換できて、Firefox4.0のコメント入力欄のtextareaに書いている時点では問題ないのですが、投稿後にはダメです。 確かこの字を当てる著者の方がおられたのですが、メルマガのチェックではねられ、やむを得ず「高」の字を当てた覚えがあります。 失礼な事とはいえ、本音としては、本名ではなくせめてペンネームや作中の単語等なら今時ですからネットで問題有るような文字は避けて頂きたいと切にお願いしたいところです。 著作者の同一性保持権と利用者の利便性、どちらを優先すべきかで別れると、そのまま検索でも禍根を残す事になります。 入力者の多くは、著作者としてよりも利用者としての目線で判断するでしょうから、そこにJコミの著作者への配慮と乖離するようではうまくはないと思います。 Websiteを保守した経験があると、ハートマークを「♡」にしたり「・」にしてしまう人も居る一方で"&#9829;"にしてしまう事もあります。 同じく、半角の円記号も、「¥」ではなく"&yen;"にしてしまうのも、環境によっては半角の円記号がバックスラッシュ"\"になってしまうからです。 このような入力者の流儀や主義による揺らぎも、検索する時の障害になり得ます。 正規表現を使えればある程度弾力性がある検索ができますが、そもそも正規表現を使いこなせるスキルの持ち主は一般的ではありませんし、それを許容している検索エンジンも寡聞にして聞いた覚えはありません。(ローカルで使うテキストエディタだと、正規表現に対応して初めて一人前のソフトという方もいます) 「同一性保持権」を抜きにしても、「文字」の問題がやっかいなのは、このような問題であるからと言えます。 |
|
| Bibliotheca[修正][削除][Fメール]ID:mjifep11/04/14
19:25:52 |
APPEND 18 |
|
私的事情により、Jコミ公式移行(βテスト終了)後、初アルヌールのテキスト入力には参加し損ねましたが、気付いた事などメモ。 目次のタイトル(5/194P)で、文字間に空白文字を挟んで位置揃えなどしている表記に気付きました。『#0 調 律 5』 ベースとなる画像がある為、この手の装飾的表記を再現するのは意味をなさないばかりであるか、翻訳のベースとしても検索や読み上げなどの基礎データとしても正常に役立てる事のできない表記です。 文中での改行共に、文字間の位置揃えなどを目的とした空白文字の挿入も控えるべきだと思います。『#0 調律 5』の方が良いでしょう。 個人的には、英数字(記号の一部)なども、ズレ回避を考慮せざるを得ない縦書きならともかく横書きなら素直に半角がよいと思います。全角の数字は、数字ではなく単なる文字と見なすプログラムが多いかと思います。この辺りは、分かる方でないとというレベルの考えなのですが… 「求む!セリフ入力ボランティア」スレッドででもこのスレッドで指摘されていた「…(三点リーダ)」「‥(二点リーダ)」「・・・(中点による代用)」の揺らぎなどが指摘されていましたが、これを人海戦術で統一しようとするのには無理があります。 全てをやり遂げるのが大変であるとのと、後から再編集で再び表記に揺らぎが出る可能性もあるからです。 現実的な対処としては、セリフ入力をしたデータベースに対してスクリプトによる自動化で置換処理を行い、その後逆行的な編集を行わないように条件的編集不可を掛けるのがよいかと思います。 基礎的な入力が終わった後は、より有益な資産としてブッシュアップする事を心得たスタッフのみ編集できるようにして、質の維持向上を掛けるようにするのがよいと思います。 最初の入力や初期の編集構成は、全てのログインユーザーが行える。 Jコミやその他指定された校正スタッフの編集構成で上書き編集されたページは、同じ校正スタッフ以上のみ編集が許可され、不慣れな一般のログインユーザーでは上書き編集をできないようにして質の向上を目指す。 と言ったブッシュアップ目的の校正工程が必要になるかと思います。 同じページ内の、コマ違いや吹き出し違いのセリフの入力上での区別について。 同じ吹き出し内では、原則として文中では改行などは行わず文末でのみ改行する。 同じ吹き出しで連続する複数の文書を、一連のセリフと見なし、カギ括弧(「」)で括る事で同じ吹き出しにある文書である事を再現明示する。 同じコマ内にある複数の吹き出しに関しては、吹き出し毎にカギ括弧で括り1度改行し他の吹き出しと区別する。 同じページ内にある異なるコマの吹き出し群に関しては、コマ毎に纏めた上で次のコマとの間に空行を一つ挿入してコマが変わる事を明示するようにする。 吹き出しがあるコマの間に吹き出しのないコマが挟まる場合、空行のみをコマ間に一つ挿入し、吹き出しのないコマがある事を明示する。 仮に吹き出しに入らない背景上の(主に手書きの)セリフをテキスト化する場合は、地の文の一部としてカギ括弧を用いずに入力する。またこの場合も、文中での改行は原則として行わず、一文ごとに改行する。 最初の不慣れなログインユーザーにも入力して貰うテキストに関しては、できるだけ独自ルールがない方が、間違いも少なく敷居が少ない分参入も容易だと思います。ブッシュアップ校正に関しては、それなりになれた校正スタッフに一任した方が、Jコミとしても資産価値を向上させやすいと思います。 キャラクターのセリフをカギ括弧でくくるのは、小説などではよく見られる手法です。 一人称の場合、地の文で心中の考えなどをフォローしているのもよく見られます。(コミックでの、吹き出し外でのセリフに相当) 一般的に、カギ括弧でくくられたセリフは各々文末で改行され区別されます。一部例外的に改行せずにつなげる事で、混乱しているなどする様を示している場合もあります。 コミックを読む方が一般小説もよく読むとは限りませんが、比較的改行を多用しているラノを併読しているケースは珍しくありません。 「ラノベに起こす(ノベライズ)する感じで、吹き出し毎にカギ括弧で括るように」と説明すれば、ピンと来やすいと思います。 また最初の公開時に、コミックの最初の数ページをセリフ入力しておいて、それを手本として同じようにと説明するだけでも判りやすくなると思います。 翻訳でも、最初にした訳があればかなり作業が楽になりますし、よほど独自スタイルの入力でない限りは多少おかしくてもベースがあった方が校正は楽です。 より高度の表記揃えは、ベースを元として手慣れた校正スタッフが行う事として、ある程度の役割分担を行う事を前提とした方が良いのではと思います。 余談になりますが、例えば熱心な提供者が、画像ファイル以外にセリフを起こしたテキストファイルを添付した上でZIPパックして上梓するのもありでしょうか? PDFにする他炊サービスする業者によっては、OCRによる検索用のテキスト埋め込みを行っているところもあるようです。 こだわる方は、OCRや手打ちなどによるテキストデータを持っている方もいるかもしれないし、アルヌールの為に起こして物をも提供を申し出たい方もいるかもしれないと思いまして。 |
|
| アメムラ[修正][削除][Fメール]ID:bnwvxe11/04/14
23:59:52 |
APPEND 19 |
■ 読み上げに関するマークアップについて 本題とはズレますが、読み上げに関するマークアップについて一言。 音声読み上げ用にと話がでている「タグ」についてですが、 Jコミ独自のタグを作るよりも、音声読み上げブラウザなどすでにあるもの、 これから作られるもののとの相性を考えると、 技術的に標準化されているもの、とくに、音声スタイルシート(CSS Speech Module)がよさそうな気がします。 読み上げに関するマークアップとして標準化されているものでメジャーなものは、SSML(Speech Synthesis Markup Language)や、CSS Speech Moduleなどがあるようです。 http://www.w3.org/TR/speech-synthesis/ http://www.swlab.it.okayama-u.ac.jp/man/rec-css2/aural.html このうち、SSMLは、純粋なXMLで、完全に読み上げのためのタグしかないもので、現在入力が進められているHTMLとまぜて使うことは難しそうです。 かりに、SSMLでマークアップするとしたら、英語、フランス語等の言語 プルダウンの中に「日本語(音声読み上げ用)」みたいに別のソースを 用意するつくりになるのかなぁと思います。 CSS Speech Moduleなら、男女の声、音量、はやさなど必要十分な指定ができ、かつ、今入力が進められているHTMLに埋め込むことも、コピーして 音声用のものをつくることも、SSMLより楽にできると思います。 |
|
| DELETED | |
| 1.翻訳用の入力について(私の意見) ここが旅館だったのはもーーーずっと前の話よ The inn where I was talking too long beforeーーー ここが旅館だったのはもうずっと前の話よ The inn was a long time ago I'm talking about here is more 一見変な翻訳に見えますが、上の方が原著の雰囲気に近い感じがします。 ちょっと崩して喋ってるんだなと伝わってきます。 下の方は文法的には正しいのでしょうが、ちょっと堅苦しいというか…。 間を取ると、こんな感じですしょうか? ここが旅館だったのはもーーーずっと前の話よ The inn was a long time ago I'm talking about here is moreーーー 翻訳エンジンの精度は今後ますます進化していくと思いますが、 やはり人手にによる翻訳には勝てないと思います。 流通させるべきは原著であって、 翻訳や音読はJコミの付加サービスと考えてはいけませんか? 最終的には、漫画を通じて日本文化も理解してもらわないと、 本当にその作品を理解した事にならないと考えています。 しかしながら、 『放課後ウエディング』「モテちまってもいいか」 『プレイヤーは眠れない』GODのカタコトの喋り 的な特殊な例もありますので、 海賊版やスキャンレーション対策として、 英語だけでもしっかり翻訳しておくと、 中国語や他国の言語にも対応できると思います。 (英語と中国語は文法が似ているとか聞いた事があります) >「原版には存在しない句読点を入れる」に関しては、確かに翻訳精度は上がりますが、作者がそれを不快に感じる可能性があります。 >「同一性保持権」の侵害にあたる可能性も? しかしマンガ画像上のセリフは100%オリジナルのまま表示されているので、一概には言えません。 >・・・この辺に詳しい方、どう思われますか? 補助として入力した日本語の方が原著を置いて 一人歩きしてしまう危険も無きにしもあらずですから、 その為の入力作業と表には出さない工夫も必要かもしれまん。 翻訳した物を保存しておく事で同一性保護の問題からはまぬがれるような気がするのですが…? >何種類も入力するのは、ボランティアだと大変ですよね。 >どうしましょう。 入力作業は初めにしっかりやり方さえ決めておけば、 何種類か入力するのはそれ程苦痛な事ではありません。 翻訳だけに関して言えば、 翻訳を得意とする方に最終チェックを入れてもらうという事で、 解決しそうな気がします。 2.視聴覚障害者の為のデータについて(私の意見) >目の不自由な方でも「マンガのおおよそのストーリーが分かる」という利点があるので、読み上げ用のテキストとして、ぜひ使用したく思っています。 その場合、 >「男女の声だけでも分ける」と臨場感が上がるので、それ専用のタグが欲しいところですね。 視聴覚障害者の為のデータと言うのはとても良いと思います。 実際アニメの音声だけでもストーリーは伝わります。 でもそれは声優さんの演技力があってこそなんだと思います。 将来セリフの男女読み分けは、 声優さんが読み入れてくれたらいいなぁと思います。 3.擬音と手書き文字について(問題提示) >後入力していて思ったのは、吹き出しの枠内に無い、手書きのセリフですね。 手書き文字と擬音を書き起こすかはどうかは正直言って悩ましい所ですね。 最近は余り見かけませんが、 静けさを表す「しーん…」や殴る音「ボカッ」 赤松先生の場合「バン」「どん」等 叩く音ではなく、物が現れる時にも使用されていますし…。 最近はフキダシに被せるような表記もあったりして、 全てを忠実に書き出すのは不可能かもしれません。 その作品に通じていらっしゃる方が判断する方がいいのでしょうか? アニメ等を観ていると、 結構擬音は効果音として使用するか、端折っていますね。 アニメと漫画原作では多少セリフと変わることがあると思いますが、 そういう事は制作の前にアニメ制作会社と契約を交わしていらっしゃるのでしょうか? アクションメインの漫画だと何か無いと判らないかもしれませんが、 もし作家さんだったらどう思われるでしょう? 4.フキダシの書き分けについて >あと、吹き出しのかき分けですが、決めておいた方が良いような気がします。 >というのも、「どういう順序でコマを読んでください」という案内はできても、日本語そもそもを知らない場合 >「どこまでがそのコマの台詞だ」というのが分からない場合があるでしょうから。 >句読点と一緒で、作者の意図とは違う理解をしてしまうかもしれません。 となると誰が喋っているのか判りやすくする為に、 それこそ演劇の台本の台詞のようにすればいいのでしょうか? 5.漫画の読み方 基本的な漫画の読み方や 擬音、擬態語、漫符についての説明はJコミの取り説みたいな物を作って、 それに順じて記入していっては如何でしょうか? 6.視覚障害者に向けての説明 例えばNHKの音声ガイドのように、 セリフや説明がないコマにも学校や風景の説明が合った方がいいかもしれません。 皆さんの意見を全部反映しきれていないですが、 素人の意見としてとりあえず思いつくまま書いてみたものをUPします。 後で追記改正すると思います。 赤松先生の読み切りで比較的ページ数の少ない物で、 一度翻訳を試してみたいですが如何でしょうか? その方が見えてくる物があると思うのですが…。 20110416追記 「みゅ」に濁点「ハート」 どうしたらいいでしょう? |
|