■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 901- 最新50 [PR][PR]  
レス数が1000を超えています。残念ながら全部は表示しません。

SHARP BrainのWindows CEを活用する Part11

152 :Otakan ◆NsDd.YjbjM :2016/02/22(月) 18:24:16 ID:0raak53L
ニコニコ大百科のXTBook用辞書化について
※現時点ではもしかしたらこれで出来るかもって言う段階

ここで2008年から2014年2月までの大百科のデータベースが公開されてる
http://www.nii.ac.jp/dsc/idr/nico/nico.html
申請画面でメアド入力すればすぐにダウンロードページが作られてダウンロード出来るようになる
全部ZIPで圧縮されていて展開するとCSV形式のファイルが出てくる
全部で23GBくらい

このCSVファイルをMediawikiのxmlに変換する
俺が見つけた方法はmediawikiサーバーを立てて、CSVで記事をアップロード出来るプラグインをサーバーに入れる
あとは今まで通りdumpする
https://www.mediawiki.org/wiki/Extension:UploadCSV

今のところMediawikiのサーバーが上手く立てられなくて止まってる

問題点
・大百科のCSVを思い通りにアップロードできるか分からん
・23GBもある記事データ(xml化した時に容量が一気に減るかも)
・ライセンス的に辞書ファイルの公開は不可能?(ライセンスはちゃんと読んだわけじゃないけど、無理そうな感じではあった)
・画像なし

ちなみに、wikipediaのxmlファイルは2〜3GBくらいだった気がする

205KB
READ.CGI - 0ch+ BBS 0.7.4 20131106
ぜろちゃんねるプラス