首页 1 2 3 4 5 6 7

linux perl占用大量资源_linux – 执行Perl脚本时解决内存不足错误

我正在尝试基于英语维基百科转储中找到的前100K单词构建一个n-gram语言模型.我已经使用用Java编写的修改过的XML解析器提取出纯文本,但需要将其转换为vocab文件.

为了做到这一点,我找到了一个据说可以完成工作的perl脚本,但缺乏如何执行的指令.毋庸置疑,我是Perl的全新手,这是我第一次遇到它的使用需求.

当我运行这个脚本时,我在两个独立的双核机器上使用这个7.2GB文本文件时遇到内存不足错误,该机器有4GB RAM和runnung Ubuntu 10.04和10.10.

当我联系作者时,他说这个脚本在带有4GB RAM的MacBook Pro上运行正常,当使用perl 5.12在6.6GB文本文件上执行时,内存总使用量大约为78 MB.作者还说,该脚本逐行读取输入文件,并在内存中创建一个hashmap.

该脚本是：

#! /usr/bin/perl

use FindBin;

use lib "$FindBin::Bin";

use strict;

require 'english-utils.pl';

## Create a list of words and their frequencies from an input corpus document

## (format: plain text, words separated by spaces, no sentence separators)

## TODO should words with hyphens be expanded? (e.g. three-dimensional)

my %dict;

my $min_len = 3;

my $min_freq = 1;

while (<>) {

chomp($_);

my @words = split(" ", $_);

foreach my $word (@words) {

# Check validity against regexp and acceptable use of apostrophe

if ((length($word) >= $min_len) && ($word =~ /^[A-Z][A-Z\'-]+$/)

&& (index($word,"'") < 0 || allow_apostrophe($word))) {

$dict{$word}++;

}

# Output words which occur with the $min_freq or more often

foreach my $dictword (keys %dict) {

if ( $dict{$dictword} >= $min_freq ) {

print $dictword . "\t" . $dict{$dictword} . "\n";

}

我正在通过命令行通过mkvocab.pl corpus.txt执行此脚本

附带的额外脚本只是一个正则表达式脚本,用于测试撇号的位置以及它们是否符合英语语法规则.

我认为内存泄漏是由于不同的版本,因为我的机器上安装了5.10.所以我升级到5.14,但错误仍然存在.根据free -m,我的系统上有大约1.5GB的可用内存.

由于我完全不熟悉语言的语法和结构,您能否指出问题区域以及问题存在的原因以及如何解决问题.

解决方法:

如果单词中有一些重复,则可以将7,2Gb文件加载到哈希中,例如,发生了17,000次等等,但似乎相当多.

您的脚本假定文件中的行适当长.如果你的文件不包含换行符,你将整个文件加载到$_的内存中,然后用拆分加倍内存加载,然后在你的散列中添加更多.这会对任何系统造成压力.

一个想法可能是使用空格“”作为输入记录分隔符.它将大致完成你已经使用split进行的操作,除了它将单独留下其他空白字符,并且不会像过时那样修剪多余的空白.例如：

$/ = " ";

while (<>) {

for my $word ( split ) { # avoid e.g. "foo\nbar" being considered one word

if (

(length($word) >= $min_len) &&

($word =~ /^[A-Z][A-Z\'-]+$/) &&

(index($word,"'") < 0 || allow_apostrophe($word))

) {

$dict{$word}++;

}

这将允许甚至很长的行以一口大小的块读取,假设您在单词之间(而不是制表符或换行符)之间有空格.

标签：linux,out-of-memory,perl

来源： https://codeday.me/bug/20190721/1494858.html

无人机仿真环境[RotorS]的安装（Ubuntu 16.04）

×××若为其他版本的ubuntu可以安装对应的ros，只需要将kinetic替换为如下单词： ubuntu18.04——kinetic替换为melodic ubuntu20.04——kinetic替换为noetic 一、

【数据结构】树和二叉树

** 以二叉链表作为二叉树的存储结构，编写以下程序代码。 **

Linux下安装VMware-Tools

Linux系统版本：Ubuntu18 我是根据这篇博客https://blog.csdn.net/blessed_sy/article/details/81173746做的，然后自己实践了一下，写一下安装好Linux系统之后就可以安装vmware-tools了

【已解决】pycharm终端pip安装模块成功但还是显示找不到 ModuleNotFoundError: No module named

在pycharm终端用pip命令安装某个模块，已经提示安装成功或者已经存在了。例如：终端上显示已经存在于 c:\python\lib\sit-packages

6.static、final关键字

1.静态成员变量 1.1既可以用对象名来调用，也可以直接用类名来调用 Person.i = 10

第二周学习内容简略

7月25日 P1.基础流程 P2.转场特效学习 P3.自然风光 ctrl+D ：给视频添加转场 shift+D ：给音频和视频同时添加转场（音频默认是淡入淡出的形式）ctrl+shift+D ：给音频添加转场空格

SpringBoot整合Quartz调度框架实现任务调度（附学习源码）

点击上方“Java基基”，选择“设为星标” 做积极的人，而不是积极废人！源码精品专栏

数据结构——树和二叉树

文章目录 **一

【Apollo】推动创新：探索阿波罗自动驾驶的进步（含安装 Apollo的详细教程）

java 中 byte[]、File、InputStream 互相转换

1、将File、FileInputStream 转换为byte数组： File file = new File("test.txt"); InputStream