Perl的多线程应用之一:内置Thread模块

前些日子在写一些 Perl 脚本的时候为了追求处理速度或者时间上的平行，频繁地使用到了 Perl 的多线程功能。在类 UNIX 的 OS 上，Perl 的多线程还算可靠的，虽然 perldoc 也并不推荐使用多线程，但是应用场景实在太多，几乎不太可能完全不用。

Perl 内置有一个多线程模块 Thread ，提供了常规意义上的multithreads功能，可以满足我们的一般需求。下面以一个简单的收集Ping数据的脚本为例。

Perl多线程处理

要实现的目的是，收集本机 ping 多个远程 IP 产生的数据，写入到 csv 文件，然后上传的远程FTP上做后期处理。有关多线程的代码如下。其中 $cnip 是通过另一个 sub获取到的本机地址，@snip是配置文件中读取（或者参数中）读取到的目标地址。

my @threads;
    my @snips = split /,/,$opts{dest};
    #有多少个目标地址，就创建多少个线程。其中grabdata是收集数据的sub。
    for my $snip (@snips) {
        push @threads,threads->create(\&grabdata,$cnip,$snip);
    }
    #join所有线程，并写入到csv文件。
    for my $thread (@threads) {
        my $data = $thread->join();
        my $statics = join(",",@$data);
        print $OUT "$statics\n";
    }
    #关闭文件句柄，将buffer里的数据刷入文件
    close ($OUT);
    #获取所有本地csv文件并上传。其中getcsv和upload是脚本中定义的sub。
    my @csvfiles = getcsv( $reportdir );
    if ( $opts{ftp} ) {
        for my $csvfile ( @csvfiles ) {
            upload($opts{ftp},$opts{user},$opts{pass},"$csvfile");
        }
    }

基本原理很简单，为每一个 grabdata 操作都创建一个thread，遍历所有 thread，join到主线程并获取返回值，写入到本地文件，然后上传。

其中有几个需要注意的地方：

thread的默认返回值是scalar 如果sub的返回值是array，可以返回array的ref（如上例），或者直接在 create 时传入hash ref指定： ``前些日子在写一些 Perl 脚本的时候为了追求处理速度或者时间上的平行，频繁地使用到了 Perl 的多线程功能。在类 UNIX 的 OS 上，Perl 的多线程还算可靠的，虽然 perldoc 也并不推荐使用多线程，但是应用场景实在太多，几乎不太可能完全不用。

Perl 内置有一个多线程模块 Thread ，提供了常规意义上的multithreads功能，可以满足我们的一般需求。下面以一个简单的收集Ping数据的脚本为例。

Perl多线程处理

my @threads;
    my @snips = split /,/,$opts{dest};
    #有多少个目标地址，就创建多少个线程。其中grabdata是收集数据的sub。
    for my $snip (@snips) {
        push @threads,threads->create(\&grabdata,$cnip,$snip);
    }
    #join所有线程，并写入到csv文件。
    for my $thread (@threads) {
        my $data = $thread->join();
        my $statics = join(",",@$data);
        print $OUT "$statics\n";
    }
    #关闭文件句柄，将buffer里的数据刷入文件
    close ($OUT);
    #获取所有本地csv文件并上传。其中getcsv和upload是脚本中定义的sub。
    my @csvfiles = getcsv( $reportdir );
    if ( $opts{ftp} ) {
        for my $csvfile ( @csvfiles ) {
            upload($opts{ftp},$opts{user},$opts{pass},"$csvfile");
        }
    }

基本原理很简单，为每一个 grabdata 操作都创建一个thread，遍历所有 thread，join到主线程并获取返回值，写入到本地文件，然后上传。

其中有几个需要注意的地方：

thread的默认返回值是scalar 如果sub的返回值是array，可以返回array的ref（如上例），或者直接在 create 时传入hash ref指定：`` 。
join VS detach 上例用到join只是因为我需要每个 grabdata sub 的返回值，如果创建Thread只是为了达到并行处理的目的，线程的返回值不重要，可以创建后 ```前些日子在写一些 Perl 脚本的时候为了追求处理速度或者时间上的平行，频繁地使用到了 Perl 的多线程功能。在类 UNIX 的 OS 上，Perl 的多线程还算可靠的，虽然 perldoc 也并不推荐使用多线程，但是应用场景实在太多，几乎不太可能完全不用。

Perl 内置有一个多线程模块 Thread ，提供了常规意义上的multithreads功能，可以满足我们的一般需求。下面以一个简单的收集Ping数据的脚本为例。

Perl多线程处理

my @threads;
    my @snips = split /,/,$opts{dest};
    #有多少个目标地址，就创建多少个线程。其中grabdata是收集数据的sub。
    for my $snip (@snips) {
        push @threads,threads->create(\&grabdata,$cnip,$snip);
    }
    #join所有线程，并写入到csv文件。
    for my $thread (@threads) {
        my $data = $thread->join();
        my $statics = join(",",@$data);
        print $OUT "$statics\n";
    }
    #关闭文件句柄，将buffer里的数据刷入文件
    close ($OUT);
    #获取所有本地csv文件并上传。其中getcsv和upload是脚本中定义的sub。
    my @csvfiles = getcsv( $reportdir );
    if ( $opts{ftp} ) {
        for my $csvfile ( @csvfiles ) {
            upload($opts{ftp},$opts{user},$opts{pass},"$csvfile");
        }
    }

基本原理很简单，为每一个 grabdata 操作都创建一个thread，遍历所有 thread，join到主线程并获取返回值，写入到本地文件，然后上传。

其中有几个需要注意的地方：

thread的默认返回值是scalar 如果sub的返回值是array，可以返回array的ref（如上例），或者直接在 create 时传入hash ref指定： ``前些日子在写一些 Perl 脚本的时候为了追求处理速度或者时间上的平行，频繁地使用到了 Perl 的多线程功能。在类 UNIX 的 OS 上，Perl 的多线程还算可靠的，虽然 perldoc 也并不推荐使用多线程，但是应用场景实在太多，几乎不太可能完全不用。

Perl 内置有一个多线程模块 Thread ，提供了常规意义上的multithreads功能，可以满足我们的一般需求。下面以一个简单的收集Ping数据的脚本为例。

Perl多线程处理

my @threads;
    my @snips = split /,/,$opts{dest};
    #有多少个目标地址，就创建多少个线程。其中grabdata是收集数据的sub。
    for my $snip (@snips) {
        push @threads,threads->create(\&grabdata,$cnip,$snip);
    }
    #join所有线程，并写入到csv文件。
    for my $thread (@threads) {
        my $data = $thread->join();
        my $statics = join(",",@$data);
        print $OUT "$statics\n";
    }
    #关闭文件句柄，将buffer里的数据刷入文件
    close ($OUT);
    #获取所有本地csv文件并上传。其中getcsv和upload是脚本中定义的sub。
    my @csvfiles = getcsv( $reportdir );
    if ( $opts{ftp} ) {
        for my $csvfile ( @csvfiles ) {
            upload($opts{ftp},$opts{user},$opts{pass},"$csvfile");
        }
    }

基本原理很简单，为每一个 grabdata 操作都创建一个thread，遍历所有 thread，join到主线程并获取返回值，写入到本地文件，然后上传。

其中有几个需要注意的地方：

thread的默认返回值是scalar 如果sub的返回值是array，可以返回array的ref（如上例），或者直接在 create 时传入hash ref指定：`` 。
join VS detach 上例用到join只是因为我需要每个 grabdata sub 的返回值，如果创建Thread只是为了达到并行处理的目的，线程的返回值不重要，可以创建后``` 。
危险的IO Buffer 这个虽然和多线程没有直接关系，但是令我印象深刻，所以还是记录一下。因为以前用到 file handler 从来不会手动 close，在这里就悲剧了。Perl在处理 file handler 的时候为了减少文件IO以提高性能，有一个 buffer 机制。比如上例在for循环中写入$OUT，perl并不会在每次循环都写入文件，而是暂时保存在 buffer 里。如果不手动 close 的话，最终上传的将是一个空文件。Perl 诡异的 Buffer 迷惑了很多人，于是就有了这坨长篇大论。

内置的thread模块可以满足一般多线程的需求，但是没有解决一些我们经常会碰到的问题：

无法固定线程个数，排队处理比如，我需要发送1000个http request，显然同时发送害人害己。比较自然的想法是，创建比如20个线程，某一个线程完毕后，程序自动补上一个，保证同时只有20个线程。事实上，thread 结合 thread::queue 模块可以实现，但是十分费解，手动要做的事情太多，而且容易侧漏。
线程之间变量共享比较困难上例中，各个线程的变量是独立的。但是很多情况下我们需要所有线程共享一个数据结构，比如 push 数据到同一个array，thread 模块无法解决。thread::shared 模块号称能够共享变量，但是对于array和hash还是无能为力。

Perl的built-in功能虽然有限，但是大CPAN是万能的，有一个第三方模块可以很好的解决这个问题。下回再细说。