社会网络数据与通常数据的比较论文

时间:2020-09-07 18:09:06 网络工程毕业论文 我要投稿

社会网络数据与通常数据的比较论文

  1社会网络分析的独特视角

社会网络数据与通常数据的比较论文

  对于大多数人来说,社会网络是由人和人之间的关系所组成的网络,如果将人看成是点或顶点,而将关系看成是连结或边,那么社会网络则是由点和边组成的网络。对社会网络进行研究的历史,可以说比任何其他如计算机网络都更加久远,而且所探讨的问题也更加深入。在社会学中,个体一般通常称为行动者(又称为行为人),本文也遵从社会学的这种惯例。社会网络是一种基于网络而非群体的社会组织形式,是西方社会学从1960年兴起的一种分析方法和视角。社会网络分析是研究社会关系的,而不是个人属性的。如果从社会网络分析的观点来看,社会环境可以表述为互相作用的行动者之间的关系模式或规律性,将关系中存在的一般模式称为结构,将测度结构的量称为结构变量。社会科学中所探讨的关系可以是多种多样的,比如经济的、政治的、情感的等,不胜枚举。从本质上看,探索关系以及关系模式的关键在于需要一组与传统统计学和数据分析方法截然不同的方法及分析观念。

  1.1社会网络分析的独特之处

  在社会科学中,社会网络分析和研究方法具有其独特的视角。这个独特之处是:社会网络分析是建立在互相作用的行动者之间关系的重要性假设之上。社会网络视角包括以关系的概念或过程表达的理论、模型和应用,即由行动者之间的关系(又称连结)所界定的关系是网络理论的基本成分。随着网络分析的深入研究和应用越来越广泛,逐渐达成对网络视角赖以存在的中心原则的共识。这些原则就构成了社会网络分析区别于其他社会学科的研究方法论。除了关系概念外,还有其他几项也是重要的:(1)行动者和他们的行动被视为相互依赖的,而不是相互独立的自治的个体;(2)行动者之间的联系(连结)是资源转移或“流动”的通道;(3)行动者的网络模型将网络结构环境视为行动者行动的机遇或限制。于是,网络模型将(社会、经济、政治等)结构概念化作为行动者之间关系的稳定形式,关于网络模型的建立、分析以及构成是社会网络分析的中心任务。研究社会网络现象并进行网络建模的过程,一般是针对某个要探索的社会网络现象,运用有关统计及网络分析的观念,来设计产生关系数据,得到有关的特定网络概念,再进行网络数据的统计分析及建模等,随后对实际统计结果给予适宜的综合解释,整个过程如图1所示。社会网络分析方法的独特之处在于,网络分析的分析单元或构件要素不是行动者,而是一个由行动者和他们之间的连结所组成的实体。网络方法集中于二元组(两个行动者和他们的关系)、三元组(三个行动者和他们的关系)或者更大的系统(比如个体的子群或整个网络)。在社会网络分析中,社会行动者的可观测属性,例如人们的种族或民族特性,或者像公司或民族国家等集合体的规模和生产力,是通过行动者之间的关系模式或结构得以理解。行动者之间的相关关系是主要的,行动者的属性则是次要的。

  1.2社会网络分析的视角

  给定一组行动者,社会网络分析能够测度这个子集内行动者的结构变量。一个群体或更大型社会系统的关系结构,是由行动者之间的关系模式组成。网络概念强调这样的事实:每个行动者和其他行动者都有联系,其他行动者中的每一个又都与或多或少的其他行动者相联系,等等。“社会网络”这个词指的是行动者集合和他们之间的联系。网络分析的研究目的就是设法模拟这些关系来描述一个群体的结构。然后,研究这一结构对群体运作的影响或者这一结构对群体内行动者的影响。假如我们对一个大都市区域的企业行为感兴趣,诸如给予本地非营利和慈善组织的货币支持的水平和类型。对于标准的社会和经济科学方法来说,首先要界定一定数量的相关个体(企业),对其进行随机抽样调查(如果数量相当大),然后测度各种各样的特性比如大小、行业、收益,对当地慈善机构或其他非营利组织的支持水平等。这里关键的假设是某一个体的行为不会影响其他任何个体。网络研究者则反对做出这种假设。实际上,公司决定做它们所要做的事存在许多种方法,例如用捐赠来支持非营利组织。公司(和其他此类行动者)倾向于考虑其他行动者的行为,甚至尝试彼此模仿。为了得到这种行为的完整描述,必须把着眼点由公司转向公司关系,例如董事会交叉任职情况、公司高层的相识度、彼此之间的业务往来和其他关系变量。简而言之,需要一种网络观点来充分地理解和模拟这种现象。

  2社会网络数据的特性

  以往社会科学数据是由测量获得的矩形列阵所构成的,如表1所示。列阵中的行表示案例、对象或观察项,这里是某组织的四个人员。列表示属性、或变项或测量的分值,这里是人员的年龄属性。列阵中每一个小格子表示某行动者在某属性方面的分值。在有些情况下,可能有第3个维度来表示不同观察项组或多元分组。就通常数据而言,通过考察行的属性不同来比较行动者之间相似或不相似之处。或者更常见方法是,基于不同变项在所有行动者中的分布,考察变项的相似或不相似之处。就纯形式而言,网络数据是一种测量数据的方形列阵,其行表示案例、对象或观察项,而列表示同一组案例、对象或观察项。和通常数据相比,这点构成了关键性的差异。列阵中每一个小格子都描述了行动者之间的关系。如表2、图3以及图4所示。网络数据结构,也能以属性数据的方式来看待,通过对列阵中的行进行比较,考察不同行动者选择的相似性;通过对列进行比较,考察不同行动者被选择的相似性(如表2所示)。这是一种非常有用的方法,因为它有助于认识了解行动者在网络中的相似位置。这一点是网络分析首先要强调之处,即观察行动者如何处于和嵌入在这个网络之中。网络分析也可以从第二种方式来考察数据结构,第二种方式是采用整体性或全局网络视角。网络研究者发现,在表2中的0与1的数目是几乎相同的。这表明,喜欢的行为具有中等密度。另外,可比较对角线上下二半的小格子,观察行动者有无相互选择行为。例如,张三选择赵五,赵五选择张三吗?这是网络分析第二个要强调之处,即观察行动者的选择模式如何形成整体性或总体模型。尽管可将网络数据描述成一种特别形式的通常数据,但网络分析对于数据解读确实具有根本的不同方式。不同于将行动者之间连结描述成“自我”的属性,网络分析则是考察连结的结构,哪些行动者是嵌入其间的。行动者是以关系来描述的而非属性。而且,关系本身与行动者一样重要。图2给出六个行动者及其某个x属性的分值表示。图3给出a行动者与f行动者,d行动者与e行动者,b行动者与c行动者具有连结的情况,以及某个x属性的分值表示。图4提供六个行动者及其友谊交往的情况,以及网络数据表示。综上所述,网络数据与通常数据的最主要差异在于:通常数据专注于行动者及其属性,而网络数据则聚焦于行动者及其关系。这里所要强调的差异,将会影响到研究者后续在研究设计抽样、实施抽样、选取尺度以及数据处理时所做的决定,因此,网络分析所使用的工具与其他社会科学研究的大部分相同,但网络分析研究的特别目的及其所强调的重点则不同,进而导致了网络数据统计分析具有特殊之处。

  3网络数据不是“独立的”

  网络数据是由行动者与关系(或‘结点’与‘连线’)所定义的。将结点(note)或行动者看成为网络的一部分再明确不过了。尽管社会科学中的其他经验方法,也会研究案例、对象或样本元素等,但网络数据却具有一项重大的差别,即数据如何搜集而来,也就是所关注的样本及总体的种类。网络数据研究行动者间的关系,而不是个别的行动者及其属性,这意味着行动者不是像其他许多研究那样可以独立抽样,最典型的就是抽样调查。假如我们研究友谊关系,若张三选为样本,而张三又指认出七位朋友,如此就必须询问这七位朋友的友谊关系,这七位朋友为样本是因为张三是样本,反之亦然,可见样本元素不是“独立的”。在以往非网络研究中,结点或行动者通常是独立的概率抽样结果。网络研究比较倾向于将自然发生的边界内容的行动者纳入进来。一般地说,网络研究也不使用样本,至少不是传统意义上的样本。网络研究倾向于包含某个或多个总体的所有行动者。当然,网络研究的总体可以是更大总体的样本。比如,研究一个班级同学的互动模式,所有该班的同学都被列入分析,也就是班级的全体成员,而班级本身可能是通过概率方法从班级总体中抽选出来的。

  3.1总体、样本及边界

  在许多网络研究中,以整个总体作为观察对象,对于研究者来说,必须要相当清楚所探讨的总体的边界以及个体观察项是如何被选择进来的,这是一件极为重要的事。网络数据集合通常涉及多个层次的分析,而行动者就嵌入在最低层,所以才会出现使用嵌入或嵌套这样的术语来刻画网络设计。社会网络分析几乎很少进行抽取样本的工作。一般地说,网络分析要确认出总体,然后实施普查,也就是得到总体中的所有元素作为观察单元。网络分析考察所感兴趣的全部名词与对象,例如在生日聚会中的所有人,或宗族、组织、邻居、社会阶级如某个地区的贵族成员。抽样调查方法经常采取截然不同的方式来决定哪个结点必须要加以研究,它将所有结点编列成名册,有时加以分层或者聚类,然后经由概率方法选择出个别元素。此方法的逻辑是将每一个个体处理成单独的‘复制品’,也就是在某种意义上,彼此之间可以互换。由于网络数据重视行动者间的关系,无法将行动者独立抽样出来观测。如果一位行动者被选取,也就必须同时选择这为自我所连结的其他行动者。因此,网络方法研究的往往是由普查而非抽样所得到的全体成员。网络分析所研究的总体是各式各样的。在某种极端的情况下,总体可能是所感兴趣的符号,或是口语中的声音;而在另一种极端情况下,国际体系中的国家组成了节点的总体。当然,最常见到的情况是由个人所构成的总体。无论在何种情况,总体元素之所以被加以研究是取决于某个边界而定义的。网络分析所研究的总体边界主要存在两种类型。一种最常见的类型是行动者本身所形成或创造的边界。比如,班级、组织、社会、邻居以及社区的所有成员构成了总体,他们自然而然地构成集群或网络。所以,在某种意义上,网络分析研究通常是以一个已知的或先验的网络来设定总体边界。另一种类型是网络分析也时常运用‘人口统计’或‘生态方法’来定义总体边界。确定观察对象是通过联络那些在同一空间区域中联系的所有人,或者那些符合某项资格的人员,如家庭收入年均超过100万人民币的。在这种情况下,有理由质疑这个网络的真实性,不过这些研究对象是由研究者所设定的抽象汇集,而不是由参与者所认定的制度化社会行动模式。网络分析研究者可通过复制总体而扩展其研究的边界,不仅探索一处邻居社区,而且研究多个邻居社区。这样的'设计形式是利用抽样方法来选取总体,就能通过比较总体来进行复制或假设检验。另一种同样重要的扩展方式是借助于容纳多层次分析,或者多模分析来加以扩充。

  3.2模分析与层次分析

  网络分析倾向于将个人行动者处理成嵌入在某个具体面对面关系网络中的人。通常,这些人际网络会成为一种社会事实,并自我发展。例如,家庭是由具有亲密关系的人所组成的网络,但这种特定的网络已经制度化,并且拥有称谓与事实,从而超越仅仅是成员结点的组合的网络。在工作关系中,个人被嵌入在组织中;在休闲关系中,个人被嵌入在自愿社团中。网络数据集合描述了单一总体中的结点以及节点间的关系。假如感兴趣的是一个班级的友谊模式,研究对象是同学友谊。可是,一个班级存在于学校之中,所以学校被设想为连结班级与其他行动者(校长、教员、图书馆员等)的网络,而学校又隶属于学区,于是学区又可看成是学校与其他行动者(学校董事、研究机构、人事部门等)的网络,学区间也可能存在某种连结模型,比如交换学生、教师等。大多数网络研究者将个人处理成被层层网络所嵌入的人。网络研究者将这样的结果称为‘多模’。在前面例子中,个别的学生和老师构成单模形态,而班级是第二个模态,学校则是第三个模态等。如果数据包括两种不同社会实体,比如人员和组织,则称为双模网络或二模网络。当然,这种看待社会结构本质的观点并非社会网络研究者所独有。统计分析就以层次或嵌套涉及来研究同样的问题。理论研究者也讨论所谓宏观、中观、微观分析,或发展出区别层次的方案,如个别、小组、组织、社团、机构、社会、全球秩序等,是社会科学中最常见的系统。但是,网络思考及方法的优势之处在于:它使得分析人员一开始就同时聚焦多元层次分析。也就是,网络分析总是对个体如何嵌入在结构中,以及结构是如何从个体微观关系中形成的而感兴趣。映射出这种多模关系的网络方法的威力,就是其独特而自成体系的研究关键。

  4社会网络数据的收集

  网络数据设计的另一半任务是要选取哪些结点或关系需要进行测量。关于这个专题有两个方面的内容。在许多网络研究中,某个给定类型的所有节点都被纳入研究,也就是实施普查。有时候,因为经济因素或需要进行推广,而采用连结抽样。在网络数据中,执行的连结抽样存在两种形式,一组行动者可以被不同类型的节点与关系所连结,例如一个班级的学生可能彼此喜欢或不喜欢、在一起玩或不在一起玩等。当进行收集数据时,通常从所要测量的某类关系中的集合中来选取或抽样。对于给定的行动者或节点来说,有许多策略可以决定如何收集行动者间的关系。一种方法是“全网络”方法,此方法是寻求最大可能的信息,但其成本极高且难以执行,也可能难于推广。另一种方法是和以往抽样调查研究相类似的方法,这个方法会收集相对较少的网络结构信息,但其成本较低,一般说来也较容易从样本观察推广到更多的总体上。实际上,对于研究的专题和问题而言,不存在所谓“正确”的方法。

  4.1全网络方法

  全网络方法需要收集每一位行动者间的所有连结信息。从本质上看,此方法就是针对行动者总体中的连结执行普查,而不是抽样。例如,从国际货币基金组织(IMF)收集所有国与国之间的铜矿转运数据,或者计算某国家两两城市间的交通流量等。由于所收集的是一对或对点之间的信息,全网络数据提供了对于总体关系的完整景象。大部分的网络分析特殊途径及方法都是为了研究全网络数据,许多网络分析的结构概念需要通过全网络数据来定义与测量,例如中介性。全网络提供了社会结构相当有利的描述与分析,但其成本极高,且不容易收集。即便对于任何小群体来说,收集所有成员数据,并请成员间相互评价或排序都是一件挑战的任务。可见,对于大型总体,要获得所有成员以及关系方面的数据几乎是不可能的。

  4.2滚雪球方法

  从一个焦点行动者或一组行动者开始,每位行动者指出与其他行动者的部分或全部连结,然后追踪所有(不在原始名册中)的行动者,并询问他们所拥有的部分或全部连结,这个过程一直持续到没有新的行动者被提出来为止,或者研究者决定停止为止,这种方法称为滚雪球方法。滚雪球方法非常适用于寻找特殊总体。事业网络、社区精英、亲族网络以及其他可通过滚雪球方法有效确定与描述的结构。有时,滚雪球方法也不如想象中那么难以找到终结的范围,有限的强连结数目以及连结的互惠趋势,都有助于找到边界。尽管滚雪球方法拥有实用方便的优点,但也有一定的局限性。其局限性可以归纳为两点:(1)没有被连结的行动者也就是孤立点,无法通过此方法找到,而孤立点的存在与否对于有些研究目的来说是十分重要的总体特征。(2)滚雪球方法无法保证找到总体中的所有连结的个体。应该从哪一处开始滚雪球访问呢?如果起始点出现错误了,就可能漏失那些相互连结但却与起始点不相连的整个次级行动者群体。

  4.3自我中心网络

  在许多情况下,从焦点节点找出整个网络是不可能的或者不需要的。一种替代方法是选取焦点节点,然后观察其所连结的其他节点,最后再观察其他节点间的连结情况。这就需要访问每个节点,有时可以要求自我报告出其他节点间的连结情况。这种方法可相当有效地从非常大的总体中来收集关系数据,并与属性方法有机结合起来。例如,从一所大学的男性大学生中随机抽样,再询问谁是他们的好朋友以及这些朋友间的交往关系。这个方法对于此类嵌入个体的网络提供相当清晰可靠的景象,它说明节点有多少连结,以及这些节点交织成群的程度,这对认识嵌入在网络中的自我所拥有的机会及局限性具有很大的帮助。自我中心网络聚焦在个体而非整个网络,通过收集与焦点自我形成连结的关系信息,可以获得明确的“局部网络”或个体邻居景象,这有助于认识网络是如何影响个体的,同时也描绘出整个网络的部分特质的景象。在以往的社会科学行动者与属性数据集合中,每一个行动者都可由多个变量来刻画。在最常用的社会网络行动者与行动者的数据集合中,仅仅是描述了一类关系,如同我们总是对行动者的多元属性感兴趣一样,行动者在网络中的多种类型连结也同样引人关注。比如,设想在某所大学的某系教师间的网络连结,他们可能共有一群学生,就任于某个共同的委员会,或有一个或多个相同的专长,甚至曾共同发表论文。尽管文献中已经出现一些研究多重关系数据的方法,例如网络相关等,但不像单一关系,探索多重关系数据的方法发展较缓慢。

  5测量尺度

  5.1关系的二值测量

  迄今为止,最常用的测量关系(如赋予数字)是直接区分关系之有无,不存在关系为0,存在关系为1。例如,在调查采访中,询问受访者“名单中你喜欢哪一位?”这就是一个二值测量,任何被选中的都要编码为1,未被选中的就编码为0。大部分的数学图论,以及对行动者和网络属性的测量算法,其发展都是针对二值数据。二值数据在网络分析中被广泛运用,因此,在正式分析之前都要将‘较高’层次的测量数据转换成二值数据。为此,首先选取一个“割点”,然后重新对这个割点之上下赋予新值(1与0)。这样将数据二分,其实是一种信息的取舍。研究者必须考虑什么是相关的(比如,理论的重点是什么?是涉及联系之有无或模式,还是联系的强度?需要利用何种算法来决定数据编码的合理性呢?由于二值数据非常简明,所以出现数据的损失也是值得的。

  5.2关系的多类别名义测量

  在收集数据时,要求受访者依据名单,用最适当的方式来区分名单中的人员:朋友、商业伙伴、亲戚或者无关系。于是,就将名单中的人用“1”、“2”等数据辨识不同关系。这些都是名义或定性尺度,即受访者与名单中的每一个人的关系是以类别而不是强度来编码的。和二值名义不同的是,多类别名义测量是一种多元选择。多类别名义测量方法最经常被用于构建一系列的二值测量。也就是上述访问所获得的数据,以朋友、商业伙伴、亲戚等关系分别建立不同的数值集合,这类似于统计分析中处理多项选择时所使用的“虚拟编码”。然而,在考察所得数据时必须注意,在构建网络中每一个节点只有一个连结,即由于访问问题所致,一个人只有亲属关系或非亲属关系——不能同时是二者,所以网络的密度会偏低,且矩阵之间也会存在负相关。这类多元选择数据也能加以二值化处理,也就是可以忽略某些类型的连结直接对二元间是否存在关系进行编码,这对某些分析来说是可行的。分组次序测量可用于反映关系的一系列不同的数量特性。网络分析通常想要描述连结的“强度”,而强度表示许多意义。互动的频率是其中一个揭示行动者每日、每周或每月等联络情况的。另一个内容是强度,也就是通常反映关系所引发的情绪情况。当连结是互惠时,也被看成是较强的连结,互惠性通常利用询问成对行动者的彼此感觉来评估。当然,也可探寻每位行动者对于互惠程度的认知:你认为你们彼此不喜欢对方吗,或是喜欢X超过X喜欢你,或X喜欢你多于你喜欢X,或你们彼此喜欢的程度相同呢?最高阶的测量层次是可使关系区分达到能明确表示的程度,比如“这个连结是那个连接强度的两倍”。这时,连结强度的陈述尺度1与2之间所反映的差异正如同23与24间的差异一样。许多种类的关系强度的区间尺度是非常容易建立的。但是,通过问卷或访问方式请求受访者指出其连结的频率与强度细节,其结果就未必可靠,尤其是所追踪的关系不是相当显著或频率不高时更是如此。因此,与其询问两个人间有无来往,不如计算两人间的e-mail、电话、办公室信件往来的数目;与其询问两个国家间是否有贸易往来,不如观察两个间收支平衡的统计数据。在许多情况下,可以运用人工数据或观察(如针对某个其他目的而收集的统计数据)来建立关系强度的区间尺度。

  6结论

  社会网络分析已经融合社会学、数学、统计学等多学科的内容及方法,并发展出独具特色的研究手段和途径。就统计分析而言,社会网络分析既采用通常统计数据的分析方法,又采用‘数学社会学’的方法,这里数学方法倾向于运用决定论视角处理数据,即将测量所得关系及其强度看成真实反映最终的或者均衡的网络状况。数学方法倾向于假设:观察对象不是较大总体的样本,而是将观察对象看成通常的关注总体。统计分析则倾向于将关系强度的特定数值看成是一种潜在的真实趋势的随机或概率表现,或者关系强度的概率分布。同时,统计分析倾向于将特定的网络数据看成较大类别或网络总体的样本,并关注当前研究成果能否在下次研究的相似抽样中被复制出来。描述统计工具确实是概述分值分布特性的算法,也就是数学运算。推断统计方法之所以成为统计领域的主流,原因在于评估所描述的模式重复性或似然性。推断统计学能够运用网络数据分析,但因网络数据不是“独立”的及探索问题的视角不同,所以直接将推断统计用于网络数据方面,还是具有相当大的差异性。因此,对网络数据进行统计推断是一个仍有待进一步探索的前沿领域。

【社会网络数据与通常数据的比较论文】相关文章:

1.数据通信网络维护与网络安全分析论文

2.Oracle数据库与FoxPro数据的转换

3.大数据时代网络信息安全探析论文

4.网络RTK数据通信研究论文

5.关于产品市场策略与网络数据库营销论文

6.数据的论文答辩

7.无线大数据支撑的移动网络运营论文

8.网络数据通信的隐蔽通道技术论文