English
登录
加入联盟
找回密码
航空人生
新一代连飞客户端下载
空管人生
中国航空运动协会推荐
WEFLY
模拟飞行玩家聊天工具
门户
文章
商城
原创商城
官方淘宝
二手市场
学院
云课堂
考试
资料下载
论坛
模拟飞行
低空飞行
太空探索
航圈
联机
航空人生(连飞)
飞行人生(虚航)
空管人生(虚管)
空战人生(对战)
工具
联飞地图
航路查询
航图查询
气象报文
资源
插件库
素材库
云网盘
企业
飞行者联盟
»
论坛
›
【飞行仿真实验室】
›
软件开发
›
OpenStreetMap
›
H1B数据挖掘:从2019年数据中发现的一些信息和分析 ...
返回列表
发新帖
查看:
1431
|
回复:
0
H1B数据挖掘:从2019年数据中发现的一些信息和分析
[复制链接]
cs31003
cs31003
当前离线
UID
4916
注册时间
2014-4-12
在线时间
小时
最后登录
1970-1-1
精华
阅读权限
30
听众
收听
雷达卡
发表于 2023-1-15 18:14:07
|
显示全部楼层
|
阅读模式
作者:@舒眉的年月 和 @企鹅发布在一亩三分地
欢迎大家点击左下角“阅读原文”到原帖与作者交流讨论哦!
近期因为有了可怕的新H1B规定所以又燃起了对H1B数据进一步探索的热情。花了十几个小时做了两个Jupyter notebook放在了github上。有些文件太大,需要拆分或者压缩。熟悉数据分析的人应该一看就知道怎么用。做的同时也学习了用folium画地图和用OpenStreetMapAPI直接搜索地址的GPS位置。大多数时间还是花在了清理数据上,由此可见kaggle上一些没有做数据清理的data challenge结果可能并不合理。
https://anonymous.4open.science/r/004a5090-eeeb-4778-8872-63cc81a95c05/
整体上看H1B的base像是log-normal,中间大约是7w5到10w之间。比较起来美国整体的median wage只有5w多,household income的median不到7w。雇来的外国人还是比美国人挣得多。仔细看h1b的job title会发现有很多奇奇怪怪的你以为不会要外国人的职位(不点出来了以防被喷),还有飞行员和模特。
这里就能看到各个职位的median income,前面几位都是医疗相关的,中间CEO乱入,然后是软件和其他administrative的职位以及更多工程师相关职位。挣得最少的(2w~3w)是farm workers,artists,厨师,作家等。
从地区方面来看湾区按照zipcode画出来的整体图是这样。很明显的是Palo Alto和周边地区工资最高。远处深山里不太知道是有什么工作。
相比之下纽约用zipcode就不太能显示出来具体情况了,毕竟各个厂都集中在一个zipcode里。但是依然能看出来有几个区的median工资比其他区域高
用github里面的数据应该还可以画出来任意地区的zipcode图,在此就不赘述了。
最大的雇主来说,感觉网上英语评论区以及Kaggle里都会说Google Facebook Apple等录用大量H1B员工,但是远没有外包厂们的人多。这里前几名是Cognizant, InfoSys和TATA,然后才是Google。EY,Capgemini和Deloitte怕也是有大量外包业务。Tech厂自然占领了后面不少位置,不过都是几千人的数量级,远不如外包厂上万人的数量级。即便这样,85%的申请人还是“其他”(>6)厂。注意这里parse的数据是Certified而且没有用年份filter,所以一共有近60w条数据。理论上说应该用提交年份进行申请,但是h1b的原始数据是按照处理年份提供的所以这里包括了大量积压(我个人是这样理解的,欢迎指点)
不知大家是不是好奇哪些律师所承接了业务们。Tech大厂似乎都是Fragomen和Ogletree。下面的pie chart就能看出来移民律所了。很多很多case都是个人承办的所以69%都是"Other" 。这些律所打字也都不认真,导致要清理大量数据以删掉LLP L.L.P.这种其实是一个意思的名字。
同样可以看到每个公司用了哪家律所。NVIDIA(这只是for example, 我用A卡打游戏)用的是Fragomen。然后Fragomen最大的客户是亚马逊,然后是HLC和TATA
话又说回来,
那么H1B里面最多的工作自然是软件以及软件相关。这个pie chart看起来五颜六色但是都是软件。然后还有statistician,operations research和mechanical engineer和accountant。比较典型的Google有66%的h1b是SWE然后带了一些其他designer。FB有44%是SWE然后有好多computer scientists。外包厂自然是99%各类SWE。Citadel这样的hedge fund就有risk management specialist和operation research analyst,软件的比例就小了很多。按照地区作图的话其实各类SWE站有大约50%然后是各种analyst。
就工资来说,我虽然没有用prevailing wage,但是SWE的工资和其他美国人应该没有太大差距。下图的红线分别是17, 45和90 percentile。这样看起来西塔图的45th percentile竟然比湾区要高。不过这里的湾区不包括SF,只有RWC向下。纽约大量SWE都是10w base,值得进一步挖掘。
就同一家公司在不同地区的工资来说,Google似乎控制的很好,各处的17th和45th都是一样的,90th可能因为比较senior所以variance大一些。目测我们看到的两个spike分别对应了lvl3和lvl4工资。
下面是DS的图,看起来其实和SWE没有太大差距,只是数量少了很多。
教授和"post-secondary teacher"的图也很有意思。在学术圈的朋友们要努力了呀。
下面是我花了最多时间画的针对所有work site的图。先前的以及其他人的分析都是对地区或者公司进行了aggregation,可能是因为针对地址分析过于繁琐。而且有些公司只是把员工注册在了同一个地方(比如Google的1600 amphitheatre parkway)。不过如果你好奇公司里有什么外包的话,这就非常有用了,比如1600 amphitheatre parkway并不都是Google员工,而是还有几十家外包厂和Alphabet的子孙们。湾区这里的数字是number of worksites,所以可以看出湾区有几千个地址都有H1B的员工。Facebook在1 Hacker Way有56个不同的公司在这里注册,除了FB自己之外自然就是各种consultancy,各种staffing公司(HR似乎很多都是contractor),而且发现Facebook Payments和Facebook不是一家公司。每一个pin都可以看到这个公司在这个地点的员工分配,比如我点开了Facebook的popup。同样也可以看到斯坦福大学在450 Serra Mall都注册了什么人。
再或者说,在纽约One World Trade Center附近长这个样子。然后Goldman在200 West Street这里有81个Lvl2的Financial Specialists。不如顺手来个纽约周边地区的截图好了。
可能有人已经想问,为什么不直接显示人。毕竟按照worksite来看就会有很多很多外包厂。但是...我比较笨,还没研究出来如何能让Folium不显示和人一样多数量的pin。这里的数据只有>50个人的地址(OpenStreetMap的API有query限制,昨天可能是query太多现在来不上了hhhh)所以没有见到纽约Two Sigma的情况(100th Avenue)但是看到了Citadel在601 Lexington的office。
总体来说的,h1b的数据需要大量的清理。写了三四个小时清理地址和公司名称的regex。以后有机会可以增加对往年数据的支持,parse更多的地址,然后提供更modular的作图功能们。还有就是PERM的数据其实和H1B长得一样,下一步也可以考虑支持。Github里的代码需要解压,有兴趣的朋友可以自己搞,有bug的话欢迎提问。欢迎fork或者直接PR。如果有知道怎么能放在Colab里的话就更好了。这都是后话了...赶紧做社畜去。
祝大家身体健康,希望赶紧把order给block了别惹事。真的是弄的天怒人怨,还让不让人好好干活了..... 能投票的朋友一定记得投票
大家如果还有相关的问题和看法,欢迎点击“阅读原文”到一亩三分地讨论
后台回复:APP
下载一亩三分地看帖回帖更方便!
在APP里可以找到新推出的“交友平台”
开启推送更有“热帖”“重要新闻”的及时推送!
球星标
球点赞
球在看
2019年
,
数据挖掘
,
H1B
,
数据
,
发现
相关帖子
•
iniBuilds320 V2 导航数据更新
•
发现一枚宝藏模拟器可以带vr眼睛玩
•
XBOX显示:你的数据无法和云同步
•
如何用地图数据下载工具下载OpenStreetMap(OSM)最新数据
•
OpenStreetMap(OSM)下载矢量数据
•
获取OSM数据的3个方案【OpenStreetMap】
•
微软飞行模拟2020预告片及发现探索系列合集
•
求问导航数据不是最新的影响吗?
•
突然发现为什么有时候拿不到金币了
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
加入联盟
本版积分规则
发表回复
回帖后跳转到最后一页
快速回复
返回顶部
返回列表